项目简介 一个 Next.js 应用程序,允许 AI 与虚拟桌面环境交互。该项目将 E2B 的桌面沙盒与 OpenAI 的 API 集成,创建一个可以通过自然语言指令在虚拟计算机上执行任务的 AI 代理。 E2B 是一个开源的云隔离虚拟计算机,专为 AI 用例设计。 计算机使用应用提供了一个网页界面,用户可以: 启动虚拟桌面沙盒环境 向 AI 代理发送自然...
EmoEdit 由深圳大学可视计算研究中心黄惠教授课题组完成,第一作者为杨景媛助理教授。深圳大学可视计算研究中心(VCC)以计算机图形学、计算机视觉、人机交互、机器学习、具身智能、可视化和可视分析为学科基础,致力前沿探索与跨学科创新。中心主任黄惠为深圳大学讲席教授、计算机学科带头人、计算机与软件学院院长。 论文标题:EmoEdit: Evoking ...
作者是香港大学俞益洲教授与博士生娄蒙。 你是否注意过人类观察世界的独特方式? 当面对复杂场景时,我们往往先快速获得整体印象,再聚焦关键细节。这种「纵观全局 – 聚焦细节(Overview-first-Look-Closely-next)」的双阶段认知机制是人类视觉系统强大的主要原因之一,也被称为 Top-down Attention。 虽然这种机制在许多视...
作者|沐风 来源|AI先锋官 金沙江创投主管合伙人朱啸虎,再次站到了舆论中心。 自2024年9月起,他旗下的基金陆续退出了包括星海图、松延动力在内的机器人公司,持股比例从不足1%到1.6%不等。 他在近期采访中直言,退出是因为“商业化路径不清晰”,并称“共识高度集中时,正是退出的机会”。 这一观点与当前人形机器人赛道的火热形成鲜明反差。 仅2025年,中国...
在人工智能领域,单一模态模型已取得显著成果,但人类智能是多模态的。我们通过视觉、听觉等感官感知世界,并通过语言等方式交流。因此,开发能处理多种模态输入并输出的模型,对实现更接近人类智能的系统至关重要。Qwen2.5-Omni 正是在此背景下诞生,旨在打破模态壁垒,实现更自然、高效的人机交互。本文将详细介绍其技术原理、功能特点、应用场景及快速使用方法。 一、项...
吉卜力这几天火出了圈,这次是被 ChatGPT 带火的。 确切地说,是 GPT-4o 模型。 你可能还不知道吉卜力是什么,但你一定听说过宫崎骏的大名,看到过他的作品。 比如曾在国内上映的《千与千寻》。 再比如《魔女宅急便》、《哈尔的移动城堡》以及《龙猫》。 吉卜力,Studio Ghibli,日本著名动画工作室,由宫崎骏、高畑勋和铃木敏夫于 19...
本周AI快讯 | 1分钟速览 1⃣ DeepSeek-V3 重磅升级 :新版本 DeepSeek-V3-0324 发布,在推理、前端开发和中文写作方面全面提升,推理能力超过 GPT-4.5。 2⃣ 阿里发布视觉推理模型 :通义千问团队推出 QVQ-Max,具备细致观察、深入推理和灵活应用三大核心能力。 3⃣ 豆包推出新版深度思考 :支持”边想边搜”,可...
新智元报道 编辑:编辑部 NZYH 【新智元导读】2025中关村论坛人工智能主题日,高能不断。清华系团队全新Vidu Q1视频生成可控性再创新高,炫目demo惊艳全场。图灵奖得主Joseph Sifakis、清华朱军、百度王海峰等大咖演讲,更是将论坛推向专业的巅峰。 最近的美国AI圈,几乎一天出一件大事。 谷歌Gemini 2.5 Pro,Grok...
NAR团队 投稿 量子位 | 公众号 QbitAI 在图像/视频生成任务中,传统的“下一个token预测”方法正面临严重的效率瓶颈。 怎么办? 来自浙大、上海AI Lab等机构的研究人员提出了一种全新的视觉生成范式——邻近自回归建模(Neighboring Autoregressive Modeling, NAR)。与传统的“下一个token预测”不同,NA...
到今年4月刚好全职独立开发两年了,总结这两年独立开发结果:希望通过独立开发获得一份可持续的收入进入一个相对自由的生活失败了。不过确实做出了自己还算满意的产品,上过 AppStore 首页推荐,也得到了一些用户的认可,不算瞎忙活。 商业上可以说是彻底失败了。过去几个月平均每个月收入只有三千多人民币。因为收入是我和设计师大点两个人五五分,所以每个月到手一千多...