在人机交互日益普及的背景下,语音以其自然、便捷的优势正成为主流交互方式。虽然已有多款语音模型支持流式音频输出,有效降低了体感延迟,但在生成首个音频片段时仍存在较高的等待时间,成为制约实时部署的关键瓶颈。 针对这一挑战,VITA 团队最新推出了突破性成果—VITA-Audio。作为一款端到端的语音模型,VITA-Audio 能在第一次前向传播中直接生成可解...
论文标题: MICAS: Multi-grained In-Context Adaptive Sampling for 3D Point Cloud Processing 论文链接: https://arxiv.org/abs/2411.16773 收录会议: CVPR 2025 研究背景 3D 点云处理(PCP)涉及多种任务,如重建、去噪、配准、分割...
当前大模型研究正逐步从依赖扩展定律(Scaling Law)的预训练,转向聚焦推理能力的后训练。鉴于符号逻辑推理的有效性与普遍性,提升大模型的逻辑推理能力成为解决幻觉问题的关键途径。 为推进大语言模型的逻辑推理能力研究,来自北大、清华、阿姆斯特丹大学(UvA)、卡内基梅隆大学(CMU)、MBZUAI 等 5 所高校的研究人员全面调研了该领域最前沿的研究方法...
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 不用引入外部数据,通过自我博弈(Self-play)就能让预训练大模型学会推理? 来自清华、北京通用人工智能研究院和宾夕法尼亚州立大学的研究人员,提出了一种名为“绝对零”(Absolute Zero)的训练方式。 这种方法通过让大模型根据推理目标,自己生成并解决任务,便可以获得推理能力。 测试中,用“...
新智元报道 编辑:peter东 英智 【新智元导读】如何将一句简单的文字描述变成物理稳定的乐高模型?LegoGPT通过物理感知技术,确保98.8%的设计稳如磐石。 输入一段文字,AI就能设计出可实际搭建的乐高? 来自CMU的研究人员提出的LegoGPT彻底改变了游戏规则。 只需输入「金属紫色电吉他」,AI就能生成一个不仅外形逼真,还能在现实中稳...
DreamO团队 投稿 量子位 | 公众号 QbitAI 可控图片生成,如今已经不是什么新鲜事。甚至也不需要复杂的提示词,用户通过简单的文本描述,就能快速生成符合个人需求的创意图像。 不过仍然有一些局限: 比如说,虽然可以实现单一任务(如身份、主体、风格、背景等)的定制化设计,可是一旦条件增多,就会出现“鱼和熊掌不可兼得”的问题。 只有小孩子才做选择题,成年...
整理 | 华卫 近日,有网络安全研究人员标记出三个恶意的 npm(Node.js 包管理器)软件包,这些软件包的攻击目标是一款颇受欢迎的由 AI 驱动的源代码编辑器 Cursor,且针对的是苹果 macOS 版本用户。 迄今为止,这三个软件包的下载量总共已超过 3200 次。 软件供应链安全公司 Socket 的研究人员 Kirill Boychenko...
作者丨 Gergely Orosz & Addy Osmani 译者丨明知山 策划丨褚杏娟 可以肯定的是,生成式 AI 将继续改变我们开发软件的方式。 回顾 2022 年 11 月,ChatGPT 首次问世,这是大语言模型(LLM)开始被广泛运用的开端。尽管 LLM 的构建方式出人意料地简单,但它们在各个领域都取得了令人印象深刻的结果。编写代...
文| 杨柳 (发自上海) 人形机器人公司傅利叶5月9日宣布,把康养作为布局具身智能的场景锚点。 对于这家靠外骨骼康复机器人起家的公司而言,聚焦康养并不意外。但在业内人士看来,人形机器人康复设备能否真正落地,面临技术研发和医疗监管双重考验。 康养场景“有资源和渠道” 作为从外骨骼机器人赛道切入具身智能的公司,傅利叶先后于2023年和2024年发布两款GR系...
微软与OpenAI正改写合作条款,微软拟放弃部分股权以换取2030年后继续使用OpenAI产品和模型的权利。 文|刘蕊 OpenAI和微软正在改写双方数十亿美元的合作条款,这是一项高风险谈判,旨在让OpenAI能够在未来进行IPO,同时保证微软在未来继续获得尖端人工智能模型技术的机会。 ▍微软拟与OpenAI改写合作条款 据报道,微软可能会放弃其在Ope...