从“单科专家”到“全能通才”:多模态统一的挑战与必要性 在人工智能领域,当前许多多模态大模型(MLLM)涌现,成为 AI 社区最重要的研究领域之一。我们见证着 MLLM 从“单科专家”向“全能通才”的演化过程。 但是,可别被那些看起来“无所不能”的 MLLM 迷惑了——虽然它们号称能同时处理图像、文本、视频、音频等多种信息,但实际上,这些模型的“智能核...
TPO:推理时即时偏好对齐的新方案 为了让大模型(LLM)的行为更符合人类预期,一系列训练时对齐方法(例如 RLHF 和 DPO)通过微调模型参数来实现偏好优化。然而,这种“训练时对齐”模式不仅耗时耗力,而且一旦偏好发生变化(比如安全标准更新),就得从头开始再训练一次。这种方式在应对变化需求时显得十分被动。 有没有一种方法,可以跳过繁琐的重新训练,让模型...
你是否曾幻想过,只需要给 AI 一张草图、一段动作序列,甚至一个相机运动轨迹,它就能生成符合所有条件的视频?这个梦想,已经成为现实! 快手与新加坡国立大学联合推出的 Any2Caption,打破了多模态条件与视频生成之间的壁垒,让用户的创意指令不再受到技术限制,轻松实现精准、可控的视频创作。 论文标题: Any2Caption : Interpretin...
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI AI Agent今天是初级工程师,6个月后是高级工程师,一年后是架构师。 这是OpenAI CPO Kevin Weil在接受最新访谈时提出的构想。 他表示,ChatGPT将从回答问题转变为为用户做事。 也就是说,AI Agent不再满足于30s回答问题,而是通过浏览网页、深度思考、推理总结以解决更...
图片来源:Alation 企业数据智能平台Alation 收购了 Numbers Station,以帮助其客户利用运行在其结构化数据之上的 AI Agent。 交易条款未予披露。Numbers Station 是一家专注于构建 AI 原生数据应用的 A 轮初创公司,已从 Norwest Venture Partners、Madrona 及 Factor...
新智元报道 编辑:定慧 【新智元导读】你以为照镜子只能看出自己昨晚熬夜没睡好?现在,科学家开发出一款AI工具「FaceAge」,通过一张脸,就能判断你到底多「老」——不是身份证上的年龄,而是藏在细胞深处的生物年龄!关键是,这不光是「看起来老不老」,还关系到你扛不扛得住癌症治疗! 你有没有发现,有些人看起来就是比其他人更老。 脸,不仅仅是我们的门面,...
图片来源:Builder.ai 曾估值超10 亿美元的微软支持 AI 公司 Builder.ai 陷入资金短缺,已进入破产程序,该公司发言人向 TechCrunch 证实了这一消息。 这家获得微软支持的独角兽企业,融资额超过4.5 亿美元,因其旨在简化应用程序和网站构建流程的 AI 平台而声名鹊起。 据发言人表示,Builder.ai(亦称 Engin...
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 不再依赖语言,仅凭图像就能完成模型推理? 大模型又双叒叕迎来新SOTA! 当你和大模型一起玩超级玛丽时,复杂环境下你会根据画面在脑海里自动规划步骤,但LLMs还需要先转成文字攻略一格格按照指令移动,效率又低、信息也可能会丢失,那难道就没有一个可以跳过“语言中介”的方法吗? 于是来自剑桥、伦敦大学学院和...
京东探索研究院 投稿 量子位 | 公众号 QbitAI 京东探索研究院关于大模型的最新研究,登上了Nature旗下期刊! 该项研究提出了一种在开放环境场景中训练、更新大模型,并与小模型协同部署的系统与方法。 它通过模型蒸馏、数据治理、训练优化与云边协同四大创新,这个项目将大模型推理效率平均提升30%,训练成本降低70%。 这个名为《Omniforce:以人为...
文| 袁炯贤 方晓林 设计| 张许君 对AI生成合成内容进行标识已成国际共识,我国率先打出内容标识“管理+技术”组合拳,将标识工作推进至实践层面。国家网信办等四部门联合发布《人工智能生成合成内容标识办法》,将于2025年9月1日起施行。 在AI生成内容强制标识的背景下,南都大数据研究院根据媒体报道信息,全网检索梳理了广东省内面对公众服务的政务AI导办、AI...