专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注! CNBC消息,OpenAI联合创始人兼首席执行官Sam Altman透露,Meta平台曾试图挖走OpenAI的员工,提供高达1亿美元的签约奖金,以及更高的年度薪酬方案。 不过,奥特曼在...
随着大型模型需要处理的序列长度不断增加,注意力运算(Attention)的时间开销逐渐成为主要开销。此前,清华大学陈键飞团队提出的即插即用的 SageAttention 和 SageAttention2 已经被业界及社区广泛的使用于各种开源及商业的大模型中,比如 Vidu,CogvideoX,Mochi,Wan,HunyuanVideo,Flux,Llam...
机器之心报道 自变量机器人 当 AI 放下海德格尔的锤子时,意味着机器人已经能够熟练使用工具,工具会“隐退”成为本体的延伸,而不再是需要刻意思考的对象。 当一位熟练的木匠抓起锤子时,锤子消失了 —— 不是物理上的消失,而是无需思考便可自如使用。然而,当前最先进的机器人仍然无法“放下”这把“锤子”,它们被困在循环中 —— 识别锤子、规划如何使用锤子,每一次...
机器之心报道 编辑:+0 人类从农耕时代到工业时代花了数千年,从工业时代到信息时代又花了两百多年,而 LLM 仅出现不到十年,就已将曾经遥不可及的人工智能能力普及给大众,让全球数亿人能够通过自然语言进行创作、编程和推理。 LLM 的技术版图正以前所未有的速度扩张,从不断刷新型号的「模型竞赛」,到能够自主执行任务的智能体,技术的浪潮既令人振奋,也带来了前所未有...
本文由南京大学,香港大学,上海人工智能实验室,中国科学院大学与南洋理工大学 S-Lab 联合完成。 扩散模型在视频合成任务中取得了显著成果,但其依赖迭代去噪过程,带来了巨大的计算开销。尽管一致性模型(Consistency Models)在加速扩散模型方面取得了重要进展,直接将其应用于视频扩散模型却常常导致时序一致性和外观细节的明显退化。 本文通过分析一...
这个OCR有点牛的。 开源没几天就有2.5k星星了。 看我实测的就知道有多猛,我用这个项目的论文测试了下,别家这里都是图片,它这里直接就识别成表格了,甚至符号都长得一样。 开源的OCR已经进化到比很多闭源的效果更好了。 所以PDF、文档翻译这些根本没必要再去花大价钱用了。 扫码加入AI交流群 获得更多技术支持和交流 (请注明自己的职业) 项目简介 Mon...
什么是“关系幻觉”? 如今,多模态大语言模型(MLLMs)已经在我们生活中随处可见,无论是聊天机器人还是自动驾驶,甚至是医疗诊断,都有它们的身影。然而,这些模型有时却会“编故事”,做出与现实不符的错误回答,我们称之为“幻觉”现象。 在过去的研究中,幻觉往往被简单地分为对象级(判断是否存在某个物体)和属性级(判断物体的颜色、形状等特性)。但现实世界中,还有...
论文标题: TIIF-Bench: How Does Your T2I Model Follow Your Instructions? 作者单位: 北京大学、清华大学、中山大学、香港理工大学、OPPO Y-Lab 项目主页 & Leaderboard: https://a113n-w3i.github.io/TIIF\_Bench/ Arxiv ...
SeqPO-SiMT团队 投稿 量子位 | 公众号 QbitAI AI字幕总是慢半拍,质量和延迟难以平衡是业界老问题了。 为此,香港中文大学、字节跳动Seed和斯坦福大学研究团队出手,提出了一种面向同声传译的序贯策略优化框架 (Sequential Policy Optimization for Simultaneous Machine Translatio...
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 谷歌Gemini 2.5系列大模型技术报告发布,一大重点居然是AI玩《宝可梦》? 没错,就是那个童年回忆里的游戏,谷歌花超长篇幅介绍了Gemini 2.5 Pro玩《宝可梦蓝》时的具体行为,70页的论文,Pokemon关键词出现59次。 其中特别报告了当AI控制的游戏角色濒临死亡时,Gemini 2.5...