安爸-超级家庭
bg

AI信息差

字节开源高效解析文档图像的新型多模态模型Dolphin,快速将复杂的文档图像转化为结构化数据。

先看效果 项目简介 Dolphin(Document Image Parsing via Heterogeneous Anchor Prompting)是一种创新的多模态文档图像解析模型,采用”先分析后解析”的范式。本仓库包含Dolphin的演示代码和预训练模型。 🌟 核心特性 • 🔄 基于单一视觉语言模型的两阶段”先分析后解析”方法 • 📊 在文档...

阅读:11 评论:0

ICML 2025 又快又强的狮虎兽!仅20M词元微调,Transformer秒切线性RNN

近日上海 AI Lab 联合华南理工大学、香港科技大学(广州)、南京大学和香港中文大学发布了他们的一项研究成果:Liger(狮虎兽),即 Linearizing LLMs to gated recurrent structures,这是一个能够高效地将预训练大语言模型架构转换为带有门控循环结构的线性模型的线性化技术。 目前本研究工作已被 ICML 2025...

阅读:12 评论:0

ICML 2025 用“人类考试法”戳破AI泡沫:构建能力导向的自适应测评新范式

随着大模型能力持续增强,仅通过观测各个 Benchmark 上的得分来判断一个模型是否真的聪明、值得信赖,可能远远不够。 你是否知道: 评估一个大模型完整跑完一套标准测试(如 HELM),可能耗时超过 4000 GPU 小时、成本上万美元; 工业界中的模型评估甚至要大量人类专家参与标注/评判; 很多 Benchmark 中的题目质量可能并没有我们想象中那...

阅读:12 评论:0

长推理≠高精度!自适应切换“秒答”与“深思”:省Token与提精度的双赢哲学

引言 推理能力的进步极大提升了大语言模型(LLMs)和多模态大语言模型(MLLMs)在各类任务中的表现。但过度依赖思维链(CoT)推理会降低模型性能,产生冗长输出,影响效率。 研究发现,长 CoT 推理并非总能提升准确率,甚至会削弱模型处理简单任务的能力。为此,我们提出基于置信度的自适应推理框架(CAR),它能根据模型困惑度动态选择短回答或详细的长文本推...

阅读:15 评论:0

百度心响上线iOS版,多智能体协作应用终于卷对地方了

小明 发自 凹非寺 量子位 | 公众号 QbitAI 今年的4月26日,我们测评了百度新发布的多智能体协作应用心响APP。当时只上线了安卓版,很多网友在线求苹果版链接。 就在这几天,iOS版也终于上线了,只需要在苹果的APP Store搜索关键词即可下载。 现在,苹果安卓用户全部免费用,完全不限量! 在第一时间体验了iOS版心响APP,我们基本上可以下一个...

阅读:11 评论:0

舍弃自回归!国内团队打造纯扩散多模态大模型LLaDA-V,理解任务新SOTA

本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。游泽彬和聂燊是中国人民大学高瓴人工智能学院的博士生,导师为李崇轩副教授。该研究基于团队前期发布的、首个性能比肩 LLaMA 3 的 8B 扩散大语言模型 LLaDA。 此次,团队将 LLaDA 拓展至多模态领域,推出了 LLaDA-V—— 集成了视觉指令微调的纯扩散多模态...

阅读:11 评论:0

Claude 4被诱导窃取个人隐私!GitHub官方MCP服务器安全漏洞曝光

一水 发自 凹非寺 量子位 | 公众号 QbitAI 被选为GitHub Copilot官方模型后,Claude 4直接被诱导出bug了! 一家瑞士网络安全公司发现,GitHub官方MCP服务器正在面临新型攻击—— 通过在公共仓库的正常内容中隐藏恶意指令,可以诱导AI Agent自动将私有仓库的敏感数据泄露至公共仓库。 就是说,当用户使用集成了GitHub...

阅读:10 评论:0

低Token高精度!字节复旦推出自适应推理框架CAR

复旦大学余海洋 投稿 量子位 | 公众号 QbitAI 过度依赖CoT思维链推理会降低模型性能,有新解了! 来自字节、复旦大学的研究人员提出自适应推理框架CAR,能根据模型困惑度动态选择短回答或详细的长文本推理,最终实现了准确性与效率的最佳平衡。 推理能力的进步极大提升了大语言模型(LLMs)和多模态大语言模型(MLLMs)在各类任务中的表现。 但已有研究...

阅读:11 评论:0

OpenAI 大量内幕曝光!7 年「潜伏」调查扒出 AI 帝国真面目,奥特曼坐立难安公开阴阳

回到 2019 年,OpenAI 还只是一个实验室、一个小作坊,Sam Altman 也 Y Combinator 里的一员,甚至还有一次创业失败的经历。 那时的 OpenAI 是什么样子?前《华尔街日报》记者、现《MIT 技术评论》的人工智能高级编辑 Karen Hao,最有发言权。她在当时就得到机会深入内部,与 Greg Brockman、Ilya Su...

阅读:11 评论:0

扩散语言模型九倍推理加速!上海交大:KV Cache并非自回归模型的专属技巧

EPIC Lab团队 投稿 量子位 | 公众号 QbitAI 首个用于加速扩散式大语言模型(diffusion-based Large Language Models, 简称 dLLMs)推理过程的免训练方法。 上海交通大学EPIC Lab团队提出了一种无需训练、即插即用的高效推理缓存机制:dLLM-Cache。 其核心思想在于,在一个多步去噪过程中,复用相...

阅读:11 评论:0