安爸-超级家庭
bg
avatar

安爸

地铁换乘都搞不定?ReasonMap基准揭示多模态大模型细粒度视觉推理短板

近年来,大语言模型(LLMs)以及多模态大模型(MLLMs)在多种场景理解和复杂推理任务中取得突破性进展。然而,一个关键问题仍然值得追问: 多模态大模型(MLLMs),真的能“看懂图”了吗? 特别是在面对结构复杂、细节密集的图像时,它们是否具备细粒度视觉理解与空间推理能力?我们又该如何系统评估这一能力? 为此,我们提出一个全新的评测基准 —— Reason...

阅读:9 评论:0

全球人工智能创新创业大赛即将启幕!杭州拱墅全力打造AI创新高地

允中 发自 凹非寺 量子位 | 公众号 QbitAI 2025年6月,由杭州市拱墅区人民政府、中国人工智能学会、中欧人才交流与创新合作中心联合主办的“智汇运河·智算未来”全球人工智能创新创业大赛即将重磅启幕。 大赛聚焦人工智能前沿领域,面向全球征集优质项目,旨在通过“以赛引才、以赛促创”模式,推动海内外顶尖技术与产业资源汇聚杭州拱墅,助力打造具有国际影响力的...

阅读:9 评论:0

英伟达港大联手革新视觉注意力机制!GSPN高分辨率生成加速超84倍

GSPN团队 投稿 量子位 | 公众号 QbitAI 视觉注意力机制,又有新突破,来自香港大学和英伟达。 Transformer的自注意力在NLP和计算机视觉领域表现出色——它能捕捉远距离依赖,构建深度上下文。然而,面对高分辨率图像时,传统自注意力有两个大难题: 计算量巨大:O(N²) 的复杂度让处理长上下文变得非常耗时。 破坏空间结构:将二维图像拉平成一...

阅读:9 评论:0

SOTA级视频编辑新方法:无需训练一句话编辑视频,背景保持100%

FlowDirector团队 投稿 量子位 | 公众号 QbitAI 传统的视频编辑工作流,正在被AI彻底重塑。 AI的视频编辑方法总是存在一些问题:例如视频运动不连贯、编辑后的视频产生意外变化等……经过分析,这些问题的产生最终大都指向同一原因——反演-编辑范式。 因此,西湖大学AGILab提出了一种全新的无需反演和训练的视频编辑新方法:FlowDirect...

阅读:9 评论:0

北大伯克利联手“拷问”大模型:最强Agent也才40分!新基准专治“不听话”的AI分析师

北大邓小铁课题组 投稿 量子位 | 公众号 QbitAI 给大模型当老师,让它一步步按你的想法做数据分析,有多难? 结果是,连Claude-3.7和Gemini-2.5 Pro这样的顶尖选手,都开始“不听话”了。 在一个全新的测试基准中,它们面对多轮、不断演进的指令,最终的任务成功率最高仅有40%。 这项名为IDA-Bench的新基准,就是为了模拟真实世界中...

阅读:10 评论:0

20年物理疑云消散!「μ子异常」最新实验未发现显著偏差,标准粒子模型屹立不倒

鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 一度轰动物理学界的「μ子异常」,凉了。 美国费米实验室公布的最新实验结果显示: 尽管在2021年,研究人员发现μ子的磁性超出理论预测0.1%,令粒子物理标准模型笼上一朵阴云。 但他们的「最终」测试结果指出,并未发现新的显著偏差。 也就是说,一切仍与标准模型相符,此前被认为可能颠覆粒子物理学的「异常」并不成...

阅读:12 评论:0

1.93bit版DeepSeek-R1编程超过Claude 4 Sonnet,不用GPU也能运行

克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 1.93bit量化之后的 DeepSeek-R1(0528),编程能力依然能超过Claude 4 Sonnet? 最新优化版R1在编程榜单aider上取得了60%的成绩,不仅超过了Claude 4 Sonnet的56.4分,也超过了1月版的满血R1。 并且aider是一个接近现实软件工程任务的榜单,不是...

阅读:10 评论:0

菜鸟已在整备内部研发能力,发力物流作业机器人研发和应用|快讯

文| 杨柳 菜鸟方面6月10日告诉南都记者,菜鸟已在整备内部现有研发能力,计划增强物流作业机器人的研发和应用效率。 作为阿里巴巴旗下的电商物流公司,菜鸟在智能仓储和自动化设备的研发应用上早有布局,建设智能机器人仓库。2021年,菜鸟曾成立物流科技事业部,关注生产、仓储、分拨等环节的自动化升级与数字化改造,并对外提供智慧物流软硬件解决方案。 在物流科技出海方...

阅读:12 评论:0

AI内容检测屡屡“翻车”?实测十款工具,这几个把老舍原作误判为AI

文| 张雨亭 设计| 何欣 《滕王阁序》是AI生成的?近日,AI检测工具屡屡爆出“翻车”的新闻,如《荷塘月色》被标注“62.88%AI率”,《三体》片段被标红警示,引发公众对AI检测工具科学性的热议。 为探究AI检测工具的识别能力与技术原理,南方都市报、南都大数据研究院选取了国内10款热门的文本、图片AIGC检测工具进行了抽样测评。结果显示:文本检测工具中...

阅读:9 评论:0

小红书开源首个大模型!

小红书开源了首个大模型dots.llm1,小红书方面告诉《科创板日报》,dots.llm1是一个1420亿参数的混合专家模型(MoE),在推理过程中仅激活140亿参数,能保持高性能的同时大幅度降低训练和推理成本。此外,dots.llm1.ins在预训练阶段使用了11.2万亿的非合成数据,最终性能与阿里Qwen3-32b相比,在中英文、数学、对齐任务上表现...

阅读:9 评论:0