安爸-超级家庭
bg
avatar

安爸

「不思考」反而更强?上海AI Lab重新定义视觉强化学习微调最优路径

引言 近年来,基于规则的强化学习(RFT)在多模态大语言模型(MLLMs)中的应用取得了显著进展,并且在一些模型上取得了优于监督微调(SFT)的成果。 RFT 利用可验证的奖励进行训练,鼓励模型在回答之前先进行思考。显式思考被认为是 RFT 成功的关键因素,许多关于多模态 RFT 的研究也致力于复现 “aha moment” 的效果。 然而,对于一些简单...

阅读:9 评论:0

WWW 2025 数据洪流→数据精炼:北理工等提出高效文本行人检索新范式

任务背景以及 Motivation 随着深度视觉-语言预训练的飞速发展,文本驱动的行人检索(Text-based Person Search)已成为公共安全与智能监控领域的热门方向。 然而,现有方法为了解决隐私保护和繁琐的人工标注,往往在大规模合成数据集进行预训练与微调。尽管理论上合成数据的数量是无限的仍面临两大核心挑战: (1)数据冗余:海量合成的行人...

阅读:9 评论:0

中文网页检索挑战上线!GPT-4o准确率仅6.2%,这份新基准打脸所有大模型

©作者 | 周培林 单位 | 香港科技大学(广州) 随着大语言模型(LLMs)日渐“拟人化”,能写报告、能画图、还能“冲浪查资料”,不少人以为它们已能应对各种任务。 但这次,一项由港科大(广州)、北大、浙大、阿里、字节跳动、NIO 等机构联合发布的新基准测试集—— BrowseComp-ZH,让 20 多个中外主流大模型集体“挂科”:GPT-4o 在测试中...

阅读:9 评论:0

速递|Anthropic推出Claude网页搜索API,单次查询成本直降GPT-4o三成

图片来源:Anthropic Anthropic 推出了一项新 API,使其 Claude AI 模型能够进行全网搜索。该公司在 5 月 7 日发布的新闻稿中表示,开发者利用此 API 可构建基于 Claude 的应用,提供最新信息。 该API 的推出正值 AI 公司寻求以多种方式增强模型功能,以吸引新客户使用其平台。就 Anthropic 而言,上周...

阅读:10 评论:0

谷歌Gemini火力全开!实测:原生图像生成新升级确实强

一水 发自 凹非寺 量子位 | 公众号 QbitAI 谷歌Gemini原生图像生成功能又双叒升级了! 与之前的实验版本相比(Gemini 2.0 Flash Experimental),这一次主打图像质量更好、文本渲染更准确,生成速度更快。 只需一句话,就能将两张图片中的元素丝滑融合在一起。 还能实时编辑图像,比如刚说完给图中人物加上眼镜,图片立马就生成好...

阅读:9 评论:0

速递|AI代码安全赛道火热:Ox Security完成9400万美元总融资,微软、瑞士电信押注

图片来源:Ox Security 随着“氛围编码”日益流行,科技公司纷纷鼓励其雇佣的开发者采用生成式 AI 工具,一家专注于扫描 AI 生成代码漏洞的平台近日完成了新一轮融资。 5 月 7 日Ox Security 宣布完成 6000 万美元 B 轮融资,该平台能对 AI 和人工编写代码进行统一风险建模。本轮由 DTCP 领投,IBM Ventures...

阅读:10 评论:0

速递|石油巨头康菲、思科站台:WisdomAI获2300万美元种子轮,用程序化查询破解AI幻觉难题

图片来源:WisdomAI Rubrik 联合创始人 Soham Mazumdar 于 2023 年离职后,创立了一家名为 WisdomAI 的新数据初创公司。 该公司提供 AI 数据分析服务,能够从结构化、非结构化甚至“脏”数据(即未清除拼写错误或错误的数据)中提取商业洞察。 直接处理原始数据的位置和方式,这本质上是企业商业智能软件的终极追求,也是C...

阅读:8 评论:0

Mistral 拿出杀手锏叫阵 DeepSeek!性价比卷出天际、开源模型却断供,社区粉丝失望透顶

整理 I 褚杏娟 当地时间 5 月 7 日,法国 AI 初创公司 Mistral AI 宣布推出新模型 Mistral Medium 3。总的来说,新模型有三个亮点: 引入一个全新的模型类别,兼顾 SOTA 性能、成本大降 87.5%,并以支持以更简单的部署方式,加速企业落地应用。 在编程和多模态理解等专业场景中表现突出。 具备一系列企业级功能,包括:...

阅读:10 评论:0

仅看视频就能copy人类动作,宇树G1分分钟掌握100+,UC伯克利提出机器人训练新方式

克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 不用动作捕捉,只用一段视频就能教会机器人学会人类动作,效果be like: UC伯克利团队研发出了一套新的机器人训练系统,可将视频动作迁移到真实机器人。 这个名为VideoMimic的新系统,已经让宇树G1机器人成功模仿了100多段人类动作。 VideoMimic的核心原理是从视频当中提取姿态和点云数据...

阅读:9 评论:0

全球最流行 MCP 应用市场,来自一位中国独立开发者

作者 | 罗燕珊 策划 | AICon 全球人工智能开发与应用大会 在 AI 开发者社区颇受欢迎的 “MCP 应用市场” MCP.so,你用过吗? 随着智能体生态持续升温,AI 应用的标准化与可扩展性越来越受到开发者关注。其中,MCP 协议(Model Context Protocol)自 2024 年 11 月由 Anthropic 推出以来,在 A...

阅读:9 评论:0