安爸-超级家庭
bg

AI信息差

从 0 到 1 打造 Labubu ,MiniMax Agent 让我看到了智能体未来的样子

今年上半年,最吊足胃口和期待的,莫过于 Agent 工具,饼画得都很大:日常中那些烧脑、重复、耗时间的任务,现在似乎只需要动动手指、敲几行 prompt 就能搞定。 大饼真的很诱人,但仔细想想:想要真的做到那么有用,需要的,是某种与你我类似的思考、规划,甚至还有能自己跟自己较劲、主动反思的能力。 带着这个想法,我们测试了最新的 MiniMax Agent 进...

阅读:9 评论:0

OpenAI赢得美国防部2亿美元合同

五角大楼周一在一份声明中表示,ChatGPT制造商OpenAI获得了一份价值2亿美元的为期一年的合同,为美国国防部提供人工智能工具。 文|卞纯 五角大楼周一在一份声明中表示,ChatGPT制造商OpenAI获得了一份价值2亿美元的为期一年的合同,为美国国防部提供人工智能工具。 五角大楼表示:“根据该合同,履约方将开发原型前沿人工智能能力,以应对作战和...

阅读:7 评论:0

竞逐赶超DeepSeek!月之暗面和MiniMax双双发布新模型,争锋开源SOTA

文丨谭梓馨 在开源模型领域,中国厂商们的“卷”正在为全球开发者带来越来越强悍的性能。 今天,根据基准测试开放平台lmarena.ai发布的最新消息,DeepSeek-R1-0528在WebDev Arena基准上与谷歌的Gemini-2.5-pro并驾齐驱,甚至略高于Anthropic的Claude Opus4,该基准专门用于比较AI模型在HTML、CS...

阅读:9 评论:0

读博士,去哪找那么多创新点?水水得了…

最近经常收到读者的留言 : 抱怨科研真是太难了,竞争压力大,导师不给指导、不开组会,一年见不到导师几次,对于论文初稿、毕业论文毫无建议! 其实他不是个例,大家也会有这样的烦恼: 前沿顶会、期刊论文、综述文献浩如烟海,不知道学习路径,无从下手? 没时间读、不敢读、不愿读、读得少、读不懂、读不下去、读不透彻一篇完整的论文? CVPR、ICCV、EC...

阅读:8 评论:0

ICML 2025 北大KA-Prompt首创提示知识对齐范式,跨域推理不再“鸡同鸭讲”

领域增量学习(Domain Incremental Learning, DIL)要求模型在动态数据流中持续适应新领域(如风格变化、环境扰动),同时保留历史知识。传统 DIL 方法面临两难困境:一方面,重放历史数据存在隐私风险;另一方面,正则化约束又抑制了模型对新知识的充分学习。 近年来,基于提示(Prompt)的技术虽通过学习和存储领域专用提示缓解遗忘,...

阅读:9 评论:0

欧洲团队开源「地球AI大脑」!EarthMind突破遥感多模态统一理解壁垒

随着遥感与地球观测(Earth Observation, EO)数据日益丰富,如何让 AI 真正理解多模态、多尺度的遥感信息,成为当前人工智能领域的重要挑战。现有的大模型(如 GPT-4o、Gemini 等)虽然在图像与文本理解上取得突破,但面对复杂的遥感数据,往往缺乏有效的适应能力与系统性的评估基准。 为填补这一空白,来自特伦托大学,慕尼黑工业大学,柏林...

阅读:7 评论:0

大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背  MathFusion

MathFusion团队 投稿 量子位 | 公众号 QbitAI 当前数学领域的数据生成方法常常局限于对单个问题进行改写或变换,好比是让学生反复做同一道题的变种,却忽略了数学题目之间内在的关联性。 为了打破这种局限,让大模型学会“串联”与“并联”知识,上海AI Lab、人大高瓴等团队联合提出了MathFusion,通过指令融合增强大语言模型解决数学问题的能力...

阅读:7 评论:0

突破扩散LLM瓶颈,英伟达港大提全新Fast-dLLM,推理加速27.6倍!

新智元报道 编辑:定慧 【新智元导读】英伟达联合港大提出全新Fast-dLLM,模型跳脱自回归生成方式,借助KV Cache和并行解码,将Diffusion LLM推理加速达27.6倍。 如果你看过电影《降临》,一定记得「七肢桶」在空气中挥洒墨雾、一次性写下整圈「七文」的震撼场景—— 那是一种把整句话、整段意思同时呈现出来的语言:没有先后顺序,开...

阅读:8 评论:0

AI操作有了“紧急刹车”!通义&自动化所AI决策诊断模型,GUI智能体纠错正确率SOTA

GUI-Critic-R1团队 投稿 量子位 | 公众号 QbitAI GUI智能体总是出错, 甚至是不可逆的错误。 即使是像GPT-4o这样的顶级多模态大模型,也会因为缺乏常识而在执行GUI任务时犯错。在它即将执行错误决策时,需要有人提醒它出错了。 阿里通义实验室联合中科院自动化所推出全新的GUI-Critic-R1模型,能在操作执行前对GUI智能体的决策...

阅读:7 评论:0

Claude时代终结?LMArena实测DeepSeek R1编程得分超Opus 4,但月暗称其新模型更胜一筹

在当今以闭源模型为主导、各大科技公司严格保护核心 AI 技术的环境下,一个开源项目能够真正挑战行业顶尖产品实属罕见。 然而,DeepSeek 前段时间更新的最新版本 DeepSeek-R1(0528)不仅做到了这一点,甚至在某些关键领域超越了 Claude Opus 4 和 GPT-4.1 这样的顶级商业模型。 真正引起开发者社区关注的是 R1(0528...

阅读:7 评论:0