各位五一快乐,快来吃瓜!(顺便星标⭐️一下本号,最近很多朋友反应不能及时看到内容更新,只有关注并且⭐️才会第一时间收到更新) AI圈子波澜又起,焦点集中在了大名鼎鼎的Chatbot Arena排行榜上。一篇名为《The Leaderboard Illusion》(排行榜幻觉)的预印本论文横空出世,直接对这个被广泛视为LLM“试金石”的平台提出了系统性质疑,...
各位五一快乐!(顺便星标⭐️一下本号,最近很多朋友反应不能及时看到内容更新,只有关注并且⭐️才会第一时间收到更新) 让 AI 理解并进行严格的数学推理,尤其是形式化证明(就是用像 Lean、Coq 这样的证明辅助语言写的、机器可验证的证明),一直是个挑战。这不仅需要逻辑能力,还需要某种程度的“数学直觉”来分解复杂问题。 今天DeepSeek 正式开源了他们...
赶在五一假期前夕,DeepSeek 给我们送出一份惊喜大礼。 延续一贯的开源节奏,DeepSeek 在 Hugging Face 正式发布 DeepSeek-Prover-V2,并同步上线模型卡及示例代码。此次共推出两个版本: DeepSeek-Prover-V2-7B:基于上一代 V1.5 模型,支持最长 32K 上下文输入; DeepSeek-Prove...
文|黄心怡 由国家发展改革委、国家数据局等主办的第八届数字中国建设峰会在福建福州召开。《科创板日报》在现场看到,人工智能依然是大会的焦点。相较去年更多展示的是软件层面的AI应用,今年人形机器人、四足机器狗等在展台尤为吸睛。 在新疆阿勒泰展区,一台宇树机器人化身展台导览员,吸引了与会观众的眼球。现场工作人员告诉《科创板日报》记者,他们是宇树科技在福建的...
文丨都保杰 国内大模型发展进入后半场的当下,正式杀进来一位新选手,这回是爱跨界的小米,选择走开源技术路线。 今天,小米旗下公众号官宣推出首个推理大模型Xiaomi MiMo-7B,引发外界关注,据悉,这是一款专为推理任务而生的大语言模型,由新成立不久的“小米大模型Core团队”开发。 MiMo-7B在预训练和后训练阶段均进行了优化,小米大模型团队给出的...
如果你最近在关注 AI 应用落地,就会发现一个趋势正在快速升温: 多智能体(Multi-Agent)系统,正在成为复杂任务自动化的关键“武器”。 无论是自动化办公、编程助手,还是科研、营销、视频创作… 这些原本需要“多个角色协调”的任务,如今都可以通过 AI 智能体来分工合作完成。 今天为大家推荐一款 AI 驱动的多Agent构建器:Rowboat,让复...
新智元报道 编辑:Aeneas 【新智元导读】活久见,曾看不起中国AI的前谷歌DeepMind科学家,要来清华当教授了!特朗普政府削减科研经费、拒掉人才绿卡等操作,正在加速美国科技公司和大学的动荡。美国真要给中国反向输出AI人才了,我们正在见证历史。 中国对美国顶尖AI人才的抄底计划,开始第一步! 刚刚,清华已经抢先出手了。 最近,图灵奖得主门生、...
阿里Qwen3如何改写AI生产力格局? 作者|田思奇 编辑|栗子 当AI从实验室走向全场景应用,如何兼顾性能与成本,成为每一个开发者与企业共同的难题。 4月29日凌晨,伴随着全球互联网的猜测与期待,阿里巴巴正式开源新一代通义千问模型Qwen3(以下简称“千问3”),并同步发布了多个版本,力图改写上述困境。 这款模型以DeepSeek-R1三分之一的参数量...
AI Agent离我们越来越近了。 4月28日,由「甲子光年」主办、上海马桥人工智能创新试验区联合承办的「AI共潮生——2025甲子引力X科技产业新风向」大会在上海工业智能中心盛大启幕。 在下午场的「AI Agent」圆桌对话中,维度AI创始人兼CEO杨宇梁担任主持人,与易点天下技术中心副总经理张奥迪、容联云副总裁,诸葛智能创始人孔淼、e签宝CPO李聪、...
前段时间,OpenAI 陆续发布了 o 系列最新的两个模型 o3 和 o4-mini。其中,o3 模型在融合了 tool use 能力后,模型表现已经覆盖了 Agent 产品常用的 use case。 Agent 产品开始分化出两类路线:一类是像 o3 那样把 tool use 通过 CoT 内化到模型中,模型可以用写代码调用的方式执行任务;另一类是类似 ...