作者 | Daniel Dominguez 译者 | 明知山 策划 | 丁晓昀 OpenAI 发布 SWE-Lancer 基准测试,用于评估 AI 大语言模型在现实世界自由职业软件工程任务中的表现。该基准测试的数据集包含来自 Upwork 的 1400 多个任务,总价值高达 100 万美元。这些任务既包括独立的编码活动,也包括管理决策,复杂程度和报酬...
3月底,朱啸虎宣布,由于市场共识高度集中,自己正在批量退出对人形机器人的投资。 这个决定的对错,乌鸦君暂不评论。但有一件事情朱啸虎还真没说错,那就是人形机器人的投资卷疯了,甚至远超过去两年的大模型。 从数据上看,人形机器人的融资可谓“量质齐升”。 根据IT桔子数据,2024年\~2025年Q1,人形机器人领域共发生64笔超千万元级融资,光今年一季度就多达1...
整理|冬梅、核子可乐 前两天,总部位于美国加州帕洛阿尔托的初创公司 MainFunc 发布了所谓的 Genspark Super Agent,这是一个能快速反应的自主系统,可自主思考、计划、行动并使用工具来帮助用户处理所有日常任务。 那么,这款 AI Agent 什么来头,又具体能做什么? Genspark Super Agent 背后的公司 MainF...
文丨丁灵波 谁才是最强开源AI模型王者?Meta和DeepSeek展开了新一轮竞争。 日前,沉寂了许久的Meta宣布推出新一代旗舰模型Llama 4家族,并将其定义为原生多模态AI创新时代的开始,已发布型号为Llama 4 Scout和Llama 4 Maverick,这两个模型都是基于Llama 4 Behemoth模型提炼而成。 Meta官方称在...
新智元报道 编辑:英智 定慧 【新智元导读】数学家Dennis Gaitsgory凭借对几何Langlands Program的证明——一个与「数学大一统理论」相关的领域——而获得了突破奖300万美元奖金。9人团队,5篇论文完成了这项被视作几乎不可能的数学证明。 一个与「数学大一统理论」相关的领域,一项长期以来被视作几乎不可能的数学证明,如今取得了...
新智元报道 编辑:英智 桃子 【新智元导读】奥特曼在最新访谈中直面吉卜力争议,畅谈AI如何为内容创作带来变革。OpenAI即将生成10亿张图像,程序员生产力将提升10倍? 奥特曼在最新的访谈中回应了吉卜力争议,谈到了对AI带来的新职业及创业公司的看法。 新职业出现的时候,经常被嘲笑。嘲笑别人是「套壳」是件容易的事。 奥特曼表示,「如果我现在20岁,...
Z1团队 投稿 量子位 | 公众号 QbitAI 推理性能提升的同时,还大大减少Token消耗! 清华、耶鲁团队提出推理模型新范式:动态推理实现高效测试时扩展。 测试时扩展(test-time scaling)技术加速推动了大语言模型在复杂推理领域的突破。 以OpenAI的o1系列、DeepSeek-R1等模型为代表,这些系统通过强化学习和大规模思维链(C...
几天前,AI 驱动的演示工具 Tome 宣布,将在四月底前关闭 Tome Slides 功能,并转型至销售领域(「搞定交易,而非幻灯片」:面向销售的 AI 助手)。 Tome 在 2022 年风生水起,曾经一度霸占了各大 AI 榜单类目第一,在用户和流量持续水涨船高的过程中也顺利完成了数千万美元的融资,如今却要关停。 而隔壁友商 Gamma,在上个月却向全...
新智元报道 编辑:桃子 犀牛 【新智元导读】2025 CSRankings新鲜出炉了!CMU稳坐全球第一,中国高校强势崛起,清华摘得第2,上交大与浙大并列第3,北大位居第5。中国在AI领域表现尤为抢眼,上交大、清华、北大、浙大包揽前四,中国科学院与哈工大也跻身全球前十。 就在刚刚,2025 CSRankings全球计算机科学排名发布! 地址:htt...