国内著名社交平台小红书,开源了首个大模型——dots.llm1。 dots.llm1是一个1420亿参数的专家混合模型(MoE),在推理过程中仅激活140亿参数,能保持高性能的同时大幅度降低训练和推理成本。 dots.llm1最大特色是使用了11.2万亿token的非合成高质量训练数据,这在现阶段的开源大模型中非常罕见,看来小红书也得益于自己庞大的语料库出手...
当前,强化学习(RL)在提升大语言模型(LLM)推理能力方面展现出巨大潜力。DeepSeek R1、Kimi K1.5 和 Qwen 3 等模型充分证明了 RL 在增强 LLM 复杂推理能力方面的有效性。 然而,要实现有效的强化学习,需要解决一个根本性的挑战,即信用分配问题(credit assignment):在大语言模型的场景下,如何将整个序列(LLM...
琶洲实验室、华南理工大学联合推出关键上下文感知注意力机制(CCA-Attention),实现超长文本的高效上下文建模。在 128K 超长序列上下文建模任务中,CCA-Attention 的推理速度是标准自注意力机制的 7.9 倍,同时键值缓存(KV Cache)显存占用减少 93%,性能全面优于现有高效注意力方法。 论文标题:Core Context ...
新智元报道 编辑:KingHZ 【新智元导读】2025年,美国就业大地震!与同期相比,全美裁员人数,上涨了47%。「政府效率部」掀起裁员潮之后,科技行业迎来「冰火两重天」。 2025,美国裁员之年。 本周四,职业介绍机构 Challenger, Gray & Christmas 发布了美国全国就业报告。 与去年同期相比,美国全国裁员人数上涨...
新智元报道 编辑:桃子 【新智元导读】苹果传奇工程师、第51号员工Bill Atkinson因胰腺癌去世,享年74岁。这一生,他用代码重塑了人机交互,为PC到iPhone无数产品设计奠定了基础。 苹果第51号员工,Lisa图形界面核心设计师Bill Atkinson突发去世! 死因——胰腺癌,享年74岁。 这一残酷的疾病,也曾夺走了「苹果之父」乔布...
如果说每年九月是苹果硬件的科技春晚,那么每年夏天的 WWDC,就是苹果软件的年度盛典。 去年 WWDC 的重头戏,无疑是 Apple Intelligence 的亮相: 但转眼一年过去,不仅国区的我们依然没有吃到这块苹果馅的大饼,已上线地区的反馈也难言乐观,传说中的「升级版 Siri 智能体」更是推进乏力。 更何况,当前的 Apple Intellige...
新智元报道 编辑:KingHZ 犀牛 【新智元导读】注意力机制的「平方枷锁」,再次被撬开!一招Fenwick树分段,用掩码矩阵,让注意力焕发对数级效率。更厉害的是,它无缝对接线性注意力家族,Mamba-2、DeltaNet 全员提速,跑分全面开花。长序列处理迈入log时代! LLM苦算力太久了! 为缓解长序列建模中的算力瓶颈,研究界持续探索高效替代...
新智元报道 编辑:KingHZ 【新智元导读】仅用6小时,Claude 4就让研究者了解了如何制造神经毒气——这不是小说情节,而是真实事件。更令人担忧的是,Anthropic自身也无法完全评估风险。这是否意味着这家AI巨头的「安全人设」正在崩塌? 只要6小时,顶尖大模型Claude 4 Opus「安全防线」被攻破! AI安全研究机构FAR.AI联合...
新智元报道 编辑:犀牛 【新智元导读】AI正在颠覆医疗领域!哈佛、斯坦福等顶尖学术医疗中心的研究表明,OpenAI的o1-preview在诊断推理任务中全面超越人类医生。从新英格兰医学杂志的临床病例到真实急诊室场景,o1不仅精准识别疾病,还在关键时刻提供可靠的第二意见。 AI医生的时代正在到来! 哈佛、斯坦福等学术医疗中心的医生发布重磅论文,测试了...
选自quantamagazine 作者: Joseph Howlett 机器之心编译 三百多年前,数学家费马在书页边缘留下了一个看似简单却困扰了学者几个世纪的难题——费马大定理。 1994 年,Andrew Wiles 的实际性证明为这个传奇故事画上了句号。然而,故事并未就此结束。 那场伟大证明的真正遗产,并非仅仅是攻克了一道难题,而是揭示了不同数学世界之间...