南肺四分之三-思考:如何使用23T令牌流水线将3B模型提升至30B分类推理
纳贝格3B模型能否通过调整训练方法而非放大参数来实现30B级别的推理?Boss Zhipin的Nanbeige LLM实验室发布了纳贝格4-3B,这是一个3B参数的小型语言模型家族。该模型在数据质量、课时安排、蒸馏和强化学习等方面给予了特殊关注。
研究小组提供了两个主要检查点,纳贝格4-3B-Base和纳贝格4-3B-Thinking,并将调整后的推理模型与4B至32B参数范围的Qwen3检查点进行了比较。
在AIME 2024,纳贝格4-3B-2511报告得分为90.4,而Qwen3-32B-2504报告得分为81.4。在GPQA-Diamond上,纳贝格4-3B-2511报告得分为82.2,而Qwen3-14B-2504报告得分为64.0,Qwen3-32B-2504报告得分为68.7,这两个基准验证了研究“3B模型胜过10倍规模模型”的框架。
研究小组还在BFCL-V4上展示了强大的工具使用能力,纳贝格4-3B得分为53.8,而Qwen3-32B得分为47.9,Qwen3-30B-A3B得分为48.6。在Arena-Hard V2上,纳贝格4-3B得分为60.0,匹配了论文中该比较表中列出的最高分。同时,该模型并非每个类别都最佳,在Fullstack-Bench上的得分为48.0,低于Qwen3-14B的55.7和Qwen3-32B的58.2,在SuperGPQA上的得分为53.2,略低于Qwen3-32B的54.1。
关于训练过程,和纳贝格3B模型推动至30B级推理的多个阶段及其成果:
-
混合数据过滤和尺度重采样:对于预训练,研究团队结合多维度标签和基于相似度的评分。将标注空间减少到20个维度,并报告了两个关键发现:与内容相关的标签比格式标签更具预测性,而细粒度的0到9评分方案优于二进制标签。
-
细粒度温上升稳定下降(FG-WSD)和特性调度器:大多数类似的研究项目将预热稳定衰减视为仅作为学习率调度。纳贝格4-3B通过FG-WSD引入稳定阶段中的数据课程,即细粒度温上升稳定下降。而不是在稳定训练期间始终采样固定混合物,他们逐渐在训练的后期集中更高质量的数据。
-
多阶段SFT和监督痕迹的修复:训练后的开始是冷启动SFT,然后是整体SFT。冷启动阶段使用约3000万个针对数学、科学和代码的QA样本,上下文长度为32K,内容包括大约50%的数学推理、30%的科学推理和20%的代码任务。
-
DPD蒸馏和验证器的多阶段RL:蒸馏使用双层偏好蒸馏,DPD。学生从教师模型学习令牌级别分布,而序列级DPO目标最大化正负响应之间的差距。
比较表格展示了几种基准测试上的得分,以及研究的关键成果。
主要收获:
- 3B模型在推理上可以超过更大的开放模型,在平均采样设置下,纳贝格4-3B-Thinking报告AIME 2024 avg@8 90.4比Qwen3-32B 81.4,GPQA-Diamond avg@3 82.2比Qwen3-14B 64.0。
- 研究小组在评估方面非常小心,这些都是带有特定解码的avg@k结果,而非单次准确率。
- 预训练的收益与数据课程相关,而不仅仅是更多令牌。
- 训练后的重点在于监督质量,然后是偏好感知蒸馏。
更多论文信息、模型权重、教程代码、GitHub页面、Twitter、Reddit社区和Newsletter订阅信息可以在文中链接看到。