安爸-超级家庭

NVIDIA AI发布Nemotron-Elastic-12B:一个无需额外训练成本的单一AI模型,可提供6B/9B/12B变体。

安爸 发布于

为什么AI开发团队仍在为不同的部署需求训练和存储多个大型语言模型,而一个可伸缩的模型可以以相同的成本生成多个尺寸?NVIDIA正在将通常的“模型家族”堆叠合并为一个单独的训练任务。NVIDIA AI团队发布Nemotron-Elastic-12B,一个12B参数的推理模型,该模型在同一参数空间中内嵌了9B和6B的变体,因此这三种尺寸都来自一个可伸缩的检查点,无需对每个尺寸进行额外的蒸馏运行。

一个模型家族中的多个模型

大多数生产系统需要多个模型尺寸,一个较大的模型用于服务器端工作负载,一个中等尺寸的模型用于强大的边缘GPU,一个较小的模型用于严格的延迟或电源预算。通常的管道对每个尺寸分别进行训练或蒸馏,因此标记成本和检查点存储与变体的数量成比例。

Nemotron Elastic采取不同的路径。它从Nemotron Nano V2 12B推理模型开始,并训练了一个可伸缩的混合Mamba Attention网络,该网络公开了多个嵌套的子模型。发布的Nemotron-Elastic-12B检查点可以使用提供的切片脚本切割成9B和6B变体,Nemotron-Elastic-9B和Nemotron-Elastic-6B,而无需任何额外的优化。

所有变体共享权重和路由元数据,因此训练成本和部署内存都与最大模型相关,而不是与家族中的尺寸数量相关。

图片

https://arxiv.org/pdf/2511.16664v1

混合Mamba Transformer带可伸缩掩码

在架构上,Nemotron Elastic是一个Mamba-2 Transformer混合体。基础网络遵循Nemotron-H风格设计,其中大部分层都是基于Mamba-2的序列状态空间块加MLP,一小部分注意力层保留了全局感受野。

可伸缩性通过将这种混合体变成由掩码控制的动态模型来实现

  • 宽度、嵌入通道、Mamba头、头通道、注意力头和FFN中间尺寸可以通过二进制掩码减少。
  • 深度、层可以根据学习到的排序顺序进行裁剪,残差路径保持信号流。

路由模块为每个预算输出离散配置选择。将这些选择转换为Gumbel Softmax掩码,然后应用于嵌入、Mamba投影、注意力投影和FFN矩阵。研究团队添加了一些细节以保持SSM结构的有效性:

  • 分组感知的SSM弹性化,尊重Mamba头和通道分组。
  • 异构MLP弹性化,其中不同层可以有不同的大小。
  • 基于归一化MSE的层重要性来决定哪些层在深度减少时留留下来。

较小的变体始终是排名组件列表中的前缀选择,这使得6B和9B模型成为12B父模型的真正嵌套子网络。

图片

https://arxiv.org/pdf/2511.16664v1

推理工作负载的两阶段训练

Nemotron Elastic作为具有冻结教师推理模型进行训练。教师是原始的Nemotron-Nano-V2-12B推理模型。弹性12B学生针对所有三个预算,6B、9B、12B进行联合优化,使用知识蒸馏加上语言建模损失。

训练分两个阶段进行

  • 第一阶段:短上下文,序列长度8192,批量大小1536,约65B个标记,在三个预算上均匀采样。
  • 第二阶段:扩展上下文,序列长度49152,批量大小512,约45B个标记,采用非均匀采样,优先考虑完整的12B预算。

图片

https://arxiv.org/pdf/2511.16664v1

第二阶段对于推理任务来说很重要。上面的表格显示,对于AIME 2025,6B模型在扩展上下文训练后从56.88提高到68.13,相对增益为19.8%,而9B模型增益9.7%,12B模型在扩展上下文训练后增益4.0%。

预算采样也进行了调整。在第二阶段,12B、9B、6B的非均匀权重为0.5、0.3、0.2,避免了最大模型的退化,并保持了所有变体在与Math 500、AIME 2025和GPQA的竞争中具有竞争力。

基准测试结果

Nemotron Elastic在推理密集型基准测试上进行了评估,包括MATH 500、AIME 2024、AIME 2025、GPQA、LiveCodeBench v5和MMLU Pro。以下表格总结了在1准确率下的通过率。

图片

https://arxiv.org/pdf/2511.16664v1

12B可伸缩模型在平均意义上与NanoV2-12B基线相当,为77.41比77.38,同时还提供了来自同一运行中的9B和6B变体。9B可伸缩模型与NanoV2-9B基线紧密跟踪,为75.95比75.99。6B可伸缩模型达到70.61,略低于Qwen3-8B在72.68,但考虑到其参数数量,仍然很强大,因为它并没有单独进行训练。

训练标记和内存节省

Nemotron Elastic直接针对成本问题。以下表格比较了从12B父模型派生6B和9B模型所需的标记预算:

  • NanoV2预训练6B和9B,总共40T个标记。
  • NanoV2压缩加Minitron SSM,480B探查加270B最终,750B个标记。
  • Nemotron Elastic,单次弹性蒸馏运行中110B个标记。

图片

https://arxiv.org/pdf/2511.16664v1

该研究团队报告称,这比从头开始训练两个额外模型减少了大约360倍,与压缩基线相比减少了大约7倍。

部署内存也得到了减少。以下表格声明,存储Nemotron Elastic 6B、9B和12B总共需要24GB的BF16权重,而存储NanoV2 9B加12B则需要42GB。这减少了43%的内存,同时还可以额外提供一个6B选项。

图片

https://arxiv.org/pdf/2511.16664v1

比较

系统 尺寸 (B) 平均推理分数* 6B + 9B所需的标记 BF16内存
Nemotron Elastic 6, 9, 12 70.61 / 75.95 / 77.41 110B 24GB
NanoV2 Compression 9, 12 75.99 / 77.38 750B 42GB
Qwen3 8 72.68 n / a n / a

关键要点

  1. Nemotron Elastic训练一个包含嵌套9B和6B变体的12B推理模型,这些变体可以通过零样本提取,无需额外的训练。
  2. 弹性家族使用混合Mamba-2和Transformer架构,以及一个学习到的路由器,该路由器通过在宽度和深度上应用结构化掩码来定义每个子模型。
  3. 该方法需要110B训练标记从12B父模型中派生6B和9B,这比750B令牌的Minitron SSM压缩基线少了大约7倍,比从头开始训练额外模型少了大约360倍。
  4. 在推理基准测试,如MATH 500、AIME 2024和2025、GPQA、LiveCodeBench和MMLU Pro上,6B、9B和12B弹性模型达到了平均分数约为70.61、75.95和77.41,这与或接近NanoV2基线,并与Qwen3-8B具有竞争力。
  5. 所有三个尺寸共享一个24GB BF16检查点,因此与约42GB的单独NanoV2-9B和12B模型相比,部署内存保持恒定,这为多级LLM部署简化了车队管理。总体而言,Nemotron-Elastic-12B将多尺寸推理LLM转换为单个弹性系统设计问题。

查看论文模型权重。请随意检查我们的GitHub页面,包含教程、代码和笔记本。此外,请随意关注我们的Twitter,并别忘了加入我们的10k+机器学习SubReddit和订阅我们的时事通讯。等等!你使用Telegram吗?现在你可以在telegram上加入我们了

文章NVIDIA AI发布Nemotron-Elastic-12B:一个无需额外训练成本的单一AI模型即可生成6B/9B/12B变体首先出现在MarkTechPost


扫描二维码,在手机上阅读