NVIDIA AI发布Nemotron-Elastic-12B：一个无需额外训练成本的单一AI模型，可提供6B/9B/12B变体。

为什么AI开发团队仍在为不同的部署需求训练和存储多个大型语言模型，而一个可伸缩的模型可以以相同的成本生成多个尺寸？NVIDIA正在将通常的“模型家族”堆叠合并为一个单独的训练任务。NVIDIA AI团队发布Nemotron-Elastic-12B，一个12B参数的推理模型，该模型在同一参数空间中内嵌了9B和6B的变体，因此这三种尺寸都来自一个可伸缩的检查点，无需对每个尺寸进行额外的蒸馏运行。

一个模型家族中的多个模型

大多数生产系统需要多个模型尺寸，一个较大的模型用于服务器端工作负载，一个中等尺寸的模型用于强大的边缘GPU，一个较小的模型用于严格的延迟或电源预算。通常的管道对每个尺寸分别进行训练或蒸馏，因此标记成本和检查点存储与变体的数量成比例。

Nemotron Elastic采取不同的路径。它从Nemotron Nano V2 12B推理模型开始，并训练了一个可伸缩的混合Mamba Attention网络，该网络公开了多个嵌套的子模型。发布的Nemotron-Elastic-12B检查点可以使用提供的切片脚本切割成9B和6B变体，Nemotron-Elastic-9B和Nemotron-Elastic-6B，而无需任何额外的优化。

所有变体共享权重和路由元数据，因此训练成本和部署内存都与最大模型相关，而不是与家族中的尺寸数量相关。

https://arxiv.org/pdf/2511.16664v1

混合Mamba Transformer带可伸缩掩码

在架构上，Nemotron Elastic是一个Mamba-2 Transformer混合体。基础网络遵循Nemotron-H风格设计，其中大部分层都是基于Mamba-2的序列状态空间块加MLP，一小部分注意力层保留了全局感受野。

可伸缩性通过将这种混合体变成由掩码控制的动态模型来实现：

宽度、嵌入通道、Mamba头、头通道、注意力头和FFN中间尺寸可以通过二进制掩码减少。
深度、层可以根据学习到的排序顺序进行裁剪，残差路径保持信号流。

路由模块为每个预算输出离散配置选择。将这些选择转换为Gumbel Softmax掩码，然后应用于嵌入、Mamba投影、注意力投影和FFN矩阵。研究团队添加了一些细节以保持SSM结构的有效性：

分组感知的SSM弹性化，尊重Mamba头和通道分组。
异构MLP弹性化，其中不同层可以有不同的大小。
基于归一化MSE的层重要性来决定哪些层在深度减少时留留下来。

较小的变体始终是排名组件列表中的前缀选择，这使得6B和9B模型成为12B父模型的真正嵌套子网络。

https://arxiv.org/pdf/2511.16664v1

推理工作负载的两阶段训练

Nemotron Elastic作为具有冻结教师推理模型进行训练。教师是原始的Nemotron-Nano-V2-12B推理模型。弹性12B学生针对所有三个预算，6B、9B、12B进行联合优化，使用知识蒸馏加上语言建模损失。

训练分两个阶段进行：

第一阶段：短上下文，序列长度8192，批量大小1536，约65B个标记，在三个预算上均匀采样。
第二阶段：扩展上下文，序列长度49152，批量大小512，约45B个标记，采用非均匀采样，优先考虑完整的12B预算。

https://arxiv.org/pdf/2511.16664v1

第二阶段对于推理任务来说很重要。上面的表格显示，对于AIME 2025，6B模型在扩展上下文训练后从56.88提高到68.13，相对增益为19.8%，而9B模型增益9.7%，12B模型在扩展上下文训练后增益4.0%。

预算采样也进行了调整。在第二阶段，12B、9B、6B的非均匀权重为0.5、0.3、0.2，避免了最大模型的退化，并保持了所有变体在与Math 500、AIME 2025和GPQA的竞争中具有竞争力。

基准测试结果

Nemotron Elastic在推理密集型基准测试上进行了评估，包括MATH 500、AIME 2024、AIME 2025、GPQA、LiveCodeBench v5和MMLU Pro。以下表格总结了在1准确率下的通过率。

https://arxiv.org/pdf/2511.16664v1

12B可伸缩模型在平均意义上与NanoV2-12B基线相当，为77.41比77.38，同时还提供了来自同一运行中的9B和6B变体。9B可伸缩模型与NanoV2-9B基线紧密跟踪，为75.95比75.99。6B可伸缩模型达到70.61，略低于Qwen3-8B在72.68，但考虑到其参数数量，仍然很强大，因为它并没有单独进行训练。

训练标记和内存节省

Nemotron Elastic直接针对成本问题。以下表格比较了从12B父模型派生6B和9B模型所需的标记预算：

NanoV2预训练6B和9B，总共40T个标记。
NanoV2压缩加Minitron SSM，480B探查加270B最终，750B个标记。
Nemotron Elastic，单次弹性蒸馏运行中110B个标记。

https://arxiv.org/pdf/2511.16664v1

该研究团队报告称，这比从头开始训练两个额外模型减少了大约360倍，与压缩基线相比减少了大约7倍。

部署内存也得到了减少。以下表格声明，存储Nemotron Elastic 6B、9B和12B总共需要24GB的BF16权重，而存储NanoV2 9B加12B则需要42GB。这减少了43%的内存，同时还可以额外提供一个6B选项。

https://arxiv.org/pdf/2511.16664v1

比较

系统	尺寸 (B)	平均推理分数*	6B + 9B所需的标记	BF16内存
Nemotron Elastic	6, 9, 12	70.61 / 75.95 / 77.41	110B	24GB
NanoV2 Compression	9, 12	75.99 / 77.38	750B	42GB
Qwen3	8	72.68	n / a	n / a

关键要点

Nemotron Elastic训练一个包含嵌套9B和6B变体的12B推理模型，这些变体可以通过零样本提取，无需额外的训练。
弹性家族使用混合Mamba-2和Transformer架构，以及一个学习到的路由器，该路由器通过在宽度和深度上应用结构化掩码来定义每个子模型。
该方法需要110B训练标记从12B父模型中派生6B和9B，这比750B令牌的Minitron SSM压缩基线少了大约7倍，比从头开始训练额外模型少了大约360倍。
在推理基准测试，如MATH 500、AIME 2024和2025、GPQA、LiveCodeBench和MMLU Pro上，6B、9B和12B弹性模型达到了平均分数约为70.61、75.95和77.41，这与或接近NanoV2基线，并与Qwen3-8B具有竞争力。
所有三个尺寸共享一个24GB BF16检查点，因此与约42GB的单独NanoV2-9B和12B模型相比，部署内存保持恒定，这为多级LLM部署简化了车队管理。总体而言，Nemotron-Elastic-12B将多尺寸推理LLM转换为单个弹性系统设计问题。

查看论文和模型权重。请随意检查我们的GitHub页面，包含教程、代码和笔记本。此外，请随意关注我们的Twitter，并别忘了加入我们的10k+机器学习SubReddit和订阅我们的时事通讯。等等！你使用Telegram吗？现在你可以在telegram上加入我们了。

文章NVIDIA AI发布Nemotron-Elastic-12B：一个无需额外训练成本的单一AI模型即可生成6B/9B/12B变体首先出现在MarkTechPost。