NVIDIA AI将Nemotron-3-Nano-30B引入NVFP4，通过量化感知蒸馏(QAD)实现高效的推理推理。

NVIDIA发布Nemotron-Nano-3-30B-A3B-NVFP4，实现近似博格标准精度，同时保持接近BF16基线的准确度

NVIDIA已发布生产性检查点Nemotron-Nano-3-30B-A3B-NVFP4，该检查点以4位NVFP4格式运行30B参数推理模型，同时保持了与BF16基线接近的准确性。该模型结合了混合Mamba2 Transformer Mixture of Experts架构和专为NVFP4部署设计的量化感知蒸馏（QAD）方案。总体而言，它是Nemotron-3-Nano的NVFP4超高效精度版本，在Blackwell B200上的吞吐量最高可提高4倍。

示例图片

https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4

Nemotron-Nano-3-30B-A3B-NVFP4是什么？

Nemotron-Nano-3-30B-A3B-NVFP4是NVIDIA团队从头开始训练的Nemotron-3-Nano-30B-A3B-BF16量化版本，作为统一推理和聊天模型。它构建为一个混合Mamba2 Transformer MoE网络：

总共30B个参数
深度为52层
23个Mamba2和MoE层
6个分组的查询注意力层，每2组一个
每个MoE层有128个路由专家和1个共享专家
每个token有6个激活的专家，每个token约3.5B个活动参数

该模型使用Warmup Stable Decay学习率计划在25T个token上进行预训练，批量大小为3072，最大学习率为1e-3，最小学习率为1e-5。

训练后遵循3个阶段的流程：

在代码、数学、科学、工具调用、指令跟随和结构化输出的人工合成了数据上监督微调。
在多步工具使用、多轮聊天和结构化环境中进行强化学习，以及RLHF和生成奖励模型。
进行后训练量化到NVFP4，使用FP8 KV缓存和选择性高精度布局，然后进行QAD。

NVFP4检查点保持注意力层和其馈入的Mamba层为BF16，将剩余层量化为NVFP4，并使用FP8进行KV缓存。

NVFP4格式及其重要性

NVFP4是一种为在最新NVIDIA GPU上进行训练和推理而设计的4位浮点格式。NVFP4的主要特性：

与FP8相比，NVFP4提供2到3倍的算术吞吐量。
通过约1.8倍减少权重和激活的内存使用。
通过将块大小从32减少到16来扩展MXFP4，并引入了两级缩放。

两阶缩放使用每个块E4M3-FP8缩放和每个张量FP32缩放。较小的块大小允许量化器适应局部统计信息，双重缩放在保持量化误差低的同时增加动态范围。

对于非常大的LLM，简单的后训练量化（PTQ）到NVFP4已在基准测试中给出相当好的准确性。对于较小的模型，特别是大量使用邮递管道的模型，研究团队指出，PTQ会导致不可忽视的准确性下降，这促使他们采用基于训练的恢复方法。

从QAT到QAD

标准的量化感知训练（QAT）在正向传递中插入伪量化并重复使用原始任务损失，例如下一个token交叉熵。这对于卷积网络来说效果不错，但研究团队为现代LLM列举了2个主要问题：

复杂的多阶段后训练管道，如SFT、RL和模型合并，很难重现。
开放模型的原始训练数据通常不可用。

量化感知蒸馏（QAD）更改目标而不是整个流程。一个冻结的BF16模型充当教师，NVFP4模型是一个学生。以最小化两个输出token分布之间的KL散度来训练，而不是原始的监督或RL目标。

研究成果强调QAD的3个特性：

它比QAT更准确地使量化模型与高精度教师对齐。
即使教师在已经经历了几个阶段，如监督微调、强化学习和模型合并，它也能保持稳定，因为QAD只尝试匹配最终的教师行为。
它可以与部分、合成的或过滤的数据一起使用，因为它只需要输入文本来查询教师和学生，而不是原始标签或奖励模型。

Nemotron-3-Nano-30B的基准测试

Nemotron-3-Nano-30B-A3B是QAD研究中.argmax重模型之一。以下表格显示了NVFP4-QAT和NVFP4-QAD在AA-LCR、AIME25、GPQA-D、LiveCodeBench-v5和SciCode-TQ上的准确性。

示例图片

https://research.nvidia.com/labs/nemotron/files/NVFP4-QAD-Report.pdf

主要结论

Nemotron-3-Nano-30B-A3B-NVFP4是一个以4位NVFP4运行、FP8 KV缓存和少量BF16层以保持稳定性的30B参数混合Mamba2 Transformer MoE模型，每个token大约有3.5B个活动参数，并支持最多1M个token的上下文窗口。
NVFP4是一种4位浮点格式，具有16字节的块大小和两级缩放，使用每个块E4M3-FP8缩放和每个张量FP32缩放，与FP8相比，在权重和激活方面提供约2到3倍的算术吞吐量和约1.8倍较低的内存消耗。
量化感知蒸馏（QAD）使用KL散度替换了原始任务损失，以与冻结的BF16教师进行匹配，因此NVFP4学生直接匹配教师输出分布，而不需要播放完整的SFT、RL和模型合并流程或需要原始奖励模型。
使用新的量化感知蒸馏方法，NVFP4版本实现了高达99.4%的BF16精度。
在AA-LCR、AIME25、GPQA-D、LiveCodeBench和SciCode上，NVFP4-PTQ显示出可观的准确性损失，NVFP4-QAT进一步恶化，而NVFP4-QAD将性能恢复到接近BF16的水平，将这些推理和编码基准测试中的差距减少到只有几个点。

阅读完整论文和模型权重。也欢迎关注我们的Twitter，不要忘记加入我们的100k+ ML SubReddit和订阅我们的Newsletter。等等！你在Telegram上吗？[现在你可以在Telegram上加入我们了。](https://t.me/machinelearningresearchnews)

原文链接：NVIDIA AI将Nemotron-3-Nano-30B带入NVFP4，使用量化感知蒸馏（QAD）以提高高效推理。