NVIDIA AI发布了Nemotron语音识别(ASR):一种全新开源的转录模型,专为低延迟用例,如语音代理,从头开发而来。
NVIDIA刚刚发布了其专为低延迟语音代理和实时字幕设计的全新流式英语转录模型(Nemotron Speech ASR)。Hugging Face上的检查点nvidia/nemotron-speech-streaming-en-0.6b结合了一个缓存感知的FastConformer编码器和RNNT解码器,并针对现代NVIDIA GPU上的流式和批量任务进行了调整。
模型设计、架构和输入假设
Nemotron Speech ASR(自动语音识别)是一个基于24层缓存感知FastConformer编码器和RNNT解码器的600M参数模型。编码器使用激进的8x卷积下采样来减少时间步数,这直接降低了流式工作负载的计算和内存成本。该模型消耗16 kHz单声道音频,并要求每个音频块至少有80 ms的输入音频。
通过可配置的上下文字大小来控制运行时延迟。该模型公开了4个标准的块配置,分别对应约80 ms、160 ms、560 ms和1.12 s的音频。这些模式由att_context_size参数驱动,该参数设置左右注意力上下文为80 ms帧的倍数,并在推理时间内可更改而不需要重新训练。
缓存感知的流式,不是缓冲的滑动窗口
传统的“流式ASR”通常使用重叠窗口。每个传入的窗口重新处理部分前面的音频以保持上下文,这浪费了计算并导致延迟随并发性增加而上升。
Nemotron Speech ASR相反,为所有自注意力层和卷积层保持编码器状态缓存。每个新块处理一次,模型重用缓存激活而不是重新计算重叠上下文。这给出了:
- 非重叠帧处理,因此工作量线性地随音频长度增加
- 可预测的内存增长,因为缓存大小随着序列长度增加,而不是与并发相关的重复
- 在负载下的稳定延迟,这对于语音代理中的轮流和干扰至关重要
准确度与延迟:在流式约束下的WER
Nemotron Speech ASR在Hugging Face OpenASR排行榜数据集上进行了评估,包括AMI、Earnings22、Gigaspeech和LibriSpeech。准确度以不同块大小的词错误率(WER)报告。
在这些基准的平均值中,模型实现了:
- 在0.16 s块大小下约7.84 percent的WER
- 在0.56 s块大小下约7.22 percent的WER
- 在1.12 s块大小下约7.16 percent的WER
这说明了延迟准确度的权衡。较大的块提供了更多的语音内容上下文和略微较低的WER,但即使是0.16 s模式也能将WER保持在8 percent以下,同时仍然适用于实时代理。开发者可以在推理时间内根据应用程序需求选择操作点,例如160 ms用于激进的声音代理,或560 ms用于以转录为中心的工作流程。
在现代GPU上的吞吐量和并发性
缓存感知的设计对并发性有可测量的影响。在NVIDIA H100 GPU上,Nemotron Speech ASR在320 ms块大小下支持约560个并发流,大约比同一延迟目标下的基线流式系统高3倍。RTX A5000和DGX B200基准测试显示出类似的吞吐量增益,与典型延迟设置相比,A5000上超过5倍,B200上高达2倍。
同样重要的是,随着并发的增加,延迟保持稳定。在Modal的560 ms模式下的127个并发WebSocket客户端测试中,系统保持了约182 ms的中等端到端延迟,没有漂移,这对于必须与多分钟会话中的实时语音保持同步的代理至关重要。
训练数据和生态系统集成
Nemotron Speech ASR主要在NVIDIA的Granary数据集的英语部分以及大量公共语音语料库上进行训练,总计约285k小时音频。数据集包括YouTube Commons、YODAS2、Mosel、LibriLight、Fisher、Switchboard、WSJ、VCTK、VoxPopuli和多个Mozilla Common Voice发布。标签结合了人工和ASR生成的转录。
主要结论
- Nemotron Speech ASR是一个0.6B参数的英语流式模型,使用缓存感知的FastConformer编码器和一个RNNT解码器运行,以16 kHz单声道音频为输入,每个音频块至少有80 ms。
- 该模型公开了4个推理时间块配置,约80 ms、160 ms、560 ms和1.12 s,这使得工程师可以在不重新训练的情况下,权衡延迟和准确度,同时将WER保持在标准的ASR基准测试中的7.2 percent到7.8 percent左右。
- 缓存感知的流式消除了重叠窗口的重新计算,因此每个音频帧只编码一次,这使H100上的并发流增加了约3倍,在RTX A5000上超过5倍,在DGX B200上高达2倍,与相似延迟的缓冲流基线相比。
- 在Nemotron Speech ASR、Nemotron 3 Nano 30B和Magpie TTS的端到端语音代理中,最终转录的测量中值为约24 ms,在RTX 5090上的服务器端语音到语音延迟约为500 ms,这使得ASR成为总延迟预算中的一小部分。
- Nemotron Speech ASR以NVIDIA Permissive Open Model License下的NeMo检查点形式发布,带有公开权重和训练细节,因此团队可以自行托管、微调和分析完整堆栈,以用于低延迟语音代理和语音应用。
查看模型权重这里。也请随意关注我们的Twitter,并别忘了加入我们的10万+机器学习SubReddit和订阅我们的时事通讯。等等!你在电报上吗?现在你也可以加入我们的电报群了。
查看我们的最新发布ai2025.dev,这是一个专注于2025年的分析平台,它将模型发布、基准测试和生态系统活动转换为可筛选、比较和导出的结构化数据集。
本文首先发布于MarkTechPost。