NVIDIA AI发布Nemotron-Terminal:一个用于扩展LLM终端代理的系统数据工程流程。
自动驾驶AI代理的竞赛遇到了一个巨大的瓶颈:数据。尽管像Claude Code和Codex CLI这样的前沿模型在终端环境中的表现令人印象深刻,但它们的训练策略和数据混合方式一直是严格保密的。这种缺乏透明度迫使研究人员和开发者陷入代价高昂的尝试错误循环。
NVIDIA现在通过公布一个用于构建高性能终端代理的全面框架来打破这种沉默。通过引入终端任务生成器(Terminal-Task-Gen)和终端语料库(Terminal-Corpus)数据集,NVIDIA实际上为开发者社区提供了构建代理的蓝图,这些代理不仅可以“聊天”关于代码,而且可以以手术般的精确度实际执行它。

https://arxiv.org/pdf/2602.21193
数据稀缺问题
为命令行代理进行训练的挑战有两个。首先,存在基础资源的稀缺——特别是多样化的任务提示和创建现实环境所需的复杂依赖文件。其次,捕获‘轨迹’(一系列终端交互)在物流上非常痛苦。人工交互难以记录,并且通过LLM代理进行合成生成成本过高,因为它需要为每次转弯即时实例化新的Docker环境。
终端-任务生成器:双管齐下的策略
NVIDIA的解决方案是一个“从粗到精”的数据生成管线,称为终端-任务生成器(Terminal-Task-Gen)。它采用两种不同的策略来扩大训练数据,同时不费高昂的代价。
1. 数据集适配(粗糙层)
团队不是从头开始,而是利用了高质量的现有监督微调(SFT)数据集,来自数学、代码和软件工程(SWE)领域。他们将静态提示转换为交互式终端任务。
- 数学和代码:使用16.3K数学提示和3.5K代码提示,将挑战包裹在终端脚手架中。
- SWE:他们从SWE-bench和SWE-reBench等存储库中抽取了32K独特提示。巧妙之处在于,这个过程不需要LLM“在循环”中的初始适配,使其在扩大体积时非常高效。
2. 人工任务生成(精细层)
为了在一般推理与终端代理的特殊严格要求之间架起桥梁,NVIDIA团队使用终端-任务生成器(Terminal-Task-Gen)创建新的、可执行的任务。
- 种子式生成:LLM使用现有的科学计算或算法问题作为“灵感”来合成新任务。代理被迫安装包、读取输入文件并写入结果——模仿现实世界开发者的工作流程。
- 技能式生成:这部分很专业。NVIDIA制定了一个包含九个领域(包括安全、数据科学和系统管理)的“原始终端技能”分类法。然后,LLM被指示将3-5个这些原语(如图遍历+网络配置+文件I/O)组合成一个单一、复杂的任务。
解决基础设施开销
这项研究中最重大的工程技术突破之一是转向预建Docker镜像。以前的框架通常为每个任务生成一个独特的Dockerfile,导致巨大的构建时间开销和经常发生的失败。相反,NVIDIA团队维护了九个预先配置的共享基本镜像,其中包含了关键的库(如pandas用于数据科学或加密工具用于安全)。这种“单次通过”创建方法允许大规模并行化,并显着缩小资源占用。
性能:32B对比480B
以数据为中心的方法的结果是惊人的。NVIDIA团队使用此管线训练了从Qwen3初始化的Nemotron-Terminal系列模型。
在终端-Bench 2.0基准测试中,该测试评估代理在端到端工作流程(如训练机器学习模型或调试系统环境)上的表现,改进效果直线上升:
- Nemotron-Terminal-8B:从2.5%的成功率跃升至13.0%。
- Nemotron-Terminal-32B:实现了27.4%的准确性。
为了更具体地说明,32B模型优于480B Qwen3-Coder(23.9%)以及闭源巨头Grok 4(23.1%)和GPT-5-Mini(24.0%)的表现。这证明了对于终端代理,高质量、多样化的轨迹数据比参数规模本身的提升更有力。
关键见解
NVIDIA的研究还有助于驳斥数据工程中的几个常见误解:
- 不要过滤错误:研究团队发现,将“失败”的轨迹保留在训练数据中实际上可以提高性能(失败率降低约12.4%,而只过滤成功的过滤成功率为5.06%)。使模型接触现实错误状态和恢复模式可以使其更健壮。
- 跳过课程:他们尝试了“课程学习”(在硬数据之前在容易数据上进行训练),但发现简单的混合训练同等有效,甚至更好。
- 上下文长度限制:尽管终端轨迹可以很长,但大多数高质量监督都适合标准的32,768个令牌窗口。略微扩展上下文长度会损害性能,这可能是因为长尾轨迹往往更嘈杂。
查看论文和HF项目页面。同时,也欢迎您关注我们的Twitter,并欢迎您加入我们的120k+机器学习SubReddit和订阅我们的通讯。等一下!您在telegram上吗?现在您也可以加入我们。
这篇NVIDIA AI发布Nemotron-Terminal:扩展LLM终端代理的系统数据工程管线首先出现在MarkTechPost。