蚂蚁集团发布LingBot-VLA，一个用于现实世界机器人操作的电影语言行为基础模型。

如何构建一个单一视觉语言动作模型，使其能够在现实世界中控制多种不同的双臂机器人？LingBot-VLA是蚂蚁集团Robbyant公司的新视觉语言动作基础模型，旨在用于现实世界的机器人操作。它是在大约20,000小时的远程操控双臂数据集上训练的，这个数据集是从9种双臂机器人实体中收集的，并在大规模GM-100基准测试中的3个平台上进行了评估。该模型旨在实现跨形态泛化、数据高效的后训练和高效训练吞吐量。

https://arxiv.org/pdf/2601.18692

在9个机器人实体上的大规模双臂数据集

预训练数据集是从9种流行的双臂配置的真实世界远程操控中构建的。这些包括AgiBot G1、AgileX、Galaxea R1Lite、Galaxea R1Pro、Realman Rs 02、Leju KUAVO 4 Pro、青龙类人形、ARX Lift2和一个双臂Franka设置。所有系统都配备了双6自由度或7自由度臂部，带有平行夹爪和多个RGB-D摄像头，可以提供多视角观察。

对于AgiBot G1，远程操控使用VR控制，对于AgileX则是同构臂控制。对于每个场景，记录的视频都会由人类注释员分割成与原子操作对应的剪辑。每个剪辑开头和结尾的静态帧被移除以减少冗余。然后使用Qwen3-VL-235B-A22B生成任务级别和子任务级别的语言指令。这个流程产生了用于预训练的图像、指令和动作轨迹的同步序列。

为了表征动作多样性，研究团队通过词云可视化了培训和测试中的最常见原子操作。测试集中有大约50%的原子操作在训练集中前100个最常见动作中未出现。这个差距确保了评估侧重于跨任务泛化，而不是基于频率的记忆。

https://arxiv.org/pdf/2601.18692

架构、Transformer的混合和动作匹配

LingBot-VLA通过混合Transformer架构，将强大的多模态骨干网络与动作专家结合起来。视觉语言骨干是Qwen2.5-VL。它将多视角操作图像和自然语言指令编码成一系列多模态标记。同时，动作专家接收机器人内在状态和先前动作的块。两个分支共享一个自注意力模块，该模块对观察和动作标记执行层次序列建模。

在每个时间步，模型形成了一个观察序列，该序列通过连接来自3个摄像头的标记、任务指令和机器人状态。动作序列是一个时间跨度设置为50的未来动作块。训练目标是条件流动匹配。该模型学习一个矢量场，它沿着线性概率路径将高斯噪声传输到真实动作轨迹。这给出了一种连续的动作表示，并产生了平滑、时间上连续的控制，适用于精确的双臂操纵。

LingBot-VLA在联合序列上使用块状因果注意力。观察标记可以双向注意彼此。动作标记可以注意所有观察标记和仅注意过去动作标记。这个掩码防止了从未来动作中泄露信息到当前观察，同时允许动作专家在每个决策步骤利用完整的多模态上下文。

通过LingBot Depth蒸馏进行空间感知

许多VLA模型在深度传感器失败或返回稀疏测量时难以进行深度推理。LingBot-VLA通过整合基于掩码深度建模的独立空间感知模型LingBot-Depth来解决此问题。LingBot-Depth在大型的RGB-D语料库上以自监督方式进行训练，并学会在深度图的某些部分被掩码时，通常在物理传感器容易失败的区域，重建密集的度量深度。

在LingBot-VLA中，来自每个摄像头的视觉查询通过一个投影层和蒸馏损失与LingBot-Depth标记对齐。跨注意力将VLM查询到深度潜在空间，训练最小化它们与LingBot-Depth特征的差异。这为策略注入了几何感知信息，并提高了在需要精确3D空间推理的任务（如插入、堆叠、折叠）上的性能。

在3个平台上的GM-100现实世界基准测试

主要评估使用了GM-100，这是一个包含100个操作任务和每个任务在3个硬件平台上各有130个过滤远程操作轨迹的现实世界基准测试。实验在共享后训练协议下比较了LingBot-VLA与π0.5、GR00T N1.6和WALL-OSS。所有方法都从相同的公共检查点微调，数据集批大小为256，训练20个周期。成功率衡量在3分钟内完成所有子任务的情况，进度分数跟踪部分完成的情况。

在GM-100上，带有深度信息的LingBot-VLA在3个平台上都实现了最先进的平均成功率和平均进度分数。平均成功率为17.30%，平均进度分数为35.41%。π0.5的成功率（SR）为13.02%，进度分数（PS）为27.65%。GR00T N1.6和WALL-OSS分别较低，成功率为7.59%，进度分数为15.99%，成功率为4.05%，进度分数为10.35%。不带深度的LingBot-VLA已经超越了GR00T N1.6和WALL-OSS，带深度的变体进一步提升了性能。

在RoboTwin 2.0模拟中，共50个任务，在干净场景中为每个任务训练50个演示，在随机化场景中为每个任务训练500个演示。带有深度的LingBot-VLA在干净场景中的平均成功率达到88.56%，在随机化场景中为86.68%。在相同的设置下，π0.5分别达到82.74%和76.76%。这表明，当领域随机化强大时，相同的架构和深度集成可以带来一致的收益。

https://arxiv.org/pdf/2601.18692

扩展行为和数据高效的后训练

研究团队通过将预训练数据从3000小时到20000小时，在25个任务子集上进行了扩展定律分析。成功率和进度分数随着数据量的增加而单调增加，没有达到最大规模的饱和。这是第一项实证研究，表明VLA模型在这个规模上维持了有利的扩展。

他们还研究了在AgiBot G1上使用8个代表性的GM-100任务的后训练的数据效率。仅使用每个任务80个演示，LingBot-VLA已经在成功率（SR）和进度分数（PS）两个方面超过了使用完整的130个演示集的π0.5。随着更多轨迹的增加，性能差距正在扩大。这证实了预训练策略只需要几十到大约100个特定任务的轨迹就可以迁移，这直接降低了新机器人或任务的适应成本。

训练吞吐量和开源工具包

LingBot-VLA带有针对多节点效率优化的训练栈。代码库使用参数和优化器状态FSDP风格策略，动作专家使用混合分片，混合精度（float32减少和bfloat16存储），以及使用融合注意内核和torch compile的运算符级别加速。

在8 GPU环境中，研究团队报告了Qwen2.5-VL-3B和PaliGemma-3B-pt-224模型配置的每GPU每秒261个样本的吞吐量。这比在相同基于Libero基准测试上评估的现有VLA定向代码库，如StarVLA、Dexbotic和OpenPI，快1.5到2.8倍。吞吐量在从8到256 GPU迁移时接近线性扩展。完整的后训练工具包作为开源发布。

关键要点

LingBot-VLA是一个基于Qwen2.5-VL的视觉语言动作基础模型，在约20,000小时的真实世界双臂远程操控数据上进行了训练，该数据来自9种双臂机器人实体，这使得它在跨形态和跨任务泛化方面表现出色。
模型通过特征蒸馏整合LingBot Depth，因此视觉标记与深度完成专家对齐，这显著提高了对插入、堆叠、折叠和其他几何敏感任务的3D空间理解能力。
在GM-100现实世界基准测试中，带有深度的LingBot-VLA实现了约17.30%的平均成功率和35.41%的平均进度分数，这比在相同后训练协议下测试的π0.5、GR00T N1.6和WALL-OSS都要高。
LingBot-VLA在后训练过程中表现出高数据效率，因为在不带深度的AgiBot G1上，它可以使用每个任务大约80个演示胜过使用每个任务130个演示的π0.5，并且随着更多轨迹的增加，性能继续提高。

查看论文、模型权重、Repo和项目页面。也请随意关注我们的Twitter，别忘了加入我们的10万+机器学习SubReddit和订阅我们的时事通讯。等等！你在telegram吗？现在您也可以加入我们的telegram群组。

首先发表在MarkTechPost上的文章Ant Group发布LingBot-VLA，一个针对现实世界机器人操作的可视化语言动作基础模型。