Robbyant开源LingBot World：实时世界模型，用于交互式模拟和具身人工智能

AI单元Robbyant位于蚂蚁集团内部，已开源LingBot-World，这是一个大规模世界模型，将视频生成转换成可交互的模拟器，适用于具身智能、自动驾驶和游戏。该系统旨在渲染可控制的、高视觉保真度、强动态和长时间前景的环境，同时保持足够的响应性，以实现实时控制。

从文本到视频到世界

大多数文生视频模型生成的是看似逼真但行为像被动电影的短片。它们没有模拟动作如何随时间改变环境。LingBot-World的结构是一个动作条件的世界模型。它学习虚拟世界的转换动力学，使键盘和鼠标输入以及相机移动能够驱动未来帧的演变。

形式上，该模型学习基于前几帧、语言提示和离散动作预测未来视频令牌的条件分布。训练时，它预测约60秒的序列。在推理时，它可以通过自回归地生成连贯的视频流，大约延伸到10分钟，同时保持场景结构稳定。

数据引擎：从网络视频到交互式轨迹

LingBot-World的核心设计是一个统一的数据引擎。它提供丰富的同步监督，涵盖多样性的真实场景，以便动作改变世界的方式。

数据采集管道结合了3种来源：

来自大规模网络视频的人类、动物和车辆的图像，包括第一人称和第三人称视角
游戏数据，其中RGB帧严格与W、A、S、D和相机参数等用户控制相匹配
使用虚幻引擎渲染的合成轨迹，其中干净的帧、相机内参和外参以及对象布局都是已知的

在收集后，一个分析阶段标准化了这个异质语料库。它根据分辨率和持续时间进行筛选，将视频分段成片段，并使用几何和姿态模型估计缺失的相机参数。视觉语言模型对剪辑进行评分，以评估质量、运动程度和视图类型，然后选择精选子集。

在此之上，一个分层字幕模块建立了3级文本监督：

对整个轨迹的叙述字幕，包括相机运动
描述环境布局且不包含运动的场景静态字幕
用于短时间内关注局部动态的密集时间字幕

这种分离使模型能够将静态结构从运动模式中分离出来，这对于长期前景的一致性很重要。

架构：MoE视频骨干和动作条件

LingBot-World从 Wan2.2 开始，这是一个14B参数的图像到视频扩散变换器。这个骨干已经捕捉到了强大的开放域视频先验。Robbyant团队将其扩展为一个专家的混合，具有2个专家。每个专家约有14B个参数，因此总参数计数为28B，但在每个去噪步骤中只有一个专家是激活的。这保持了推理成本类似于密集的14B模型，同时又扩大了容量。

一个课程从5秒扩展到60秒的训练序列。该计划增加高噪声时间步的比率，这稳定了长期上下文中的全局布局，并减少了长卷出中的模式崩溃。

为了使模型互动，动作被直接注入到变换器块中。相机旋转使用Plücker嵌入进行编码。键盘动作以W、A、S、D等键的多热向量表示。这些编码被融合并通过自适应层归一化模块传递，该模块调节DiT中的隐藏状态。只有动作适配器层被微调，主要的视频骨干保持冻结，因此模型保留了来自预训练的视觉质量，同时从更小的交互数据集中学习动作响应性。

训练既使用图像到视频也使用视频到视频的继续任务。给定单个图像，模型可以合成未来的帧。给定部分剪辑，它可以扩展序列。这导致内部转换函数可以从任意时间点开始。

LingBot World Fast：实时应用的蒸馏

中期训练的模型LingBot-World Base仍然依赖于多步扩散和完整的时间注意，这对于实时交互来说是昂贵的。Robbyant团队推出了LingBot-World-Fast作为加速版本。

快速模型从高噪声专家初始化，并使用块因果注意来替换完整的时间注意。在每个时间块内部，注意是双向的。在块之间，它是因果的。这种设计支持键值缓存，因此该模型可以以更低的成本自动回归地流式传输帧。

蒸馏使用扩散强迫策略。学生网络在包括时间步0在内的小集合的目标时间步进行训练，因此它可以看到既扰动又干净的潜在状态。分布匹配蒸馏与对抗性判别器头相结合。对抗性损失仅更新判别器。通过蒸馏损失更新学生网络，这稳定了训练，同时保持了动作跟随和时间一致性。

在实验中，当在具有1个GPU节点的系统上处理480p视频时，LingBot World Fast达到每秒16帧，并且，在实时控制中保持了端到端的交互延迟小于1秒。

涌现记忆和长期行为

LingBot-World最有趣的特性之一是涌现记忆。该模型无需使用高斯喷溅等显式的3D表示来维护全局一致性。当相机从如巨石阵等地标处移动开去，并在大约60秒后返回时，该结构会以一致的地形重新出现。当一辆车离开画面并稍后重新进入时，它会在物理可能的位置出现，而不会冻结或重置。

该模型还可以维持超长序列。研究团队展示了连贯的视频生成，可持续长达10分钟，具有稳定的布局和叙事结构。

VBench结果与其他世界模型的比较

为了进行定量评估，研究团队使用VBench在精心整理的100个生成视频中进行了测试，每个视频都长于30秒。LingBot-World与Yume-1.5和HY-World-1.5这两个最近的世界模型进行了比较。

在VBench上，LingBot World报告：

[此处显示VBench报告的图像]

[此处显示链接]

这些分数高于两个基线在图像质量、美学质量和动态程度方面。动态程度差距很大，为0.8857，与0.7612和0.7217相比，这表明更丰富的场景转换和更复杂的运动，这些运动对用户输入做出响应。运动平滑度和时间闪烁与最佳基线相当，并且该方法在3个模型中实现了最佳的整体一致性指标。

与其他交互式系统（如Matrix-Game-2.0、Mirage-2和Genie-3）的单独比较突出显示，与其他系统相比，LingBot-World是少数几个全开源的世界模型之一，它结合了通用领域覆盖、长期生成前景、高动态程度、720p分辨率和实时能力。

[此处显示与其他交互式系统的比较图像]

[此处显示链接]

应用：可提示的世界、代理和3D重建

除了视频合成之外，LingBot-World定位为具身AI的测试平台。该模型支持可提示的世界事件，其中文本指令随时间改变天气、光照、风格或注入本地事件，例如烟花或移动的动物，同时保留空间结构。

它还可以训练下游动作代理，例如使用小型的视觉语言动作模型Qwen3-VL-2B从图像预测控制策略。由于生成的视频流在几何上是一致的，因此它们可以用作输入到3D重建管道，从而为室内、室外和合成场景生成稳定的点云。

主要结论

LingBot-World是一个动作条件的世界模型，它将文本到视频扩展到文本到世界模拟，其中键盘动作和相机运动直接控制长达约10分钟的长期视频卷出。
系统在统一的数据引擎上进行训练，该引擎结合了网络视频、带动作标签的游戏日志和虚幻引擎轨迹，以及分层的故事、静态场景和密集时间字幕，以分离布局从运动模式中分离出来。
核心骨干是基于 Wan2.2 的 28B 参数的专家混合扩散变换器，具有2个14B参数的专家，以及动作适配器，这些适配器在进行微调时，视觉骨干保持冻结。
LingBot-World-Fast是一种蒸馏变体，它使用块因果注意、扩散强迫和分布匹配蒸馏，在1个GPU节点上以480p的分辨率实现约每秒16帧，报告的端到端交互延迟低于1秒。
在VBench上的100个超过30秒的生成视频中，LingBot-World报告了在Yume-1.5和HY-World-1.5中的最高图像质量、美学质量动态程度，并且该模型显示了涌现记忆和稳定的长期结构，适用于具身代理和3D重建。

请查看论文、代码库、项目页面和模型权重。也欢迎关注我们的Twitter，不妨加入我们的10k+机器学习SubReddit，并订阅我们的通讯。等等！你在电报上吗？现在你可以在电报上加入我们了。

这篇帖子《Robbyant开源LingBot World：用于交互式模拟和具身AI的实时世界模型》最早出现在MarkTechPost。