安爸-超级家庭

Robbyant开源LingBot World:实时世界模型,用于交互式模拟和具身人工智能

安爸 发布于

AI单元Robbyant位于蚂蚁集团内部,已开源LingBot-World,这是一个大规模世界模型,将视频生成转换成可交互的模拟器,适用于具身智能、自动驾驶和游戏。该系统旨在渲染可控制的、高视觉保真度、强动态和长时间前景的环境,同时保持足够的响应性,以实现实时控制。

从文本到视频到世界

大多数文生视频模型生成的是看似逼真但行为像被动电影的短片。它们没有模拟动作如何随时间改变环境。LingBot-World的结构是一个动作条件的世界模型。它学习虚拟世界的转换动力学,使键盘和鼠标输入以及相机移动能够驱动未来帧的演变。

形式上,该模型学习基于前几帧、语言提示和离散动作预测未来视频令牌的条件分布。训练时,它预测约60秒的序列。在推理时,它可以通过自回归地生成连贯的视频流,大约延伸到10分钟,同时保持场景结构稳定。

数据引擎:从网络视频到交互式轨迹

LingBot-World的核心设计是一个统一的数据引擎。它提供丰富的同步监督,涵盖多样性的真实场景,以便动作改变世界的方式。

数据采集管道结合了3种来源:

  1. 来自大规模网络视频的人类、动物和车辆的图像,包括第一人称和第三人称视角
  2. 游戏数据,其中RGB帧严格与W、A、S、D和相机参数等用户控制相匹配
  3. 使用虚幻引擎渲染的合成轨迹,其中干净的帧、相机内参和外参以及对象布局都是已知的

在收集后,一个分析阶段标准化了这个异质语料库。它根据分辨率和持续时间进行筛选,将视频分段成片段,并使用几何和姿态模型估计缺失的相机参数。视觉语言模型对剪辑进行评分,以评估质量、运动程度和视图类型,然后选择精选子集。

在此之上,一个分层字幕模块建立了3级文本监督:

  • 对整个轨迹的叙述字幕,包括相机运动
  • 描述环境布局且不包含运动的场景静态字幕
  • 用于短时间内关注局部动态的密集时间字幕

这种分离使模型能够将静态结构从运动模式中分离出来,这对于长期前景的一致性很重要。

架构:MoE视频骨干和动作条件

LingBot-World从 Wan2.2 开始,这是一个14B参数的图像到视频扩散变换器。这个骨干已经捕捉到了强大的开放域视频先验。Robbyant团队将其扩展为一个专家的混合,具有2个专家。每个专家约有14B个参数,因此总参数计数为28B,但在每个去噪步骤中只有一个专家是激活的。这保持了推理成本类似于密集的14B模型,同时又扩大了容量。

一个课程从5秒扩展到60秒的训练序列。该计划增加高噪声时间步的比率,这稳定了长期上下文中的全局布局,并减少了长卷出中的模式崩溃。

为了使模型互动,动作被直接注入到变换器块中。相机旋转使用Plücker嵌入进行编码。键盘动作以W、A、S、D等键的多热向量表示。这些编码被融合并通过自适应层归一化模块传递,该模块调节DiT中的隐藏状态。只有动作适配器层被微调,主要的视频骨干保持冻结,因此模型保留了来自预训练的视觉质量,同时从更小的交互数据集中学习动作响应性。

训练既使用图像到视频也使用视频到视频的继续任务。给定单个图像,模型可以合成未来的帧。给定部分剪辑,它可以扩展序列。这导致内部转换函数可以从任意时间点开始。

LingBot World Fast:实时应用的蒸馏

中期训练的模型LingBot-World Base仍然依赖于多步扩散和完整的时间注意,这对于实时交互来说是昂贵的。Robbyant团队推出了LingBot-World-Fast作为加速版本。

快速模型从高噪声专家初始化,并使用块因果注意来替换完整的时间注意。在每个时间块内部,注意是双向的。在块之间,它是因果的。这种设计支持键值缓存,因此该模型可以以更低的成本自动回归地流式传输帧。

蒸馏使用扩散强迫策略。学生网络在包括时间步0在内的小集合的目标时间步进行训练,因此它可以看到既扰动又干净的潜在状态。分布匹配蒸馏与对抗性判别器头相结合。对抗性损失仅更新判别器。通过蒸馏损失更新学生网络,这稳定了训练,同时保持了动作跟随和时间一致性。

在实验中,当在具有1个GPU节点的系统上处理480p视频时,LingBot World Fast达到每秒16帧,并且,在实时控制中保持了端到端的交互延迟小于1秒。

涌现记忆和长期行为

LingBot-World最有趣的特性之一是涌现记忆。该模型无需使用高斯喷溅等显式的3D表示来维护全局一致性。当相机从如巨石阵等地标处移动开去,并在大约60秒后返回时,该结构会以一致的地形重新出现。当一辆车离开画面并稍后重新进入时,它会在物理可能的位置出现,而不会冻结或重置。

该模型还可以维持超长序列。研究团队展示了连贯的视频生成,可持续长达10分钟,具有稳定的布局和叙事结构。

VBench结果与其他世界模型的比较

为了进行定量评估,研究团队使用VBench在精心整理的100个生成视频中进行了测试,每个视频都长于30秒。LingBot-World与Yume-1.5和HY-World-1.5这两个最近的世界模型进行了比较。

在VBench上,LingBot World报告:

[此处显示VBench报告的图像]

[此处显示链接]

这些分数高于两个基线在图像质量、美学质量和动态程度方面。动态程度差距很大,为0.8857,与0.7612和0.7217相比,这表明更丰富的场景转换和更复杂的运动,这些运动对用户输入做出响应。运动平滑度和时间闪烁与最佳基线相当,并且该方法在3个模型中实现了最佳的整体一致性指标。

与其他交互式系统(如Matrix-Game-2.0、Mirage-2和Genie-3)的单独比较突出显示,与其他系统相比,LingBot-World是少数几个全开源的世界模型之一,它结合了通用领域覆盖、长期生成前景、高动态程度、720p分辨率和实时能力。

[此处显示与其他交互式系统的比较图像]

[此处显示链接]

应用:可提示的世界、代理和3D重建

除了视频合成之外,LingBot-World定位为具身AI的测试平台。该模型支持可提示的世界事件,其中文本指令随时间改变天气、光照、风格或注入本地事件,例如烟花或移动的动物,同时保留空间结构。

它还可以训练下游动作代理,例如使用小型的视觉语言动作模型Qwen3-VL-2B从图像预测控制策略。由于生成的视频流在几何上是一致的,因此它们可以用作输入到3D重建管道,从而为室内、室外和合成场景生成稳定的点云。

主要结论

  • LingBot-World是一个动作条件的世界模型,它将文本到视频扩展到文本到世界模拟,其中键盘动作和相机运动直接控制长达约10分钟的长期视频卷出。
  • 系统在统一的数据引擎上进行训练,该引擎结合了网络视频、带动作标签的游戏日志和虚幻引擎轨迹,以及分层的故事、静态场景和密集时间字幕,以分离布局从运动模式中分离出来。
  • 核心骨干是基于 Wan2.2 的 28B 参数的专家混合扩散变换器,具有2个14B参数的专家,以及动作适配器,这些适配器在进行微调时,视觉骨干保持冻结。
  • LingBot-World-Fast是一种蒸馏变体,它使用块因果注意、扩散强迫和分布匹配蒸馏,在1个GPU节点上以480p的分辨率实现约每秒16帧,报告的端到端交互延迟低于1秒。
  • 在VBench上的100个超过30秒的生成视频中,LingBot-World报告了在Yume-1.5和HY-World-1.5中的最高图像质量、美学质量动态程度,并且该模型显示了涌现记忆和稳定的长期结构,适用于具身代理和3D重建。

请查看论文代码库项目页面模型权重。也欢迎关注我们的Twitter,不妨加入我们的10k+机器学习SubReddit,并订阅我们的通讯。等等!你在电报上吗?现在你可以在电报上加入我们了。

这篇帖子《Robbyant开源LingBot World:用于交互式模拟和具身AI的实时世界模型》最早出现在MarkTechPost


扫描二维码,在手机上阅读