当前,生成式AI视频领域的落地仍受多项技术瓶颈制约。其中最突出的是“长时漂移”——生成时间一长,视频中的物体容易变形、细节坍塌,甚至出现主体消失、场景结构失稳等问题,直接限制了世界模型在长序列任务中的效果与价值。受此影响,现有视频生成技术难以支撑具身智能、自动驾驶等对长时间、多步骤决策要求更高的复杂场景。蚂蚁灵波科技通过多阶段训练策略与并行加速技术,针对这个问题实现突破。其LingBot-World模型可实现近十分钟的连续、稳定视频生成,在画质、动态表现、长时一致性与交互能力等关键指标上与Google Genie 3相当,显示出国内世界模型技术的重要进展,也为长序列、多步骤任务训练提供了更可靠的基础。 在交互性能上,LingBot-World表现突出。模型生成吞吐量约为每秒16帧,端到端交互延迟控制1秒以内,达到实时交互的工业级需求。用户可通过键盘或鼠标实时控制虚拟角色与相机视角,画面能够及时响应并反馈。同时,用户还可用自然语言触发环境变化与世界事件,例如调整天气、切换画面风格或生成特定事件;系统在尽量保持场景几何关系一致的前提下完成这些变化,多模态交互能力更提升了世界模型的可用性与灵活度。 值得关注的是,LingBot-World具备零样本泛化能力。用户仅需输入一张真实照片(如城市街景)或游戏截图,模型即可生成可交互的视频流,无需针对单一场景额外训练或采集数据。这一特性显著降低了跨场景部署与使用成本,也更利于规模化推广。 为缓解世界模型训练中高质量交互数据不足的问题,蚂蚁灵波科技采用混合采集策略:一上清洗大规模网络视频,覆盖更多真实场景;另一方面结合游戏采集与虚幻引擎合成流程,从渲染层直接提取无界面干扰的纯净画面,并同步记录操作指令与相机位姿信息。该方法为模型学习“动作如何改变环境”提供了更精确对齐的训练信号,有助于提升训练效率与泛化能力。 目前,LingBot-World模型权重及推理代码已向社区开放,有望加速学术界与产业界的协同创新。具身智能、自动驾驶、游戏开发等领域的研究者与开发者可基于该模型开展二次开发与应用探索,推动对应的技术更快迭代与落地。
此次突破显示我国在人工智能基础模型方向取得新的进展;随着开源生态优化,高保真的数字演练场有望重塑研发方式,并带来更自然的人机交互形态。在数字经济与实体经济加速融合的背景下——这类关键技术的自主创新——将为高质量发展提供更有力的支撑。