问题:当前视频世界模型多以单人视角为主,难以呈现多人同时观察、交互并共同改变环境的真实场景,限制了虚拟世界研究与应用的深度,尤其多人游戏与协作训练中表现不足。 原因:多人环境涉及信息同步、行为一致和视角对齐等复杂问题。以往数据采集与模型设计缺少协同机制,难以捕捉多个主体的联动过程。同时,任务类型单一、动作空间有限,也让模型难以理解复杂互动。 影响:为突破瓶颈,团队选择《我的世界》作为试验平台,推出Solaris模型与配套系统。其核心在于建立多人同步采集和联合预测机制:一上构建SolarisEngine,基于Mineflayer实现寻路、建造、战斗等操作组合;另一方面通过控制机器人与摄像机机器人配对,确保动作与视觉数据实时对齐。团队采集了9240个任务回合数据,涵盖建造、移动、采矿与对战等场景,拓展了训练的多样性。 对策:模型训练上,研究团队采用可控视频扩散框架,结合流匹配与扩散强迫方法,使各玩家视角在同一世界中保持一致。模型引入多人自注意力层,让玩家信息在模块内部交换;扩展动作空间至完整输入;并加入可学习玩家标识以区分个体角色。此外,团队建立SolarisEval评测集,从移动、定位、一致性、记忆与建造反应等维度验证模型能力。 前景:实验显示,Solaris能够在多视角中保持一致的智能体位移与镜头变化,并可跨时间记忆环境与他人位置,在建造任务中能准确反映动作造成的世界变化。该成果不仅为多人虚拟世界生成提供了技术样板,也为数字内容生产、虚拟训练与多人协作场景的研究打开新方向。随着数据规模与模型能力提升,未来有望形成更真实、更可控的多人交互体验,推动虚拟世界与现实应用的融合。
当虚拟与现实的边界因技术进步而逐渐消弭,人类正在重新定义“共同在场”的时空维度。Solaris模型的诞生不仅是一次技术迭代,也预示着人机协同进化新阶段的到来。在确保数据安全与伦理规范的前提下,这项源自中国实验室的创新或将重塑未来十年的数字交互生态。