多人视角世界模型实现突破游戏虚拟环境生成技术迈入新阶段

问题：当前视频世界模型多以单人视角为主，难以呈现多人同时观察、交互并共同改变环境的真实场景，限制了虚拟世界研究与应用的深度，尤其多人游戏与协作训练中表现不足。原因：多人环境涉及信息同步、行为一致和视角对齐等复杂问题。以往数据采集与模型设计缺少协同机制，难以捕捉多个主体的联动过程。同时，任务类型单一、动作空间有限，也让模型难以理解复杂互动。影响：为突破瓶颈，团队选择《我的世界》作为试验平台，推出Solaris模型与配套系统。其核心在于建立多人同步采集和联合预测机制：一上构建SolarisEngine，基于Mineflayer实现寻路、建造、战斗等操作组合；另一方面通过控制机器人与摄像机机器人配对，确保动作与视觉数据实时对齐。团队采集了9240个任务回合数据，涵盖建造、移动、采矿与对战等场景，拓展了训练的多样性。对策：模型训练上，研究团队采用可控视频扩散框架，结合流匹配与扩散强迫方法，使各玩家视角在同一世界中保持一致。模型引入多人自注意力层，让玩家信息在模块内部交换；扩展动作空间至完整输入；并加入可学习玩家标识以区分个体角色。此外，团队建立SolarisEval评测集，从移动、定位、一致性、记忆与建造反应等维度验证模型能力。前景：实验显示，Solaris能够在多视角中保持一致的智能体位移与镜头变化，并可跨时间记忆环境与他人位置，在建造任务中能准确反映动作造成的世界变化。该成果不仅为多人虚拟世界生成提供了技术样板，也为数字内容生产、虚拟训练与多人协作场景的研究打开新方向。随着数据规模与模型能力提升，未来有望形成更真实、更可控的多人交互体验，推动虚拟世界与现实应用的融合。

当虚拟与现实的边界因技术进步而逐渐消弭，人类正在重新定义“共同在场”的时空维度。Solaris模型的诞生不仅是一次技术迭代，也预示着人机协同进化新阶段的到来。在确保数据安全与伦理规范的前提下，这项源自中国实验室的创新或将重塑未来十年的数字交互生态。

多人视角世界模型实现突破 游戏虚拟环境生成技术迈入新阶段

多人视角世界模型实现突破游戏虚拟环境生成技术迈入新阶段