腾讯混元3d 团队发布了一个新框架，叫worldcompass

3月10日，腾讯混元3D团队公布了一个新框架，叫WorldCompass。它是给世界模型做的强化学习（RL）后训练工具。腾讯混元的记者韦英姿报道说，这个框架能给混元世界模型1.5加个强化学习扩展模块，让它和用户互动更准、体验更好。腾讯混元团队提到，现在不少生成式世界模型（比如WorldPlay）太依赖训练阶段给的像素级监督了。这种学起来往往吃力，用户给的复杂动作指令听不懂，或者长时间漫游时画质会崩坏、路径会飘移。所以他们就搞出了WorldCompass。这个框架是专为长时序、能交互的世界模型设计的，用强化学习机制来“引导”模型，让它听指挥去探索世界，还得保持长时间的视觉一致。数据显示，WorldCompass能提升像WorldPlay这种SOTA开源世界模型的表现。特别是在做复杂动作的时候，把交互准确率提高了将近35%。腾讯混元3D团队这次发布的就是这个WorldCompass框架。