3月10日,腾讯混元3D团队公布了一个新框架,叫WorldCompass。它是给世界模型做的强化学习(RL)后训练工具。腾讯混元的记者韦英姿报道说,这个框架能给混元世界模型1.5加个强化学习扩展模块,让它和用户互动更准、体验更好。腾讯混元团队提到,现在不少生成式世界模型(比如WorldPlay)太依赖训练阶段给的像素级监督了。这种学起来往往吃力,用户给的复杂动作指令听不懂,或者长时间漫游时画质会崩坏、路径会飘移。所以他们就搞出了WorldCompass。这个框架是专为长时序、能交互的世界模型设计的,用强化学习机制来“引导”模型,让它听指挥去探索世界,还得保持长时间的视觉一致。数据显示,WorldCompass能提升像WorldPlay这种SOTA开源世界模型的表现。特别是在做复杂动作的时候,把交互准确率提高了将近35%。腾讯混元3D团队这次发布的就是这个WorldCompass框架。