国内科研机构主导的多模态大模型研究成果发表于《自然》杂志自回归统一框架获得重要验证

生成式人工智能快速发展之际，如何构建多模态学习的统一框架一直是学术界关注的重点。北京智源人工智能研究院的最新研究为此问题提供了新的思路。自2018年以来，以GPT为代表的大语言模型依靠“预测下一个词元”的自回归路线实现重大突破，并带动了全球生成式人工智能热潮。相比之下，多模态研究长期更多依赖对比学习、扩散模型等专门化路线。随之而来的关键问题是：自回归方法能否成为多模态学习的通用方案？这一问题长期缺乏明确答案。智源研究院提出的Emu3模型对此给出了肯定回应。该模型采用新的架构，将图像、文本、视频等多种模态统一离散化到同一表示空间，并基于单一Transformer混合多模态数据上进行联合训练。其核心创新在于：只用“预测下一个词元”这一统一机制，就能同时兼顾生成与理解能力。实验结果验证了这一设计的有效性。在文本生成图像任务中，Emu3的表现达到扩散模型水平；在视觉语言理解上，其性能与融合CLIP和大语言模型的主流方案相当。更值得关注的是，Emu3还展示了视频生成能力。不同于以噪声为起点的扩散式视频生成，Emu3通过自回归方式逐词元预测视频序列，实现基于因果关系的视频生成与延展，并初步呈现对物理世界中环境变化以及人类、动物行为的模拟能力。这项成果的意义在于，它从实证层面表明，自回归路线有望成为生成式人工智能的一种统一技术方案。这不仅推进了多模态学习的理论探索，也为后续模型设计与优化提供了清晰方向。同时，该研究还可自然扩展到机器人操作、多模态交错等生成任务，应用空间广阔。，智源研究团队在发布成果的同时，对多项关键技术与模型进行了开源，有助于促进涉及的研究的复现、迭代与落地。

Emu3模型的进展不仅体现为一次技术突破，也为多模态统一建模提供了新的范式参考；它展示了通向更通用智能的一种可能路径，并预示多模态交互能力将进入新的发展阶段。在全球竞争加速的背景下，我国科研团队的这项基础性创新，有望为产业升级带来新的动力，也为参与国际科技治理积累更多话语权。下一步仍需持续投入前沿方向布局，推动技术优势向标准与生态优势转化，在全球人工智能发展格局中把握主动。

国内科研机构主导的多模态大模型研究成果发表于《自然》杂志 自回归统一框架获得重要验证

国内科研机构主导的多模态大模型研究成果发表于《自然》杂志自回归统一框架获得重要验证