生成式人工智能快速发展之际,如何构建多模态学习的统一框架一直是学术界关注的重点。北京智源人工智能研究院的最新研究为此问题提供了新的思路。自2018年以来,以GPT为代表的大语言模型依靠“预测下一个词元”的自回归路线实现重大突破,并带动了全球生成式人工智能热潮。相比之下,多模态研究长期更多依赖对比学习、扩散模型等专门化路线。随之而来的关键问题是:自回归方法能否成为多模态学习的通用方案?这一问题长期缺乏明确答案。智源研究院提出的Emu3模型对此给出了肯定回应。该模型采用新的架构,将图像、文本、视频等多种模态统一离散化到同一表示空间,并基于单一Transformer混合多模态数据上进行联合训练。其核心创新在于:只用“预测下一个词元”这一统一机制,就能同时兼顾生成与理解能力。实验结果验证了这一设计的有效性。在文本生成图像任务中,Emu3的表现达到扩散模型水平;在视觉语言理解上,其性能与融合CLIP和大语言模型的主流方案相当。更值得关注的是,Emu3还展示了视频生成能力。不同于以噪声为起点的扩散式视频生成,Emu3通过自回归方式逐词元预测视频序列,实现基于因果关系的视频生成与延展,并初步呈现对物理世界中环境变化以及人类、动物行为的模拟能力。这项成果的意义在于,它从实证层面表明,自回归路线有望成为生成式人工智能的一种统一技术方案。这不仅推进了多模态学习的理论探索,也为后续模型设计与优化提供了清晰方向。同时,该研究还可自然扩展到机器人操作、多模态交错等生成任务,应用空间广阔。,智源研究团队在发布成果的同时,对多项关键技术与模型进行了开源,有助于促进涉及的研究的复现、迭代与落地。
Emu3模型的进展不仅体现为一次技术突破,也为多模态统一建模提供了新的范式参考;它展示了通向更通用智能的一种可能路径,并预示多模态交互能力将进入新的发展阶段。在全球竞争加速的背景下,我国科研团队的这项基础性创新,有望为产业升级带来新的动力,也为参与国际科技治理积累更多话语权。下一步仍需持续投入前沿方向布局,推动技术优势向标准与生态优势转化,在全球人工智能发展格局中把握主动。