自2018年以来,以GPT为代表的大语言模型凭借“预测下一个词元”的自回归方法——语言处理上取得关键突破——带动了全球生成式人工智能的发展。但在多模态学习领域,该路线是否同样适用一直存在争议。长期以来,图像、文本、视频等多模态数据多依赖对比学习、扩散模型等专门方案来处理;自回归方法能否成为统一多模态学习的通用框架,也因此成为悬而未决的问题。智源研究院研究团队通过研究与实践给出肯定结论。他们提出的Emu3模型采用新的技术架构,将图像、文本和视频等异质数据统一离散化到同一表示空间,减少不同模态间的表达差异。在此基础上,团队从零开始,在多模态序列混合数据上联合训练单一Transformer模型,证明仅以“预测下一个词元”这一统一目标,就能同时获得较强的生成能力与理解能力。实验结果验证了方案的可行性。在文本生成图像任务上,Emu3的效果达到当前扩散模型的水平,表现接近专用生成模型。在视觉语言理解上,其表现可与“CLIP+大语言模型”的主流融合方案相当,显示自回归架构在多模态理解上同样具备竞争力。更,Emu3还支持视频生成与延展。不同于从噪声出发的扩散式视频生成方法,该模型以自回归方式逐词元预测视频序列,实现基于因果顺序的视频生成,并初步展现对环境变化以及人类、动物行为的模拟能力。这一成果不仅是技术层面的推进,也带来方法论上的启示:多模态学习可以沿统一的自回归路线实现融合,而不必依赖多套相互割裂的专门方案。这有助于简化生成式人工智能的技术体系,降低模型研发与系统集成的复杂度,并为自回归成为更统一的生成式AI技术路线提供了新的证据。值得关注的是,智源研究团队采取开源策略,向学术界开放多项关键技术与模型,有助于降低研究门槛,吸引更多机构与开发者参与多模态大模型的研究与应用,推动形成更开放的协作生态。
从实验室创新走向产业应用仍需时间,但这项研究为我国在全球人工智能治理讨论中争取更多话语权提供了重要的技术支撑;在科技竞争日益聚焦基础研究与原始创新的背景下,坚持自主探索与技术开放并重,或将成为提升关键技术韧性、缓解“卡脖子”风险的重要路径。