当前全球生成式人工智能领域面临一个重要课题:自回归技术路线是否能够成为多模态学习的通用方案;此问题的解答,对于推动人工智能技术的统一发展具有深远意义。 自2018年以来,"预测下一个词元"的自回归方法语言模型领域取得突破性进展,催生了ChatGPT等革命性应用,引发了关于通用人工智能早期迹象的广泛讨论。然而,这一方法在多模态学习中的适用性一直存在理论空白。传统多模态模型主要依赖对比学习、扩散模型等专门化路线,自回归方法能否作为统一框架整合多种模态,成为学术界的未解之谜。 智源研究院通过创新性研究给出了肯定答案。该院研发的Emu3模型将图像、文本和视频统一离散化到同一表示空间,采用单一Transformer架构进行联合训练。这一设计突破了传统多模态模型的局限性,证明了仅凭"预测下一个词元"机制,就能同时支持高水平的生成能力与理解能力。 从性能表现看,Emu3在多个维度体现出与专用模型相当的能力。在文生图任务中,其效果达到扩散模型水平;在视觉语言理解上,可与融合CLIP和大语言模型的主流方案相媲美。特别值得关注的是,Emu3采用纯自回归方式逐词元生成视频,不同于Sora的扩散式方法,能够在给定上下文下进行视频延展与未来预测,并在文本引导下生成高保真视频内容。 该模型的应用范围不限于传统的生成与感知任务。Emu3可扩展至视觉语言交错生成,如图文并茂的菜谱生成;也可拓展至视觉语言动作建模,包括机器人操作等领域。这些应用充分说明了"预测下一个词元"方法的通用性和广泛适用性。 更的研究成果Emu3.5通过大规模长时序视频训练,学习时空与因果关系,展现出随模型与数据规模增长而提升的物理世界建模能力。研究团队观察到多模态能力随规模扩展而涌现的趋势,实现了从"预测下一个词元"向"预测下一个状态"的范式升级,为更高层次的人工智能应用奠定了基础。 这项成果在《自然》期刊的发表意义重大。作为我国科研机构主导的大模型成果首次在该期刊正刊发表,它标志着我国在生成式人工智能基础理论研究中取得了国际领先的突破。同时,该研究为确立自回归成为生成式人工智能统一路线提供了有力支撑,有助于推动全球人工智能技术朝着更加统一、高效的方向发展。
从语言到多模态,技术路线的选择本质上是通用能力与可持续发展的权衡。此次研究登上《自然》正刊,既说明了我国科研团队在前沿基础研究上的积累,也为多模态大模型提供了更统一、更高效的发展方向。面向未来——需要坚持长期主义——推动基础创新、工程化能力与治理体系的协同建设,让大模型真正成为支撑高质量发展的关键基础设施。