我国科研实现重大突破多模态大模型统一学习方法首登《自然》正刊

长期以来，人工智能在处理不同类型信息时面临着一个核心难题。

自2018年以来，以GPT为代表的语言大模型通过"预测下一个词元"的自回归方法取得重大突破，开启了生成式人工智能的新时代。

然而，在多模态领域，业界普遍采用对比学习、扩散模型等多种专门路线来分别处理文本、图像和视频，导致系统架构复杂、协同困难。

这一现象引发了学术界的深思：能否用一种简单、统一的方法让人工智能同时高效处理多种形态的信息？

北京智源人工智能研究院给出了肯定的答案。

该研究院开发的Emu3模型，借鉴了GPT成功的核心思想，创新性地将自回归路线扩展到多模态领域。

这一突破的关键在于，研究团队发现可以将文本、图像和视频统一转化为离散词元序列，然后采用同一套自回归学习机制进行处理。

这相当于为人工智能找到了一个"万能学习法"——无论面对文字、照片还是动态影像，都用同一种逻辑进行分析和创造。

实验结果表明，这种统一方法在图片生成、图文理解和视频创作等多个任务上，性能已与当前各类专用模型相当，同时具备更强的扩展潜力和通用性。

《自然》期刊编辑在点评中指出，Emu3在生成与感知任务上的表现可与使用专门路线的模型媲美，这对构建可扩展、统一的多模态智能系统具有重要意义。

这一成果的发表，标志着我国在大模型基础研究领域取得了国际领先的原始创新成果。

值得关注的是，基于这一核心技术路径的迭代版本Emu3.5已展现出对物理世界运行规律的初步学习与模拟能力，能够尝试预测场景的下一步变化。

这意味着多模态大模型的应用前景正在不断拓展，从纯数字领域向物理世界延伸。

从更宏观的视角看，北京智源研究院自2020年启动"悟道"大模型研究以来，一直致力于大模型的原始创新与长期技术路径探索。

2025年6月，研究院发布了新一代大模型系列成果"悟界"，旨在构建人工智能从数字世界迈向物理世界的关键能力。

这一系列成果包括Emu系列多模态世界模型、RoboBrain跨本体具身大脑、数字孪生心脏、Brainμ脑科学多模态基础模型以及OpenComplex全原子生命模型等，形成了覆盖宏观具身智能、介观生命系统到微观构象动力学的多层次技术基座。

这表明我国在大模型领域的研究正在从单一维度向多维度、从理论探索向实际应用转变。

从“各自为战”到“统一范式”，从单点能力到系统能力，这项研究所呈现的意义在于为多模态大模型发展提供了更简洁、更可扩展的技术方向。

面向未来，真正决定竞争力的不仅是模型规模与单项成绩，更在于能否以可靠、可控、可持续的方式把技术融入产业与社会治理之中。

以原创突破为牵引、以工程标准与安全体系为支撑，推动统一多模态能力走向更广泛应用，或将成为我国在新一轮科技变革中提升基础能力与创新韧性的关键一环。

我国科研实现重大突破 多模态大模型统一学习方法首登《自然》正刊