长期以来,如何在同一模型与同一训练机制下同时兼顾“生成”和“理解”,是多模态技术发展面临的关键问题之一。
语言大模型的成功经验表明,基于自回归的“预测下一个词元”训练范式具有强大的通用性与可扩展性,推动了自然语言处理的跨越式进展。
然而在多模态领域,图像与视频生成多依赖扩散模型等专门机制,视觉语言理解则常采用“视觉编码器+语言模型”的组合式方案。
不同路线各有优势,但也造成体系分裂:模型结构复杂、训练成本高、跨任务迁移能力受限,难以形成统一而可持续扩展的技术底座。
由此引出一个基础性科学问题:自回归的“预测下一个词元”能否成为贯通文本、图像与视频的通用学习范式。
针对这一问题,相关研究提出了以单一自回归框架为核心的多模态大模型方案。
其关键思路在于,将文本、图像与视频统一转化为同一种离散序列表示,使不同模态在同一“词元空间”内实现可对齐、可混合的联合建模;在训练方式上,采用单一Transformer结构,在多模态序列混合数据上从零开始联合训练,通过连续的下一词元预测完成跨模态学习。
研究结果显示,该模型在文生图、视觉语言理解以及视频生成等任务中取得了具有竞争力的综合表现:在生成侧,文本到图像的效果达到扩散式方法可比水平;在理解侧,视觉语言任务性能与主流“CLIP类编码器+语言模型”的方案接近;在视频生成方面,模型通过因果自回归方式逐词元扩展视频序列,实现可持续的场景延展与动作演化,体现出对真实世界时空规律的初步刻画能力。
期刊编辑评价认为,该研究仅基于下一词元预测实现大规模文本、图像和视频统一学习,在生成与感知任务上的表现可与专门路线相当,对构建可扩展、统一的多模态智能系统具有重要意义。
从原因看,多模态统一学习之所以难,一方面是模态差异带来的表示鸿沟:文本天然离散,而图像与视频连续、维度高,如何将其纳入统一建模框架,既要保证表达能力,又要兼顾计算可行性。
另一方面是目标函数与训练范式的差异:扩散模型擅长高保真生成,但链路长、推理成本高;对比学习擅长表征对齐,但对细粒度生成不够直接。
该研究以“统一离散化”与“单一自回归目标”回应上述难点,用更简单的一条主线在更广任务上获得稳健表现,同时通过消融实验与分析验证了多模态学习的规模规律、统一表示的效率以及架构设计的有效性,为后续理论研究提供了可检验的证据链。
从影响看,此项进展的意义不仅在于单点指标提升,更在于范式层面的可能改变:如果自回归能够以统一目标覆盖生成、理解与跨模态推理,未来多模态系统有望在同一底座上实现“能力堆叠”和“数据驱动的持续扩展”,进而降低模型家族碎片化带来的工程成本与生态壁垒。
同时,统一框架更便于把多模态能力自然延伸到机器人操作、多模态交错生成等场景,使“看、听、说、写、动”逐步在同一系统内闭环融合。
值得关注的是,后续迭代版本在可扩展性上给出了进一步验证,并呈现从“预测下一个词元”向“预测下一个状态”的能力跃迁方向,指向更具泛化性的世界建模潜力,这对提升系统在复杂环境中的规划、推理与泛化能力具有启示意义。
面向对策与路径选择,业内普遍认为,多模态底座能力的突破离不开“基础研究—工程体系—应用牵引”的协同推进:一是持续强化原创性基础研究,围绕统一表示、训练稳定性、推理效率与评测体系等关键问题形成可重复、可验证的方法论;二是完善高质量、多来源、多场景的多模态数据与治理机制,在合规前提下提升数据覆盖与多样性,夯实规模化训练的基础;三是推动算力、框架与工具链的工程化优化,降低训练与部署门槛,增强国产软硬件生态适配能力;四是以真实场景牵引能力迭代,在工业制造、城市治理、医疗辅助、教育科研、文化内容生产等领域开展可审计、可评估的应用试点,促使模型能力从“展示性效果”走向“可用、可靠、可控”。
展望未来,统一自回归多模态路线仍面临若干挑战与机遇:其一,多模态离散化与长序列建模的效率瓶颈仍需突破,尤其在高分辨率视频与长时序推理上,对算力与算法提出更高要求;其二,真实世界建模需要更严格的物理一致性、因果约束与安全边界,评测标准需从单任务分数向系统性能力验证演进;其三,随着能力增强,治理与合规将成为底座系统走向规模化落地的前置条件。
总体看,在统一范式探索不断深入的背景下,多模态大模型有望从“多任务拼接”迈向“通用底座”,推动智能系统向更高层次的可扩展、可迁移与可控方向发展。
Emu3的成功不仅解答了多模态学习中的一个关键科学问题,更重要的是为通用人工智能的发展指明了一条可行之路。
从语言到多模态,从单一任务到统一框架,这一研究成果体现了科学探索的递进性和创新的力量。
随着多模态大模型研究的深入推进,我们有理由相信,以自回归框架为基础的统一多模态学习范式将在更广泛的领域得到应用,为人工智能技术的发展和社会进步做出更大贡献。