咱先把时间线捋顺了。就在北京时间1月28日那天,北京智源人工智能研究院也就是咱俗称的智源,把他们关于多模态大模型Emu的核心研究成果给弄出来了,直接发到了国际顶尖学术期刊《自然》上去了。这个论文名字叫《通过预测下一个词元进行多模态学习》,估摸着2月12日就能印成纸质版发出去。这可是个大新闻,咱们国内的科研机构这回在《自然》正刊上实现了零的突破,足见咱们在这方面的原创能力和国际影响力确实硬气。 说到这事的来头,得从2018年说起。当时那种通过预测下一个词元的自回归技术路线,在搞大型语言模型这块儿那是火得一塌糊涂,直接催生了ChatGPT这种生成式人工智能的浪潮。大家都在琢磨这是不是通用人工智能早期形态了。不过大家都有个疑问:这种在纯文本上管用的路子,能不能搬到像图像、音频这些多模态的复杂场景里?这可是个大问题。 以前搞多模态模型的,大多得靠对比学习或者扩散模型这种专门的路子。智源研究院的这帮人没回避这个难题,直接提出了Emu这个大模型。他们的思路特简单:把图像、文本、视频这些不同的数据统统拆开,塞到同一个表示空间里去。然后就用Transformer这一个架构,直接对着海量混合模态的序列数据进行端到端的训练。训练目标就一个:还是最经典的“预测下一个词元”。 实验结果看着就挺神奇。就靠这么个简单的目标,Emu模型不光能跨模态生成东西,理解能力也很深;更绝的是它能直接去做机器人操作这类复杂活儿,甚至能生成那种图文并茂的菜谱。具体数据说话吧:在画图片这块儿它能跟主流扩散模型打得有来有回;在理解视觉语言这块儿它也能跟CLIP加上大语言模型的方案并驾齐驱。 最让人眼前一亮的是它的视频生成能力。不像别的系统用扩散模型折腾,Emu是纯自回归的路子,一个词一个词地把视频搭起来。不管是顺着上下文往后写视频还是根据指令来画逼真的画面,它都行。这说明“预测下一个词元”这套范式在多模态里确实好用。 研究团队还把这个路子延续了下去,推出了悟界·Emu3.5。他们给这模型喂了大量长视频数据来训练,让模型学会了更复杂的时空关联和因果关系。数据越多越大,模型的物理世界建模能力就越强。 这篇论文不光是面子工程,里头的门道更重要。它告诉咱们自回归路线完全可以作为统一多模态学习的大框架。智源在《自然》上发文章这事也说明白了一点:咱们在搞基础研究上的战略定力那是真足;这种在前沿科技“无人区”敢摸石头过河的劲儿也体现了出来。 说白了就是:以后搞生成式人工智能可能就得看统一架构和简洁目标这一套了。这事儿不仅是学术荣誉这么简单,更是给以后的通用人工智能铺路呢。