中国团队搞出了一项自主创新的成果,直接被《自然》主刊给接收了,马上就要正式刊出来。

这阵子全球AI圈沸腾了,咱们中国的团队在大模型这块弄出了响当当的动静。北京智源人工智能研究院的科研团队搞出了一项自主创新的成果,直接被《自然》主刊给接收了,马上就要正式刊出来。这可是咱们中国机构第一次把多模态大模型的研究登上去,以前这可是人家国外的地盘,这次算是把局面彻底给打破了。 这篇论文讲的是通过预测下一个词元来做多模态学习,核心就是那个叫Emu3的模型。以前搞多模态系统特麻烦,搞文字、图片、视频得用不同的方法搭不同的架构,什么对比学习、扩散模型都得掺和进来,弄得特别复杂。智源团队不走寻常路,非要回炉重造深度学习的基本路数——自回归预测。他们把所有数据都揉成一串连续的表示,给同一个Transformer架构的模型去理解生成。这就好比让模型像说话一样“预测下一个词元”,就能把所有乱七八糟的多模态数据搞定。 实验下来确实厉害,Emu3在画图、看图说话、拍视频这些任务上的表现,丝毫不输那些专门针对某个任务的老牌模型。而且因为它内在统一,往复杂场景里扔一点问题不大,比如按着图文交错的指令生成连贯的内容,甚至给机器人搞动作规划都不在话下。这就证明了自回归这条路是构建通用多模态智能的好路子。 说起Emu系列的研发,其实早就从2022年开始了,中间经过了好几个大版本的升级。团队不光要把性能弄上去,还特别在意底层技术的开源和规律的总结。他们把视觉分词器这些关键组件都开源了出来,还通过大规模实验把自回归模型的训练动力学搞清楚了。这对后来的研究者来说简直是宝贝。 业内大佬都说这事儿意义重大。它不光是有一个厉害的模型这么简单,更关键的是它从基础理论上把自回归这种框架给坐实了。告诉大伙儿一条路:用统一的方式去建模、用最简单的目标去训练。以后说不定就能慢慢把那些乱七八糟的专用技术路线给融合掉。 现在生成式AI火得一塌糊涂,多模态能力被看成通往真正智能的阶梯。智源研究院这次的工作不光展示了中国搞原始创新的决心和实力,还给未来的“原生多模态助手”、“具身智能(Embodied AI)”这些前沿方向攒下了不少家底。这事儿代表咱们国家的基础科研实力在往上走。咱们只要坚持面向世界前沿持之以恒地搞基础研究,未来一定能有更多从中国走出来的颠覆性成果出来。