momenta不选vla选世界模型的事儿,他们这次发布会又放大招了!

上次跟你聊到Momenta不选VLA选世界模型的事儿,他们这次发布会又放大招了! 曹旭东CEO在会上直接说,以后要给他们的AI赋能一种叫做“物理世界认知”的能力。说白了,就是让AI能看懂并遵守物理规律,这可比之前单纯模仿人类司机强多了。为了达成这个目标,他们在下一代飞轮大模型R7里引入了世界模型,直接跟强化学习结合。据说性能暴涨得吓人,上汽大众总经理陶海龙亲测之后当场就给曹旭东打电话:“咱得赶紧把这个R7给拿下首发!”他们打算用这款叫ID.ERA 9X的车来搭载,这可是上汽大众的最新旗舰,车长都超过5.2米了,算是个超大号SUV。这车不光有德系车那股子机械劲儿,还融合了中国的AI技术。 曹旭东在剧透R7之前,先给大家回顾了下行业痛点。以前大家都习惯用模仿学习的方式,让模型去跟着人类司机开的轨迹跑,这就好比学生做作业只会照着老师的样子抄,根本超越不了老师。为了打破这个局,Momenta这次决定改走强化学习这条路,他们觉得这能让AI司机有希望甚至大幅超越人类司机。去年他们已经推出了基于强化学习的R6大模型,这个模型已经能在开放环境里自己去摸索试错了,不再是傻愣愣地模仿轨迹。 R6算是过去的探索,接下来他们要押注的就是世界模型了。这玩意其实分两类:一类是做训练用的生成世界模型;另一类就是直接让车子动起来的表征世界模型。现在行业里主要是在表征世界模型和VLA这两种路线之间打架。曹旭东认为,现在的物理AI时代已经来了,自动驾驶技术必须得懂物理世界才行。所以他们就在强化学习的基础上引进了世界模型,好让AI能基于更完整的信息做更符合现实的规划和预测。 那为什么不选VLA呢?曹旭东在接受媒体群访时解释得挺到位。他说虽然LLM现在啥都会干(写代码、写诗歌、解数学题),但这对开车没啥用。开车最重要的是理解物理世界的规律、在各种场景下快速反应和预判。而只有世界模型才有这本事,能学会这些规律还能收集各种长尾场景反复锻炼“肌肉记忆”。 从技术角度看,VLA的训练重点跟自动驾驶的需求不太匹配。VLA是在LLM的基础上加上视觉和语言对齐弄出来的。这么一看在训练过程中,语义的优先级往往比驾驶高得多,好多参数都没用在驾驶任务上,“好钢没用在刀刃上”。总结起来就是VLA对自动驾驶来说是锦上添花的事儿。 软件算法层面有争论归争论,硬件上的争论早就没了。以前大家老纠结纯视觉和多传感器冗余(比如激光雷达)的事儿。但曹旭东觉得传感器选型这事儿只能排第三梯队。前两位重要的是数据、算法架构和体系能力。 数据当然是基础不用多说。算法架构方面他说单一算法本身没什么壁垒,关键看怎么把各种算法整合起来形成合力并长期积累。再往上就是研发体系能力了,得像神经网络那样反向传播才行:识别出高价值的任务后传给团队。 他透露数据、架构和体系能力是他们内部第一梯队要抓的事情。排在后面的是芯片算力。因为芯片算力直接决定了模型能力的上限。只有这些要素都到位之后,再去考虑堆传感器或者激光雷达才会有边际效应。“现在大家基本都这么想了”。