momenta不选vla选世界模型的事儿，他们这次发布会又放大招了！

上次跟你聊到Momenta不选VLA选世界模型的事儿，他们这次发布会又放大招了！曹旭东CEO在会上直接说，以后要给他们的AI赋能一种叫做“物理世界认知”的能力。说白了，就是让AI能看懂并遵守物理规律，这可比之前单纯模仿人类司机强多了。为了达成这个目标，他们在下一代飞轮大模型R7里引入了世界模型，直接跟强化学习结合。据说性能暴涨得吓人，上汽大众总经理陶海龙亲测之后当场就给曹旭东打电话：“咱得赶紧把这个R7给拿下首发！”他们打算用这款叫ID.ERA 9X的车来搭载，这可是上汽大众的最新旗舰，车长都超过5.2米了，算是个超大号SUV。这车不光有德系车那股子机械劲儿，还融合了中国的AI技术。曹旭东在剧透R7之前，先给大家回顾了下行业痛点。以前大家都习惯用模仿学习的方式，让模型去跟着人类司机开的轨迹跑，这就好比学生做作业只会照着老师的样子抄，根本超越不了老师。为了打破这个局，Momenta这次决定改走强化学习这条路，他们觉得这能让AI司机有希望甚至大幅超越人类司机。去年他们已经推出了基于强化学习的R6大模型，这个模型已经能在开放环境里自己去摸索试错了，不再是傻愣愣地模仿轨迹。 R6算是过去的探索，接下来他们要押注的就是世界模型了。这玩意其实分两类：一类是做训练用的生成世界模型；另一类就是直接让车子动起来的表征世界模型。现在行业里主要是在表征世界模型和VLA这两种路线之间打架。曹旭东认为，现在的物理AI时代已经来了，自动驾驶技术必须得懂物理世界才行。所以他们就在强化学习的基础上引进了世界模型，好让AI能基于更完整的信息做更符合现实的规划和预测。那为什么不选VLA呢？曹旭东在接受媒体群访时解释得挺到位。他说虽然LLM现在啥都会干（写代码、写诗歌、解数学题），但这对开车没啥用。开车最重要的是理解物理世界的规律、在各种场景下快速反应和预判。而只有世界模型才有这本事，能学会这些规律还能收集各种长尾场景反复锻炼“肌肉记忆”。从技术角度看，VLA的训练重点跟自动驾驶的需求不太匹配。VLA是在LLM的基础上加上视觉和语言对齐弄出来的。这么一看在训练过程中，语义的优先级往往比驾驶高得多，好多参数都没用在驾驶任务上，“好钢没用在刀刃上”。总结起来就是VLA对自动驾驶来说是锦上添花的事儿。软件算法层面有争论归争论，硬件上的争论早就没了。以前大家老纠结纯视觉和多传感器冗余（比如激光雷达）的事儿。但曹旭东觉得传感器选型这事儿只能排第三梯队。前两位重要的是数据、算法架构和体系能力。数据当然是基础不用多说。算法架构方面他说单一算法本身没什么壁垒，关键看怎么把各种算法整合起来形成合力并长期积累。再往上就是研发体系能力了，得像神经网络那样反向传播才行：识别出高价值的任务后传给团队。他透露数据、架构和体系能力是他们内部第一梯队要抓的事情。排在后面的是芯片算力。因为芯片算力直接决定了模型能力的上限。只有这些要素都到位之后，再去考虑堆传感器或者激光雷达才会有边际效应。“现在大家基本都这么想了”。