许志远：机器人大模型还没搞清楚

尽管现在的具身智能在认知和物理方面都有了突破，不过要说它大规模应用起来，还得是初级阶段呢。中新社的刘育英记者12月13日在北京报道，许志远在报告会上就提到了这点。北京的中国信息通信研究院和中国信通院也都认为，具身智能的模型路线、数据范式，还有最佳的机器人形态，到现在还没个定论呢。这让大规模落地变得更难了，大家还在各显神通，忙着竞争呢。许志远说现在行业里有三个主要问题：第一个就是模型路线的问题，现在的大模型虽然在语言、图像和视频上做得好，但能不能直接用到机器人控制上还没搞清楚呢。大家正在试各种方法。第二个就是数据训练的问题，数据还是让机器人提升能力的瓶颈。大家现在也在混合数据、多模态数据和世界模型生成数据这些方向上摸索呢。第三个就是形态路线的问题，就是人形机器人是不是真的需求。特斯拉和Figure AI都在坚持做全人形机器人，而国内今年出了好几个“轮-臂式复合机器人”，这种设计更注重能不能落地和商业应用。现在的共识是用大模型来提升机器人的泛化能力，不过怎么把大模型用到机器人系统里还是有很多路要走的。许志远也展望了一下未来，他觉得在VLA模型的基础上引入World Model（世界模型），利用它理解、预测和推演物理世界的能力，能帮着进一步提升机器人大模型的水平呢。