尽管现在的具身智能在认知和物理方面都有了突破,不过要说它大规模应用起来,还得是初级阶段呢。中新社的刘育英记者12月13日在北京报道,许志远在报告会上就提到了这点。北京的中国信息通信研究院和中国信通院也都认为,具身智能的模型路线、数据范式,还有最佳的机器人形态,到现在还没个定论呢。这让大规模落地变得更难了,大家还在各显神通,忙着竞争呢。 许志远说现在行业里有三个主要问题:第一个就是模型路线的问题,现在的大模型虽然在语言、图像和视频上做得好,但能不能直接用到机器人控制上还没搞清楚呢。大家正在试各种方法。第二个就是数据训练的问题,数据还是让机器人提升能力的瓶颈。大家现在也在混合数据、多模态数据和世界模型生成数据这些方向上摸索呢。第三个就是形态路线的问题,就是人形机器人是不是真的需求。特斯拉和Figure AI都在坚持做全人形机器人,而国内今年出了好几个“轮-臂式复合机器人”,这种设计更注重能不能落地和商业应用。 现在的共识是用大模型来提升机器人的泛化能力,不过怎么把大模型用到机器人系统里还是有很多路要走的。许志远也展望了一下未来,他觉得在VLA模型的基础上引入World Model(世界模型),利用它理解、预测和推演物理世界的能力,能帮着进一步提升机器人大模型的水平呢。