蚂蚁灵波在这次中关村论坛上放了个大招,他们说要把具身智能搞产业化,最大的拦路虎就是重复开发的成本太高。现在大模型一直在改写数字世界,AI 也开始往物理世界里跑了。机器人能不能真的离开实验室去干活,这成了现在大家最关心的话题。 在2026中关村论坛的年会上,蚂蚁灵波的首席科学家沈宇军作了个报告,题目挺长,是关于探索具身智能上限还有打造机器人时代的智能基座。他在演讲里讲了讲蚂蚁灵波是怎么看具身智能发展的,还有他们在搞些什么模型布局和开源的事情。 沈宇军觉得,要想把具身智能给产业化,关键得改掉那种一进新场景就得从头开始干的老路子。得先把通用能力都放在前面,这样后面开发场景的成本就能越来越低。所以他们就把目光盯在了机器人的“大脑”上,准备搞个具身基座模型出来。他们还打算跟生态伙伴一块开源开放,一起把行业创新还有场景落地的门槛给降下来。 现在具身智能产业链发展得挺快的,本体、零部件还有模型都有新进展。但是落地的时候也有个老大难问题:好多能力虽然在一个任务里能用起来,复制到别的场景就不行了,开发成本就降不下来。沈宇军给算了一笔账:要是每个公司都花100万开发一个场景,10家公司就是1000万;但要是先花900万把通用基础能力给搭好,后面每个公司就只要花10万就行了。表面上看总数还是1000万做10个场景的活,可当复制规模大起来后,每个场景的成本还是只要10万,这就是边际成本降低的道理。 他说这正是为啥要搞个“智能基座”。大家都用统一的底座来干活效率更高。蚂蚁灵波把自己定位成基模开发者就是因为这个。 今年1月份的时候,蚂蚁灵波开源了四个模型:LingBot-Depth(高精度空间感知模型)、LingBot-VLA(具身基座模型)、LingBot-World(世界模型)还有LingBot-VA(视频-动作模型)。从空间感知一直到机器人的想象力都被涵盖进去了。 其中那个LingBot-VLA是基于9种主流双臂机器人的结构还有超过2万小时的真实操作数据练出来的。在有些任务里只要演示个视频就能学会怎么做。它对复杂动作的理解能力挺强的,执行成功率也挺高。 这背后是他们对机器人智能路径的思考:物理世界总是在变的,需要实时反馈。比起一次性把所有动作都计划好更重要的是能在执行中一直看着环境变化然后调整动作。 所以机器人不光要“理解执行”,还得“边看边做边调整”。基于这个想法他们就开始搞VA(Video-Action)这条线了,想更直接地把视觉动态和动作输出连起来。 沈宇军觉得接下来一两年这几个路线会越来越融合。等到数据攒得够多了,机器人的闭环智能能力肯定会更强。 沈宇军还强调了开源对产业发展有多重要。这是个综合性很强的领域,没人能独立搞定所有事。 开源能让大家有个可验证、可适配、可迭代的基础去转化技术能力。 目前他们已经跟不少伙伴合作把模型推到了实际场景里去了。 沈宇军说团队以后会一直围绕机器人的“智能层”来完善基础能力。 通过开源开放还有生态协同,最终把具身智能的规模化应用给落地下来。