王兴兴聊到了具身智能,说这得靠视频生成来打破泛化的瓶颈,没准能搞出个“ChatGPT时刻”。在最近那个行业论坛年会上,宇树科技的王兴兴对着大伙儿讲了不少心里话。他觉得虽然现在这块儿进步挺快,但是要想搞出像ChatGPT那样的大动静,还得把好几个技术坎儿迈过去。现在机器人最大的毛病就是泛化不行,实验室里做得好好的事儿,一拿到复杂多变的现实环境里就不行了,这直接把技术落地给卡死了。 王兴兴分析说,现在的机器人在定好的环境里任务完成率能接近百分百,但是环境稍微变一变,性能就直线掉下去。这就好比是读书的样子和写作文的感觉差别太大。为了把这个瓶颈给捅破,他提了三条路子:要么把模型架构搞得更灵活点儿,让运动指令表达得更到位;要么在现有的数据里深挖价值,把利用率提上去;还有就是扩大强化学习的规模,把算法的潜力都给榨干。 王兴兴特别看好用视频生成来建世界模型的路子。这个方案模仿人怎么想事儿,先让AI生成高质量的任务视频画面,然后再把这虚拟画面和机械动作对上号,最后变成机器人能听懂的指令。这种先想再做的路子特别像生物的脑子咋运转的,给机器人理解复杂任务找了个新的门路。 开会的时候他着重说了说字节跳动刚出的Seedance 2.0视频生成技术。他说保真度高是实施这个方案的基础前提,但是现在全世界的研究者都有个难办的事儿:怎么保证虚拟画面跟机械动作能在毫秒级同步?这是个关键的卡脖子地方,直接决定了机器人能不能把脑子里想的东西变成实际动作。到现在还没什么突破性的法子解决这个问题。 这位创业者透露,他的团队正顺着这条道儿往下探。他们想试试用多模态融合技术把虚拟和现实的差别给缩小。他估计等视频生成的精度跟动作控制的精度找到平衡点的时候,机器人就能跨场景干活了,这可能会开启具身智能发展的新时代。不过他也挺实在地说,想达到这个目标,整个行业可能得熬个三五年才能攒够技术底子。