宇树科技王兴兴：视频生成打破泛化瓶颈

王兴兴聊到了具身智能，说这得靠视频生成来打破泛化的瓶颈，没准能搞出个“ChatGPT时刻”。在最近那个行业论坛年会上，宇树科技的王兴兴对着大伙儿讲了不少心里话。他觉得虽然现在这块儿进步挺快，但是要想搞出像ChatGPT那样的大动静，还得把好几个技术坎儿迈过去。现在机器人最大的毛病就是泛化不行，实验室里做得好好的事儿，一拿到复杂多变的现实环境里就不行了，这直接把技术落地给卡死了。王兴兴分析说，现在的机器人在定好的环境里任务完成率能接近百分百，但是环境稍微变一变，性能就直线掉下去。这就好比是读书的样子和写作文的感觉差别太大。为了把这个瓶颈给捅破，他提了三条路子：要么把模型架构搞得更灵活点儿，让运动指令表达得更到位；要么在现有的数据里深挖价值，把利用率提上去；还有就是扩大强化学习的规模，把算法的潜力都给榨干。王兴兴特别看好用视频生成来建世界模型的路子。这个方案模仿人怎么想事儿，先让AI生成高质量的任务视频画面，然后再把这虚拟画面和机械动作对上号，最后变成机器人能听懂的指令。这种先想再做的路子特别像生物的脑子咋运转的，给机器人理解复杂任务找了个新的门路。开会的时候他着重说了说字节跳动刚出的Seedance 2.0视频生成技术。他说保真度高是实施这个方案的基础前提，但是现在全世界的研究者都有个难办的事儿：怎么保证虚拟画面跟机械动作能在毫秒级同步？这是个关键的卡脖子地方，直接决定了机器人能不能把脑子里想的东西变成实际动作。到现在还没什么突破性的法子解决这个问题。这位创业者透露，他的团队正顺着这条道儿往下探。他们想试试用多模态融合技术把虚拟和现实的差别给缩小。他估计等视频生成的精度跟动作控制的精度找到平衡点的时候，机器人就能跨场景干活了，这可能会开启具身智能发展的新时代。不过他也挺实在地说，想达到这个目标，整个行业可能得熬个三五年才能攒够技术底子。