王兴兴最近在行业年会上聊起了具身智能,这东西挺火的。他说现在虽然有些进展,要像ChatGPT那样改变世界,还得解决不少问题。最大的麻烦是机器人太不灵活,在实验室里能搞定的活儿,拿到外面复杂环境就歇菜了。这就好比让AI写作文挺好,换个题目就蒙圈。为了弥补这个短板,他打算从三个方面下手:让AI模型更会动、让有限的数据发挥更大作用、把强化学习用得更彻底。 王兴兴特别看好用视频生成来建世界模型的路子。这个法子跟人想事儿差不多,先靠AI画个高质量的视频,再把画面和动作对上号,最后变成机器能懂的指令。这就像是先在脑子里过一遍再动手,感觉更像真的生物智能。 他在台上重点提了字节跳动刚出的Seedance2.0。王兴兴觉得,想把这个法子用起来,视频得特别逼真才行。不过这事儿挺难的,主要是怎么把画面和动作在毫秒级对上。要是这道坎跨不过去,脑子里的设想就没法变成实际操作。目前还没什么好办法能完全解决这个问题。 他团队正在往这个方向使劲,想试试多模态融合技术来缩小虚拟和现实的距离。他觉得只要视频生成和动作控制精准度平衡了,机器人就能跨场景干活了。这或许能把具身智能带进一个新时代。 当然了,王兴兴也没指望一下子就成功。他觉得想看到这一幕,整个行业可能得熬个3到5年才行。