斯坦福大学人工智能实验室前负责人李飞飞：空间感知与物理交互基础

在最近的国际会议上，斯坦福大学人工智能实验室前负责人、World Labs创始人李飞飞博士分享了她的研究成果，给大家提供了新的思考。李飞飞博士指出，目前的人工智能系统主要依靠文本数据进行训练，但这种方法有局限性，很难达到真正的通用人工智能（AGI）。她强调，从生命演化的角度来看，空间智能是智能发展的基础。在过去5亿年里，生物通过视觉、触觉等感官感知世界，并发展出空间交互能力。相对来说，人类语言能力形成只是近几十万年的事情。因此，对于物理世界的理解和互动能力才是智能更为底层的基石。李飞飞博士还认为，在一个虚拟环境中，不仅需要视觉逼真度高，还要符合真实的物理规律。比如物体的形状、质量、运动方式以及它们之间的相互作用关系。为了实现这个目标，她的团队创立了World Labs，致力于构建具备物理一致性的世界模型。他们的最新产品“Marble”模型可以接受文本、图像、视频和简单三维数据等多模态信息作为输入，然后生成一个持久性三维虚拟环境。在这个虚拟环境中，物体碰撞会产生符合力学规律的反馈，光影变化也遵循光学原理。这种技术路线与现在侧重于生成高保真度视频但物理规则可能不一致的模型不同。目前，这项技术已经在多个领域展现出应用潜力。在医疗健康领域，临床研究人员可以用它来模拟特定场景进行心理疾病治疗；在机器人研发领域，机器人可以通过这种仿真环境进行复杂任务训练而无需反复试错；在游戏开发和影视特效制作等领域，“Marble”模型也能提高内容创作效率和真实感。李飞飞博士分析了物理世界人工智能模型发展相对缓慢的原因是高质量三维数据稀缺且获取难度大。她的团队采用混合数据策略来解决这个问题：利用互联网公开的多媒体数据、通过仿真技术生成合成数据以及部分精心采集真实世界数据。她预测随着合成数据生成技术进步和成本降低，世界模型领域可能会迎来类似大型语言模型经历过的“缩放定律”效应。关于通用机器人这个终极应用形态，李飞飞博士特别强调其战略意义。她认为自动驾驶只是在二维平面上进行移动与避障，而通用机器人需要在复杂三维空间中主动感知、精细操作与动态交互。这项强调物理一致性和世界模型的技术路径给现有发展格局带来了补充与反思。它可能成为下一代人工智能特别是具身智能和通用机器人发展的重要基础。人工智能未来或许需要更深刻理解和融入物理世界来推动从“数字智能”到“物理智能”的演进过程。李飞飞博士及其团队的研究实践把人们的注意力从语言模型竞赛转移到了空间感知与物理交互基础上。这个路径值得持续关注和研究。