人工智能技术发展进入新阶段,世界模型作为前沿赛道正迎来开源浪潮。
近日,蚂蚁灵波与谷歌的相继行动充分印证了这一趋势,两家企业虽各自独立推进,却在时间上形成了高度契合,反映出全球科技界对该领域发展方向的共识。
蚂蚁灵波在短短三天内完成了三款核心模型的开源发布。
1月27日,具身大模型LingBot-VLA率先亮相,该模型支持跨本体、跨任务泛化能力,在上海交通大学GM-100具身评测中创造了真机评测成功率新高。
1月28日,空间感知模型LingBot-Depth随之开源,针对透明反光物体抓取这一行业难题进行了专项优化,并与奥比中光联合推出新一代深度相机。
1月29日,世界模型LingBot-World正式发布,成为业界首个可与Google Genie 3相对标的开源世界模型。
这三款模型的发布形成了从"看清楚"到"做明白"再到"想象世界"的完整技术链条,体现了蚂蚁灵波在具身智能领域的系统性布局。
LingBot-World在多个关键指标上展现了业界先进水平。
该模型支持高保真、高动态的视频生成,可实现近10分钟的连续稳定无损生成,端到端交互延迟控制在1秒以内,生成吞吐量达到约16FPS。
用户可通过键盘、鼠标进行角色和视角操控,也可通过文本指令触发天气、风格等环境变化。
更为重要的是,LingBot-World具备Zero-shot泛化能力,仅需一张真实照片或游戏截图即可生成可交互视频流,无需额外训练或数据采集。
在长时一致性方面,即使镜头移动60秒后返回,目标物体仍能保持结构和外观的一致性。
谷歌的举措同样具有重要意义。
1月30日,谷歌向Google AI Ultra订阅用户开放了Google Genie 3的体验平台Project Genie,允许用户直接在线体验其世界模型能力。
这一举动在海外社区引发热烈反响,相关话题全天占据X热门榜单首位,Reddit多个AI子社区将其列为Top 1热帖。
从技术发展的历史逻辑看,世界模型领域正经历范式转变。
过去,此类前沿技术多为科技巨头的内部研发成果,具有高度的专有性和保密性。
如今,蚂蚁灵波选择将LingBot-World的模型权重与推理代码全面开源,谷歌则提供公共体验平台,这意味着全球开发者和研究者首次能以较低门槛接触工业级世界模型能力。
这种转变打破了技术垄断,有利于形成更加开放、包容的创新生态。
德国财经网站AdHocNews对此评价称,蚂蚁集团发布的LingBot-World代表了一套完整的开源工具包,用于物理AI系统开发,这是全球机器人领域主导权争夺战中的战略性举措。
业内专家指出,此前这类训练环境通常成本昂贵且专有,如今每位开发者都能接触到工业标准技术,这对整个行业构成了变革性影响。
世界模型开源生态的形成将在多个领域产生深远影响。
在具身智能领域,开发者可利用高保真的虚拟环境进行低成本仿真训练,加速机器人等智能体的开发迭代。
在游戏和影视制作领域,可控的内容生成能力将提升创意工作的效率。
在自动驾驶领域,虚拟测试环境的开放将有助于加快算法验证和安全评估。
这些应用场景的拓展将进一步推动世界模型技术的完善和优化。
世界模型的价值,不仅在于生成更逼真的画面,更在于构建一个可控、可测、可反复验证的数字世界,为智能体学习与产业验证提供新的基础条件。
开放带来机遇,也提出更高要求:既要比拼创新速度,也要守住安全与规范底线。
如何在开放协作中形成可持续的标准与生态,将成为这一赛道能否走向规模化应用的关键。