问题——从“会说”到“会做”,智能系统仍缺少统一的世界理解与行动能力。近年来,大模型在语言与内容生成上进展显著,但在真实世界的感知、推理、规划与操作上仍存在“链路割裂”:视觉感知、动作控制、任务规划常由不同模块拼接,带来鲁棒性不足、迁移成本高等问题。环境一旦变化或任务组合更复杂,模型容易出现决策不稳定、执行不连贯。另外,真实场景数据采集成本高、标注难,深入限制了具身智能的规模化推进。 原因——数据结构与模型架构是两大关键制约因素。业内普遍认为,具身智能要实现跨场景泛化,需要同时解决两件事:一是让模型形成可复用的“世界表征”,以统一理解不同环境与物体;二是建立可持续扩展的数据来源,支撑复杂行为学习。传统机器人训练高度依赖高质量标注与专用采集,数据规模受限、覆盖场景有限,容易形成“数据墙”。,生数科技提出通用世界模型战略,希望以统一底座打通感知、生成与行动,通过数据与模型协同演进,降低从实验室走向产业现场的门槛。 影响——双轨体系有助于形成“理解—生成—行动”闭环,提升从数字到物理的迁移效率。此次发布中,生数科技将通用世界模型的技术路线概括为以基座世界模型为核心、贯通数字空间与物理空间的双轨体系:在数字空间侧,围绕世界生成模型推进视频大模型产品,提升内容生成效率与可控性;在物理空间侧,围绕世界行动模型推出统一世界模型产品,面向机器人等具身载体的任务规划与执行。公司称其基座模型采用多模态融合思路,可整合视觉、听觉、触觉等信息,更接近人类的方式形成对环境的统一认知,为上层应用提供可迁移的智能底座。业内人士认为,这种“底座能力+场景路线”的组合,表明了技术从单点突破走向系统工程的趋势,未来竞争将更多体现在数据体系、工程化能力与落地速度上。 对策——以视频为核心构建可扩展数据金字塔,缓解数据稀缺与泛化不足。生数科技表示,视频是目前最贴近真实世界的通用数据形态,既包含丰富的时序变化,也天然承载“动作—结果”的因果线索。基于该判断,公司提出从互联网视频、第一视角操作视频到机器人数据逐级构建数据金字塔,形成可持续扩展的数据供给体系,并通过预训练获得跨场景先验能力,减少对高成本标注数据的依赖。公司还称,其面向物理世界的统一世界模型在跨本体适配、零样本泛化等开展探索,力图让不同形态的机器人在更少专用数据条件下完成长程、多步骤任务,提升决策连贯性与执行稳定性。专家指出,若该路线能在更多公开评测与真实场景中得到验证,有望在一定程度上缓解具身智能训练“数据贵、数据少、数据不通用”的行业难题。 前景——通用世界模型或在机器人、工业与服务业率先形成突破,但仍需跨越安全与标准化关口。业内普遍判断,未来几年,通用世界模型最可能率先在三类场景实现规模化进展:其一,工业领域的柔性制造与智能巡检,任务边界相对清晰、收益可量化;其二,仓储物流、零售与园区运营等半结构化场景,环境变化可控但对效率要求高;其三,特定服务业与特种作业场景,如辅助作业、应急处置等,对“看懂环境并连续行动”有明确需求。同时也要看到,通用世界模型走向物理世界必须把安全可控放在首位,包括行为边界约束、异常情况的可解释与可回滚机制,以及数据合规与隐私保护等要求。推动行业稳步发展,还需要在数据格式、评测体系与接口规范上形成更统一的标准,促进产学研用协同。
从实验室探索到产业落地,通用世界模型的推进显示出国内科技企业在人工智能方向的长期布局;在数字经济与实体经济加速融合的背景下,贯通数字与物理世界的技术路径,有望为产业升级带来新的增长点。随着模型能力、数据体系与工程化水平持续完善,人工智能或将更成为连接虚拟与现实的重要支撑。