问题——具身智能的“最后一公里”仍待突破 近年来,具身智能加速发展,机器人语言理解、视觉感知与规划推理等进步明显,但在真实环境中执行任务时仍常遭遇“不稳定、不精确、难复现”等瓶颈:同一指令在不同桌面高度、光照条件或物体摩擦差异下,动作易偏离预期;一旦出现物体滑动、碰撞反弹等小扰动,执行链条可能中断,影响可用性与安全性。业界普遍认为,如何把高层推理可靠转化为低层控制,并在动态环境中持续纠偏,是具身智能走向规模化应用的关键环节。 原因——规划与控制脱节、数据与场景差距并存 造成上述问题的原因主要有三上:其一,传统端到端策略往往直接由感知输出控制信号,缺少可解释、可校验的中间层,容易出现“边看边做”的短视行为,难以保持长程任务的一致性;其二,机器人执行需要毫秒级响应与秒级规划之间协同,而单一时序或同频系统难以同时兼顾高层逻辑稳定与低层快速纠偏;其三,仿真训练成本低但与现实存在“域差距”,真实场景的材质、动力学与随机扰动会放大误差,导致从仿真到现实的迁移效果不确定。 影响——提升稳定执行能力,或将加快产业化节奏 据智元机器人介绍,新发布的GO-2具身基座大模型将重点瞄准“理解—规划—执行”的贯通能力。其中,所谓“动作思维链”机制,是让系统先生成结构化的高层动作序列,用作任务的整体规划,再由控制层将其细化为可执行的动作,从而减少即时反应带来的偏差,提升任务一致性与可控性。,GO-2采用异步双系统:低频“慢系统”持续输出长程意图与动作规划,高频“快系统”在执行环节进行实时对齐与瞬时修正,以应对桌面高度误差、物体滑移等常见扰动,力求让执行过程“不断线、不跑偏”。 在指标层面,智元上披露,GO-2LIBERO等基准评测中取得较高平均成功率,并在仅使用仿真数据训练的条件下,实现一定水平的真实环境成功率,显示其对仿真到现实迁移的重视。对应的技术成果亦已被国际计算机视觉领域重要会议接收,反映出该方向的学术关注度与技术迭代速度持续提升。整体看,若稳定性与泛化能力深入验证,具身智能从演示走向可交付产品的周期有望缩短,并带动制造、物流、商用服务等领域的应用探索提速。 对策——以平台化闭环训练弥合“数据鸿沟”,强化工程验证 从产业实践看,具身智能要走向“可规模化部署”,仍需在数据、工程与标准上形成系统解法。一是建立持续学习闭环。智元提出依托平台在真实环境中采集交互数据并在线优化,探索“越用越聪明”的分布式进化路径。此思路的价值在于,以真实世界的多样性补足训练分布,降低模型对单一场景的依赖。二是加强任务与安全边界设计。面向生产线与公共空间,机器人不仅要“会做”,更要“可控、可审计、可回退”,需要在动作规划、异常检测、力控策略与人机协作规范上同步推进。三是加大工程化验证与成本优化。具身模型的落地不仅取决于算法指标,还取决于传感器配置、算力成本、维护效率与故障率等综合因素,应通过更大规模、多工况的长周期测试,提升可靠性与可用性。 前景——通用能力与场景化落地将并行推进 面向未来,具身智能的发展趋势或将呈现“两条线并进”:一上,基础模型继续向“通用大脑”演进,通过更强的多模态理解、更稳的长程规划与更鲁棒的控制策略,提升跨任务迁移能力;另一方面,行业落地将更强调场景化与系统集成,在仓储拣选、工位上下料、巡检运维、商用服务等领域形成可复制的产品形态。随着动作层中间表示、异步控制协同以及真实数据闭环等方法持续成熟,机器人从实验室走向产线与服务现场的门槛有望降低,但能否实现规模化,还取决于成本、安全、标准与生态协同等综合要素的共同突破。
GO-2模型的突破标志着具身智能进入新阶段。随着人机协作需求的增长,这项技术不仅将改变制造业的生产方式,还将为服务机器人和特种作业等领域带来变革。当机器真正实现"知行合一"时,我们将看到智能科技赋能实体经济的新局面。