智元机器人发布具身基座大模型GO-2：以“动作思维链”贯通推理到执行关键环节

问题——具身智能的“最后一公里”仍待突破近年来，具身智能加速发展，机器人语言理解、视觉感知与规划推理等进步明显，但在真实环境中执行任务时仍常遭遇“不稳定、不精确、难复现”等瓶颈：同一指令在不同桌面高度、光照条件或物体摩擦差异下，动作易偏离预期；一旦出现物体滑动、碰撞反弹等小扰动，执行链条可能中断，影响可用性与安全性。业界普遍认为，如何把高层推理可靠转化为低层控制，并在动态环境中持续纠偏，是具身智能走向规模化应用的关键环节。原因——规划与控制脱节、数据与场景差距并存造成上述问题的原因主要有三上：其一，传统端到端策略往往直接由感知输出控制信号，缺少可解释、可校验的中间层，容易出现“边看边做”的短视行为，难以保持长程任务的一致性；其二，机器人执行需要毫秒级响应与秒级规划之间协同，而单一时序或同频系统难以同时兼顾高层逻辑稳定与低层快速纠偏；其三，仿真训练成本低但与现实存在“域差距”，真实场景的材质、动力学与随机扰动会放大误差，导致从仿真到现实的迁移效果不确定。影响——提升稳定执行能力，或将加快产业化节奏据智元机器人介绍，新发布的GO-2具身基座大模型将重点瞄准“理解—规划—执行”的贯通能力。其中，所谓“动作思维链”机制，是让系统先生成结构化的高层动作序列，用作任务的整体规划，再由控制层将其细化为可执行的动作，从而减少即时反应带来的偏差，提升任务一致性与可控性。，GO-2采用异步双系统：低频“慢系统”持续输出长程意图与动作规划，高频“快系统”在执行环节进行实时对齐与瞬时修正，以应对桌面高度误差、物体滑移等常见扰动，力求让执行过程“不断线、不跑偏”。在指标层面，智元上披露，GO-2LIBERO等基准评测中取得较高平均成功率，并在仅使用仿真数据训练的条件下，实现一定水平的真实环境成功率，显示其对仿真到现实迁移的重视。对应的技术成果亦已被国际计算机视觉领域重要会议接收，反映出该方向的学术关注度与技术迭代速度持续提升。整体看，若稳定性与泛化能力深入验证，具身智能从演示走向可交付产品的周期有望缩短，并带动制造、物流、商用服务等领域的应用探索提速。对策——以平台化闭环训练弥合“数据鸿沟”，强化工程验证从产业实践看，具身智能要走向“可规模化部署”，仍需在数据、工程与标准上形成系统解法。一是建立持续学习闭环。智元提出依托平台在真实环境中采集交互数据并在线优化，探索“越用越聪明”的分布式进化路径。此思路的价值在于，以真实世界的多样性补足训练分布，降低模型对单一场景的依赖。二是加强任务与安全边界设计。面向生产线与公共空间，机器人不仅要“会做”，更要“可控、可审计、可回退”，需要在动作规划、异常检测、力控策略与人机协作规范上同步推进。三是加大工程化验证与成本优化。具身模型的落地不仅取决于算法指标，还取决于传感器配置、算力成本、维护效率与故障率等综合因素，应通过更大规模、多工况的长周期测试，提升可靠性与可用性。前景——通用能力与场景化落地将并行推进面向未来，具身智能的发展趋势或将呈现“两条线并进”：一上，基础模型继续向“通用大脑”演进，通过更强的多模态理解、更稳的长程规划与更鲁棒的控制策略，提升跨任务迁移能力；另一方面，行业落地将更强调场景化与系统集成，在仓储拣选、工位上下料、巡检运维、商用服务等领域形成可复制的产品形态。随着动作层中间表示、异步控制协同以及真实数据闭环等方法持续成熟，机器人从实验室走向产线与服务现场的门槛有望降低，但能否实现规模化，还取决于成本、安全、标准与生态协同等综合要素的共同突破。

GO-2模型的突破标志着具身智能进入新阶段。随着人机协作需求的增长，这项技术不仅将改变制造业的生产方式，还将为服务机器人和特种作业等领域带来变革。当机器真正实现"知行合一"时，我们将看到智能科技赋能实体经济的新局面。