问题:机器人进入真实环境后,一个突出短板是“空间智能”不足——不仅要识别物体是什么,还要理解物体之间的相对位置、遮挡关系、承重支撑、可操作顺序等约束。家庭收纳、仓储拣选、巡检运维等任务中——空间逻辑一旦判断失误——轻则操作失败,重则带来安全风险。此外,机器人部署后常会遇到环境变化和任务更新,如何在使用过程中持续学习、不断更新知识,仍是落地应用的关键难题。 原因:一上,物理世界约束强、变化快,交互链路长,数据采集成本高,且难以覆盖大量长尾场景;另一方面,训练往往依赖仿真或离线数据,模型进入现实后容易遭遇“分布偏移”,导致泛化不足。更关键的是,空间理解长期缺少统一、可复现的评测体系:模型“能描述”不等于“能执行”,空间推理能力是否可靠,难以用标准化指标进行对比。 影响:在本届CVPR投稿16092篇、录用4090篇、录用率约25.42%的背景下,上述两项研究入选,显示国际学界对“让模型走出屏幕、进入现实”的关注持续升温。业内人士指出,具身智能的竞争重点正在从单点算法转向系统能力建设:既要形成可持续学习的闭环,也要建立覆盖关键能力的评测标准,推动技术从展示走向规模化应用。 对策:据研究团队介绍,Arcadia提出面向具身智能终身学习的全生命周期闭环框架,覆盖数据采集、模型训练到部署后的自我更新与知识迭代。该框架将机器人在真实环境中的多模态感知信息转化为结构化语义,通过空间重建与场景生成形成可扩展的训练资源,并在物理一致的仿真环境中进行数据扩增与技能训练,再回流到真实部署,完成“训练—验证—再训练”的闭环更新。公开信息显示,在宇树G1人形机器人真实世界零样本测试中,Arcadia在导航任务与操作任务上分别取得46%与27%的成功率;与部分开源方案对比,整体表现提升约3倍,在多目导航与多物体协同操作等复杂场景中优势更为明显。 与“学得会”相对应,“测得准”同样关键。SpatiaLQA面向视觉语言模型提出空间逻辑推理评测基准,聚焦遮挡关系、相对位置约束、支撑与稳定性判断、操作先后顺序等典型问题,并配套数据集与指标体系,旨在把空间推理能力从“主观感受”转为“可量化对照”。研究人员举例,在书架整理等任务中,模型需要判断哪些物体是支撑点、哪些可以独立移动;一旦推断错误,可能引发连锁倾倒。该基准有望为后续模型训练、系统集成与安全评估提供统一的评测依据。 前景:多位业内观察人士认为,生成式模型在数字内容领域的进展较为明显,但走向实体世界仍受制于空间理解、物理一致性与可执行推理等核心瓶颈。未来一段时期,空间智能或将成为具身智能从实验室走向产业化的关键能力。在此过程中,需要提升高质量数据供给与开放评测体系建设,加强仿真与真实世界的协同训练,完善安全规范与场景标准,推动产学研联合攻关,使机器人在复杂环境中具备更稳定、更可靠、也更可验证的任务能力。
人工智能正加速走向现实世界,如何让数字智能与物理环境高效协同,正在成为全球科技竞争的重要方向。此次我国科研团队在国际顶会上取得进展,既说明了基础研究的创新能力,也为人工智能走向实际应用提供了新的技术路径。随着对应的研究持续推进并加快转化,有望在智能制造、智慧城市等领域带来更多可落地的应用,深入增强我国在新一轮科技变革中的竞争力。