1. CVPR2026收录MANSION框架:加速楼宇级仿真场景落地,补齐具身智能跨楼层训练短板

问题:从实验室到真实楼宇,具身智能面临关键挑战。医院跨楼层运送物资、写字楼多楼层配送、家庭跨空间家务等任务中,智能体需要应对电梯、楼梯、门禁以及长时间连续决策等复杂场景。与实验室的单层环境相比,真实楼宇的空间拓扑更复杂,交互细节也更不可预测。当前的主要矛盾在于:尽管智能体在感知、操作和导航上不断进步,但训练和评估这些能力的场景基准仍显不足,难以支持跨楼层、长时程任务的系统性验证。 原因:真实数据获取成本高,合成场景缺乏逻辑性。真实场景的扫描和采集不仅成本高昂,还涉及隐私和安全问题,且难以根据研究需求灵活调整。另一方面,现有的合成环境大多局限于单层房间拼接,缺少楼梯、电梯等垂直交通设计,导致任务在楼层切换时出现断裂。这种场景与任务的不匹配,使得研究往往停留在简单的“样板间”层面,无法覆盖现实楼宇中路径更长、状态更多、约束更强的复杂问题。 影响:跨楼层与长时程任务暴露智能体短板,亟需统一测试标准。研究发现,当任务扩展到跨楼层和长时间连续执行时,当前先进智能体的完成率和稳定性显著下降,空间推理、长期规划、记忆管理等能力短板集中显现。对产业应用而言,这意味着从单点演示到规模化部署仍需跨越“楼宇级可靠性”的门槛;对学术研究而言,缺乏统一、可复现的楼宇级场景体系,难以形成可对比的评价标准,阻碍技术迭代。 对策:“MANSION”提出楼宇级生成与仿真一体化框架。入选CVPR 2026的“MANSION”项目,通过语言驱动生成多楼层三维场景,结合多模态模型与几何求解技术,实现从自然语言描述到完整建筑场景的端到端生成。其核心在于从建筑逻辑出发:先规划功能分区、垂直交通和整体风格,再逐层生成拓扑与房间布局,并通过几何求解确保结构合理性和可达性,最终输出可直接用于仿真的交互式三维场景。 为支持框架落地,团队发布了MansionWorld数据集,包含1000余栋2至10层的建筑、1万余个房间,涵盖住宅、办公、医院等多种类型,并扩展了AI2-THOR模拟器,新增楼梯、电梯等资产,优化跨楼层任务构建。此外,团队还开发了场景编辑智能体,可根据任务需求快速调整环境配置,提高数据复用效率。 前景:楼宇级“数字试验场”助力具身智能迈向可靠。业界普遍认为,具身智能要在医院、园区等复杂空间中落地,关键在于系统在长时间、多约束条件下的稳定执行能力。“MANSION”通过更贴近现实的场景和标准化测评体系,推动算法在空间理解、长期记忆等能力上的提升。随着数据集和任务完善,楼宇级仿真平台有望成为科研与应用的重要桥梁,加速技术向实际部署转化。

这项研究不仅展现了我国在人工智能领域的创新能力,也为全球具身智能发展提供了新思路。在数字化转型的背景下,此类基础性突破将推动智能科技与实体经济的深度融合,为高质量发展注入新动力。