1. CVPR2026收录MANSION框架：加速楼宇级仿真场景落地，补齐具身智能跨楼层训练短板

问题：从实验室到真实楼宇，具身智能面临关键挑战。医院跨楼层运送物资、写字楼多楼层配送、家庭跨空间家务等任务中，智能体需要应对电梯、楼梯、门禁以及长时间连续决策等复杂场景。与实验室的单层环境相比，真实楼宇的空间拓扑更复杂，交互细节也更不可预测。当前的主要矛盾在于：尽管智能体在感知、操作和导航上不断进步，但训练和评估这些能力的场景基准仍显不足，难以支持跨楼层、长时程任务的系统性验证。原因：真实数据获取成本高，合成场景缺乏逻辑性。真实场景的扫描和采集不仅成本高昂，还涉及隐私和安全问题，且难以根据研究需求灵活调整。另一方面，现有的合成环境大多局限于单层房间拼接，缺少楼梯、电梯等垂直交通设计，导致任务在楼层切换时出现断裂。这种场景与任务的不匹配，使得研究往往停留在简单的“样板间”层面，无法覆盖现实楼宇中路径更长、状态更多、约束更强的复杂问题。影响：跨楼层与长时程任务暴露智能体短板，亟需统一测试标准。研究发现，当任务扩展到跨楼层和长时间连续执行时，当前先进智能体的完成率和稳定性显著下降，空间推理、长期规划、记忆管理等能力短板集中显现。对产业应用而言，这意味着从单点演示到规模化部署仍需跨越“楼宇级可靠性”的门槛；对学术研究而言，缺乏统一、可复现的楼宇级场景体系，难以形成可对比的评价标准，阻碍技术迭代。对策：“MANSION”提出楼宇级生成与仿真一体化框架。入选CVPR 2026的“MANSION”项目，通过语言驱动生成多楼层三维场景，结合多模态模型与几何求解技术，实现从自然语言描述到完整建筑场景的端到端生成。其核心在于从建筑逻辑出发：先规划功能分区、垂直交通和整体风格，再逐层生成拓扑与房间布局，并通过几何求解确保结构合理性和可达性，最终输出可直接用于仿真的交互式三维场景。为支持框架落地，团队发布了MansionWorld数据集，包含1000余栋2至10层的建筑、1万余个房间，涵盖住宅、办公、医院等多种类型，并扩展了AI2-THOR模拟器，新增楼梯、电梯等资产，优化跨楼层任务构建。此外，团队还开发了场景编辑智能体，可根据任务需求快速调整环境配置，提高数据复用效率。前景：楼宇级“数字试验场”助力具身智能迈向可靠。业界普遍认为，具身智能要在医院、园区等复杂空间中落地，关键在于系统在长时间、多约束条件下的稳定执行能力。“MANSION”通过更贴近现实的场景和标准化测评体系，推动算法在空间理解、长期记忆等能力上的提升。随着数据集和任务完善，楼宇级仿真平台有望成为科研与应用的重要桥梁，加速技术向实际部署转化。

这项研究不仅展现了我国在人工智能领域的创新能力，也为全球具身智能发展提供了新思路。在数字化转型的背景下，此类基础性突破将推动智能科技与实体经济的深度融合，为高质量发展注入新动力。