空间智能作为人工智能领域的重要分支,长期面临视角转换、场景拼接等核心难题。
传统多模态模型虽在目标识别与场景理解上表现突出,却在空间关系判断上频频失误。
国际顶会ICML 2025年研究指出,空间智能与传统多模态能力的相关性极低,且模型规模扩大并不能直接提升其表现,这一现象被学界称为"反尺度效应"。
商汤科技技术团队通过系统性研究发现,问题的根源在于现有训练数据多聚焦平面识别,缺乏对三维空间关系的深度建模。
为此,研发人员创新性地将视角转换拆解为递进能力阶段,通过重组跨领域学术数据,构建起层次分明的训练体系。
在EASI-8测试中,该模型对"建筑模型总数统计""书房空间定位"等刁钻考题的准确率显著优于国际竞品,尤其在需要转换参照系的"眼镜男士方位判断"任务中,正确率较主流模型提升40%以上。
技术突破的背后是方法论创新。
研究团队不仅重构了数据标注体系,更发现空间智能训练可反哺心智重建等关联能力。
这种"协同进化"效应为人工智能的通用能力发展提供了新思路。
此次开源的SenseNova-SI-1.3模型已实现与现有基座模型的完全兼容,其预训练参数和基线系统将大幅降低科研机构与企业的研发门槛。
行业专家分析,该技术有望在自动驾驶三维感知、工业机器人导航、AR/VR场景构建等领域产生连锁突破。
随着空间理解能力的提升,智能系统对物理世界的交互水平将迈入新阶段。
空间智能的突破具有重要的科学意义和应用价值。
SenseNova-SI-1.3在多个权威榜单上的领先表现,不仅验证了商汤科技在空间理解领域的技术积累,更重要的是为整个行业提供了新的技术范式。
通过将视角转换作为关键桥梁、构造层次分明的训练数据、挖掘多源数据的潜力等创新方法,该模型突破了传统大模型在空间智能上的局限。
随着这一开源模型的推广应用,有望激发更多创新研究,加速空间智能技术在自动驾驶、机器人、虚拟现实等领域的实际应用,为人工智能向更高阶段发展注入新的动力。