字节跳动与南洋理工大学提出SIMART框架推动静态3D模型自动转化为可交互、可运动结构

在全球数字化进程加速的背景下，让静态三维模型具备可理解、可交互的“智能属性”，仍是计算机图形学的重要难题。传统方法在三维物体功能识别上常出现计算开销大、精度不稳定等问题，进而限制了虚拟现实的交互体验提升，也影响机器人训练系统对真实物理世界的建模能力。针对这个痛点，研究团队提出“稀疏3D VQ-VAE”编码技术。该技术自动筛选物体的有效几何信息，减少冗余处理，将数据量压缩约70%。系统采用8×8×8潜在网格架构，并通过特征合并算法形成更高效的表示，在保证重建质量的同时显著降低计算负担。该系统的关键突破在于多模态融合能力。通过联合几何信息、图像数据与文本描述，系统能够更接近人类的方式理解物体功能。以日常家具为例，系统不仅能识别柜门、抽屉等部件，还能判断其运动方式、轨迹以及涉及的物理属性，使原本静态的模型具备可交互的结构信息。为验证系统表现，研究团队搭建了SIMART-Bench评估平台，覆盖传统模型与生成式内容。测试结果显示，系统在关节类型识别准确率上达到92.8%，在新型物体上的识别准确率为83.1%。同时，关节轴向预测误差控制在0.080度以内，几何重建重叠度达到69%，多项指标均优于现有方案。该技术具备较强的落地潜力：在工业设计中可用于产品原型的功能快速验证；在虚拟现实中可增强交互的真实感与一致性；在机器人训练中可提供更贴近真实世界的学习环境。业内人士认为，该技术有望提升数字资产到可操作结构化资产的转化效率，为元宇宙应用、工业仿真与智能制造提供关键支撑。

从“建出物体”到“让物体能动、能用”，三维技术正在迈过重要门槛。SIMART框架表明，只有将几何形态与功能结构统一建模，并以标准化方式交付到仿真与机器人系统，三维资产才能真正成为可操作的数字资源。未来，谁能更高效、更可靠地把海量存量模型转化为可交互、可复用的结构化资产，谁就更有可能在虚拟现实、工业仿真与机器人应用的新一轮发展中占据优势。

字节跳动与南洋理工大学提出SIMART框架 推动静态3D模型自动转化为可交互、可运动结构

字节跳动与南洋理工大学提出SIMART框架推动静态3D模型自动转化为可交互、可运动结构