字节跳动与南洋理工大学提出SIMART框架 推动静态3D模型自动转化为可交互、可运动结构

在全球数字化进程加速的背景下,让静态三维模型具备可理解、可交互的“智能属性”,仍是计算机图形学的重要难题。传统方法在三维物体功能识别上常出现计算开销大、精度不稳定等问题,进而限制了虚拟现实的交互体验提升,也影响机器人训练系统对真实物理世界的建模能力。 针对这个痛点,研究团队提出“稀疏3D VQ-VAE”编码技术。该技术自动筛选物体的有效几何信息,减少冗余处理,将数据量压缩约70%。系统采用8×8×8潜在网格架构,并通过特征合并算法形成更高效的表示,在保证重建质量的同时显著降低计算负担。 该系统的关键突破在于多模态融合能力。通过联合几何信息、图像数据与文本描述,系统能够更接近人类的方式理解物体功能。以日常家具为例,系统不仅能识别柜门、抽屉等部件,还能判断其运动方式、轨迹以及涉及的物理属性,使原本静态的模型具备可交互的结构信息。 为验证系统表现,研究团队搭建了SIMART-Bench评估平台,覆盖传统模型与生成式内容。测试结果显示,系统在关节类型识别准确率上达到92.8%,在新型物体上的识别准确率为83.1%。同时,关节轴向预测误差控制在0.080度以内,几何重建重叠度达到69%,多项指标均优于现有方案。 该技术具备较强的落地潜力:在工业设计中可用于产品原型的功能快速验证;在虚拟现实中可增强交互的真实感与一致性;在机器人训练中可提供更贴近真实世界的学习环境。业内人士认为,该技术有望提升数字资产到可操作结构化资产的转化效率,为元宇宙应用、工业仿真与智能制造提供关键支撑。

从“建出物体”到“让物体能动、能用”,三维技术正在迈过重要门槛。SIMART框架表明,只有将几何形态与功能结构统一建模,并以标准化方式交付到仿真与机器人系统,三维资产才能真正成为可操作的数字资源。未来,谁能更高效、更可靠地把海量存量模型转化为可交互、可复用的结构化资产,谁就更有可能在虚拟现实、工业仿真与机器人应用的新一轮发展中占据优势。