蚂蚁数科推出低成本具身智能数据采集框架 手机配颈挂支架可替代数万美元专业设备

问题: 具身智能要真正落地应用,必须先解决数据难题。机器人在现实环境中需要处理大量零散、开放的任务,但训练所需的第一人称视角数据、手物交互细节和动作序列很难通过仿真完全获取。目前真实数据采集主要依靠多相机阵列、动捕系统等专业设备,成本高、部署复杂、对场地和人员要求严格,导致数据规模和场景覆盖有限,这严重制约了模型的泛化能力和实际应用。 原因: 真实交互数据具有高度复杂性,涉及光照变化、遮挡、手部姿态、物体材质以及家庭、办公等各种场景。同时传统采集方式存在"硬件昂贵、流程繁琐、标注困难"等问题,特别是将长视频转化为可训练数据需要人工切分和标注,既费时又难以标准化,无法满足持续迭代的数据需求。随着基础模型能力的提升,行业对高质量、可扩展、跨场景的真实交互数据需求更加迫切。 影响: 蚂蚁数科团队提出的AoE持续性第一人称视频采集框架创新性地将"人+手机"转化为可持续的数据采集节点。通过颈挂式支架将手机固定在胸前,持续记录贴近用户视角的画面,还原自然交互过程。该方案在保持毫米级轨迹精度和90%以上手部关键点识别准确率的同时,支持数千台设备并发采集,并实现云端自动化处理。测试数据显示:Unitree G1机器人执行"关电脑"任务时,仅使用50条遥操作数据的成功率为45%;加入200条AoE数据后成功率提升到95%。这表明在数据匮乏阶段,低成本采集的真实数据能有效启动学习过程。 对策: AoE方案的核心是将原始视频转化为可用训练数据。通过轻量视觉模型识别手物交互触发录制;利用语言与视觉联合模型切分连续视频并生成语义标签;最后在云端完成自动标注和清洗。整个流程最大限度减少人工干预,提高数据处理效率和一致性。专家认为这种"轻量化硬件+自动化流程"的组合若能解决隐私保护和标准化问题,将显著降低数据建设门槛。 前景: 具身智能的竞争将越来越依赖真实世界适应能力,数据的规模、质量和覆盖面直接影响模型性能。基于手机的采集方案具有部署快、扩展性强、迭代成本低等优势,能快速覆盖家庭、办公等多种场景。同时规模化采集也对数据合规性和隐私保护提出更高要求,需要在规范制定和质量评估等持续完善。随着技术进步,真实数据采集有望实现常态化网络化发展。

科技创新正在重塑人工智能发展路径。从专业设备到智能终端的转变不仅展现了科研智慧,更说明了以应用为导向的创新理念。未来如何在确保数据质量的同时加强隐私保护,需要产学研各界的共同努力。