这玩意儿把“人+手机”变成了持续运行的数据节点,核心就是给手机配个符合人体工学的颈挂式

最近,蚂蚁数科天玑实验室团队弄出了个叫 AoE(Always-On Egocentric)的东西,说是个持续性第一人称视频采集框架。这玩意儿把“人+手机”变成了持续运行的数据节点,核心就是给手机配个符合人体工学的颈挂式支架。大家只需花不到20美元买个支架,把手机夹在胸前,就能记录下贴近用户视角的画面,替代掉那些动不动好几万美元的专业设备。这样一来,具身智能数据采集成本高、难以规模化的难题就被搞定了。论文也已经在Arxiv上发出来了。 为啥现在这么看重真实世界的数据?因为随着基础模型越来越厉害,模型的泛化能力越来越依赖于真实交互数据的规模和质量。这次突破就是把这种自然交互过程完整记录下来。这个方案厉害的是,它能同时实现毫米级轨迹精度和90%以上手部关键点识别准确率,还能让几千台设备一起采集并处理数据。 拿Unitree G1机器人关电脑的任务来做实验,结果显示只靠50条遥操作数据时成功率只有45%,但要是引入200条AoE数据,成功率一下子就冲到了95%。这说明在数据不够用的时候,AoE简直就是救命稻草。 其实低成本只是个开头。论文里还提到蚂蚁数科解决了把长视频变成训练数据的大难题:用端侧轻量级视觉模型自动识别手物交互并触发录制,再用大语言-视觉模型把视频切成带语义标签的动作片段,最后通过云端自动标注清洗一下,手机录的视频就自动变成了高质量、标准化的训练数据。 另外,AOE还搞了一套端云协同的方案,实现了从采集到调度的全自动处理流程。这不仅减少了人工介入,还把整体处理速度提上去了。