这玩意儿把“人+手机”变成了持续运行的数据节点，核心就是给手机配个符合人体工学的颈挂式

最近，蚂蚁数科天玑实验室团队弄出了个叫 AoE（Always-On Egocentric）的东西，说是个持续性第一人称视频采集框架。这玩意儿把“人+手机”变成了持续运行的数据节点，核心就是给手机配个符合人体工学的颈挂式支架。大家只需花不到20美元买个支架，把手机夹在胸前，就能记录下贴近用户视角的画面，替代掉那些动不动好几万美元的专业设备。这样一来，具身智能数据采集成本高、难以规模化的难题就被搞定了。论文也已经在Arxiv上发出来了。为啥现在这么看重真实世界的数据？因为随着基础模型越来越厉害，模型的泛化能力越来越依赖于真实交互数据的规模和质量。这次突破就是把这种自然交互过程完整记录下来。这个方案厉害的是，它能同时实现毫米级轨迹精度和90%以上手部关键点识别准确率，还能让几千台设备一起采集并处理数据。拿Unitree G1机器人关电脑的任务来做实验，结果显示只靠50条遥操作数据时成功率只有45%，但要是引入200条AoE数据，成功率一下子就冲到了95%。这说明在数据不够用的时候，AoE简直就是救命稻草。其实低成本只是个开头。论文里还提到蚂蚁数科解决了把长视频变成训练数据的大难题：用端侧轻量级视觉模型自动识别手物交互并触发录制，再用大语言-视觉模型把视频切成带语义标签的动作片段，最后通过云端自动标注清洗一下，手机录的视频就自动变成了高质量、标准化的训练数据。另外，AOE还搞了一套端云协同的方案，实现了从采集到调度的全自动处理流程。这不仅减少了人工介入，还把整体处理速度提上去了。