科研团队突破人形机器人操控瓶颈 高精度数据采集技术提升任务成功率

问题——人形机器人要在真实环境完成“抓—转—放—推拉”等连续动作,既需要长时序规划,也离不开指尖末端的精细控制。业内常用基于虚拟现实的遥操作来采集演示数据,但传统视觉手部追踪在遮挡、越界或视线丢失时容易中断,产生的噪声会直接带入模型微调环节,导致机器人在高精度任务中稳定性不足。 原因——研究团队指出,大规模人类视频能提供动作先验,但很难覆盖“机器人本体约束+具体末端执行器”带来的差异。真正决定部署效果的,往往是面向特定机器人、特定任务的示范数据。尤其在拧水龙头、从容器中抽取托盘、擦拭时保持器皿稳定等场景,指尖角度的细微变化都会影响接触力与摩擦状态。仅依靠视觉追踪,难以持续输出稳定的手部姿态估计,数据可用性因此受限。 影响——遥操作数据质量不仅决定单次示范是否“可学”,也影响训练链路的最后一环。该团队采用三阶段训练:先在约829小时第一视角人类操作视频上预训练骨干模型;再用约31小时真实世界人形机器人数据进行后期训练;最后针对每项任务用80条遥操作演示做微调。由于第三阶段直接决定任务的收敛方向,手指姿态误差和缺帧会被放大为策略偏差,表现为抓取不稳、旋转不到位、动作衔接失败等问题。 对策——为提升采集的连续性与精度,南加州大学PSI实验室在ψ₀单操作者全身远程操作框架中,将控制链路拆分为三条“感知—控制流”:上身姿态跟踪、灵巧手控制、下体运动命令,并为不同链路配置更匹配的传感方式。其中,PICO头戴设备与手腕追踪器用于获取头部与手腕姿态,输入多目标反向运动学求解器,计算手臂和躯干配置;MANUS手套专门采集精细手指运动,覆盖灵巧手所需自由度,并将拇指、食指、中指等关键动作映射到安装在宇树G1人形机器人上的三指Dex3-1灵巧手;腰部与足部追踪器则向基于强化学习的下体控制器提供高层运动指令。通过手套与手腕追踪器的组合,系统不再依赖纯视觉手部追踪即可获得更完整的末端执行器姿态信息,降低遮挡与越界造成的数据断裂风险。 前景——在多项真实世界长时序操作评测中,ψ₀在包含抓握、倾倒、旋转、行走、蹲下、搬运、推拉等连续子任务的八项任务上取得领先表现。研究显示,在总体训练数据量相对更少的情况下,凭借更高质量的遥操作示范,其平均整体成功率相比对比方法明显提升。这个进展也提示业界:面向人形机器人的“数据工程”正在从单纯扩规模,转向提高关键环节的保真度与可控性。下一步,有关技术有望在家庭服务、工业柔性装配、危险环境处置等场景落地,让“可复制的高质量示范采集”逐步成为训练基础设施的一部分,同时也会对数据标准、泛化评测与安全边界提出更高要求。

人形机器人的竞争——表面是模型与硬件的比拼——核心仍是数据质量与工程体系能力。通过在采集端弥补视觉追踪的短板,用更可靠的手部与末端位姿数据支撑任务微调,灵巧操作能力的“最后一公里”正被加速打通。面向更复杂的真实场景,只有持续提升数据的真实性、连续性与可迁移性,机器人才能从“会模仿”深入走向“能胜任”。