这一突破其实挺简单,就是把机器人学习这件事给简化了。Physical Intelligence公司联手加州大学伯克利分校还有斯坦福大学,在2025年搞出了个叫FAST的技术,论文可以去arxiv:2501.09747查一下。它的想法有点像压音乐文件,不是把音符直接删掉,而是分析声音的频率特征。 具体做法是用离散余弦变换(DCT)来把机器人的动作转换成频域信息。这样低频就代表动作的大体趋势,高频就是那些细微的小调整。FAST就只保留最重要的成分,去掉那些没什么用的细节。接着再用字节对编码(BPE)进一步压缩,最后生成一个紧凑的表示方法。 这技术厉害在哪?传统方法可能得花几百个标记来描述一秒钟的动作,而FAST只要30到60个就能搞定。这样一来处理量少了,核心特征也都留住了。团队为了验证这个,专门弄了个合成数据集来测试高频任务的表现。结果发现传统方法在高频时就不行了,FAST却能一直保持稳定。 为了让它更通用,他们还搞了个FAST+的通用标记器。这个标记器是在一个包含100万个真实动作轨迹的数据集上训练出来的,不管什么设备的动作它都能处理。在实际测试里效果特别好,尤其是在叠衣服这种复杂任务里。 研究团队甚至在DROID数据集上有了突破。以前机器人得在熟悉的环境里才能干活,现在能直接用自然语言指令在完全陌生的地方操作桌面任务。这说明机器人在理解新环境上进步不小。 在效率方面FAST也不错。跟视觉语言动作模型结合起来用,它能让自回归模型的训练时间缩短到原来的五分之一,性能还能赶上扩散型模型。这对大规模的机器人学习特别关键。 不过这技术现在还有个缺点就是推理速度有点慢。不过研究团队也说了,以后可以借用大语言模型领域的加速技术来改进这个问题。 未来随着应用场景越来越多,从工厂到家里都能用得着。FAST提供的这种高效方法会变得很重要。而且它这种分析频率的思路不光能用到机器人上,自动驾驶和游戏AI这些领域估计也能用上。 说白了FAST成功的秘诀就是找到了正确的方式来表示和学习复杂动作。就像音乐家不用死记硬背每个音符一样,它能让机器人理解动作的本质特征,真正走向智能化的未来。