这一突破其实挺简单，就是把机器人学习这件事给简化了。physical intelligence 公司联手加州大学伯克

这一突破其实挺简单，就是把机器人学习这件事给简化了。Physical Intelligence公司联手加州大学伯克利分校还有斯坦福大学，在2025年搞出了个叫FAST的技术，论文可以去arxiv:2501.09747查一下。它的想法有点像压音乐文件，不是把音符直接删掉，而是分析声音的频率特征。具体做法是用离散余弦变换（DCT）来把机器人的动作转换成频域信息。这样低频就代表动作的大体趋势，高频就是那些细微的小调整。FAST就只保留最重要的成分，去掉那些没什么用的细节。接着再用字节对编码（BPE）进一步压缩，最后生成一个紧凑的表示方法。这技术厉害在哪？传统方法可能得花几百个标记来描述一秒钟的动作，而FAST只要30到60个就能搞定。这样一来处理量少了，核心特征也都留住了。团队为了验证这个，专门弄了个合成数据集来测试高频任务的表现。结果发现传统方法在高频时就不行了，FAST却能一直保持稳定。为了让它更通用，他们还搞了个FAST+的通用标记器。这个标记器是在一个包含100万个真实动作轨迹的数据集上训练出来的，不管什么设备的动作它都能处理。在实际测试里效果特别好，尤其是在叠衣服这种复杂任务里。研究团队甚至在DROID数据集上有了突破。以前机器人得在熟悉的环境里才能干活，现在能直接用自然语言指令在完全陌生的地方操作桌面任务。这说明机器人在理解新环境上进步不小。在效率方面FAST也不错。跟视觉语言动作模型结合起来用，它能让自回归模型的训练时间缩短到原来的五分之一，性能还能赶上扩散型模型。这对大规模的机器人学习特别关键。不过这技术现在还有个缺点就是推理速度有点慢。不过研究团队也说了，以后可以借用大语言模型领域的加速技术来改进这个问题。未来随着应用场景越来越多，从工厂到家里都能用得着。FAST提供的这种高效方法会变得很重要。而且它这种分析频率的思路不光能用到机器人上，自动驾驶和游戏AI这些领域估计也能用上。说白了FAST成功的秘诀就是找到了正确的方式来表示和学习复杂动作。就像音乐家不用死记硬背每个音符一样，它能让机器人理解动作的本质特征，真正走向智能化的未来。