机器人能在现实里玩起了托马斯全旋

3月5日那天，北京的科学家们给全世界露了一手。他们弄出了个叫OmniXtreme的框架，让机器人能在现实里玩起了托马斯全旋，还会各种武术踢击，一共学会了好几项高难度动作。这个东西是由北京通用人工智能研究院和宇树科技一起搞出来的，是世界上第一个通用运动控制框架。以前要是让机器人学单个的高难度动作，它们已经能做得特别准了。可要是想让它学会十多个不同风格的复杂动作，情况就不一样了。以前的办法经常会让机器人变得保守，特别是在那种最考验人的动作上，经常就会失败。为了把这个问题给解决了，研究团队先把一种基于流的生成控制策略给预训练好了，然后又用“驱动感知残差强化学习”做了个后训练。这最后一步特别关键，是为了让机器人在真实世界里也能跑得动。大家都知道在人形机器人的运动控制里有个很大的难题，叫做“泛化壁垒”。以前动作库一多、花样一多，传统的统一强化学习策略就会崩溃，这在物理执行的时候尤其明显。这次的OmniXtreme框架把动作技能的学习和物理驱动的微调给分离开来，分成了“基于流的可扩展预训练”和“驱动感知的残差后训练”两个阶段。为了试试这框架到底行不行，团队搞了个压力测试。他们把训练动作集从10个慢慢增加到了20个，最后还加到了50个。结果发现传统的从头训练方法惨不忍睹：成功率从100%一路跌到了83.3%，最后甚至掉到了73.9%。但OmniXtreme就稳得多，在面对50个动作的时候，核心动作的跟踪成功率还保持在93.3%。这就彻底推翻了以前那种认为动作越多样越不准的固有看法。