就在最近,北京通用人工智能研究院也就是通研院把一套叫OmniXtreme(通极)的系统给推出来了,这可是他们首个人形机器人的通用运动框架。央视网那边也报道了,这东西真挺神的,能让机器人玩起托马斯全旋、后空翻这些以前只有专业运动员才会的极限动作,成功率还特别高。这套系统最牛的地方在于把不同动作的专家策略融合到了一起,变成了一套通用算法,彻底解决了以前动作库越弄越大导致精度下降的老毛病。 以前的做法通常是从零开始训练一个统一策略,可这效率太低了。通研院这次换了个思路,采用两阶段学习法。先搞几个针对不同动作的“专家策略”,再用生成式建模把它们揉到一块。这样一来,系统不再是单纯地映射函数关系,而是去学习动作的生成过程,这就让它能同时处理好多种复杂的动作。 接下来才是重头戏。通研院把第一阶段的生成式策略给真实机器人用的时候,又加了一层考虑电机物理特性的优化,像电机的扭矩速度关系、制动功率这些都算进去了。这样一来,原本在仿真里练出来的技能就能更稳当地搬到真家伙上,不像以前老是容易翻车。“通小舞”这个机器人就是靠这套技术成功完成了各种翻腾、倒立还有霹雳舞的动作。 这个过程其实挺复杂的。以前那种强化学习虽然能让机器人通过仿真训练学会动作,但当动作库越来越多的时候,控制精度往往就跟不上了。为了解决这个问题,通研院提出了这个OmniXtreme框架。他们先把每个动作单独训练成“专家策略”,然后把这些策略融合起来变成一个统一的策略模型。这种方式把控制看作是生成动作分布的过程,大大提高了策略的表达能力。最后再加上针对真实电机物理特性的强化学习优化,就能让机器人在真实环境中更稳定地执行各种极限运动动作。 这套技术为类人机器人的高动态控制和泛化提供了一条新路子。它通过两阶段学习法解决了强化学习中遇到的难题:在动作库扩大时保持控制精度。第一阶段是训练专门的“专家策略”并将它们融合成统一策略;第二阶段是引入考虑电机物理特性的强化学习优化来提升策略在真实机器人上的可执行性。 通过这种方式,“通小舞”就成功完成了翻腾、倒立、霹雳舞等高动态、高协调性的复杂动作。这些动作一直是机器人控制领域的难题之一。近年来强化学习被广泛应用于机器人控制领域后,研究人员逐渐意识到动作库扩大后容易出现的问题:学习的动作越多控制精度越容易下降。 为了解决这个问题通研院提出了两阶段学习框架:第一阶段训练专门的“专家策略”并用生成式建模方法将这些专家能力融合为一个统一策略;第二阶段在生成式策略基础上引入考虑真实电机物理特性的强化学习优化来提升策略在真实机器人上的可执行性。