kimi 团队在人工智能圈里炸了个响雷,他们发布了一篇技术报告叫《attention residuals》,直接把特斯拉

嘿,最近有个叫月之暗面Kimi的团队在人工智能圈里炸了个响雷,他们发布了一篇技术报告叫《Attention Residuals》,直接把特斯拉创始人埃隆·马斯克和其他硅谷大佬都给吸引住了。这个报告里面讲了个超级厉害的东西,给AI模型训练开了条全新的路。传统的那种残差网络,自2015年提出来就一直是支撑大模型训练的法宝。它本来是通过让不同层之间直接传递信息来缓解梯度消失的问题,让神经网络能够变得更深。不过Kimi团队在实验中发现了一个大问题,就是不管每一层的任务是什么,都得把前面所有层的信息一股脑儿地给加起来,这样做效率太低了。特别是当网络层数超过一百层的时候,早期的一些重要信息就会因为权重被稀释而弄丢了,这就导致后面的层接收不到有效信息。而且这种统一求和的方式还会浪费很多算力。针对这个痛点,他们搞出了个叫Dynamic Attention Residuals(DAR)的新机制。这个机制把原来的残差连接改成了可学习的注意力模块,让每一层都能根据当前任务的需求,动态地分配关注不同历史层输出的权重。实验数据显示,在训练那种有480亿参数规模的模型时,DAR架构能把单步训练时间缩短20%,还能把模型收敛需要的迭代次数减少25%,整体效率提升了1.25倍。这项研究是由杨植麟、吴育昕和周昕宇这三位联合创始人带了32个研究人员一起搞了18个月才完成的。他们特别强调DAR架构特别好接现成的Transformer框架,只要把里面的残差连接模块换一下就能直接用上。目前这个技术已经在代码生成和多模态理解这些复杂任务里验证过了,相关代码库也已经开源给大家试了。斯坦福大学人工智能实验室的主任克里斯托弗·曼宁说这是深度学习从“硬堆算力”变成“优化信息流”的大变化。meta首席AI科学家杨立昆也说过这种重新设计基础组件比单纯追求模型规模更有价值。值得一提的是马斯克也觉得这个改进有点像当年从Sigmoid激活函数变成ReLU激活函数那种变革一样,看似没多大动静但影响很深。