arxiv 发布moda 解决大语言模型越深处理得越糟糕

华中科技大学和字节跳动联手搞出了一个大动作，一起攻克了AI的难题。电子信息与通信学院的老师跟字节跳动的Seed团队凑一块儿，发布了一个叫MoDA的新技术，这是为了解决那种大语言模型越深处理得越糟糕的问题。这项研究成果已经发在arXiv上了，编号是arXiv:2603.15619v1。以前的模型层数越多，前面输入的重要信息就越容易被压缩丢了。现有的一些办法，像残差连接或者密集连接，虽然有用但也都有各自的缺陷，没法把信息保留得好又跑得快。这次研究团队想到了个好点子，把序列注意力和深度注意力混在一起用。实验结果表明，在那种有1.5B参数的大模型上用这个技术后，下游任务的平均表现提升了2.11%，计算成本才增加了3.7%。具体咋实现的呢？MoDA设计了一个扩展的键值结构，把现在层的信息和历史深度信息放在一块儿处理，还通过掩码来保证因果关系不出岔子。模型写数据的时候用的是轻量级投影技术，这样既能保证信息完整又把复杂度控制住了。为了让这个技术能跑在硬件上跑得快，他们还专门搞了一堆优化算法。比如他们搞了个Flash兼容的键值布局来提高效率，通过局部访问和共享索引技术让有效利用率能到80%以上。这些改进让MoDA不光理论上厉害，实际用起来也很靠谱。初步测试显示不管模型规模大小性能都能稳得住。比如在700M参数的模型里训练时的困惑度降了0.41，在1.5B参数的模型里做10个基准测试的平均困惑度也少了0.2。看注意力图能发现模型确实很看重跨层的历史信息。他们还研究了一种缓存技术来动态管历史数据存储。初步试了一下发现后归一化比预归一化的好处大了10倍。现在代码都开源了，有朴素版也有高性能优化版的工具链提供给大家用。这些代码特别是硬件优化策略会直接用到现有AI设施的升级里去。等到CUDA那边优化工作再往前推一推，MoDA很可能会成为下一代大语言模型的核心之一。