华中科技大学和字节跳动联手搞出了一个大动作,一起攻克了AI的难题。电子信息与通信学院的老师跟字节跳动的Seed团队凑一块儿,发布了一个叫MoDA的新技术,这是为了解决那种大语言模型越深处理得越糟糕的问题。这项研究成果已经发在arXiv上了,编号是arXiv:2603.15619v1。以前的模型层数越多,前面输入的重要信息就越容易被压缩丢了。现有的一些办法,像残差连接或者密集连接,虽然有用但也都有各自的缺陷,没法把信息保留得好又跑得快。这次研究团队想到了个好点子,把序列注意力和深度注意力混在一起用。实验结果表明,在那种有1.5B参数的大模型上用这个技术后,下游任务的平均表现提升了2.11%,计算成本才增加了3.7%。 具体咋实现的呢?MoDA设计了一个扩展的键值结构,把现在层的信息和历史深度信息放在一块儿处理,还通过掩码来保证因果关系不出岔子。模型写数据的时候用的是轻量级投影技术,这样既能保证信息完整又把复杂度控制住了。为了让这个技术能跑在硬件上跑得快,他们还专门搞了一堆优化算法。比如他们搞了个Flash兼容的键值布局来提高效率,通过局部访问和共享索引技术让有效利用率能到80%以上。这些改进让MoDA不光理论上厉害,实际用起来也很靠谱。 初步测试显示不管模型规模大小性能都能稳得住。比如在700M参数的模型里训练时的困惑度降了0.41,在1.5B参数的模型里做10个基准测试的平均困惑度也少了0.2。看注意力图能发现模型确实很看重跨层的历史信息。他们还研究了一种缓存技术来动态管历史数据存储。初步试了一下发现后归一化比预归一化的好处大了10倍。现在代码都开源了,有朴素版也有高性能优化版的工具链提供给大家用。这些代码特别是硬件优化策略会直接用到现有AI设施的升级里去。 等到CUDA那边优化工作再往前推一推,MoDA很可能会成为下一代大语言模型的核心之一。