kimi给ai圈扔了个大新闻，他们发了个报告，马斯克那帮硅谷大佬看了都夸得不行

最近啊，月之暗面Kimi给AI圈扔了个大新闻，他们发了个叫《Attention Residuals》的报告，马斯克那帮硅谷大佬看了都夸得不行。他们研究团队花了18个月，联合32位研究人员才弄出来。这次他们动的可是传统残差网络，这个技术可是从2015年开始一直是支撑大规模模型训练的关键。传统的做法是让所有层都平等地处理信息，但这在深度学习网络特别深的时候就会出问题。Kimi团队发现，这种无差别求和的方式容易让早期的特征信息被稀释掉，特别是到了几百层之后，有用的信息就会流失。而且大家还得一块儿算，浪费了不少算力，大概有30%的冗余计算呢。为了搞定这些问题，他们搞了个叫DAR的新玩意儿，就是Dynamic Attention Residuals。这个设计很聪明，把原来的残差连接改成了可学习的注意力模块。这样一来，网络每层都能自己决定哪些层的信息更重要。他们在480亿参数的大模型上跑实验，结果单步训练时间直接缩短了20%，迭代次数也少了25%，综合起来效率提升了1.25倍。这个架构最大的好处是兼容性好，直接给Transformer框架替换一下残差块就能用。报告里还特别提了一下，现在很多代码生成和多模态理解的任务都能用这个技术。斯坦福大学的克里斯托弗·曼宁就说这是个大转变，是从堆算力到优化信息流动的转变。Meta的杨立昆也在社交媒体上说，重新设计基础组件比单纯追求模型大更有价值。马斯克评价的时候还说，这事儿让他想起当年从Sigmoid换到ReLU激活函数那回，看似小改动影响却很大呢。