kimi给ai圈扔了个大新闻,他们发了个报告,马斯克那帮硅谷大佬看了都夸得不行

最近啊,月之暗面Kimi给AI圈扔了个大新闻,他们发了个叫《Attention Residuals》的报告,马斯克那帮硅谷大佬看了都夸得不行。他们研究团队花了18个月,联合32位研究人员才弄出来。这次他们动的可是传统残差网络,这个技术可是从2015年开始一直是支撑大规模模型训练的关键。传统的做法是让所有层都平等地处理信息,但这在深度学习网络特别深的时候就会出问题。Kimi团队发现,这种无差别求和的方式容易让早期的特征信息被稀释掉,特别是到了几百层之后,有用的信息就会流失。而且大家还得一块儿算,浪费了不少算力,大概有30%的冗余计算呢。 为了搞定这些问题,他们搞了个叫DAR的新玩意儿,就是Dynamic Attention Residuals。这个设计很聪明,把原来的残差连接改成了可学习的注意力模块。这样一来,网络每层都能自己决定哪些层的信息更重要。他们在480亿参数的大模型上跑实验,结果单步训练时间直接缩短了20%,迭代次数也少了25%,综合起来效率提升了1.25倍。这个架构最大的好处是兼容性好,直接给Transformer框架替换一下残差块就能用。 报告里还特别提了一下,现在很多代码生成和多模态理解的任务都能用这个技术。斯坦福大学的克里斯托弗·曼宁就说这是个大转变,是从堆算力到优化信息流动的转变。Meta的杨立昆也在社交媒体上说,重新设计基础组件比单纯追求模型大更有价值。马斯克评价的时候还说,这事儿让他想起当年从Sigmoid换到ReLU激活函数那回,看似小改动影响却很大呢。