mit:让线性回归这门老方法给大模型解了无限上下文的难题

麻省理工学院的研究团队最近想出了个主意,居然能让线性回归这门老方法给大模型解了无限上下文的难题。现在大家都在琢磨怎么给大模型喂更多的信息,MIT就把眼光放在了键值(KV)压缩上。他们搞出了个叫FastKVCompactionviaAttentionMatching的新技术,不光能把处理速度提上去,内存占用还大大降低了,这对处理海量Token可是关键一步。 以前的压缩法子要么是扔token要么是合并它们,压缩得太狠就容易把模型性能给拖垮。MIT这次直接换了种玩法:利用注意力机制的特点,把复杂的特征拟合变成了经典的线性回归问题。他们给KVC(键值缓存)重新排了一下逻辑,让压缩后的块能和后面的未知Token自然地拼在一起。 具体怎么做呢?先弄个参考查询算法生成目标向量;然后从原始键里挑最有代表性的子集当压缩键,用正交匹配追踪(OMP)来挑;最后用普通最小二乘法(OLS)算出压缩值矩阵。这几步下来省去了大量的迭代优化过程,速度快了不少。实验结果挺喜人,有些场景下压缩时间都缩短了两个数量级。 对于长文本的处理,他们还搞了分块压缩和滑动窗口注意力这些招数,保证精度不变的同时让压缩更高效。研究还发现不同的注意力头对KV容量的敏感度不一样,于是用贪心算法把有限的预算优先给那些敏感的头。 总得来说,MIT这次研究给长周期计算和持续推理这类任务打开了新的大门。把难题转化成线性回归的形式后,技术上算是突破了一大步。在这不断变化的科技时代,MIT的这种创新肯定能激励更多人在这方面继续往前探。