mit：让线性回归这门老方法给大模型解了无限上下文的难题

麻省理工学院的研究团队最近想出了个主意，居然能让线性回归这门老方法给大模型解了无限上下文的难题。现在大家都在琢磨怎么给大模型喂更多的信息，MIT就把眼光放在了键值（KV）压缩上。他们搞出了个叫FastKVCompactionviaAttentionMatching的新技术，不光能把处理速度提上去，内存占用还大大降低了，这对处理海量Token可是关键一步。以前的压缩法子要么是扔token要么是合并它们，压缩得太狠就容易把模型性能给拖垮。MIT这次直接换了种玩法：利用注意力机制的特点，把复杂的特征拟合变成了经典的线性回归问题。他们给KVC（键值缓存）重新排了一下逻辑，让压缩后的块能和后面的未知Token自然地拼在一起。具体怎么做呢？先弄个参考查询算法生成目标向量；然后从原始键里挑最有代表性的子集当压缩键，用正交匹配追踪（OMP）来挑；最后用普通最小二乘法（OLS）算出压缩值矩阵。这几步下来省去了大量的迭代优化过程，速度快了不少。实验结果挺喜人，有些场景下压缩时间都缩短了两个数量级。对于长文本的处理，他们还搞了分块压缩和滑动窗口注意力这些招数，保证精度不变的同时让压缩更高效。研究还发现不同的注意力头对KV容量的敏感度不一样，于是用贪心算法把有限的预算优先给那些敏感的头。总得来说，MIT这次研究给长周期计算和持续推理这类任务打开了新的大门。把难题转化成线性回归的形式后，技术上算是突破了一大步。在这不断变化的科技时代，MIT的这种创新肯定能激励更多人在这方面继续往前探。