谷歌这回搞出个turboquant的新算法，说是能把内存需求砍到原来的六分之一，运算速度

谷歌这回搞出个TurboQuant的新算法，说是能把内存需求砍到原来的六分之一，运算速度也能飙到原来的八倍。他们研究团队最近在ICLR 2026发了论文，把这套技术的细节都讲清楚了，代码以后也打算开源出来。这法子主要是用了双阶段压缩，先是PolarQuant，再是QJL。PolarQuant通过把向量转成极坐标来压缩角度，不用额外存什么归一化参数；QJL这一步是用Johnson-Lindenstrauss变换加1-bit纠错来搞降维，算内积的时候能直接修正误差。实验证明，这东西能把KVCache的精度压到3-bit左右。Google拿自家的Gemini和开源的Mistral做了测试，在LongBench那个长文本数据集上打得KIVI什么的满地找牙，特别是在“海量信息检索”这个任务上表现完美。硬件实测显示，配个4-bit模式跑起来的速度飞快，用GloVe向量来测试召回率也不比PQ、RabbiQ这些老技术差。最重要的是TurboQuant这东西特好上手，不用重新训练模型，直接就能套在现有的大语言模型上面用。像数据库检索、推荐系统这些依赖向量的地方都能用得上。只要一张普通消费级的GPU，就能处理几十万token那么长的上下文，这对企业来说可是大大降低了硬件成本。其实大语言模型处理长句子时要维护那个键值缓存（KVCache），这玩意儿本来就很占内存。以前的方法虽然能压缩点数据规模，可是要存那些全精度的缩放因子和零点什么的，结果每个数还得额外开销1到2位的空间，实际压缩效果很差劲，成了瓶颈。TurboQuant这次是把这两个麻烦都给解决了。未来如果能把这技术集成到vLLM或者TensorRT这些主流的推理框架里头去，肯定能让AI服务从实验室走进千家万户。