谷歌这回搞出个TurboQuant的新算法,说是能把内存需求砍到原来的六分之一,运算速度也能飙到原来的八倍。他们研究团队最近在ICLR 2026发了论文,把这套技术的细节都讲清楚了,代码以后也打算开源出来。这法子主要是用了双阶段压缩,先是PolarQuant,再是QJL。PolarQuant通过把向量转成极坐标来压缩角度,不用额外存什么归一化参数;QJL这一步是用Johnson-Lindenstrauss变换加1-bit纠错来搞降维,算内积的时候能直接修正误差。实验证明,这东西能把KVCache的精度压到3-bit左右。Google拿自家的Gemini和开源的Mistral做了测试,在LongBench那个长文本数据集上打得KIVI什么的满地找牙,特别是在“海量信息检索”这个任务上表现完美。硬件实测显示,配个4-bit模式跑起来的速度飞快,用GloVe向量来测试召回率也不比PQ、RabbiQ这些老技术差。最重要的是TurboQuant这东西特好上手,不用重新训练模型,直接就能套在现有的大语言模型上面用。像数据库检索、推荐系统这些依赖向量的地方都能用得上。只要一张普通消费级的GPU,就能处理几十万token那么长的上下文,这对企业来说可是大大降低了硬件成本。其实大语言模型处理长句子时要维护那个键值缓存(KVCache),这玩意儿本来就很占内存。以前的方法虽然能压缩点数据规模,可是要存那些全精度的缩放因子和零点什么的,结果每个数还得额外开销1到2位的空间,实际压缩效果很差劲,成了瓶颈。TurboQuant这次是把这两个麻烦都给解决了。未来如果能把这技术集成到vLLM或者TensorRT这些主流的推理框架里头去,肯定能让AI服务从实验室走进千家万户。