推理性能暴涨，成本结构大改！odcc 这次跟nvidia、焱融科技一起首晒kv cache的评测结果。

推理性能暴涨，成本结构大改！ODCC这次跟NVIDIA、焱融科技一起首晒KV Cache的评测结果。焱融自研的YRCache，真是把速度和成本的优势都给发挥出来了。自从大模型在企业里用得越来越火，AI推理系统得面对一大堆新难题。比如上下文越长，大家问问题的速度也快得像飞一样，这就把GPU显存给压得喘不过气来。怎么让系统跑得更快又省钱，这成了大家抢着吃肉的必答题。开放数据中心委员会（ODCC）在NVIDIA、美团、三星还有Solidigm这些大牌子的支持下，专门搞了个AI存储实验室。这次终于放出了针对大模型推理关键卡脖子的KV Cache的测试结果。数据很亮眼：首Token的延迟（TTFT）和单个Token的生成时间（TPOT）能降97%，吞吐量能提22倍！焱融做的YRCache是专门给大模型推理用的，通过把GPU显存、主机内存、本地NVMe SSD还有云文件服务串联起来，硬是把KV缓存的空间给撑大了，突破了显存限制。这次测试环境用的是NVIDIA的平台，跑的是DeepSeek-R1这些主流大模型，不仅测了GDDR GPU，还测了高端HBMGPU这两类卡。这次核心成果有几个让人拍大腿的亮点。首先是推理性能翻了好几个跟头：在Batch设16、输入长度10K Tokens的情况下，用了YRCache之后，TTFT和TPOT能降97%，系统吞吐量最高能提22倍。这就意味着用户问问题几乎是秒回的，长文档生成也特别流畅。然后是长文档处理得特别稳：不管是处理100还是10万Tokens的内容，YRCache都表现得非常稳当，而且随着内容变多，它的加速效果还会越来越大。这就给企业处理长文档、做多轮对话这种高负载任务吃了颗定心丸。最让人心动的是成本优化这块：用了YRCache后，中端GDDR GPU的性能居然能追平甚至超过高端HBMGPU！以前没优化的时候，中端卡的吞吐量只有高端卡的30%，现在差距缩小到了79%。算算经济账更划算：在400Gbps和800Gbps的网络环境下，“中端GDDRGPU服务器 + YRCache”这套组合的投资回报率（ROI）分别提升了11倍和14倍。这就好比是用同样的钱买了个更高档的产品一样。这一突破彻底改变了游戏规则——以前大家都在死磕高端GPU的成本，现在重心转向了存储技术创新。这样一来，中小企业能以更低的门槛用上高性能的服务，大企业也能省下不少钱去折腾更多的创新。 ODCC的这次首发评测不光是把YRCache的技术给亮出来了，更是证明了“用存来带动算”这条路是行得通的。作为实验室的重要实践，它给行业提供了可以量化、能复现的参考标准。 ODCC表示还要继续搞KV Cache的系列测试，想把系统和应用的配合搞得更默契。焱融科技也说了，他们的YRCache还支持PD（Prefill-Decode）分离这种下一代架构呢！他们会一直保持“提升性能”和“优化成本”这两个杀手锏，帮大家在AI浪潮里抢占先机。