推理性能暴涨,成本结构大改!odcc 这次跟nvidia、焱融科技一起首晒kv cache的评测结果。

推理性能暴涨,成本结构大改!ODCC这次跟NVIDIA、焱融科技一起首晒KV Cache的评测结果。焱融自研的YRCache,真是把速度和成本的优势都给发挥出来了。 自从大模型在企业里用得越来越火,AI推理系统得面对一大堆新难题。比如上下文越长,大家问问题的速度也快得像飞一样,这就把GPU显存给压得喘不过气来。怎么让系统跑得更快又省钱,这成了大家抢着吃肉的必答题。 开放数据中心委员会(ODCC)在NVIDIA、美团、三星还有Solidigm这些大牌子的支持下,专门搞了个AI存储实验室。这次终于放出了针对大模型推理关键卡脖子的KV Cache的测试结果。数据很亮眼:首Token的延迟(TTFT)和单个Token的生成时间(TPOT)能降97%,吞吐量能提22倍! 焱融做的YRCache是专门给大模型推理用的,通过把GPU显存、主机内存、本地NVMe SSD还有云文件服务串联起来,硬是把KV缓存的空间给撑大了,突破了显存限制。这次测试环境用的是NVIDIA的平台,跑的是DeepSeek-R1这些主流大模型,不仅测了GDDR GPU,还测了高端HBMGPU这两类卡。 这次核心成果有几个让人拍大腿的亮点。首先是推理性能翻了好几个跟头:在Batch设16、输入长度10K Tokens的情况下,用了YRCache之后,TTFT和TPOT能降97%,系统吞吐量最高能提22倍。这就意味着用户问问题几乎是秒回的,长文档生成也特别流畅。 然后是长文档处理得特别稳:不管是处理100还是10万Tokens的内容,YRCache都表现得非常稳当,而且随着内容变多,它的加速效果还会越来越大。这就给企业处理长文档、做多轮对话这种高负载任务吃了颗定心丸。 最让人心动的是成本优化这块:用了YRCache后,中端GDDR GPU的性能居然能追平甚至超过高端HBMGPU!以前没优化的时候,中端卡的吞吐量只有高端卡的30%,现在差距缩小到了79%。 算算经济账更划算:在400Gbps和800Gbps的网络环境下,“中端GDDRGPU服务器 + YRCache”这套组合的投资回报率(ROI)分别提升了11倍和14倍。这就好比是用同样的钱买了个更高档的产品一样。 这一突破彻底改变了游戏规则——以前大家都在死磕高端GPU的成本,现在重心转向了存储技术创新。这样一来,中小企业能以更低的门槛用上高性能的服务,大企业也能省下不少钱去折腾更多的创新。 ODCC的这次首发评测不光是把YRCache的技术给亮出来了,更是证明了“用存来带动算”这条路是行得通的。作为实验室的重要实践,它给行业提供了可以量化、能复现的参考标准。 ODCC表示还要继续搞KV Cache的系列测试,想把系统和应用的配合搞得更默契。焱融科技也说了,他们的YRCache还支持PD(Prefill-Decode)分离这种下一代架构呢!他们会一直保持“提升性能”和“优化成本”这两个杀手锏,帮大家在AI浪潮里抢占先机。