问题:供给端受限与需求端激增的双重压力下,推理侧的“显存焦虑”日益加剧;当前,生成式应用正加速融入行业生产流程,推理请求量持续攀升,服务模式从“小规模试用”转向“高并发、长会话、强交互”。另外,行业对高带宽、大容量显存的依赖加深,而存储部件供应紧张和价格波动深入加剧了矛盾。许多推理系统面临“算力充足但显存不足、勉强运行但成本过高”的困境,资源紧张现象逐渐蔓延。 原因:推理工作负载的特性决定了显存消耗的刚性增长。与训练不同,推理更注重时延稳定、并发能力和持续会话性能。尤其长文本、多轮对话和检索增强生成等场景中,为保持上下文一致性,模型需持续保存并扩展键值缓存(KV Cache)。KV Cache随输入长度和对话轮次增加而膨胀,极易占用大量GPU显存,挤占模型推理所需的空间,导致排队、降速或被迫堆叠更多GPU来维持服务质量。此外,推理对高带宽访问的敏感性使得单纯扩容通用存储或增加GPU往往难以平衡性能与成本。 影响:若继续依赖硬件堆叠的旧思路,行业将面临三重挑战:一是成本攀升,新增GPU及配套高端部件将大幅推高单位token成本和总体投入;二是供应链风险,关键部件的产能和交付周期不稳定可能打乱扩容计划;三是体验下降,首token时延、生成速度和并发能力直接影响用户体验,在客服、办公助手等场景中表现尤为明显。因此,如何在现有硬件条件下提升显存效率成为推理优化的关键。 对策:软硬协同提升资源利用率是突破瓶颈的有效途径。新华三推出的大模型推理加速方案重点优化KV Cache这个“显存消耗大户”。该方案通过自研ASIC芯片实现硬件级加速,将KV Cache从GPU显存卸载至专用存储节点,形成面向推理负载的“分层内存”架构:对需要高频访问但无需长期占用显存的缓存数据进行重新分配,系统性缓解显存压力,减少重复计算和等待开销,从而在不盲目增加GPU的前提下提升服务能力。部署上,该方案既可单机提升服务器性能,也可通过外置存储节点连接多台AI服务器,增强集群效率和资源池化能力,为企业提供灵活扩展空间。 验证数据显示,在DeepSeek-V3-671B模型的10K与30K文本多轮对话测试中,相比标准推理服务,KV Cache卸载模式显著优化核心指标:在相同平均延迟(TPOT)限制下,并发用户数提升200%;首token延迟(TTFT)降低70%,TPOT降低30%。这些改进直击企业痛点——能否服务更多用户、响应更快、体验更稳,对交互式应用尤为关键。 前景:未来推理优化将从“单点突破”转向“体系化能力”竞争。随着推理规模化落地,企业将更注重通过架构优化平衡成本与性能:一上长上下文、多轮对话等需求将持续加大显存压力;另一方面供应链和能耗限制将推动更多专用加速方案落地。预计围绕KV Cache管理、PD分离及软硬协同的系统级优化将加速迭代,助力智算基础设施向“经济高效、可持续”方向发展。
在AI技术赋能千行百业的背景下,基础算力资源的优化配置至关重要。新华三的实践表明,软硬协同创新能有效突破技术瓶颈。这种注重实效的技术路线或为我国AI产业自主发展提供重要参考。