当前,大模型推理性能提升正遇到新的“天花板”;多轮对话、长文本理解、检索增强等应用中,系统需要持续保存并调用历史上下文信息,由此形成以Key/Value为核心的缓存机制。随着模型规模扩大、上下文长度增长,KV缓存的容量与带宽需求快速攀升,引发显存占用上升、吞吐下降、算力利用不足等问题,业内将其概括为推理侧的“记忆瓶颈”。该瓶颈并非某个单点性能不足,而是计算与存储之间的系统性矛盾:一上,GPU计算能力持续提升,推理并发需求同步抬升;另一方面,传统方案高度依赖高带宽内存,通过堆叠HBM扩容、扩带宽以支撑缓存与权重访问,但HBM在成本、功耗与供应上的约束愈发突出。当KV缓存占用大量高价值高速内存时,不仅压缩有效批处理规模,也推高整体部署成本,进而影响单位算力产出与商业化落地节奏。 基于此,SK海力士提出的H³混合架构受到关注。其核心思路是让不同层级的存储分工明确:HBM3E负责对时延极敏感的高速数据访问;HBF作为高容量层,主要承接KV缓存等“容量型负载”,减少对HBM的挤占。公开信息显示,涉及的测试采用多组HBM3E与HBF堆栈的并行配置,并与新一代GPU平台协同验证;论文结果显示,整体推理性能提升约2.69倍,在千万级token超长上下文任务中,批处理能力提升更为明显。 不容忽视的是,该架构并非简单“加一层存储”就能见效。NAND介质在写入时延上天然弱于DRAM,如果缺乏控制,频繁更新的缓存反而会拖慢系统。为缓解这一矛盾,方案引入延迟隐藏缓冲等机制,在关键路径上增加缓冲与调度,将慢写入带来的停顿尽量从GPU计算侧隔离出去,保持计算单元持续高负载运行。其意义在于,把系统优化重点从单纯追求峰值带宽,转向减少“等待时间”、提升有效利用率。 从影响看,混合存储路线可能改变推理基础设施的成本结构与产品形态。若高容量层能够稳定承接KV缓存,服务器配置在满足吞吐的同时可降低对HBM的刚性需求,从而改善单位推理成本与能耗指标;在大规模部署场景中,这种“让昂贵高速资源服务关键路径”的分工机制,有望提升集群整体效率,并为超长上下文、复杂多轮交互等应用释放更大的工程空间。 同时,产业链层面的变化同样值得关注。HBM市场长期由少数厂商主导,而HBF所依赖的混合键合等先进封装与堆叠工艺,正在成为新的竞争焦点。业界普遍认为,随着推理需求从“算力密集”转向“存储与系统协同密集”,封装、互连、控制器与软件栈的协同设计将更关键,标准化与生态建设的重要性上升。在这一过程中,谁能更快形成可规模化的产品与接口标准,谁就更可能在下一代AI服务器内存体系中占据更有利位置。 但也要看到,混合架构落地仍有工程化挑战。其一,高频缓存更新的动态场景对写入时延更敏感,如何在不同负载下稳定维持吞吐,有赖于控制器策略、数据放置与调度算法的更优化。其二,多层存储带来新的软件复杂度,KV缓存管理、预取与一致性维护都会影响实际收益,产业界需要建立从硬件到系统软件的协同方案。其三,供应链与成本也将影响推广速度,尤其在数据中心规模化采购中,可靠性验证、运维机制与兼容性要求更严格。 面向未来,AI推理优化或将进入“效率优先”的阶段:不仅比拼单卡算力,更比拼计算—存储协同、有效吞吐与单位成本。混合存储架构提供了一条可验证的路径,即用系统工程方法在快慢介质间做精细分工,以更高的资源利用率换取更可持续的性能增长。随着标准推进、工艺成熟与软硬件协同增强,围绕KV缓存的存储体系创新,可能成为下一轮产业竞争的重要变量。
SK海力士的H³混合架构突破,反映了全球AI产业在新约束下的技术探索;这不仅是性能指标的提升,也体现出对AI芯片与系统设计思路的调整。随着产业进入以封装、互连与存储协同为核心的新阶段,掌握关键工艺并推动标准落地的企业,可能获得更强的产业主导力。对中国存储产业而言,这既是机遇也是挑战:如何把技术积累转化为可规模化的产品与生态竞争力,仍需在标准、工程化和应用落地等环节持续突破。