SK海力士推出混合存储架构破解AI推理瓶颈 性能提升超两倍引发产业格局重塑

大模型应用加速落地,推理负载快速上升,但一线从业者普遍遇到同一个问题:模型“算得动”,不代表数据“喂得上”。对话式服务、检索增强生成、长文本摘要等场景中,系统需要持续保存并读取上下文信息,形成所谓KV缓存。随着参数规模扩大、上下文长度拉长,KV缓存占用快速增长,直接挤压显存与带宽资源,导致GPU计算单元等待数据、利用率下降,推理吞吐受限,成本控制压力也随之增大。 这个瓶颈的背后,一上是算法侧“长上下文常态化”,另一方面是硬件侧“存储层级失衡”。过去行业多通过堆叠高带宽内存提升供给侧能力,但HBM产能、成本与功耗上都有现实约束。当KV缓存从“辅助数据”变为“关键负载”,仅靠更高带宽、更大容量的HBM难以持续扩展,还可能推高系统成本与能耗,限制大规模部署。 ,SK海力士提出H³混合架构思路:用HBM3E承接纳秒级响应的高频访问,同时引入HBF作为更大容量的高带宽闪存层,分担KV缓存等“容量型、带宽型”数据负载。其披露的测试与仿真结果显示,该组合方案在特定推理任务上带来性能提升,并在千万级token的超长上下文场景下明显提高批处理能力。核心目标是通过“分层分工”减少GPU等待时间,让计算单元尽可能保持高负载运行。 值得关注的是,该方案并非简单增加硬件,而是针对闪存写入延迟等固有短板做了系统化设计。论文中提到的延迟隐藏缓冲机制,可理解为在慢速写入路径前加入缓冲与调度,尽量把写入延迟对前端计算的影响隔离,从而提升端到端推理效率。这也反映出产业竞争正在从“单点指标”转向“系统协同优化”:不只看峰值带宽,更看真实业务流量下的吞吐、时延与成本的综合表现。 从产业影响看,若混合存储架构被更验证并形成规模化方案,可能带来三上变化:其一,AI服务器的内存层级会更细分,HBM不再承担全部压力,系统设计空间扩大;其二,推理成本结构可能被重新评估,尤其长上下文与多轮对话成为常态后,容量与带宽的性价比将更关键;其三,互连、控制器、软件栈与调度策略的协同重要性上升,存储与计算的边界可能进一步模糊,推动生态伙伴调整分工。 ,落地仍面临现实挑战。闪存介质在写入时延、频繁更新各上的先天限制,意味着其用于动态KV缓存仍需要更精细的控制器策略、缓冲体系,以及软件侧的访问模式优化。行业推动标准化与联盟协作,也可视为对下一代AI服务器内存规范的提前布局:谁能在性能、可靠性与可制造性之间找到平衡,谁就更可能在供应链与标准话语权上占据主动。 对中国涉及的企业而言,这一趋势也带来新的观察角度。混合键合等先进封装与堆叠工艺,被认为是实现高密度集成的重要路径之一。若存储体系从“单一HBM扩容”走向“多层级混合”,围绕工艺、专利与工程化能力的竞争将更为激烈。抓住技术窗口、强化产业协同,并围绕应用场景推进工程验证,将成为能否在新一轮架构演进中赢得机会的关键。 展望后续发展,AI推理正在从追求单卡极限性能,转向系统级效率与规模化可部署性。混合存储架构的意义不止于一次性能提升,更在于提供了一条路径:让不同速度、不同容量、不同成本的存储器各司其职,通过体系优化释放算力潜能。未来一段时期,存储层级设计、数据调度机制与软件栈适配,可能与制程、算力同等重要,成为决定AI基础设施竞争力的关键变量。

全球科技竞争持续加剧,存储技术的突破不仅影响单个企业的竞争力,也可能重塑产业链分工。中国企业在混合键合领域的技术积累,为参与国际竞争提供了支点,但要在新一轮产业变革中把握机会,仍需在关键技术攻关与标准制定上持续投入。由存储技术推动的这轮演进,可能在未来几年内改变全球半导体产业的竞争格局。