新型存储技术HBF有望降低AI推理成本半导体产业格局或迎重塑

问题：推理规模化遭遇“内存墙”，成本与效率难兼顾大模型从训练走向推理的过程中，行业竞争焦点正从“算力够不够”延伸至“存储跟不跟得上”。推理业务具有并发请求高、数据搬运频繁、模型权重体量大等特点，若仅依赖高带宽内存（HBM）支撑，虽然速度快，但容量与成本约束突出；若更多依赖传统固态硬盘（SSD），成本可控却在带宽与时延上难以满足高频调用需求。“带宽不足、容量不够、成本过高”的矛盾，被业内概括为推理阶段的“内存墙”，已成为影响模型部署密度、响应时延与总体拥有成本的重要瓶颈。原因：供需结构变化叠加产能挤压，存储市场紧平衡延续多方研究认为，未来一段时期存储行业或延续“供给增幅有限、需求较快增长”的格局。供给端，HBM在先进封装与晶圆资源上的占用度较高，部分产能从传统DRAM产品向HBM倾斜，导致通用DRAM扩产弹性受到限制；NAND上，受库存周期、盈利预期与资本开支节奏影响，部分原厂采取更谨慎的投资策略，供给释放相对克制。需求端，服务器与云基础设施建设成为主要拉动因素。随着生成式应用、智能体服务和企业级推理平台加速落地，云厂商资本开支保持高位，带动DRAM与NAND消耗持续增长。供需错配在价格端表现为波动加大，部分细分规格在现货与合约市场出现较为明显的涨幅预期，继续抬升算力集群的建设与运营成本。影响：价格与架构同时承压，推理商业化进入“精打细算”阶段存储成本上行与供给偏紧，将对AI推理生态产生连锁反应：一是算力集群的单机物料成本与扩容成本上升，影响服务商部署节奏；二是企业侧推理落地更关注单位请求成本与资源利用率，倒逼软件侧进行量化、剪枝、KV Cache优化等工程改造；三是硬件架构层面加速引入分层存储思路，在HBM、DRAM、闪存与SSD之间建立更细粒度的数据分配机制，以更低成本承载更大参数模型与更高并发请求。可以预见，推理阶段的竞争不再单纯比拼峰值算力，而是比拼“系统吞吐+资源效率+成本控制”的综合能力。对策：HBF瞄准推理场景，以“容量+带宽+成本”寻找平衡点因此，高带宽闪存（HBF）作为面向推理场景的新型存储方向受到关注。业内将其定位为介于HBM与SSD之间的存储层：在容量上，HBF目标是以更高的单堆叠容量承载更大规模模型权重，减少频繁换入换出带来的性能损耗；在成本上，HBF力图以显著低于HBM的单位成本，降低大规模推理系统的总体拥有成本；在性能上，虽然闪存介质的访问延迟通常高于HBM，但通过提升并行度、接口带宽与系统级调度，面向推理这类对带宽敏感、对纳秒级极致时延相对不那么敏感的场景，具备“性能够用、成本更优”的落点。研究观点普遍强调，HBF并非替代HBM，而是形成互补：HBM继续承担对带宽与低时延要求最高的数据热区处理，HBF用于存放更大体量的模型与相对冷数据，SSD/硬盘承担更大规模但更低频的数据层。通过分层存储架构，系统可在不显著牺牲吞吐的前提下，提高单位硬件对模型规模与并发请求的承载能力。前景：从概念验证走向工程化，量产节奏与生态成熟度成关键从产业进程看，HBF仍处于加速验证阶段。部分国际存储厂商与产业链企业已启动研发与样品规划，业内预期未来一至两年有望进入样品导入窗口，并在随后推进量产与平台适配。需要指出的是，HBF能否在推理市场形成规模应用，取决于多重因素：其一，接口标准、控制器与软件栈的协同成熟度，决定系统集成难度与实际收益；其二，与GPU/加速器、服务器平台的适配深度，决定能否形成可复制的行业方案；其三，供给侧产能与成本曲线能否兑现预期，决定其在价格敏感的推理市场能否打开空间。总体看，随着大模型从“能力竞赛”进入“成本竞赛”，存储层的技术路线将更加多元。围绕推理负载优化的存储创新，或将成为继算力、网络之后影响AI规模化落地的重要变量。

存储技术的每一次革新,都深刻影响着信息产业的发展轨迹；HBF技术的出现,不仅为破解人工智能推理的成本困局提供了可行方案,更揭示了技术创新必须紧密贴合应用场景的发展规律。在人工智能加速渗透各行各业的今天,如何构建高效、经济、可持续的基础设施体系,仍需产业链各方持续探索。技术进步永无止境,唯有不断创新,方能在激烈的国际竞争中赢得主动。

新型存储技术HBF有望降低AI推理成本 半导体产业格局或迎重塑

新型存储技术HBF有望降低AI推理成本半导体产业格局或迎重塑