新型存储技术HBF有望降低AI推理成本 半导体产业格局或迎重塑

问题:推理规模化遭遇“内存墙”,成本与效率难兼顾 大模型从训练走向推理的过程中,行业竞争焦点正从“算力够不够”延伸至“存储跟不跟得上”。推理业务具有并发请求高、数据搬运频繁、模型权重体量大等特点,若仅依赖高带宽内存(HBM)支撑,虽然速度快,但容量与成本约束突出;若更多依赖传统固态硬盘(SSD),成本可控却在带宽与时延上难以满足高频调用需求。“带宽不足、容量不够、成本过高”的矛盾,被业内概括为推理阶段的“内存墙”,已成为影响模型部署密度、响应时延与总体拥有成本的重要瓶颈。 原因:供需结构变化叠加产能挤压,存储市场紧平衡延续 多方研究认为,未来一段时期存储行业或延续“供给增幅有限、需求较快增长”的格局。供给端,HBM在先进封装与晶圆资源上的占用度较高,部分产能从传统DRAM产品向HBM倾斜,导致通用DRAM扩产弹性受到限制;NAND上,受库存周期、盈利预期与资本开支节奏影响,部分原厂采取更谨慎的投资策略,供给释放相对克制。需求端,服务器与云基础设施建设成为主要拉动因素。随着生成式应用、智能体服务和企业级推理平台加速落地,云厂商资本开支保持高位,带动DRAM与NAND消耗持续增长。供需错配在价格端表现为波动加大,部分细分规格在现货与合约市场出现较为明显的涨幅预期,继续抬升算力集群的建设与运营成本。 影响:价格与架构同时承压,推理商业化进入“精打细算”阶段 存储成本上行与供给偏紧,将对AI推理生态产生连锁反应:一是算力集群的单机物料成本与扩容成本上升,影响服务商部署节奏;二是企业侧推理落地更关注单位请求成本与资源利用率,倒逼软件侧进行量化、剪枝、KV Cache优化等工程改造;三是硬件架构层面加速引入分层存储思路,在HBM、DRAM、闪存与SSD之间建立更细粒度的数据分配机制,以更低成本承载更大参数模型与更高并发请求。可以预见,推理阶段的竞争不再单纯比拼峰值算力,而是比拼“系统吞吐+资源效率+成本控制”的综合能力。 对策:HBF瞄准推理场景,以“容量+带宽+成本”寻找平衡点 因此,高带宽闪存(HBF)作为面向推理场景的新型存储方向受到关注。业内将其定位为介于HBM与SSD之间的存储层:在容量上,HBF目标是以更高的单堆叠容量承载更大规模模型权重,减少频繁换入换出带来的性能损耗;在成本上,HBF力图以显著低于HBM的单位成本,降低大规模推理系统的总体拥有成本;在性能上,虽然闪存介质的访问延迟通常高于HBM,但通过提升并行度、接口带宽与系统级调度,面向推理这类对带宽敏感、对纳秒级极致时延相对不那么敏感的场景,具备“性能够用、成本更优”的落点。 研究观点普遍强调,HBF并非替代HBM,而是形成互补:HBM继续承担对带宽与低时延要求最高的数据热区处理,HBF用于存放更大体量的模型与相对冷数据,SSD/硬盘承担更大规模但更低频的数据层。通过分层存储架构,系统可在不显著牺牲吞吐的前提下,提高单位硬件对模型规模与并发请求的承载能力。 前景:从概念验证走向工程化,量产节奏与生态成熟度成关键 从产业进程看,HBF仍处于加速验证阶段。部分国际存储厂商与产业链企业已启动研发与样品规划,业内预期未来一至两年有望进入样品导入窗口,并在随后推进量产与平台适配。需要指出的是,HBF能否在推理市场形成规模应用,取决于多重因素:其一,接口标准、控制器与软件栈的协同成熟度,决定系统集成难度与实际收益;其二,与GPU/加速器、服务器平台的适配深度,决定能否形成可复制的行业方案;其三,供给侧产能与成本曲线能否兑现预期,决定其在价格敏感的推理市场能否打开空间。 总体看,随着大模型从“能力竞赛”进入“成本竞赛”,存储层的技术路线将更加多元。围绕推理负载优化的存储创新,或将成为继算力、网络之后影响AI规模化落地的重要变量。

存储技术的每一次革新,都深刻影响着信息产业的发展轨迹;HBF技术的出现,不仅为破解人工智能推理的成本困局提供了可行方案,更揭示了技术创新必须紧密贴合应用场景的发展规律。在人工智能加速渗透各行各业的今天,如何构建高效、经济、可持续的基础设施体系,仍需产业链各方持续探索。技术进步永无止境,唯有不断创新,方能在激烈的国际竞争中赢得主动。