问题——随着AI推理进入规模化部署阶段,存储系统面临带宽不足、容量有限和成本过高等挑战。大模型推理需要持续从存储层向计算单元传输数据,带宽直接影响处理速度和延迟;同时,权重分片和历史KV缓存等数据规模快速膨胀,对近端存储的容量提出了更高要求。目前,HBM虽然带宽高,但容量和成本受限;SSD容量大,但带宽和延迟难以满足高频访问需求。两者之间的技术空白日益明显。 原因——推理场景的数据访问特点是“读多写少、可预取、分层存储”。推理阶段的数据(如权重、历史缓存块等)以读取为主,写入频率较低;部分数据对延迟敏感,需要靠近计算单元,而另一些数据则适合低成本大规模存储。传统存储系统将高带宽和大容量分散不同介质上,导致难以兼顾性能、成本和能耗,因此业界开始探索介于HBM与SSD之间的新型存储方案。 影响——HBF(高带宽堆叠闪存)被视为填补该空白的技术路径之一。它以NAND闪存为基础,通过多芯片堆叠和高带宽封装技术,在HBM和SSD之间构建一个兼顾带宽和容量的存储层,尤其适合以读取为主的推理应用。数据显示,单堆栈在相同物理空间内可实现约512GB容量,远高于HBM,有助于降低单位容量成本;性能上,首代产品目标为16层堆叠,读取带宽约1.6TB/s,接近HBM水平,同时静态功耗更低。由于HBF主要受写入/擦除寿命限制,更适合“读多写少”的场景,而对延迟敏感或频繁更新的数据仍由HBM承担。HBF的引入有望优化推理服务器的存储分层:HBM处理最热、最敏感的数据,HBF承担热数据和大容量读取任务,SSD负责冷数据和长期存储,从而提升整体性价比。 对策——产业链正通过标准化和产品开发推动HBF从概念走向实际应用。主流存储企业已加快布局:闪迪与SK海力士正推进HBF标准化,并在开放计算项目(OCP)框架下启动全球标准化进程;闪迪计划2026年下半年推出HBF模块样品,2027年初推出集成HBF的AI推理服务器,并规划分代升级路线。SK海力士将HBF纳入其智能算力产品方向,强调高带宽和大容量特性;三星电子也已启动早期设计。业内人士认为,标准化将决定HBF能否在接口、封装和软件生态上形成规模效应,而服务器厂商、芯片厂商和云服务商的联合验证将影响其落地速度。 前景——推理算力需求将持续增长,存储系统的带宽、容量和成本平衡成为长期课题。如果HBF能在量产良率、可靠性验证和软硬件协同上取得突破,有望在推理服务器中形成新的“近端容量层”,提升大模型服务的效率和成本效益。HBF并非替代HBM或SSD,而是与它们互补:在不同场景下,系统可根据数据热度和访问特征灵活分层配置。不过,HBF的商业化仍需关注写入耐久性对特定负载的适应性,以及与现有内存语义和缓存管理策略的兼容性,这些因素将成为其落地的关键。
HBF技术的出现和商业化进程反映了AI产业对存储创新的迫切需求;随着全球主流厂商的深度参与和标准化工作的推进,此新型存储介质有望在未来几年实现大规模应用,成为AI推理基础设施的重要组成部分。它不仅将提升推理性能和能效,还将推动产业链协同发展,为AI技术的广泛应用提供更坚实的硬件基础。