忆联新一代企业级固态硬盘通过国际权威测试，为大规模人工智能训练提供高效存储解决方案

随着大模型训练迈向更高参数规模、更大数据集和更密集并发，如何让昂贵的加速器集群“吃得饱、跑得稳”，已成为算力基础设施建设的关键问题。业界普遍认为，训练效率不仅取决于计算芯片性能，一旦数据供给链路出现瓶颈，GPU空转会直接拉长训练周期并抬升总体成本。传统存储测试多聚焦峰值带宽、随机读写等单项指标，往往难以反映真实训练流程中多客户端并发、检查点写入、故障恢复等复杂负载对系统的综合要求。问题于，训练场景中的“有效算力”很容易被存储与数据链路消耗。尤其在大规模集群中，训练任务需要持续从存储侧取数并写入中间状态，任何抖动都会被放大为队列等待与资源浪费。为让评估更贴近真实需求，全球基准测评组织MLCommons推出MLPerf Storage基准测试套件，其重点不再是展示存储自身指标，而是直接衡量存储系统能否支撑并维持较高的GPU利用率，从而为训练耗时与资源成本提供更可解释的参考。原因在于，深度学习训练负载具有明显的“端到端”特征：数据读取、预处理、分发、梯度计算、模型保存相互牵引。MLPerf Storage在v2.0版本中引入Checkpoint工作负载，用于模拟训练过程中的周期性模型状态保存及容灾恢复，使评测覆盖到更贴近大模型训练的关键环节。这类设计试图回答一个直接问题：在真实训练节奏下，存储能否持续稳定供数，能否在并发压力与状态写入压力叠加时仍保持可预测的性能。基于这个框架，忆联Gen5 eSSD UH812a按MLPerf Storage v2.0默认参数完成验证测试，并模拟新一代加速器平台对高数据供给的需求。测试覆盖U-Net 3D、ResNet50、CosmoFlow以及Checkpoint等训练负载。公开结果显示，UH812a在涉及的负载中的GPU利用率均高于基准要求，体现其在高并发训练访问下保持稳定供数的能力。在U-Net 3D场景中，该负载面向医疗影像等大体积3D数据训练，更强调多客户端并发下的顺序读写带宽与持续性。测试数据显示，在模拟5颗H100加速器并发条件下，其吞吐量达到14566MB/s量级，GPU利用率最低保持在约96%，表明在该场景中存储侧能够较好匹配计算侧节奏，减少因数据不足带来的空闲等待。影响层面看，以GPU利用率为牵引的存储评估可为行业提供更直观的决策依据：一上，训练任务周期常以天、周甚至月计，缩短训练时间意味着更快的模型迭代与产品落地；另一方面，高价值加速器资源一旦闲置，会显著推高单位训练成本。若存储系统能多负载条件下提供稳定数据流，就意味着在同等算力投入下获得更高的有效产出，并提升数据中心整体资源利用率。对企业而言，这不仅是性能表现，更关系到大模型工程化落地中的成本控制与交付确定性。对策层面，面向大模型训练的存储建设正从“追求单点峰值”转向“追求全链路稳定与可扩展”。一是以真实训练工作负载为导向开展选型与验证，避免仅凭传统跑分作出配置决策；二是针对并发访问、元数据处理、检查点写入等关键环节进行系统设计与压测，形成可复用的验证流程；三是在平台适配上提前完成对新一代加速器与软件栈的联调，降低规模化部署后才暴露瓶颈的风险。通过标准化基准与工程化验证结合，才能让存储在算力集群中真正承担起“稳态供给”的角色。前景来看，随着训练规模持续扩大、数据形态更加多样，以及容灾与合规要求不断提升，存储系统的评价体系将更强调场景化、端到端与可持续。MLPerf Storage等基准的引入，有助于产业在同一标尺下进行可比性验证，也将促使厂商在稳定性、可预测性能与并发扩展能力诸上持续投入。对算力基础设施建设者而言，围绕“让GPU保持高利用率”目标，构建从存储到网络再到调度的系统性优化路径，将成为提升大模型训练效率的重要方向。

在全球科技竞争加速演进的背景下，核心基础技术的自主创新至关重要。此次测评结果不仅表明了我国企业在高端存储领域的研发能力，也为打造更安全、可控的人工智能技术体系提供了支撑。随着数字经济持续深入，如何将技术优势继续转化为产业生态优势，仍有待全行业在实践中不断探索。