忆联新一代企业级固态硬盘通过国际权威测试,为大规模人工智能训练提供高效存储解决方案

随着大模型训练迈向更高参数规模、更大数据集和更密集并发,如何让昂贵的加速器集群“吃得饱、跑得稳”,已成为算力基础设施建设的关键问题。业界普遍认为,训练效率不仅取决于计算芯片性能,一旦数据供给链路出现瓶颈,GPU空转会直接拉长训练周期并抬升总体成本。传统存储测试多聚焦峰值带宽、随机读写等单项指标,往往难以反映真实训练流程中多客户端并发、检查点写入、故障恢复等复杂负载对系统的综合要求。问题于,训练场景中的“有效算力”很容易被存储与数据链路消耗。尤其在大规模集群中,训练任务需要持续从存储侧取数并写入中间状态,任何抖动都会被放大为队列等待与资源浪费。为让评估更贴近真实需求,全球基准测评组织MLCommons推出MLPerf Storage基准测试套件,其重点不再是展示存储自身指标,而是直接衡量存储系统能否支撑并维持较高的GPU利用率,从而为训练耗时与资源成本提供更可解释的参考。原因在于,深度学习训练负载具有明显的“端到端”特征:数据读取、预处理、分发、梯度计算、模型保存相互牵引。MLPerf Storage在v2.0版本中引入Checkpoint工作负载,用于模拟训练过程中的周期性模型状态保存及容灾恢复,使评测覆盖到更贴近大模型训练的关键环节。这类设计试图回答一个直接问题:在真实训练节奏下,存储能否持续稳定供数,能否在并发压力与状态写入压力叠加时仍保持可预测的性能。基于这个框架,忆联Gen5 eSSD UH812a按MLPerf Storage v2.0默认参数完成验证测试,并模拟新一代加速器平台对高数据供给的需求。测试覆盖U-Net 3D、ResNet50、CosmoFlow以及Checkpoint等训练负载。公开结果显示,UH812a在涉及的负载中的GPU利用率均高于基准要求,体现其在高并发训练访问下保持稳定供数的能力。在U-Net 3D场景中,该负载面向医疗影像等大体积3D数据训练,更强调多客户端并发下的顺序读写带宽与持续性。测试数据显示,在模拟5颗H100加速器并发条件下,其吞吐量达到14566MB/s量级,GPU利用率最低保持在约96%,表明在该场景中存储侧能够较好匹配计算侧节奏,减少因数据不足带来的空闲等待。影响层面看,以GPU利用率为牵引的存储评估可为行业提供更直观的决策依据:一上,训练任务周期常以天、周甚至月计,缩短训练时间意味着更快的模型迭代与产品落地;另一方面,高价值加速器资源一旦闲置,会显著推高单位训练成本。若存储系统能多负载条件下提供稳定数据流,就意味着在同等算力投入下获得更高的有效产出,并提升数据中心整体资源利用率。对企业而言,这不仅是性能表现,更关系到大模型工程化落地中的成本控制与交付确定性。对策层面,面向大模型训练的存储建设正从“追求单点峰值”转向“追求全链路稳定与可扩展”。一是以真实训练工作负载为导向开展选型与验证,避免仅凭传统跑分作出配置决策;二是针对并发访问、元数据处理、检查点写入等关键环节进行系统设计与压测,形成可复用的验证流程;三是在平台适配上提前完成对新一代加速器与软件栈的联调,降低规模化部署后才暴露瓶颈的风险。通过标准化基准与工程化验证结合,才能让存储在算力集群中真正承担起“稳态供给”的角色。前景来看,随着训练规模持续扩大、数据形态更加多样,以及容灾与合规要求不断提升,存储系统的评价体系将更强调场景化、端到端与可持续。MLPerf Storage等基准的引入,有助于产业在同一标尺下进行可比性验证,也将促使厂商在稳定性、可预测性能与并发扩展能力诸上持续投入。对算力基础设施建设者而言,围绕“让GPU保持高利用率”目标,构建从存储到网络再到调度的系统性优化路径,将成为提升大模型训练效率的重要方向。

在全球科技竞争加速演进的背景下,核心基础技术的自主创新至关重要。此次测评结果不仅表明了我国企业在高端存储领域的研发能力,也为打造更安全、可控的人工智能技术体系提供了支撑。随着数字经济持续深入,如何将技术优势继续转化为产业生态优势,仍有待全行业在实践中不断探索。