国产原生RDMA 400G无损高速网络在郑州发布,为超大规模智算集群打通“高速互联动脉”

(问题)随着大模型训练规模不断扩大,算力竞争正从单点性能比拼转向系统协同效率的较量。万卡级集群中,频繁的参数同步、梯度交换和数据传输对网络性能提出了更高要求。研究表明,分布式训练中网络通信耗时占比高达30%-50%,一旦出现网络拥塞、丢包或延迟波动,整体训练效率将显著下降,导致"算力闲置等待数据"的情况。对超大规模智算集群来说,高带宽、低延迟、可扩展且稳定的高速网络已成为提升系统效率的关键因素。 (原因)长期以来,高性能计算和AI训练领域主要采用InfiniBand等以低延迟著称的技术方案。有关产业链从芯片到网络设备高度集中,对外依赖性强。供应链波动不仅影响新集群建设,也会制约现有系统的运维升级。中国工程院院士邬贺铨指出,高速网络是算力基础设施的核心技术,其自主可控程度直接影响国家算力安全和发展水平。因此,实现高速网络关键技术的自主研发,构建可持续的产业体系,已成为行业共识和迫切需求。 (影响)基于此,中科曙光在郑州发布了国产原生RDMA高速网络scaleFabric。该产品是全栈自研的400G无损网络解决方案,涵盖从芯片到交换机的完整技术链,可为超大规模智算集群提供高性能互联支持。具体性能上,scaleFabric 400系列采用PCIe 5.0接口,单端口带宽400Gbps,端到端延迟最低0.9微秒;交换机单端口带宽800Gbps,整机交换容量64Tbps,交换延迟约260纳秒。据中科曙光介绍,0.9微秒是目前RDMA小包延迟的行业领先水平。产品还具备快速恢复能力的无损流控机制,可将链路故障恢复时间控制1毫秒内。通过提升端口密度和扩展能力,该方案能支持更大规模集群部署并降低成本。 (对策)产品实际应用效果不仅取决于性能指标,更需要在真实业务场景中长期稳定运行。目前,scaleFabric已在郑州国家超算互联网核心节点部署,支撑3套万卡级智算集群稳定运行超过10个月。中科曙光表示,将继续优化产品性能并提升交付能力,为更多应用场景做好准备。业内人士指出,高速网络产品需要与服务器、存储等系统深度协同,构建从硬件到运维的一体化能力,才能真正发挥数据中心规模效益。 (前景)随着"东数西算"工程推进和行业大模型应用落地,万卡级以上智算集群需求将持续增长,国产高速网络替代空间广阔。未来竞争将不仅聚焦产品性能,更关注生态建设和工程能力,包括对主流框架的适配优化、智能调度策略、多租户安全机制等。如果在核心器件迭代、规模化供应和标准制定各上取得突破,自主可控的高速网络将成为我国算力基础设施升级的关键支撑,为超大规模智算提供更可靠的基础环境。

在全球科技竞争加剧的今天,核心技术的自主创新至关重要。中科曙光此次突破不仅填补了国内技术空白,更展示了中国企业在高端计算领域的创新能力。随着更多自主创新成果的应用,中国在全球计算领域的影响力将持续提升,为数字经济发展注入新动力。