国产原生RDMA 400G无损高速网络在郑州发布，为超大规模智算集群打通“高速互联动脉”

（问题）随着大模型训练规模不断扩大，算力竞争正从单点性能比拼转向系统协同效率的较量。万卡级集群中，频繁的参数同步、梯度交换和数据传输对网络性能提出了更高要求。研究表明，分布式训练中网络通信耗时占比高达30%-50%，一旦出现网络拥塞、丢包或延迟波动，整体训练效率将显著下降，导致"算力闲置等待数据"的情况。对超大规模智算集群来说，高带宽、低延迟、可扩展且稳定的高速网络已成为提升系统效率的关键因素。（原因）长期以来，高性能计算和AI训练领域主要采用InfiniBand等以低延迟著称的技术方案。有关产业链从芯片到网络设备高度集中，对外依赖性强。供应链波动不仅影响新集群建设，也会制约现有系统的运维升级。中国工程院院士邬贺铨指出，高速网络是算力基础设施的核心技术，其自主可控程度直接影响国家算力安全和发展水平。因此，实现高速网络关键技术的自主研发，构建可持续的产业体系，已成为行业共识和迫切需求。（影响）基于此，中科曙光在郑州发布了国产原生RDMA高速网络scaleFabric。该产品是全栈自研的400G无损网络解决方案，涵盖从芯片到交换机的完整技术链，可为超大规模智算集群提供高性能互联支持。具体性能上，scaleFabric 400系列采用PCIe 5.0接口，单端口带宽400Gbps，端到端延迟最低0.9微秒；交换机单端口带宽800Gbps，整机交换容量64Tbps，交换延迟约260纳秒。据中科曙光介绍，0.9微秒是目前RDMA小包延迟的行业领先水平。产品还具备快速恢复能力的无损流控机制，可将链路故障恢复时间控制1毫秒内。通过提升端口密度和扩展能力，该方案能支持更大规模集群部署并降低成本。（对策）产品实际应用效果不仅取决于性能指标，更需要在真实业务场景中长期稳定运行。目前，scaleFabric已在郑州国家超算互联网核心节点部署，支撑3套万卡级智算集群稳定运行超过10个月。中科曙光表示，将继续优化产品性能并提升交付能力，为更多应用场景做好准备。业内人士指出，高速网络产品需要与服务器、存储等系统深度协同，构建从硬件到运维的一体化能力，才能真正发挥数据中心规模效益。（前景）随着"东数西算"工程推进和行业大模型应用落地，万卡级以上智算集群需求将持续增长，国产高速网络替代空间广阔。未来竞争将不仅聚焦产品性能，更关注生态建设和工程能力，包括对主流框架的适配优化、智能调度策略、多租户安全机制等。如果在核心器件迭代、规模化供应和标准制定各上取得突破，自主可控的高速网络将成为我国算力基础设施升级的关键支撑，为超大规模智算提供更可靠的基础环境。

在全球科技竞争加剧的今天，核心技术的自主创新至关重要。中科曙光此次突破不仅填补了国内技术空白，更展示了中国企业在高端计算领域的创新能力。随着更多自主创新成果的应用，中国在全球计算领域的影响力将持续提升，为数字经济发展注入新动力。