中科曙光发布国产原生RDMA网络scaleFabric 智算互联实现自主可控新突破

问题：随着大模型训练和高通量推理需求快速增长，万卡级乃至更大规模的智算集群成为常态。

在分布式训练中，网络通信耗时占比不断上升，成为影响算力利用率的关键瓶颈。

尤其在超大规模集群中，网络必须同时满足超高带宽、超低时延、无损传输与高可靠性。

长期以来，相关核心技术和产品依赖国外供应链，制约了网络性能优化与系统安全可控。

原因：一方面，传统以太网难以同时满足极低时延与无损传输的要求；另一方面，国际主流的InfiniBand生态在高速SerDes IP、交换芯片、网卡和交换机等环节存在明显的外部依赖，国内高端RDMA产业链缺乏完整自研体系。

随着算力中心成为新型基础设施的核心组成部分，自主可控的高速网络成为产业升级与安全保障的必答题。

影响：此次发布的scaleFabric 400G无损高速网络填补了国内高端原生RDMA技术空白。

该产品从底层112G SerDes IP、交换芯片、网卡到交换机、驱动与管理软件实现100%自主研发，形成完整的软硬件体系。

性能方面，网卡端口带宽达到400Gbps，端到端时延低至0.9微秒；交换机端口带宽达800Gbps，整机交换容量双向64Tbps，交换时延约260纳秒，支持多种端口扩展。

稳定性方面，采用基于信用的无损流控机制，链路故障恢复小于1毫秒，已在万卡级集群持续稳定运行验证超过10个月。

与国际同类产品相比，交换机端口密度、网卡队列能力和单子网互连规模均有提升，同时整体成本可降低约三成。

对策：在技术路线选择上，scaleFabric聚焦原生RDMA架构，强化无损传输与低时延优势，适配大规模并行训练的通信特征；在工程化落地上，产品已部署于国家超算互联网郑州核心节点，支撑三套万卡级智算集群上线运行，总规模达3万卡，并支持跨POD组网。

业内人士表示，面向超大规模集群的网络互联能力已成为算力体系优化的基础条件，构建自主可控、可扩展的高性能网络生态是产业共识。

前景：随着国产高端RDMA网络落地应用，我国智算基础设施在性能与安全层面将得到双重提升。

未来，围绕芯片、光模块、网络管理与调度软件等环节的协同创新有望加速，推动形成完整的高性能网络产业链生态。

在政策支持和应用牵引下，自研无损高速网络将成为智算中心建设的重要基础能力，为超大规模算力集群的持续扩容提供关键支撑。

中科曙光scaleFabric系统的问世，是我国信息技术领域自主创新的又一重要里程碑。

在全球数字经济竞争日益激烈的背景下，关键核心领域的自主突破不仅关乎产业安全，更是国家科技实力的重要体现。

未来，随着国产高性能网络技术的持续演进和应用深化，我国在全球算力格局中的地位有望得到进一步提升，为数字中国建设注入新的动能。