中科曙光发布国产原生RDMA网络scaleFabric 智算互联实现自主可控新突破

问题:随着大模型训练和高通量推理需求快速增长,万卡级乃至更大规模的智算集群成为常态。

在分布式训练中,网络通信耗时占比不断上升,成为影响算力利用率的关键瓶颈。

尤其在超大规模集群中,网络必须同时满足超高带宽、超低时延、无损传输与高可靠性。

长期以来,相关核心技术和产品依赖国外供应链,制约了网络性能优化与系统安全可控。

原因:一方面,传统以太网难以同时满足极低时延与无损传输的要求;另一方面,国际主流的InfiniBand生态在高速SerDes IP、交换芯片、网卡和交换机等环节存在明显的外部依赖,国内高端RDMA产业链缺乏完整自研体系。

随着算力中心成为新型基础设施的核心组成部分,自主可控的高速网络成为产业升级与安全保障的必答题。

影响:此次发布的scaleFabric 400G无损高速网络填补了国内高端原生RDMA技术空白。

该产品从底层112G SerDes IP、交换芯片、网卡到交换机、驱动与管理软件实现100%自主研发,形成完整的软硬件体系。

性能方面,网卡端口带宽达到400Gbps,端到端时延低至0.9微秒;交换机端口带宽达800Gbps,整机交换容量双向64Tbps,交换时延约260纳秒,支持多种端口扩展。

稳定性方面,采用基于信用的无损流控机制,链路故障恢复小于1毫秒,已在万卡级集群持续稳定运行验证超过10个月。

与国际同类产品相比,交换机端口密度、网卡队列能力和单子网互连规模均有提升,同时整体成本可降低约三成。

对策:在技术路线选择上,scaleFabric聚焦原生RDMA架构,强化无损传输与低时延优势,适配大规模并行训练的通信特征;在工程化落地上,产品已部署于国家超算互联网郑州核心节点,支撑三套万卡级智算集群上线运行,总规模达3万卡,并支持跨POD组网。

业内人士表示,面向超大规模集群的网络互联能力已成为算力体系优化的基础条件,构建自主可控、可扩展的高性能网络生态是产业共识。

前景:随着国产高端RDMA网络落地应用,我国智算基础设施在性能与安全层面将得到双重提升。

未来,围绕芯片、光模块、网络管理与调度软件等环节的协同创新有望加速,推动形成完整的高性能网络产业链生态。

在政策支持和应用牵引下,自研无损高速网络将成为智算中心建设的重要基础能力,为超大规模算力集群的持续扩容提供关键支撑。

中科曙光scaleFabric系统的问世,是我国信息技术领域自主创新的又一重要里程碑。

在全球数字经济竞争日益激烈的背景下,关键核心领域的自主突破不仅关乎产业安全,更是国家科技实力的重要体现。

未来,随着国产高性能网络技术的持续演进和应用深化,我国在全球算力格局中的地位有望得到进一步提升,为数字中国建设注入新的动能。