中科曙光scalefabric：从硬件到软件的自主生态

话说在2000年的时候，中科曙光就开始接触Myrinet这种高速网络了。等到了2005年，公司彻底切换到了InfiniBand（IB）体系，这积累下来的经验对现在研发全栈自研400G无损高速网络起了很大作用。3月12日，曙光正式发布了这款产品——scaleFabric，算是给国内高端计算网络领域带来了重大突破。咱们现在AI大模型训练对算力的需求可是呈指数级增长的，万卡集群几乎成了行业标配，可网络性能常常拖后腿。传统的IB网络虽然好，但一直被国外垄断；RoCE虽然用得广，却有不少技术短板。怎么突破这些封锁，搞出自己的高速网络？曙光花了三年时间把底层芯片到上层软件全自研出来了。这个scaleFabric用的是国产InfiniBand原生无损RDMA技术，专门给万卡集群用的。在郑州国家超算互联网节点的部署上，三套万卡集群只用了36小时就搞定了，累计服务客户超过1万家，处理作业也有10万多次。这次产品的核心是两颗自研芯片。网卡芯片支持400G带宽和自研RDMA引擎；交换芯片有64T的双向交换容量，转发时延能压到260ns。它的系列产品挺全的，有400G单口标准网卡、1U 80口液冷交换机和2U 80口风冷交换机，能适应不同需求。实测下来，在3万卡集群里跑网络效率提升了超40%，故障恢复时间缩短到了毫秒级。这不仅是指标好看，更是构建了从硬件到软件的自主生态。曙光的高级副总裁李斌说过，AI算力需求每九个月就翻一番，现在高速网络成了制约行业发展的大问题。而RDMA网络虽然是算力中心的标准实现路径差异挺大的。RoCE是在以太网上加RDMA技术出来的，虽然兼容IP生态但协议太复杂、带宽低、时延高。相比之下IB是原生方案协议栈精简、有效载荷高得多。万伟工程师特别提到在大规模集群里网络性能直接决定系统效率，IB技术就是现在的最优解。曙光通过自研112G SerDes IP、交换芯片、网卡等部件彻底摆脱了对国外技术的依赖。为了兼容主流通信库和HPC/AI应用零代码迁移降低成本，曙光在这方面也下了不少功夫。针对IB组网规模限制的老毛病，曙光把单子网支持规模从1万卡一口气提升到了11.4万卡（比市面主流产品提升了133%），组网成本还能下降30%。现在的scaleFabric在端到端时延、单端口带宽这些关键指标上已经达到国际顶尖水平了。这套体系不仅性能好还能完全自主可控。李斌透露公司特别注重算、存、传的深度融合跟国内产业链上下游紧密合作共建生态。万伟说曙光计划把关键技术开放给合作伙伴共同打造类InfiniBand的网络生态来支撑中国AI算力发展。