话说在2000年的时候,中科曙光就开始接触Myrinet这种高速网络了。等到了2005年,公司彻底切换到了InfiniBand(IB)体系,这积累下来的经验对现在研发全栈自研400G无损高速网络起了很大作用。3月12日,曙光正式发布了这款产品——scaleFabric,算是给国内高端计算网络领域带来了重大突破。咱们现在AI大模型训练对算力的需求可是呈指数级增长的,万卡集群几乎成了行业标配,可网络性能常常拖后腿。传统的IB网络虽然好,但一直被国外垄断;RoCE虽然用得广,却有不少技术短板。怎么突破这些封锁,搞出自己的高速网络?曙光花了三年时间把底层芯片到上层软件全自研出来了。这个scaleFabric用的是国产InfiniBand原生无损RDMA技术,专门给万卡集群用的。在郑州国家超算互联网节点的部署上,三套万卡集群只用了36小时就搞定了,累计服务客户超过1万家,处理作业也有10万多次。 这次产品的核心是两颗自研芯片。网卡芯片支持400G带宽和自研RDMA引擎;交换芯片有64T的双向交换容量,转发时延能压到260ns。它的系列产品挺全的,有400G单口标准网卡、1U 80口液冷交换机和2U 80口风冷交换机,能适应不同需求。实测下来,在3万卡集群里跑网络效率提升了超40%,故障恢复时间缩短到了毫秒级。这不仅是指标好看,更是构建了从硬件到软件的自主生态。 曙光的高级副总裁李斌说过,AI算力需求每九个月就翻一番,现在高速网络成了制约行业发展的大问题。而RDMA网络虽然是算力中心的标准实现路径差异挺大的。RoCE是在以太网上加RDMA技术出来的,虽然兼容IP生态但协议太复杂、带宽低、时延高。相比之下IB是原生方案协议栈精简、有效载荷高得多。 万伟工程师特别提到在大规模集群里网络性能直接决定系统效率,IB技术就是现在的最优解。曙光通过自研112G SerDes IP、交换芯片、网卡等部件彻底摆脱了对国外技术的依赖。为了兼容主流通信库和HPC/AI应用零代码迁移降低成本,曙光在这方面也下了不少功夫。 针对IB组网规模限制的老毛病,曙光把单子网支持规模从1万卡一口气提升到了11.4万卡(比市面主流产品提升了133%),组网成本还能下降30%。现在的scaleFabric在端到端时延、单端口带宽这些关键指标上已经达到国际顶尖水平了。 这套体系不仅性能好还能完全自主可控。李斌透露公司特别注重算、存、传的深度融合跟国内产业链上下游紧密合作共建生态。万伟说曙光计划把关键技术开放给合作伙伴共同打造类InfiniBand的网络生态来支撑中国AI算力发展。