中国信通院云计算与数字化研究所云计算部副主任郑立介绍说,在智算网络领域,过去传统的RDMA实现路径要么生态封闭,要么性能上有短板,现在行业不得不大力度推动融合和自主研发。为了支撑AI发展,特别是大模型的训练,万卡甚至十万卡级别的智算集群已经变成了必备的基础设施。研究表明,在大规模分布式训练中,网络通信耗时能占到30%到50%,这意味着网络性能直接决定了算力系统的整体效率。 郑立还提到,超大规模智算集群成了全球AI竞争的焦点,但现在这类网络普遍面临资源孤岛、时延太高、算网协同难等问题。中科曙光高级副总裁李斌描述说,从过去做边缘计算到现在搞人工智能大模型训练,对网络通信速度的要求变得越来越严苛。李斌补充道,对于中小规模的算力系统来说,计算的重要性可能比网络稍高一点,但对于大规模的系统来说,网络的重要性绝对排在第一位。 邬贺铨院士提到,现在高端高速网络市场基本被国外技术给垄断了,这成了我国算力产业自主发展的一个核心瓶颈。他在演讲中强调,超大规模集群服务是AI发展的底座,想训练出全球领先的大模型,就得有足够大的智算集群来支撑。邬贺铨表示,在大模型训练和智算集群规模化部署的大背景下,网络需要具备超低延迟、超高带宽以及无损传输这三大能力。 中科曙光12日宣布突破了高速网络的瓶颈问题,这就给中国发展智算系统填补了一个关键空白。此次发布的scaleFabric是国内第一款原生无损RDMA高速网络。这个技术规格全面对标英伟达NDR,有部分指标甚至实现了赶超。它面向超大规模智算集群设计,从核心关键IP、交换芯片、网卡到交换机、驱动与管理软件全都是自主研发的。 邬贺铨院士指出,当前AI正在全面普及,算力已经变成核心生产力。算力的竞争现在也升级为了“算网存”协同的全生态博弈。大模型训练对网络提出了超低时延、超高带宽和全程无损的严苛要求。作为算力基础设施的核心关键技术,高速网络的自主可控性直接关系到国家算力基建安全和发展的质量。“十五五”规划纲要草案里明确说了要统筹推进算力设施建设、模型算法发展和高质量数据资源供给。 李斌还说计算决定了系统性能的上限,而网络决定了系统能力的下限。如果网络表现太差劲,甚至有可能把整个系统的性能归零。李斌解释说从边缘计算到AI大模型训练对网络通信速度的要求越来越苛刻。对于中小规模的系统来说计算比网络更重要一点,但对于大规模的系统来说网络才是最重要的。 中科曙光这次推出的scaleFabric已经部署在国家超算互联网郑州核心节点了,正在支撑三套万卡级别的scaleX智算集群上线运行。随着这个产品的正式发布,国产原生RDMA技术路线正变得越来越成熟。围绕这个产品形成的高性能网络产业生态也在加速形成。 根据TOP500榜单的数据显示,目前全球大概有60%的高性能计算系统都在用InfiniBand这种网络架构。这种架构凭借低时延和原生无损传输的能力在全球顶级超算与AI集群中得到了广泛采用。