大模型训练对网络提出了超低时延、超高带宽和全程无损的严苛要求

中国信通院云计算与数字化研究所云计算部副主任郑立介绍说，在智算网络领域，过去传统的RDMA实现路径要么生态封闭，要么性能上有短板，现在行业不得不大力度推动融合和自主研发。为了支撑AI发展，特别是大模型的训练，万卡甚至十万卡级别的智算集群已经变成了必备的基础设施。研究表明，在大规模分布式训练中，网络通信耗时能占到30%到50%，这意味着网络性能直接决定了算力系统的整体效率。郑立还提到，超大规模智算集群成了全球AI竞争的焦点，但现在这类网络普遍面临资源孤岛、时延太高、算网协同难等问题。中科曙光高级副总裁李斌描述说，从过去做边缘计算到现在搞人工智能大模型训练，对网络通信速度的要求变得越来越严苛。李斌补充道，对于中小规模的算力系统来说，计算的重要性可能比网络稍高一点，但对于大规模的系统来说，网络的重要性绝对排在第一位。邬贺铨院士提到，现在高端高速网络市场基本被国外技术给垄断了，这成了我国算力产业自主发展的一个核心瓶颈。他在演讲中强调，超大规模集群服务是AI发展的底座，想训练出全球领先的大模型，就得有足够大的智算集群来支撑。邬贺铨表示，在大模型训练和智算集群规模化部署的大背景下，网络需要具备超低延迟、超高带宽以及无损传输这三大能力。中科曙光12日宣布突破了高速网络的瓶颈问题，这就给中国发展智算系统填补了一个关键空白。此次发布的scaleFabric是国内第一款原生无损RDMA高速网络。这个技术规格全面对标英伟达NDR，有部分指标甚至实现了赶超。它面向超大规模智算集群设计，从核心关键IP、交换芯片、网卡到交换机、驱动与管理软件全都是自主研发的。邬贺铨院士指出，当前AI正在全面普及，算力已经变成核心生产力。算力的竞争现在也升级为了“算网存”协同的全生态博弈。大模型训练对网络提出了超低时延、超高带宽和全程无损的严苛要求。作为算力基础设施的核心关键技术，高速网络的自主可控性直接关系到国家算力基建安全和发展的质量。“十五五”规划纲要草案里明确说了要统筹推进算力设施建设、模型算法发展和高质量数据资源供给。李斌还说计算决定了系统性能的上限，而网络决定了系统能力的下限。如果网络表现太差劲，甚至有可能把整个系统的性能归零。李斌解释说从边缘计算到AI大模型训练对网络通信速度的要求越来越苛刻。对于中小规模的系统来说计算比网络更重要一点，但对于大规模的系统来说网络才是最重要的。中科曙光这次推出的scaleFabric已经部署在国家超算互联网郑州核心节点了，正在支撑三套万卡级别的scaleX智算集群上线运行。随着这个产品的正式发布，国产原生RDMA技术路线正变得越来越成熟。围绕这个产品形成的高性能网络产业生态也在加速形成。根据TOP500榜单的数据显示，目前全球大概有60%的高性能计算系统都在用InfiniBand这种网络架构。这种架构凭借低时延和原生无损传输的能力在全球顶级超算与AI集群中得到了广泛采用。