国产算力实现万卡级突破超大规模集群技术攻关仍面临三重挑战

问题：万卡突破之后，国产算力距离十万卡仍有显著差距。

近期，中科曙光在郑州发布全自研scaleFabric高速网络产品，并在国家超算互联网核心节点部署万卡级国产智算集群，实现CPU、GPU、交换机芯片、网卡芯片等全栈国产化，填补了国内在关键互联环节的空白。

这一里程碑体现了国产算力基础设施在关键“卡脖子”环节上的突破。

但与此同时，国际企业已在十万卡乃至更大规模集群上持续探索，规模差距背后是系统能力与生态成熟度的差距。

原因：从技术结构看，超大规模集群的核心挑战并非计算节点本身，而在互联系统与整体可靠性。

随着集群规模指数式扩大，单点故障概率在系统层面放大，稳定性与可用性成为决定性能上限的关键。

专家指出，传统高速互联多依赖IB等技术体系，曾长期被国外厂商掌握核心能力，导致国内在超大规模组网与协议栈方面受限。

虽然scaleFabric实现了国产化替代，但从万卡向十万卡跨越，还涉及交换机带宽、端侧网卡能力、协议层重传机制与拥塞控制等系统级难题。

此外，数据中心供电、散热、机柜形态以及上层调度系统的协同能力，也决定了规模扩展的可持续性。

影响：超大规模算力集群已成为全球人工智能竞争的重要基础设施。

行业研究显示，支撑万亿级参数大模型训练的集群规模需达到八万至十万卡。

对国内而言，能否构建稳定、高效、可扩展的大规模集群，直接关系到算力供给能力、模型研发效率以及关键产业链自主可控水平。

万卡突破为国产算力争得了发展窗口，但系统性能力不足仍可能成为制约高端算力发展的瓶颈，影响产业在全球竞争中的话语权。

对策：面对十万卡规模的系统挑战，业内建议从四个方面推进。

一是加快互联协议与软硬件协同创新，形成兼顾有损网络环境的高效传输与重传机制，提升网络鲁棒性与吞吐效率。

二是提升交换机与网卡能力，推进核心器件在高带宽、高密度、高可靠场景中的国产替代。

三是完善系统级调优与运维体系，构建跨层协同优化能力，降低大规模集群运行中的故障扩散与性能衰减。

四是强化生态协作，推动网络、计算、供电、冷却与调度系统形成合力，避免单点突破带来的“短板效应”。

前景：随着国家超算互联网建设推进与产业链协同深化，国产算力正加速向更高规模、更高可靠性迈进。

专家认为，十万卡并非简单的“数量加法”，而是系统工程的“能力乘法”，需要在体系架构、协议栈、工程化落地和生态成熟度上同步提升。

未来，国产算力将围绕高性能互联、稳定运行与协同优化展开系统创新，逐步形成可规模复制的超大规模智算基础设施能力。

曙光万卡集群的成功部署证明了国产算力产业的创新潜力，但从万卡向十万卡的跨越，需要的是更加系统、更加深层的技术突破和生态创新。

这不是某一家企业的单独课题，而是整个产业链的共同使命。

只有通过芯片设计、系统集成、网络协议、软件生态等多个维度的协同创新，国产算力才能真正打造出与国际先进水平相当的超大规模智算基础设施，为我国AI产业的长远发展奠定坚实基础。

这一过程充满挑战，但前景光明，其成败将直接影响我国在人工智能时代的战略地位。

国产算力实现万卡级突破 超大规模集群技术攻关仍面临三重挑战