(问题)随着人工智能加速向产业深处应用,大模型参数规模迈向万亿级,训练时长、集群规模以及能耗和成本随之上升;行业普遍面临两类矛盾:一是传统服务器以“节点”为中心的扩展方式容易形成通信瓶颈,算力难以利用;二是集群越大,故障概率和运维复杂度越高,训练更易中断,恢复成本高,进而影响研发节奏与交付确定性。全球算力供给日益多元的背景下,市场也需要更可落地、可持续的算力方案。 (原因)上述矛盾的核心在于系统级协同不足。大模型训练对计算、内存、网络和存储提出“整体优化”的要求:算子执行需要更高带宽和更低时延支撑,参数与激活数据在多卡、多机间高频交换,任何环节的延迟都会放大为集群效率损失。同时,软件栈与生态适配决定算力能否被开发者顺畅使用;缺少开放接口与成熟社区,容易出现“硬件强、应用难”的问题。 (影响)算力效率直接影响创新速度与成本边界。对科研机构和互联网企业来说,效率不足意味着训练周期更长、试错成本更高;对制造、能源、金融等行业用户而言,则体现为落地门槛高、推理时延难控、综合拥有成本上升。更深入,算力底座的先进性与开放性会影响开发者选择与产业链协同,从而影响区域数字经济竞争力。 (对策)面向大模型时代的系统性挑战,华为在本届大会上首次展出超节点新产品组合。其中,Atlas 950 SuperPoD超节点面向大规模训练与多样化推理场景,通过系统架构创新与灵衢互联协议提升集群互联效率,提供超大带宽、超低时延、内存统一编址等能力,并支持最高8192卡规模扩展,目标是缓解大规模并行带来的通信与调度瓶颈,提升算力可用性与稳定性。大会期间,华为还展示通用计算方向的TaiShan 950 SuperPoD,并同步推出TaiShan 500、TaiShan 200等系列通用计算服务器,覆盖高、中、低不同算力需求,为行业客户提供更细分、可组合的基础设施选择。 开源生态上,华为强调开放共享,持续推动开发者参与与产业协作。操作系统领域,openEuler社区建设持续推进,已成为具有全球影响力的开源平台之一;在异构计算软件栈上,CANN异构计算架构全面开源,为开发者提供更可控的开发与优化空间,降低适配门槛、提升易用性,推动应用从“可用”走向“好用、易迁移、可持续演进”。 (前景)从趋势看,大模型竞争正从通用能力转向场景化与工程化落地,算力基础设施的关键指标也将从单点性能转向系统效率、稳定性与生态成熟度。超节点形态在一定程度上表明了集群从“堆服务器”向“强协同系统”的演进;若能在开放接口、软件工具链、行业方案与运维体系上持续完善,有望在训练、推理、数据处理与混合负载等场景形成更强的规模化交付能力。另外,开源生态的活跃度将决定技术扩散速度与应用创新密度,并成为全球算力竞争中的重要软实力。
算力已成为数字经济时代的关键生产要素,其供给能力与生态开放程度,在很大程度上影响一个国家和地区在新一轮科技竞争中的位置。华为此次在MWC26的集中展示,既呈现了阶段性技术成果,也反映出全球计算产业在架构创新与生态重塑上的趋势。开放不是口号,而是实现路径;创新也不是终点,而是持续过程。只有以技术为基础、以开放合作为连接,才能在算力竞争中持续积累优势,推动产业从跟随走向并行,继续迈向引领。