多家国际科技巨头联手推进光互联规范,为万卡乃至十万卡AI集群“铺路”

问题——算力“越堆越多”,互联先到极限; 业内普遍认为,人工智能基础设施的主要矛盾正从“单卡算得有多快”转向“集群协同有多顺”。大模型训练高度依赖分布式并行,梯度同步、参数更新等通信频繁发生,数据在成千上万张加速卡之间往返穿梭。集群规模越大,通信时延、带宽不足与能耗上升对训练效率的影响越显著。传统以铜缆为主的短距互联在带宽、距离、功耗与信号完整性各上逐步逼近物理边界,难以支撑下一阶段算力集群继续扩张。 原因——“各修各路”成本高,底层通用规则缺位。 过去较长时间,高端算力互联领域往往采取封闭式或半封闭式路线:芯片厂商将互联从物理层到协议层打包设计,以整套系统换取性能与生态锁定;云厂商与大模型机构则自家数据中心内进行工程化优化,形成各自的互联组合方案。这种模式在集群规模较小时尚可承受,但当行业迈向更大规模、更高密度、更低单位能耗的阶段,“重复造轮子”的边际成本快速攀升:一上,互联组件迭代节奏需匹配光器件、交换与布线体系升级,投入巨大;另一方面,互联生态的割裂加剧供应链复杂度,不利于多来源采购与长期稳定交付。由此,推动形成“共同可用的底层光物理层规范”,成为多方现实压力下的利益交汇点。 影响——规则切割带来“竞合新格局”,生态边界可能重划。 值得关注的是,此次各方推动的规范更像是一次“精准分工”:优先统一光互联的物理层传输要求,尽量保持对上层协议与调度机制的兼容空间。换言之,行业试图先把“高速公路的路面与标线”统一,再让不同厂商在各自“交通规则与车型性能”上继续竞争。其潜在影响主要体现在三上。 其一,光互联从机房间、机架间加速向服务器内部、板级互联渗透,有望改变数据中心网络的物理形态,带动布线、光模块、硅光与交换对应的产业链升级。 其二,有助于缓解封闭生态带来的系统锁定风险。对云厂商与模型机构而言,底层互联规则更通用意味着未来在硬件选型、扩容与替换时拥有更大回旋空间。 其三,标准化将把竞争重心从“是否能互联”推向“如何更高效互联”,上层协议、软件栈、编译与调度能力的重要性深入上升,系统级优化将成为差异化关键。 对策——以标准为锚,打通从工程验证到规模部署的路径。 业内人士指出,底层规范要真正转化为产业能力,仍需跨越从文本到落地的多道门槛:一是互操作与一致性测试体系需尽快完善,避免“名义统一、实际各行其是”;二是围绕功耗、散热、可靠性与可维护性的工程化指标必须清晰,特别是在高密度机柜环境下,光器件的稳定性与运维复杂度是规模部署的关键;三是与既有数据中心网络体系的兼容迁移需要可执行路线,降低一次性改造成本,减少对存量业务的扰动。对参与各方而言,在保持差异化竞争的同时,形成可持续的标准治理机制,同样决定标准生命力。 前景——光互联或成下一代AI基础设施“共同底座”。 从趋势看,算力集群继续走向更大规模与更高能效几成共识,互联能力将直接决定算力利用率与训练周期。统一的光物理层规范若能顺利推广,可能像互联网时代的基础协议那样,成为行业广泛采用的底座能力,并进一步带动上层协议、软硬协同与系统设计创新。同时,随着更多参与者加入,标准竞争也将从单一厂商的技术路径之争,转向围绕生态、成本与交付能力的综合博弈。未来一段时间,谁能率先在规模化部署中验证“更低功耗、更低时延、更高带宽与更易运维”的综合优势,谁就更可能在新一轮算力基础设施升级中掌握主动。

这场由产业需求驱动的技术革命,揭示了数字经济时代的发展规律——当技术创新进入深水区,单打独斗难以突破系统性瓶颈。科技巨头从竞争走向合作,不仅为AI发展扫清了基础设施障碍,也标志着全球科技产业进入以标准为核心的新竞争阶段。历史表明,谁能掌握基础架构的标准话语权,谁就能在产业变革中占据战略高地。