问题——算力需求快速攀升,互联成为系统扩展瓶颈。近年来,大模型训练从“单机加速”走向“集群协同”,系统性能不再只看单颗芯片的算力,更取决于芯片之间能否以更高带宽、更低时延完成数据交换。业内普遍认为,当集群规模从数十颗GPU扩展到数百乃至上千颗时,互联架构的效率与成本将直接影响训练周期、能耗和投资回报。英伟达在最新规划中提出,到2028年将利用光子互联把超过1000颗GPU纳入同一套超大规模系统,意在为下一阶段算力基础设施提供更可持续的扩展路径。 原因——铜互联“低成本、低功耗”的优势触及物理边界。过去很长一段时间,铜缆连接因成本低、可靠性高、功耗相对可控,成为高性能计算系统内互联的主流方案。以英伟达此前发布的机架级系统为例,其通过铜质背板与机架内集中式交换结构组织多节点、多GPU协同,在有限空间内实现高密度集成。但随着互联带宽继续提升,铜缆在传输距离上的限制迅速放大:高速信号在数英尺距离内就会明显衰减,迫使交换芯片与GPU必须更紧凑地布置,系统扩展被“线缆长度”卡住。也就是说,当单机架的布局已接近极限,继续依赖铜缆将难以支撑跨机架、跨更大物理尺度的规模化互联。 影响——功耗、布线复杂度和部署成本需要重新权衡。转向光互联可大幅提升传输距离与带宽上限,但早期方案多依赖可插拔光模块,带来新的工程压力:为了堆出高带宽,每颗GPU与交换侧都要配置大量高速光模块;单个模块功耗不高,但在机架级、集群级规模下会累积成可观的增量能耗,同时加大散热、运维与供应链组织难度。业内因此一直讨论“光互联是否会推高系统能耗与成本”。当集群规模继续上探,这种“带宽提升”与“能耗控制”的矛盾更突出,促使厂商寻找更高系统效率的光互联形态。 对策——从可插拔走向共封装光学,产业链协同加速。为缓解上述矛盾,共封装光学(CPO)成为重要方向之一。该技术将光引擎更靠近交换芯片集成,减少电信号长距离高速传输带来的损耗与功耗,从架构上提升能效,并有望降低对大量可插拔模块的依赖。英伟达近期明确加大对光通信与互联生态的投入,并与多家光器件、光引擎及有关技术企业在资本和业务层面展开合作,目的在于提前锁定关键器件与产能,推动面向下一代集群的互联部件规模供给。同时,其在交换网络侧把CPO等方案纳入以太网与InfiniBand的产品演进路径,也体现出更稳妥的导入节奏:先在交换侧完成技术成熟与可靠性验证,再逐步扩展到与GPU更紧耦合的互联体系,以降低系统级落地风险。 前景——光互联将从“可用”走向“规模化”,工程化仍是关键。面向2028年千卡级系统目标,光互联的意义不仅是“传得更远”,更在于为跨机架、跨机柜的超大规模组织方式提供持续带宽与拓扑弹性。未来一段时间,行业竞争焦点将从单芯片性能继续延伸到系统级能力,包括互联协议与交换架构、功耗与散热、机架供电与布线、故障容错与运维管理等全栈工程能力。同时,CPO等新技术产业化仍需跨越良率、可维护性、标准化与生态兼容等门槛,供应链协同将直接影响落地速度与成本曲线。总体来看,随着算力基础设施投资持续增长,光互联有望成为下一阶段高端训练集群的主流选择;铜互联则更可能保留在短距、低成本的局部连接场景中,形成分层组合。
从铜缆“够用且便宜”到光互联逐步成为“必选项”,反映出算力竞争正在从单点性能转向系统级效率与可扩展能力的较量。谁能在带宽、能耗与工程交付之间找到更好的平衡,谁就更可能在下一阶段算力基础设施升级中占得先机。对产业而言,推动关键技术走向成熟、提升供应链韧性、降低整体能耗,将决定这个轮扩容能走多远、走多稳。