阿里云点亮3.2T近封装光学模块,推动超大规模AI集群光互连升级

一、铜缆互连的结构性瓶颈 随着大模型参数规模不断扩大,人工智能算力集群的组网规模已从数百颗芯片发展到千卡甚至万卡。长期作为服务器互连主要介质的铜缆,固有限制开始集中暴露,逐渐成为影响算力释放的关键瓶颈。 铜缆的限制主要体现三上:一是传输距离短,在千卡级集群中难以支撑跨机柜、跨机架的高速互连;二是带宽密度不足,芯片间数据交换频率提升后,铜缆传输上限难以跟上算力增长;三是布线密集且复杂,机柜内部线缆堆叠带来散热压力,运维成本也随之上升,一旦发生线缆故障,容易影响集群整体稳定性。 尤其是当前主流大模型从稠密结构转向混合专家模型(MoE)后,训练与推理需要同时调度更多芯片协同计算,芯片间数据流量显著增加。铜缆在带宽、时延和功耗上的综合短板,正成为超大规模算力集群性能提升的结构性障碍。 二、近封装光学的技术路径选择 在上述压力下,业界普遍认为向光互连迁移是趋势,但路线选择直接影响成本、灵活性与可持续演进能力。现有方案中,共封装光学(CPO)将光引擎与交换芯片深度集成,性能突出,但灵活性相对不足,芯片迭代往往需要同步更换光模块,供应链与运维管理难度更高;线性直驱光模块(LPO)在灵活性上更有优势,但带宽密度仍难覆盖下一代集群需求。 阿里云推出的近封装光学(NPO)方案,试图在两者之间取得平衡:将光模块部署在紧邻交换芯片的位置,并采用线性直驱技术,去除传统光模块中功耗较高的数字信号处理(DSP)芯片,以在保持高带宽能力的同时优化功耗与成本。 据悉,NPO模块相较传统方案功耗可降低约50%,从40瓦降至约20瓦;综合成本下降约30%;传输时延与铜缆相当。该方案采用标准LGA连接器,实现光模块与芯片的物理解耦,支持模块独立更换,从而降低供应链锁定风险。需要指出,模块兼容硅光与垂直腔面发射激光器(VCSEL)两条技术路线,可覆盖不同应用场景;同时其核心器件对境外先进制程依赖较低,具备更强的自主可控特征。 三、从实验室到工程落地 技术突破的价值最终要靠工程化验证。此次阿里云并未将NPO停留在实验室阶段,而是将其直接集成到新一代国产四芯片交换机中,推动技术成果走向产品化。 该交换机集成四颗国产25.6T交换芯片,总交换容量达102.4T,并预留向409.6T扩展的升级路径,可作为大规模算力集群的核心调度节点。在光互连设计上,NPO模块紧邻交换芯片部署,使电信号就近转换为光信号,从而降低传输损耗;前面板集成光交叉调度模组,支持更灵活的光路配置;模块支持热插拔,简化运维操作并提升故障处理效率。 据悉,该交换机已完成功能验证,NPO端口运行稳定,正在进行长期可靠性测试。从方案设计到实物验证周期不足半年,体现出较强的工程转化效率。 四、行业标准化与生态构建 单点技术突破若缺乏标准支撑,难以形成规模化应用。阿里云已联合国内头部互联网企业,在开放数据中心委员会(ODCC)推动6.4T统一近封装光学(UPO)标准立项,计划于2026年发布下一代光互连技术规范。 通过开放标准推动产业链协同,有助于降低光互连落地门槛,让更多企业以可控成本部署高性能算力集群。从技术研发到标准推进,阿里云正加快在光互连领域构建可扩展的产业生态。

此次3.2T光互连技术的突破,展示了我国企业在关键基础设施领域的研发与工程化能力,也为算力集群的下一步演进提供了新的路径;在数字经济加速发展的背景下,底层互连技术的进步将持续拓展应用边界。随着光互连持续升级,超大规模计算有望突破现有物理约束,为人工智能、科学计算等领域打开更大的增长空间。,这个进程也说明,只有在核心技术上持续投入并形成自主能力,才能在激烈的数字竞争中掌握主动权。