我国攻克多元AI芯片协同训练难题 国产算力生态建设取得突破

问题:大模型发展对算力供给提出更高要求,但现实中算力资源呈现“多来源、强割裂”的矛盾;一方面,企业出于性能、成本和供给安全考虑,往往需要同时采购多家厂商的芯片;另一方面,不同芯片编程接口、驱动栈、通信互联和工具链各上差异明显,导致训练框架迁移成本高、适配周期长,甚至带来对单一硬件平台的依赖。“算力买得到”并不等于“用得顺”,“算力孤岛”和“生态锁定”因此成为大模型工程化落地的主要障碍之一。 原因:业内普遍认为——问题的核心不单点性能——而在系统软件和生态协同能力。大模型训练涉及编译优化、算子库、并行策略、通信与容错、任务调度等多个环节,任一层出现不兼容,都可能被放大为整体效率损失。尤其在千卡级规模训练中,跨节点互联、混合并行、弹性恢复等能力直接影响集群可用性和成本结构。如果缺少能够承接多样硬件的统一软件栈,算力就难以跨平台复用,产业链协作效率也会随之降低。 影响:记者从智源研究院获悉,在北京市涉及支持下,由智源牵头研发并与生态伙伴共建的开源统一软件栈“众智FlagOS”近日取得阶段性进展:已完成对天数智芯、沐曦、寒武纪、海光、摩尔线程、昆仑芯等6款主流芯片的端到端训练验证,覆盖语言大模型、多模态大模型、具身大模型等3类模型形态;并在5个同构与异构千卡集群上完成端到端训练的全要素验证。多方测试显示,在指定语言模型训练任务中,不同芯片平台的训练效果与国际主流平台保持一致,为在多样化硬件上获得可对比、可复现的训练体验提供了支撑。 在规模化训练上,众智FlagOS完成了同构与异构千卡集群的协同训练验证。海光同构千卡集群完成320亿参数多模态大模型的千卡训练,表明了系统扩展效率与稳定性;沐曦同构千卡集群在多款大模型训练中实现性能与精度的协同提升;摩尔线程同构千卡集群完成具身智能大模型全流程训练与优化,拓展了国产算力在新兴方向的工程可行性。同时,在沐曦与英伟达、天数智芯与英伟达组成的异构千卡集群上完成高效混合训练验证,显示统一软件栈对跨硬件协同训练的支撑能力正在增强。 对策:业内人士认为,打通算力“堵点”的关键在于以开源方式建设统一软件底座,形成“可适配、可验证、可迁移、可运营”的全链条能力。一是通过统一接口,以及算子、编译优化和通信框架的协同,降低模型迁移门槛,缩短从研发到训练上线的周期;二是以千卡级验证推动标准化工程能力沉淀,把“单机能跑”提升为“集群能稳”;三是为企业提供按成本、供给与安全等因素灵活组合算力的选项,实现同构与异构资源的弹性调度,提高存量算力利用率,降低总体拥有成本。智源研究院相关负责人表示,下一步将继续联合产业伙伴推进技术攻关与生态建设,促进多元算力的普及应用。 前景:从产业发展看,统一软件栈的价值不仅在于“兼容更多芯片”,更在于“让算力成为可流通的工业化资源”。随着大模型迈向多模态、具身智能等方向,数据、算力与工程系统的耦合将继续加深,异构协同与规模化稳定性将成为竞争焦点。若开源统一底座能够持续扩展适配范围、完善工具链与运维体系,并形成稳定可持续的生态协作机制,有望推动算力资源更灵活配置,降低使用门槛,提升可获得性,并为我国多元算力生态的完善提供支撑。

算力竞争的下半场,关键正从单点性能转向系统协同与生态效率。通过开源统一软件栈打通异构壁垒、提升千卡级协同训练能力,既是破解“用算难”的现实路径,也是优化资源配置、增强产业韧性的关键一环。让算力更易用、更可靠、更可持续,才能把技术进展转化为更广泛可及的产业动能。