我国攻克多元AI芯片协同训练难题国产算力生态建设取得突破

问题：大模型发展对算力供给提出更高要求，但现实中算力资源呈现“多来源、强割裂”的矛盾；一方面，企业出于性能、成本和供给安全考虑，往往需要同时采购多家厂商的芯片；另一方面，不同芯片编程接口、驱动栈、通信互联和工具链各上差异明显，导致训练框架迁移成本高、适配周期长，甚至带来对单一硬件平台的依赖。“算力买得到”并不等于“用得顺”，“算力孤岛”和“生态锁定”因此成为大模型工程化落地的主要障碍之一。原因：业内普遍认为——问题的核心不单点性能——而在系统软件和生态协同能力。大模型训练涉及编译优化、算子库、并行策略、通信与容错、任务调度等多个环节，任一层出现不兼容，都可能被放大为整体效率损失。尤其在千卡级规模训练中，跨节点互联、混合并行、弹性恢复等能力直接影响集群可用性和成本结构。如果缺少能够承接多样硬件的统一软件栈，算力就难以跨平台复用，产业链协作效率也会随之降低。影响：记者从智源研究院获悉，在北京市涉及支持下，由智源牵头研发并与生态伙伴共建的开源统一软件栈“众智FlagOS”近日取得阶段性进展：已完成对天数智芯、沐曦、寒武纪、海光、摩尔线程、昆仑芯等6款主流芯片的端到端训练验证，覆盖语言大模型、多模态大模型、具身大模型等3类模型形态；并在5个同构与异构千卡集群上完成端到端训练的全要素验证。多方测试显示，在指定语言模型训练任务中，不同芯片平台的训练效果与国际主流平台保持一致，为在多样化硬件上获得可对比、可复现的训练体验提供了支撑。在规模化训练上，众智FlagOS完成了同构与异构千卡集群的协同训练验证。海光同构千卡集群完成320亿参数多模态大模型的千卡训练，表明了系统扩展效率与稳定性；沐曦同构千卡集群在多款大模型训练中实现性能与精度的协同提升；摩尔线程同构千卡集群完成具身智能大模型全流程训练与优化，拓展了国产算力在新兴方向的工程可行性。同时，在沐曦与英伟达、天数智芯与英伟达组成的异构千卡集群上完成高效混合训练验证，显示统一软件栈对跨硬件协同训练的支撑能力正在增强。对策：业内人士认为，打通算力“堵点”的关键在于以开源方式建设统一软件底座，形成“可适配、可验证、可迁移、可运营”的全链条能力。一是通过统一接口，以及算子、编译优化和通信框架的协同，降低模型迁移门槛，缩短从研发到训练上线的周期；二是以千卡级验证推动标准化工程能力沉淀，把“单机能跑”提升为“集群能稳”；三是为企业提供按成本、供给与安全等因素灵活组合算力的选项，实现同构与异构资源的弹性调度，提高存量算力利用率，降低总体拥有成本。智源研究院相关负责人表示，下一步将继续联合产业伙伴推进技术攻关与生态建设，促进多元算力的普及应用。前景：从产业发展看，统一软件栈的价值不仅在于“兼容更多芯片”，更在于“让算力成为可流通的工业化资源”。随着大模型迈向多模态、具身智能等方向，数据、算力与工程系统的耦合将继续加深，异构协同与规模化稳定性将成为竞争焦点。若开源统一底座能够持续扩展适配范围、完善工具链与运维体系，并形成稳定可持续的生态协作机制，有望推动算力资源更灵活配置，降低使用门槛，提升可获得性，并为我国多元算力生态的完善提供支撑。

算力竞争的下半场，关键正从单点性能转向系统协同与生态效率。通过开源统一软件栈打通异构壁垒、提升千卡级协同训练能力，既是破解“用算难”的现实路径，也是优化资源配置、增强产业韧性的关键一环。让算力更易用、更可靠、更可持续，才能把技术进展转化为更广泛可及的产业动能。

我国攻克多元AI芯片协同训练难题 国产算力生态建设取得突破

我国攻克多元AI芯片协同训练难题国产算力生态建设取得突破