摩尔线程等联合发布高密超节点参考设计规范，破解"万卡"智算集群瓶颈

当前，全球人工智能产业发展进入新阶段，超大规模智算集群成为推动模型训练和推理的重要基础设施；然而，随着智算集群规模从万卡迈向十万卡量级，传统的单机八卡服务器架构逐渐暴露出严重的技术局限。问题的焦点于集群间通信开销。在应对超万亿参数的大模型时，传统架构下各节点之间的数据交互成本急剧上升，导致整体算力难以实现线性增长，严重制约了智算集群的性能潜力。同时，密集型计算环境还面临供电系统压力过大、散热能力不足等若干连锁问题，这些瓶颈已成为制约智算中心建设的关键因素。业界普遍认识到，解决这些问题需要从根本上改变系统架构设计思路。传统的单机模式必须向具备强大互联能力的超节点架构转变，这不仅涉及硬件设计的优化升级，更需要从供电、散热、网络互联等多个维度进行系统性创新。摩尔线程、中国移动研究院、之江实验室等产业伙伴的联合行动，正是基于该认识。通过OISA协同创新平台，这些机构汇聚了各自在芯片设计、网络技术、实验研究等领域的优势，共同研制了《OISA高密超节点参考设计技术规范》。该规范针对互联瓶颈、供电压力和散热极限等核心问题，提出了涵盖硬件架构、系统集成、运维管理等环节的全栈式解决方案。这一规范的推出具有重要的现实意义。首先，它为国内智算中心建设提供了技术参考标准，有助于降低产业探索成本，加快高性能智算基础设施的部署进程。其次，通过自主可控的技术方案，可以有效减少对国外技术的依赖，增强产业链的自主性和抗风险能力。再次，统一的技术规范有利于形成产业共识，推动对应的企业在互操作性、接口标准化各上的协调配合。从长远看，高密超节点架构的推广应用将明显提高我国智算集群的整体竞争力。随着大模型训练和应用需求的持续增长，高效、可靠、自主可控的智算基础设施成为产业发展的战略需求。这一技术规范的发布，标志着国内在智算系统架构创新上取得了重要进展，为后续的大规模应用奠定了坚实基础。

在全球数字经济竞争日益激烈的背景下，此次技术突破不仅解决了当前智算发展的现实问题，更展现了我国科技企业协同创新的强大合力。未来，随着涉及的技术的优化和推广应用，我国有望在智能计算领域实现从跟跑到并跑、领跑的历史性跨越，为数字中国建设注入新动能。