上海交大建成全国高校最大国产智算平台 "致远一号"算力达320P

问题——大模型训练推理与交叉学科研究对算力、数据与平台化服务的需求快速增长,传统高校计算资源在规模、国产化适配、弹性供给与能耗约束等方面面临压力。

一方面,模型参数规模和数据量持续攀升,单一实验室难以长期稳定承担算力成本;另一方面,高校科研多任务并行、峰谷明显,既要“够用”,也要“好用、可持续用”。

在此背景下,建设具备国产软硬件协同、云化调度与高效存储的智算基础设施,成为提升科研效率与保障关键领域计算能力的重要抓手。

原因——从供给侧看,自主可控算力需求上升,推动高校加快国产算力底座建设;从应用侧看,大模型正在向材料、医工交叉、工程仿真、自动化设计等领域渗透,算力从“可选项”变为“基础设施”。

据上海交通大学高性能计算中心介绍,“致远一号”平台以国产算力为核心,硬件层面配置1024张昇腾910B加速卡,FP16峰值算力约313P,整体峰值算力达320P;同时以分布式存储与加速缓存架构提供13.6PB总存储容量,面向并行计算与大规模训练强化数据供给能力。

平台还形成通用计算池,配置101台CPU节点、5000余个vCPU,配套提供IaaS、PaaS、SaaS等云服务能力,支持异构算力调度与弹性部署,降低师生使用门槛,提升资源利用效率。

影响——其一,推动高校科研范式升级。

平台在本地部署多款主流大模型(含DeepSeek等),有利于在校内网络环境下开展模型微调、推理服务与科研实验,缩短从“想法”到“验证”的周期,提升跨学院共享与协作能力。

其二,增强关键能力的安全与稳定供给。

本地化部署可减少对外部资源的依赖,满足部分科研场景对数据合规、访问控制与服务可用性的要求。

其三,带动国产软硬件生态在高强度科研场景中的适配与优化。

大规模集群对算力互联、存储吞吐、作业调度与开发工具链提出更高要求,实际运行将促进相关组件持续迭代。

其四,示范高校数据中心绿色建设路径。

平台机房采用模块化建设与冗余设计,供配电额定功率约960kW,制冷采用“N+2”冗余方案并引入自然冷却技术,全年综合PUE约1.3,体现了高密度算力与能效管理并重的建设导向。

对策——要让大型智算平台“建得起、用得好、管得住”,仍需在制度与运营上同步发力:一是完善统一的资源治理机制,围绕重点学科、重大项目与公共课程建立分层分级的算力供给与计费/补贴规则,避免资源碎片化与“挤占效应”。

二是强化软件栈与模型服务的标准化,提供稳定的开发环境、容器化工具链、模型评测与数据管理能力,降低不同学院团队的迁移成本。

三是把数据与算力安全纳入全流程管理,落实权限控制、审计追踪、数据分级分类与脱敏策略,形成“可用、可控、可追溯”的科研支撑体系。

四是推进产学研协同应用落地,通过开放试点课题、联合实验室与工程化平台服务,促进成果从实验走向应用。

前景——从上海交大“交我算”十余年发展脉络看,高校算力建设正从以高性能计算为主,迈向“高性能计算+智能计算+云化服务”并重的新阶段。

面向未来,大模型将更多走向“行业化、专用化、工具化”,高校既是基础研究的重要阵地,也是关键人才培养与技术验证的高地。

随着国产算力规模持续扩张、软件生态逐步完善以及能效技术进步,高校智算平台有望在科研创新、人才培养、管理治理与产业合作中发挥更强的基础支撑作用。

同时也需看到,算力只是起点,持续的运维能力、应用牵引与开放共享机制,将决定平台能否形成长期产出与示范效应。

算力基础设施建设既是技术实力的体现,也是创新生态的基石。

上海交通大学致远一号平台以国产化、大规模、高性能为特征,探索出一条高校智算发展的新路径。

面向未来,如何进一步提升平台开放共享水平,推动产学研深度融合,让强大算力更好服务于科学发现和技术突破,仍需持续探索实践。

可以预见,随着更多高校加强智算能力建设,我国在智能计算领域的整体实力将不断增强,为建设科技强国提供更加坚实的支撑。