从零起步建成首批万卡智算集群并实现99.99%可用率 上海青年团队夯实算力底座

问题:随着大模型训练和行业智能化应用加速落地,算力需求呈指数级增长;算力供给不仅要“有”,更要“稳”“快”“省”。万卡级集群作为高密度算力的组织形态,对调度效率、网络互联、能耗控制和故障处置提出了更高要求。一旦出现中断,可能导致长周期训练任务回滚、数据链路重传,甚至错失科研窗口期,各方对高可用算力底座的需求愈发迫切。 原因:其一,万卡集群往往包含不同架构、不同代际、不同参数的加速芯片,异构协同使资源编排难度显著上升;其二,万卡规模下,网络通信与存储吞吐更容易成为性能瓶颈,局部拥塞可能迅速放大为全局效率损失;其三,高价值算力设备对温控、电力和运维响应速度非常敏感,分钟级故障就可能带来高昂的时间与成本代价;其四,大模型训练作业通常连续运行、难以随意暂停,对稳定性的要求远高于传统数据中心。 影响:据上海智算科技涉及的负责人介绍,团队已建成国内第一批万卡集群,并将集群可用性提升至99.99%,折算全年非计划停机时间控制在1小时以内。稳定的算力供给为多模态大模型保持训练进度提供支撑,保障自动驾驶模型开展高强度仿真迭代,也为气象等行业模型提升极端天气的提前研判能力创造了条件。对外部客户而言,算力底座越稳定,科研与产业创新的试错成本越低,成果转化周期越短。对城市产业布局而言,万卡级基础设施与运维能力的形成,有助于增强人工智能产业集聚效应,提升关键环节服务能力与韧性。 对策:一是以“高可用”为牵引重塑运维体系。团队通过长期驻场调试、优化调度策略和故障处置流程,强化从硬件、网络到软件栈的协同验证,提升问题定位与恢复效率。二是推进智能运维工具研发,面向工业与技术运维场景打造智能体能力,并嵌入企业智算运维平台,提高告警归并、根因分析、处置建议与自动化恢复的效率,减少人工介入时间。三是以精细化调度提升单位算力产出,通过作业编排、队列策略与资源隔离等手段,减少空转和碎片化占用,让有限资源发挥更大效能。四是以平台化思路建设弹性智算云,推动算力以服务方式更灵活供给,满足科研攻关、企业训练与推理部署的差异化需求,同时完善合规、安全与权限管理体系,提升服务能力的可复制性与可扩展性。 前景:业内人士认为,算力基础设施正从“规模扩张”转向“质量提升”,未来竞争将更多体现在能效水平、调度效率、运维智能化和生态协同能力。随着行业模型加快进入制造、交通、金融、气象等领域,算力平台不仅要提供高峰值算力,更要提供长期稳定、可预期的服务体验。上海仪电上表示,将持续构建更具弹性与灵活性的智算云平台,并以平台型企业带动产业链上下游协同,推动形成更安全、更可持续的算力生态,为城市数字化转型与新质生产力培育提供支撑。

从技术攻坚到生态建设,上海仪电青年团队的实践为提升算力基础设施的稳定性与服务能力提供了可参考的路径,也为人工智能产业的持续发展带来了动力。随着算力基础设施完善,中国在智能时代的综合竞争力有望继续提升。