国产GPU实现训练推理双突破摩尔线程S5000算力性能逼近国际先进水平

问题：全球新一轮智能化浪潮带动算力需求快速上升，训练与推理规模持续扩大，算力供给、成本与供应链安全成为行业共同关注的焦点。另外，具身智能、通用大模型等新方向对算力提出“高性能+高通用”的双重要求：既要支撑万亿参数级训练的稳定运行，也要推理侧以更高吞吐、更低时延支撑应用落地。对国内产业而言，如何在关键算力环节做到可用、好用，并实现规模化可用，是必须回答的现实问题。原因：此次两项进展的共同指向，是以“训推一体”的全功能GPU为核心，通过软硬协同与生态适配提升整体可用性。一上，训练侧更看重全流程能力与工程稳定性，尤其考验大规模集群的扩展效率、有效训练时间与算力利用率等综合指标。摩尔线程介绍，基于MTT S5000构建的夸娥万卡集群具备较强浮点算力，支持全精度、全功能通用计算，并给出扩展效率、有效训练时间、算力利用率等面向工程化训练的指标结果。另一方面，推理侧保证效果的前提下追求更高吞吐与更优成本结构，低精度推理成为提升性价比的重要手段。摩尔线程与硅基流动联合披露，双方在MTT S5000上采用FP8等低精度推理技术，对DeepSeek-V3 671B满血版模型进行适配与测试，单卡在预填充、解码阶段的吞吐达到较高水平，说明了国产硬件与推理框架协同优化的路径。影响：从产业链角度看，训练与推理同时取得可验证的工程结果，意味着国产GPU正在从“单点展示”走向“系统能力验证”。在训练层面，具身智能模型对“感知—理解—决策—动作”的闭环能力要求更高，涉及多模态数据、时序规划与空间推理等复杂计算。以RoboBrain为例，其目标是提升机器人环境理解与动作规划能力，使其在清洁、搬运等任务中完成更细致的空间判断与动作编排。能够跑通此类模型的全流程训练，说明国产算力在支撑新型任务形态上具备可落地的工程可行性。推理层面，大模型服务化需要持续降低单位输出成本，提升吞吐与并发能力；单卡推理性能提升将有助于企业侧部署与应用扩展，为智能问答、内容生成、代码辅助、数据分析等场景提供更可控的算力支撑。对策：面向规模化替代与产业落地，业内普遍认为关键不只在于硬件峰值指标，更在于能否跑通真实业务。下一阶段可在三上持续推进：其一，强化软硬协同与工具链建设，推动训练框架、推理引擎与算子库的深度适配，降低开发与迁移成本；其二，围绕集群稳定性与可运维能力完善标准化工程体系，提升大规模训练的故障自愈、资源调度与性能分析能力，保障长期运行效率；其三，加强与科研机构、行业客户的联合验证，以具身智能、工业视觉、智能制造、内容生产等场景为牵引，在真实数据与真实流程中持续迭代，形成“应用—反馈—改进”的闭环。前景：在全球算力竞争加剧、需求持续高位的背景下，国产GPU迎来重要窗口期。有观点认为，2025至2026年或将成为国产GPU实现规模化替代的关键阶段。能否将“训推一体、全功能架构、生态兼容与能效优势”转化为可复制、可交付、可持续迭代的产业能力，将决定企业在下一轮竞争中的位置。随着大模型竞争从“能力”转向“成本与效率”，以及具身智能从实验室走向更多落地场景，国内算力产业有望在更广泛的应用牵引下加速成熟，推动芯片、系统与平台软件的协同进步。

国产GPU实现训练推理双突破 摩尔线程S5000算力性能逼近国际先进水平

国产GPU实现训练推理双突破摩尔线程S5000算力性能逼近国际先进水平