问题:全球新一轮智能化浪潮带动算力需求快速上升,训练与推理规模持续扩大,算力供给、成本与供应链安全成为行业共同关注的焦点。另外,具身智能、通用大模型等新方向对算力提出“高性能+高通用”的双重要求:既要支撑万亿参数级训练的稳定运行,也要推理侧以更高吞吐、更低时延支撑应用落地。对国内产业而言,如何在关键算力环节做到可用、好用,并实现规模化可用,是必须回答的现实问题。 原因:此次两项进展的共同指向,是以“训推一体”的全功能GPU为核心,通过软硬协同与生态适配提升整体可用性。一上,训练侧更看重全流程能力与工程稳定性,尤其考验大规模集群的扩展效率、有效训练时间与算力利用率等综合指标。摩尔线程介绍,基于MTT S5000构建的夸娥万卡集群具备较强浮点算力,支持全精度、全功能通用计算,并给出扩展效率、有效训练时间、算力利用率等面向工程化训练的指标结果。另一方面,推理侧保证效果的前提下追求更高吞吐与更优成本结构,低精度推理成为提升性价比的重要手段。摩尔线程与硅基流动联合披露,双方在MTT S5000上采用FP8等低精度推理技术,对DeepSeek-V3 671B满血版模型进行适配与测试,单卡在预填充、解码阶段的吞吐达到较高水平,说明了国产硬件与推理框架协同优化的路径。 影响:从产业链角度看,训练与推理同时取得可验证的工程结果,意味着国产GPU正在从“单点展示”走向“系统能力验证”。在训练层面,具身智能模型对“感知—理解—决策—动作”的闭环能力要求更高,涉及多模态数据、时序规划与空间推理等复杂计算。以RoboBrain为例,其目标是提升机器人环境理解与动作规划能力,使其在清洁、搬运等任务中完成更细致的空间判断与动作编排。能够跑通此类模型的全流程训练,说明国产算力在支撑新型任务形态上具备可落地的工程可行性。推理层面,大模型服务化需要持续降低单位输出成本,提升吞吐与并发能力;单卡推理性能提升将有助于企业侧部署与应用扩展,为智能问答、内容生成、代码辅助、数据分析等场景提供更可控的算力支撑。 对策:面向规模化替代与产业落地,业内普遍认为关键不只在于硬件峰值指标,更在于能否跑通真实业务。下一阶段可在三上持续推进:其一,强化软硬协同与工具链建设,推动训练框架、推理引擎与算子库的深度适配,降低开发与迁移成本;其二,围绕集群稳定性与可运维能力完善标准化工程体系,提升大规模训练的故障自愈、资源调度与性能分析能力,保障长期运行效率;其三,加强与科研机构、行业客户的联合验证,以具身智能、工业视觉、智能制造、内容生产等场景为牵引,在真实数据与真实流程中持续迭代,形成“应用—反馈—改进”的闭环。 前景:在全球算力竞争加剧、需求持续高位的背景下,国产GPU迎来重要窗口期。有观点认为,2025至2026年或将成为国产GPU实现规模化替代的关键阶段。能否将“训推一体、全功能架构、生态兼容与能效优势”转化为可复制、可交付、可持续迭代的产业能力,将决定企业在下一轮竞争中的位置。随着大模型竞争从“能力”转向“成本与效率”,以及具身智能从实验室走向更多落地场景,国内算力产业有望在更广泛的应用牵引下加速成熟,推动芯片、系统与平台软件的协同进步。