问题:大模型加速落地,MoE部署“卡显存与延迟” 近年来,大语言模型快速迭代,参数规模持续攀升。MoE以“按需激活少量专家”的稀疏计算方式,在同等计算成本下扩展模型容量,成为学界与产业界的重要路线。然而在实际部署中,MoE模型的专家数量多、参数量大,显存资源往往难以同时容纳足够多的“热专家”。当大量专家参数无法常驻显存、需要在内存与显存之间频繁切换时,数据传输开销会显著放大,进而拉长推理时延、降低吞吐,影响在线服务稳定性与成本控制。另外,面向自主可控算力平台的适配需求不断增强,如何在特定硬件与软件栈上实现高效推理,成为影响MoE工程应用的关键环节。 原因:专家冗余与路由机制、异构计算协同不足是核心症结 业内普遍面临的难点集中在三上:一是专家参数分散且规模庞大,缓存策略若仅依赖“固定热专家”,会在业务波动或输入分布变化时产生大量未命中与重复搬运;二是传统路由机制更多追求精度与负载均衡,缺少对“专家等价性、冗余性”的系统利用,导致显存与传输资源被低效占用;三是CPU与加速器之间的任务分工、流水并行与预取策略设计不充分,难以有效隐藏加载与传输延迟,尤其在小批量、实时性强的场景中更易暴露瓶颈。 影响:显存占用与推理效率成为MoE规模化应用的“门槛” MoE若无法在有限显存下保持高命中率与低延迟,将直接抬高部署门槛:企业需要配置更高规格硬件以换取稳定时延,整体成本随之上升;在线业务一旦遇到峰值流量或输入分布漂移,参数搬运频率增加,容易引发时延抖动;在更广层面,核心推理能力若长期依赖少数高端硬件供给,亦不利于产业链韧性与算力生态多元化发展。因此,围绕显存占用、数据搬运与异构调度的系统性优化,既是技术攻关点,也是推动大模型普惠应用的现实需求。 对策:以“专家等价性”为牵引的软硬件协同,形成端到端优化链条 据“华为计算”发布信息,南京大学李猛博士团队依托南京大学鲲鹏昇腾科教创新孵化中心算力支持,基于昇腾平台开展专家等价性驱动的MoE无损显存优化研究,提出异构推理混合部署框架,并形成面向工程落地的加速引擎MoE-Ascend。其思路强调从“路由—缓存—预取—调度—算子适配”全链路协同发力,主要包括: 一是构建三级流水线并行架构,将参数加载、CPU侧串行环节与加速器侧并行推理进行重叠编排,提升传输与计算并行度,缓解数据搬运对时延的挤压; 二是围绕专家等价性重构路由与缓存策略,对专家进行分层管理,优先缓存关键专家,并允许等价专家在特定条件下替代未加载专家,从而减少冗余传输与显存占用; 三是提出共享专家引导的在线预取机制,在不依赖离线额外训练的情况下预测后续可能需要的专家,提前完成参数加载,尽可能“把等待变成后台动作”,以隐藏预取延迟; 四是设计双指针动态负载均衡算法,根据任务规模与运行状态动态分配CPU与加速器算力,提升异构资源利用率,降低小批量场景中的加载与切换成本。 团队结合昇腾硬件特性与CANN软件栈,完成动态专家路由管理、专家预测预取、算子适配等模块开发,形成可复用的推理加速能力。 前景:从单点突破到生态共建,推动MoE在更多行业加速落地 涉及的信息显示,在保持模型精度不受影响的前提下,上述方案实现显存消耗降低50%以上,推理速度较同类方法提升2倍以上,并将显存缓存命中率提升至70%以上。此进展意味着,MoE模型有望在更受限的显存条件下承载更多可用专家,减少“搬运—等待—抖动”,从而提升在线推理稳定性与性价比。更重要的是,项目计划将推理优化工具链开源至昇腾社区、DeepModeling社区及GitHub,便于科研与工程开发者复用与扩展,有助于形成更开放的协同创新机制,推动相关技术在多场景、多硬件环境中验证与迭代。 面向未来,随着MoE在多模态、检索增强与智能体等方向持续演进,推理侧的系统优化将从“显存节省”走向“端到端服务质量保障”,包括更细粒度的专家生命周期管理、面向业务负载的自适应策略、以及与编译器和算子库的更深层协同。以软硬件联合优化为路径,提升国产算力平台对前沿模型架构的承载能力,将为大模型在政务、工业、金融、教育等领域的规模化应用提供更稳固的基础。
这项源自高校实验室的技术突破,生动诠释了产学研协同创新的中国模式;在数字经济成为全球竞争焦点的今天,从理论创新到产业落地的全链条突破,正推动我国在人工智能基础设施领域实现从跟跑到并跑的关键跨越。随着技术开源的加快,一个更具包容性和可持续性的全球算力生态正在加速形成。