我国科研团队攻克混合专家模型显存优化难题 边缘计算效率实现跨越式提升

问题——大模型推理正从“能否训练”转向“能否高效部署”。近年来,大语言模型参数量迈入千亿乃至万亿级,推理成本与资源门槛随之抬升。MoE(混合专家)通过稀疏激活机制一定计算量下扩展模型容量,成为业界重要方向,但其部署痛点同样突出:一上,专家参数总体规模庞大,显存难以长期容纳足够多的“热专家”;另一方面,专家被频繁从内存加载到显存再参与计算,数据传输与等待时间叠加,推理延迟明显增加。在边缘侧或资源受限场景,该矛盾更为尖锐。 原因——瓶颈并非单点,而是“路由、传输、算力协同”的系统性约束。MoE推理通常依赖路由机制决定每个输入调用哪些专家,若仅按传统策略缓存专家,容易造成显存占用居高不下;若压缩缓存规模,则专家换入换出频繁,传输开销成为主导。,异构环境中CPU与加速器之间的任务分配若不匹配,可能出现“小批量任务加载延迟吞噬计算收益”的问题。更现实的背景是,面向多样化应用的自主化软硬件适配需求上升,要求在既定硬件特性与软件栈条件下实现更精细的优化。 影响——显存与延迟问题直接制约MoE从研究走向规模化应用。显存占用过高意味着同一硬件可承载的并发与模型规模受限,进而影响服务成本与稳定性;推理时延过大则削弱交互体验,尤其在智能客服、语音生成等对实时性敏感的业务中更为关键。更深层的影响在于,若高效部署能力不足,MoE架构优势难以充分释放,也会增加对高端硬件的依赖,制约产业链协同与场景落地速度。 对策——以专家等价性为牵引,推动软硬件协同的全链路优化。据有关信息,南京大学李猛博士团队依托算力平台支持,围绕“专家冗余性与等价性”提出无损显存优化思路,并在昇腾平台上构建异构推理混合部署框架,形成多项关键技术组合:其一,通过设计三级流水线并行架构,使参数加载、CPU侧串行处理与加速器侧并行推理实现更深度的重叠,提升传输与计算并行度,降低等待开销;其二,基于专家等价性对专家进行分层管理,优先缓存关键专家,并在不降低精度前提下以可替代专家覆盖未加载的低优先级专家,从而减少冗余传输与显存占用;其三,引入共享专家引导的在线预取机制,在无需离线训练的条件下对后续专家需求进行预测并提前加载,尽量“用计算隐藏传输”;其四,采用双指针动态负载均衡算法,根据任务规模与特征在CPU与加速器之间进行更合理分工,缓解小批量任务下的加载延迟问题。基于上述策略,团队研发了面向昇腾软硬件栈的异构推理加速引擎,覆盖动态路由管理、专家预测预取与算子适配等模块,以工程化方式提升可用性与迁移能力。 前景——从单次优化走向工具链与生态协同,将决定成果的外溢效应。当前披露的结果显示,在保持模型精度不变的前提下,该方案实现显存消耗降低50%以上、推理速度提升2倍以上,并将缓存命中率提升到较高水平。这类指标若能在更多模型与更多业务负载下稳定复现,将对MoE在边缘侧、行业端与云边协同部署产生直接推动作用。更值得关注的是,相关推理优化工具链计划面向社区开放共享,有望降低科研与工程团队的复用成本,促进在智能服务、语音交互等场景的快速集成与迭代。随着大模型推理进入“精细化运营”阶段,围绕显存、带宽与异构算力协同的系统优化,预计将成为提升单位算力产出、推动规模化落地的关键竞争点。

这项突破标志着我国自主芯片与大模型适配上取得了实质性进展。通过软硬件的深度协同,不仅解决了混合专家模型的部署难题,更验证了自主芯片平台在复杂AI任务中的可行性与竞争力。随着涉及的技术的开源与推广,这个成果有望加速自主芯片在AI领域的生态建设,为我国人工智能产业的自主可控发展注入新的动力。