软硬协同破解MoE部署瓶颈:昇腾平台实现无损显存优化占用减半、推理提速倍增

随着大语言模型参数规模突破千亿乃至万亿级别,混合专家(MoE)稀疏架构因兼顾模型容量与计算效率而备受关注。然而MoE模型实际部署中面临显存占用过大、推理延迟严重等难题,严重制约了其在边缘设备和实际应用中的推广。 问题的根源在于MoE模型的结构特性。受硬件显存限制,系统只能将部分热点专家驻留在显存中,大量参数需频繁在内存与显存间切换。这种频繁的数据交换不仅增加显存占用,更导致推理延迟显著上升。同时,如何在国产芯片平台上高效部署大模型,也成为业界亟待解决的课题。 南京大学李猛博士团队依托鲲鹏昇腾科教创新孵化中心的算力支持,深入研究MoE模型特性,提出了基于专家等价性驱动的显存优化方案。该方案通过软硬件协同优化,构建了完整的异构推理混合部署框架。 在技术创新上,团队设计了四项核心方案。首先,创新设计三级流水线并行架构,将参数加载、CPU串行计算与GPU并行推理深度重叠,大幅减轻数据传输压力。其次,基于专家等价性将专家分为高分、中分、可替代低分三类,优先缓存核心专家,用等价专家灵活替代未加载的低分专家,显著减少冗余传输与显存占用。第三,首创共享专家引导的在线预取机制,无需离线训练即可精准预测后续所需专家,提前完成参数加载。最后,设计双指针动态负载均衡算法,根据任务规模智能分配CPU与GPU算力。 基于这些创新,团队针对华为昇腾平台研发了异构推理加速引擎MoE-Ascend。该引擎涵盖动态专家路由管理、专家预测预取、算子适配等核心功能,实现了对昇腾平台的深度适配。在保持模型精度完全无损的前提下,显存消耗降至原方案的一半,推理速度提升2倍以上,显存缓存命中率达70%以上。此突破有力破解了MoE模型对国外高端硬件的依赖。 从产业意义看,这项成果具有重要价值。一上,为大参数量模型资源受限的边缘设备上的高效部署提供了可行方案,有助于推动AI应用的广泛落地。另一上,验证了国产芯片平台在大模型推理中的可行性和竞争力,为自主化硬件生态完善提供了有力支撑。 为最大化成果的社会价值,项目团队计划将推理优化工具链开源至昇腾社区、DeepModeling社区及GitHub,供全球科研与工程开发者复用扩展,加速有关技术的迭代升级。

在全球人工智能竞赛进入"硬科技"较量的新阶段,这项突破展现了我国在基础算法与硬件协同创新的实力,标志着国产计算生态建设取得实质性进展。随着技术迭代与应用场景拓展,自主可控的AI基础设施将为数字经济高质量发展注入新动能。