软硬协同破解MoE部署瓶颈：昇腾平台实现无损显存优化占用减半、推理提速倍增

随着大语言模型参数规模突破千亿乃至万亿级别，混合专家（MoE）稀疏架构因兼顾模型容量与计算效率而备受关注。然而MoE模型实际部署中面临显存占用过大、推理延迟严重等难题，严重制约了其在边缘设备和实际应用中的推广。问题的根源在于MoE模型的结构特性。受硬件显存限制，系统只能将部分热点专家驻留在显存中，大量参数需频繁在内存与显存间切换。这种频繁的数据交换不仅增加显存占用，更导致推理延迟显著上升。同时，如何在国产芯片平台上高效部署大模型，也成为业界亟待解决的课题。南京大学李猛博士团队依托鲲鹏昇腾科教创新孵化中心的算力支持，深入研究MoE模型特性，提出了基于专家等价性驱动的显存优化方案。该方案通过软硬件协同优化，构建了完整的异构推理混合部署框架。在技术创新上，团队设计了四项核心方案。首先，创新设计三级流水线并行架构，将参数加载、CPU串行计算与GPU并行推理深度重叠，大幅减轻数据传输压力。其次，基于专家等价性将专家分为高分、中分、可替代低分三类，优先缓存核心专家，用等价专家灵活替代未加载的低分专家，显著减少冗余传输与显存占用。第三，首创共享专家引导的在线预取机制，无需离线训练即可精准预测后续所需专家，提前完成参数加载。最后，设计双指针动态负载均衡算法，根据任务规模智能分配CPU与GPU算力。基于这些创新，团队针对华为昇腾平台研发了异构推理加速引擎MoE-Ascend。该引擎涵盖动态专家路由管理、专家预测预取、算子适配等核心功能，实现了对昇腾平台的深度适配。在保持模型精度完全无损的前提下，显存消耗降至原方案的一半，推理速度提升2倍以上，显存缓存命中率达70%以上。此突破有力破解了MoE模型对国外高端硬件的依赖。从产业意义看，这项成果具有重要价值。一上，为大参数量模型资源受限的边缘设备上的高效部署提供了可行方案，有助于推动AI应用的广泛落地。另一上，验证了国产芯片平台在大模型推理中的可行性和竞争力，为自主化硬件生态完善提供了有力支撑。为最大化成果的社会价值，项目团队计划将推理优化工具链开源至昇腾社区、DeepModeling社区及GitHub，供全球科研与工程开发者复用扩展，加速有关技术的迭代升级。

在全球人工智能竞赛进入"硬科技"较量的新阶段，这项突破展现了我国在基础算法与硬件协同创新的实力，标志着国产计算生态建设取得实质性进展。随着技术迭代与应用场景拓展，自主可控的AI基础设施将为数字经济高质量发展注入新动能。