我国科研团队攻克混合专家模型显存优化难题边缘计算效率实现跨越式提升

问题——大模型推理正从“能否训练”转向“能否高效部署”。近年来，大语言模型参数量迈入千亿乃至万亿级，推理成本与资源门槛随之抬升。MoE（混合专家）通过稀疏激活机制一定计算量下扩展模型容量，成为业界重要方向，但其部署痛点同样突出：一上，专家参数总体规模庞大，显存难以长期容纳足够多的“热专家”；另一方面，专家被频繁从内存加载到显存再参与计算，数据传输与等待时间叠加，推理延迟明显增加。在边缘侧或资源受限场景，该矛盾更为尖锐。原因——瓶颈并非单点，而是“路由、传输、算力协同”的系统性约束。MoE推理通常依赖路由机制决定每个输入调用哪些专家，若仅按传统策略缓存专家，容易造成显存占用居高不下；若压缩缓存规模，则专家换入换出频繁，传输开销成为主导。，异构环境中CPU与加速器之间的任务分配若不匹配，可能出现“小批量任务加载延迟吞噬计算收益”的问题。更现实的背景是，面向多样化应用的自主化软硬件适配需求上升，要求在既定硬件特性与软件栈条件下实现更精细的优化。影响——显存与延迟问题直接制约MoE从研究走向规模化应用。显存占用过高意味着同一硬件可承载的并发与模型规模受限，进而影响服务成本与稳定性；推理时延过大则削弱交互体验，尤其在智能客服、语音生成等对实时性敏感的业务中更为关键。更深层的影响在于，若高效部署能力不足，MoE架构优势难以充分释放，也会增加对高端硬件的依赖，制约产业链协同与场景落地速度。对策——以专家等价性为牵引，推动软硬件协同的全链路优化。据有关信息，南京大学李猛博士团队依托算力平台支持，围绕“专家冗余性与等价性”提出无损显存优化思路，并在昇腾平台上构建异构推理混合部署框架，形成多项关键技术组合：其一，通过设计三级流水线并行架构，使参数加载、CPU侧串行处理与加速器侧并行推理实现更深度的重叠，提升传输与计算并行度，降低等待开销；其二，基于专家等价性对专家进行分层管理，优先缓存关键专家，并在不降低精度前提下以可替代专家覆盖未加载的低优先级专家，从而减少冗余传输与显存占用；其三，引入共享专家引导的在线预取机制，在无需离线训练的条件下对后续专家需求进行预测并提前加载，尽量“用计算隐藏传输”；其四，采用双指针动态负载均衡算法，根据任务规模与特征在CPU与加速器之间进行更合理分工，缓解小批量任务下的加载延迟问题。基于上述策略，团队研发了面向昇腾软硬件栈的异构推理加速引擎，覆盖动态路由管理、专家预测预取与算子适配等模块，以工程化方式提升可用性与迁移能力。前景——从单次优化走向工具链与生态协同，将决定成果的外溢效应。当前披露的结果显示，在保持模型精度不变的前提下，该方案实现显存消耗降低50%以上、推理速度提升2倍以上，并将缓存命中率提升到较高水平。这类指标若能在更多模型与更多业务负载下稳定复现，将对MoE在边缘侧、行业端与云边协同部署产生直接推动作用。更值得关注的是，相关推理优化工具链计划面向社区开放共享，有望降低科研与工程团队的复用成本，促进在智能服务、语音交互等场景的快速集成与迭代。随着大模型推理进入“精细化运营”阶段，围绕显存、带宽与异构算力协同的系统优化，预计将成为提升单位算力产出、推动规模化落地的关键竞争点。

这项突破标志着我国自主芯片与大模型适配上取得了实质性进展。通过软硬件的深度协同，不仅解决了混合专家模型的部署难题，更验证了自主芯片平台在复杂AI任务中的可行性与竞争力。随着涉及的技术的开源与推广，这个成果有望加速自主芯片在AI领域的生态建设，为我国人工智能产业的自主可控发展注入新的动力。

我国科研团队攻克混合专家模型显存优化难题 边缘计算效率实现跨越式提升

我国科研团队攻克混合专家模型显存优化难题边缘计算效率实现跨越式提升