混合专家模型(MoE)已成为大规模语言模型发展的主流技术路线,从国际前沿模型到国内自主研发的深度求索第三代模型都在广泛采用;但在实际训练中,业界长期面临一个突出问题:模型中的多个专家模块常常功能相近,难以形成预期的专业化分工。学术界将其称为“专家同质化”。这意味着即使架构上配置了数十个专家单元,运行时处理的任务类型仍高度重叠,造成参数利用率不高,限制了模型更提升。
大模型竞争正从“规模竞赛”转向“效率与结构优化”;要让专家从“被调用”走向“会分工”,需要在训练目标与数据组织方式上做更精细的设计。这不仅关系到模型性能增长是否可持续,也为降低训练成本、提升产业落地的可控性提供了新的方向。