DeepSeek发布新论文提出mHC架构 直指大模型训练稳定性与可扩展性瓶颈

深度求索近日发布新论文,由解振达、韦毅轩、曹焕琪等研究人员联合署名,公司创始人梁文锋也参与其中。

论文提出了一种名为流形约束超连接(mHC)的创新架构,针对当前深度学习领域面临的关键技术瓶颈进行了系统性突破。

当前神经网络架构设计中,超连接(HC)作为一类重要的连接方式,通过拓宽残差流宽度和多样化连接模式,相比传统残差连接实现了显著的性能提升。

然而,这种多样化的连接模式在带来性能收益的同时,也产生了新的技术难题。

论文指出,多样化连接从根本上削弱了残差连接固有的恒等映射特性,导致大规模训练过程中出现严重的不稳定性和可扩展性受限等问题,同时还造成了显著的内存访问开销。

这些限制因素严重制约了超连接在实际应用中的推广。

为解决上述难题,深度求索研究团队创新性地提出了流形约束超连接框架。

该方案的核心思路是将超连接的残差连接空间投影到特定的流形上,通过几何约束的方式恢复恒等映射特性,从而在保持性能优势的同时消除训练不稳定性。

与此同时,研究团队还融合了严格的基础设施级优化,确保了框架的运行效率。

实验结果表明,mHC架构的实用价值显著。

在内部大规模训练中,当扩展率达到4倍时,该框架仅带来6.7%的额外时间开销,这一指标表明其具备优异的计算效率。

相比传统超连接方案,mHC能够以更优的可扩展性实现稳定的大规模训练,为工业界应用提供了切实可行的解决方案。

论文还指出,mHC框架具有广泛的拓展潜力。

作为超连接范式的广义拓展,该框架可兼容针对特定学习目标设计的多种流形约束探索。

研究团队认为,对差异化几何约束的深入研究可能催生能更好权衡可塑性与稳定性关系的新方法,为后续研究指明了重要方向。

深度求索表示,该工作有助于重新激发学界对宏观架构设计的关注。

通过深化对拓扑结构如何影响优化与表征学习的理解,mHC将有助于突破现有局限,并可能为下一代基础架构的演进指明新路径。

这一论文的发布反映了深度求索在基础模型研究上的持续投入和创新动力。

值得注意的是,这项工作发布的背景是深度求indices在模型迭代上的密集步伐。

近期深度求索先后推出DeepSeek-V3.2、DeepSeek-V3.2-Speciale等多个版本,在推理能力、长思考能力和数学证明能力上取得突破。

mHC架构的提出,为这些模型的训练和优化提供了更加稳定高效的基础支撑,体现了理论创新与工程实践的紧密结合。

从算法创新到工程实践,mHC架构的诞生标志着中国企业在人工智能核心技术攻关上又迈出坚实一步。

在全球化科技竞争日趋激烈的今天,持续的基础研究投入与产学研协同创新,将成为推动行业高质量发展的关键动力。

这项成果不仅为解决实际工程问题提供了新思路,更为探索下一代智能计算架构指明了方向。