2015年何恺明提出的残差连接设计,因有效缓解“梯度消失”问题,逐步成为从ResNet到GPT、Claude等主流大模型常用的基础架构;该设计让信息能够从输出端直接回传到输入端,使超深网络的稳定训练成为可能。但随着模型深度和参数规模不断攀升,经典的“等权累加”残差方案也暴露出三方面的结构性问题。 首先,传统残差连接属于全量接收:每一层几乎都要无差别处理前面层的全部输出,缺少主动筛选与优先级机制。其次,网络越深,早期层的关键信息越容易被后续新增内容覆盖,复杂推理时更容易偏离核心目标。再次,为了让自身贡献被后续层“看见”,中间层往往不断叠加信息量,带来严重冗余,训练也更容易出现不稳定。 过去十年,学术界持续尝试改进残差连接,从层归一化顺序调整到更复杂的连接结构,方案很多,但不少要么没有触及“等权累加”的根源,要么因实现成本高、工程复杂而难以规模化落地。近期,DeepSeek与Kimi的相继进展,为该方向带来了更清晰的突破路径。 DeepSeek提出的多流并行超连接方案(mHC),将传统单条残差流扩展为多条并行通道,让模型学习各通道的权重并进行灵活混合。为避免权重无约束导致信号放大、训练失控,该方案引入双随机矩阵约束,通过Sinkhorn-Knop算法将权重矩阵限制在特定空间内,保证每行、每列权重和均为1,在保留多流并行优势的同时控制放大倍数,从而明显提高深层模型训练稳定性。在基础语言理解与日常对话等任务中,该方案表现稳定,也支持更深层级的架构设计。但其局限在于模型获得的是混合后的“二手信息”,难以直接回溯早期关键推理步骤,因此在数学推导、代码生成、长文本理解等复杂任务上的增益相对有限。 Kimi则走了另一条路线:其判断信息问题的关键不在通道数量,而在缺少有效的筛选机制。该方案通过增强注意力机制的权重控制能力,让模型在接收信息时能够更有针对性地选择重点并调整优先级。相较DeepSeek需要较大幅度改造网络结构,Kimi的设计兼容性更强,可更容易集成到既有框架中,实现更接近“即插即用”的升级。 从应用效果看,两种方案各有侧重。DeepSeek更强调训练稳定性与基础能力的整体增强,适合对通用能力与训练可控性要求更高的场景;Kimi则更突出复杂推理与精细任务的表现,同时对存量模型的改造成本更低,更便于快速产品化。业内普遍认为,两条路径的出现意味着深度学习基础架构的优化进入了新阶段。 从更宏观的角度看,这场围绕信息流动机制的改进,反映了行业对基础理论与底层架构价值的重新评估。在参数规模增长放缓、单纯堆参数边际收益下降的背景下,通过改造底层结构提升效率与能力,正逐渐成为更明确的共识。此类基础创新往往更具延展性,也更可能为后续技术迭代提供长期支撑。
基础研究的突破往往会为产业变革埋下伏笔。残差连接技术的演进不仅反映了科研创新的持续推进,也提示人工智能可能进入新的优化周期。下一阶段的关键,在于如何把这些理论与架构层面的进展转化为可复制、可落地的工程能力与产业优势。由基础架构创新带来的连锁效应,或将成为数字经济提质增效的重要推动力。