从“等权相加”到“可控信息流”：残差连接迎来新变革或重塑大模型算力成本曲线

2015年何恺明提出的残差连接设计，因有效缓解“梯度消失”问题，逐步成为从ResNet到GPT、Claude等主流大模型常用的基础架构；该设计让信息能够从输出端直接回传到输入端，使超深网络的稳定训练成为可能。但随着模型深度和参数规模不断攀升，经典的“等权累加”残差方案也暴露出三方面的结构性问题。首先，传统残差连接属于全量接收：每一层几乎都要无差别处理前面层的全部输出，缺少主动筛选与优先级机制。其次，网络越深，早期层的关键信息越容易被后续新增内容覆盖，复杂推理时更容易偏离核心目标。再次，为了让自身贡献被后续层“看见”，中间层往往不断叠加信息量，带来严重冗余，训练也更容易出现不稳定。过去十年，学术界持续尝试改进残差连接，从层归一化顺序调整到更复杂的连接结构，方案很多，但不少要么没有触及“等权累加”的根源，要么因实现成本高、工程复杂而难以规模化落地。近期，DeepSeek与Kimi的相继进展，为该方向带来了更清晰的突破路径。 DeepSeek提出的多流并行超连接方案（mHC），将传统单条残差流扩展为多条并行通道，让模型学习各通道的权重并进行灵活混合。为避免权重无约束导致信号放大、训练失控，该方案引入双随机矩阵约束，通过Sinkhorn-Knop算法将权重矩阵限制在特定空间内，保证每行、每列权重和均为1，在保留多流并行优势的同时控制放大倍数，从而明显提高深层模型训练稳定性。在基础语言理解与日常对话等任务中，该方案表现稳定，也支持更深层级的架构设计。但其局限在于模型获得的是混合后的“二手信息”，难以直接回溯早期关键推理步骤，因此在数学推导、代码生成、长文本理解等复杂任务上的增益相对有限。 Kimi则走了另一条路线：其判断信息问题的关键不在通道数量，而在缺少有效的筛选机制。该方案通过增强注意力机制的权重控制能力，让模型在接收信息时能够更有针对性地选择重点并调整优先级。相较DeepSeek需要较大幅度改造网络结构，Kimi的设计兼容性更强，可更容易集成到既有框架中，实现更接近“即插即用”的升级。从应用效果看，两种方案各有侧重。DeepSeek更强调训练稳定性与基础能力的整体增强，适合对通用能力与训练可控性要求更高的场景；Kimi则更突出复杂推理与精细任务的表现，同时对存量模型的改造成本更低，更便于快速产品化。业内普遍认为，两条路径的出现意味着深度学习基础架构的优化进入了新阶段。从更宏观的角度看，这场围绕信息流动机制的改进，反映了行业对基础理论与底层架构价值的重新评估。在参数规模增长放缓、单纯堆参数边际收益下降的背景下，通过改造底层结构提升效率与能力，正逐渐成为更明确的共识。此类基础创新往往更具延展性，也更可能为后续技术迭代提供长期支撑。

基础研究的突破往往会为产业变革埋下伏笔。残差连接技术的演进不仅反映了科研创新的持续推进，也提示人工智能可能进入新的优化周期。下一阶段的关键，在于如何把这些理论与架构层面的进展转化为可复制、可落地的工程能力与产业优势。由基础架构创新带来的连锁效应，或将成为数字经济提质增效的重要推动力。