香港科研团队突破深度学习瓶颈 渐进式训练法提升人工智能模型稳定性

问题——深层模型训练“越大越难” 近年来,基于Transformer等架构的深层神经网络在语言理解、视觉识别等领域表现亮眼,但训练过程中的不稳定仍很常见:模型在训练早期容易出现梯度震荡、收敛缓慢,甚至在特定配置下发生性能“塌陷”。当层数更深、参数规模更大、数据与任务更复杂时,这类问题往往被更放大,逐渐成为影响模型迭代速度与训练可控性的关键因素。 原因——“同一时间全层学习”引发的链式放大 研究团队认为,传统训练通常默认网络各层从一开始就以相近强度同步更新。但深层网络的信息流动意义在于明显的层级依赖:底层主要负责提取基础表征,上层在此之上进行更抽象的组合与推理。若底层表征尚未稳定,上层就开始基于波动较大的输入学习,上下层更新会相互干扰,使误差信号在长链路传播中被不断放大,最终表现为训练不稳、学习效率下降。 这个问题在深层结构中更明显:层数越多,依赖链条越长,局部波动越容易演变为全局不稳定。同时,在高并行训练与大批量优化等设置下,更新步幅与噪声特性也可能进一步加剧早期的不稳定。 影响——提高算力消耗与工程门槛,拖慢模型迭代 训练不稳定的直接代价,是试验周期变长、资源消耗上升。为了“稳住训练”,工程实践中常常需要反复调参、降低学习率、加入额外正则,或调整初始化策略,这不仅抬高研发成本,也让模型规模扩展变得更难预测。更重要的是,当训练过程缺乏可预期性,模型改进更依赖经验和试错,进而影响从研究到产业部署的效率与可靠性。 对策——“渐进式残差预热”让模型按阶段参与学习 针对上述问题,研究团队提出“渐进式残差预热(Progressive Residual Warmup,ProRes)”策略。其核心是把深层网络的学习过程组织为“由浅到深、逐层放开”的阶段式训练。 在具体做法上,该方法为各层残差分支引入随训练进程变化的缩放系数:训练初期,底层以较高权重参与表示学习,上层权重被压低;随着训练推进,上层权重逐步提高,直到各层恢复正常参与程度。这样,模型先建立更稳固的底层表征,再逐步引入高层的复杂组合能力,从而减少层间牵制与错误传播,让训练过程更有序、更可控。 从机制上看,该策略不改变模型主体结构,而是在优化过程中加入“分阶段调度”的思路:先打牢基础表征,再扩展到更高层的抽象能力。研究认为,这有助于缓解深层网络早期学习阶段的梯度不稳定,并提升收敛效率。 前景——为更深模型训练提供可复制的工程路径 业界普遍关注大模型训练的“稳定、可控、可扩展”。ProRes在于用相对简洁的训练调度方式,回应深层网络规模化带来的现实难题:如果在多任务与不同深度配置上都能验证有效,它有望减少调参负担、降低训练失败率;同时也提示,深层模型优化不仅取决于算力与数据,“学习顺序”的组织方式同样关键。 从趋势看,模型将继续走向更深、更复杂的结构,同时也会对训练过程的稳定性评估、安全边界与成本控制提出更高要求。类似“分阶段激活”“渐进式训练”的思路,可能与学习率策略、归一化方法、初始化设计以及并行训练框架形成互补,为更可靠的大规模训练流程提供新的手段。 需要指出的是,该成果目前以预印本形式发布,后续仍需在更广泛的数据集、不同任务范式与多种硬件环境下进行系统对比与复现验证。若能在跨场景条件下保持一致收益,其工程推广价值将更清晰。

从“堆叠更深”走向“训练更稳”,深层网络能力的提升不仅依赖算力与数据,也离不开更细致的训练组织方式;“渐进式残差预热”带来的启示是:在复杂系统中,合理的分阶段与层级控制,往往比单纯加大训练强度更能提升确定性与效率。面向未来,围绕稳定训练、降低成本与提高可复现性的技术积累,仍将影响大规模模型创新的速度与质量。