香港科研团队突破深度学习瓶颈渐进式训练法提升人工智能模型稳定性

问题——深层模型训练“越大越难” 近年来，基于Transformer等架构的深层神经网络在语言理解、视觉识别等领域表现亮眼，但训练过程中的不稳定仍很常见：模型在训练早期容易出现梯度震荡、收敛缓慢，甚至在特定配置下发生性能“塌陷”。当层数更深、参数规模更大、数据与任务更复杂时，这类问题往往被更放大，逐渐成为影响模型迭代速度与训练可控性的关键因素。原因——“同一时间全层学习”引发的链式放大研究团队认为，传统训练通常默认网络各层从一开始就以相近强度同步更新。但深层网络的信息流动意义在于明显的层级依赖：底层主要负责提取基础表征，上层在此之上进行更抽象的组合与推理。若底层表征尚未稳定，上层就开始基于波动较大的输入学习，上下层更新会相互干扰，使误差信号在长链路传播中被不断放大，最终表现为训练不稳、学习效率下降。这个问题在深层结构中更明显：层数越多，依赖链条越长，局部波动越容易演变为全局不稳定。同时，在高并行训练与大批量优化等设置下，更新步幅与噪声特性也可能进一步加剧早期的不稳定。影响——提高算力消耗与工程门槛，拖慢模型迭代训练不稳定的直接代价，是试验周期变长、资源消耗上升。为了“稳住训练”，工程实践中常常需要反复调参、降低学习率、加入额外正则，或调整初始化策略，这不仅抬高研发成本，也让模型规模扩展变得更难预测。更重要的是，当训练过程缺乏可预期性，模型改进更依赖经验和试错，进而影响从研究到产业部署的效率与可靠性。对策——“渐进式残差预热”让模型按阶段参与学习针对上述问题，研究团队提出“渐进式残差预热（Progressive Residual Warmup，ProRes）”策略。其核心是把深层网络的学习过程组织为“由浅到深、逐层放开”的阶段式训练。在具体做法上，该方法为各层残差分支引入随训练进程变化的缩放系数：训练初期，底层以较高权重参与表示学习，上层权重被压低；随着训练推进，上层权重逐步提高，直到各层恢复正常参与程度。这样，模型先建立更稳固的底层表征，再逐步引入高层的复杂组合能力，从而减少层间牵制与错误传播，让训练过程更有序、更可控。从机制上看，该策略不改变模型主体结构，而是在优化过程中加入“分阶段调度”的思路：先打牢基础表征，再扩展到更高层的抽象能力。研究认为，这有助于缓解深层网络早期学习阶段的梯度不稳定，并提升收敛效率。前景——为更深模型训练提供可复制的工程路径业界普遍关注大模型训练的“稳定、可控、可扩展”。ProRes在于用相对简洁的训练调度方式，回应深层网络规模化带来的现实难题：如果在多任务与不同深度配置上都能验证有效，它有望减少调参负担、降低训练失败率；同时也提示，深层模型优化不仅取决于算力与数据，“学习顺序”的组织方式同样关键。从趋势看，模型将继续走向更深、更复杂的结构，同时也会对训练过程的稳定性评估、安全边界与成本控制提出更高要求。类似“分阶段激活”“渐进式训练”的思路，可能与学习率策略、归一化方法、初始化设计以及并行训练框架形成互补，为更可靠的大规模训练流程提供新的手段。需要指出的是，该成果目前以预印本形式发布，后续仍需在更广泛的数据集、不同任务范式与多种硬件环境下进行系统对比与复现验证。若能在跨场景条件下保持一致收益，其工程推广价值将更清晰。

从“堆叠更深”走向“训练更稳”，深层网络能力的提升不仅依赖算力与数据，也离不开更细致的训练组织方式；“渐进式残差预热”带来的启示是：在复杂系统中，合理的分阶段与层级控制，往往比单纯加大训练强度更能提升确定性与效率。面向未来，围绕稳定训练、降低成本与提高可复现性的技术积累，仍将影响大规模模型创新的速度与质量。

香港科研团队突破深度学习瓶颈 渐进式训练法提升人工智能模型稳定性

香港科研团队突破深度学习瓶颈渐进式训练法提升人工智能模型稳定性