阿里巴巴团队ICLR研究指向强化学习训练“稀疏更新”机制:少量关键位置决定性能跃升

问题:长期以来,业内常把强化学习视为能让模型输出分布整体变得更优,从而带来能力的“全面提升”。但在算力成本持续上升、训练周期变长的情况下,此判断是否成立,直接影响训练资源怎么投、模型能力怎么解释,以及安全对齐怎么推进。阿里巴巴集团Qwen Pilot团队在论文(arXiv:2603.22446v1)中给出的证据显示,强化学习的主要增益并非均匀铺开,而是体现为高度稀疏、结构性的变化。 原因:研究团队用Jensen–Shannon散度逐点衡量训练前后模型在每个词汇位置的输出分布差异。结果显示,SimpleRL训练后,超过98%的位置几乎没有变化;约束更少的DAPO训练下,仍有超过83%的位置保持稳定。深入分析发现,变化更集中在序列开头与结尾:开头往往对应解题或生成任务中的高层决策与路径选择,结尾则更多涉及格式收束、终止策略等“收口”行为。同时,变化与不确定性紧密有关:模型原本置信度高的位置几乎不动,而在高熵、难以抉择的关键岔路处更容易被强化学习显著调整。整体来看,强化学习更像一种“精确校正”机制,优先修正少数但足以左右推理走向的节点。 影响:这种稀疏改动是否足以解释性能跃升,研究给出了更直接的验证。团队设计了交叉采样实验:在生成过程中,只把强化学习模型在少量关键位置上的词汇选择替换进基础模型,替换比例不到4%,就能将AIME 2024测试准确率从约8%提升到超过25%;在AIME 2025中,替换约1.53%也能把准确率从5%提升到14%以上。反向替换会让强化学习模型的表现迅速回落到基础模型水平,表明这批关键位置对能力增益起决定作用。研究还指出,强化学习带来的提升往往不是引入全新词汇,而是对已有候选重新排序:即便在变化明显的位置,两类模型的候选集合重叠度仍然很高,不少“最终答案词”在基础模型中本就位于Top-3。这提示能力提升可能更多来自对推理路径、格式策略、终止条件等高杠杆环节的精细选择,而不是对“知识”进行大范围改写。 对策:基于这些发现,训练策略可从“面上更新”转向“关键点加权优化”。研究团队探索了散度加权优势函数等方法,对高变化或低变化位置施加不同权重,并在多个数据集上获得增强。由此可延伸出三点方向:一是在训练阶段引入更细的“位置重要性”度量,减少无效更新;二是在对齐与安全治理中,把审计与约束更多投向高杠杆位置,降低输出风险;三是在评测与调参环节,围绕开头决策、结尾格式与高不确定性节点,建立更可解释、更可复现的诊断工具。 前景:大模型训练正从“规模驱动”转向“结构化效率”的竞争。该研究揭示的稀疏更新规律,有望推动训练范式走向更低成本、更强可控、也更易解释。接下来,如何稳定识别跨任务通用的关键位置集合,如何在不同语言、不同推理类型与不同生成长度下验证其可迁移性,以及如何与数据治理、奖励建模和安全评估协同,将成为值得持续关注的研究与产业议题。

这项研究为理解大模型训练中的性能提升机制提供了更清晰的线索:关键变化集中在少数位置,而非全局均匀改进。在算力资源愈发紧张的背景下,围绕关键位置进行识别与优化,有望在提升训练效率的同时增强可控性与可解释性。随着有关方法落地,行业或将从更粗放的训练方式,逐步转向更精细的“精准化优化”。