阿里巴巴团队ICLR研究指向强化学习训练“稀疏更新”机制：少量关键位置决定性能跃升

问题：长期以来，业内常把强化学习视为能让模型输出分布整体变得更优，从而带来能力的“全面提升”。但在算力成本持续上升、训练周期变长的情况下，此判断是否成立，直接影响训练资源怎么投、模型能力怎么解释，以及安全对齐怎么推进。阿里巴巴集团Qwen Pilot团队在论文（arXiv:2603.22446v1）中给出的证据显示，强化学习的主要增益并非均匀铺开，而是体现为高度稀疏、结构性的变化。原因：研究团队用Jensen–Shannon散度逐点衡量训练前后模型在每个词汇位置的输出分布差异。结果显示，SimpleRL训练后，超过98%的位置几乎没有变化；约束更少的DAPO训练下，仍有超过83%的位置保持稳定。深入分析发现，变化更集中在序列开头与结尾：开头往往对应解题或生成任务中的高层决策与路径选择，结尾则更多涉及格式收束、终止策略等“收口”行为。同时，变化与不确定性紧密有关：模型原本置信度高的位置几乎不动，而在高熵、难以抉择的关键岔路处更容易被强化学习显著调整。整体来看，强化学习更像一种“精确校正”机制，优先修正少数但足以左右推理走向的节点。影响：这种稀疏改动是否足以解释性能跃升，研究给出了更直接的验证。团队设计了交叉采样实验：在生成过程中，只把强化学习模型在少量关键位置上的词汇选择替换进基础模型，替换比例不到4%，就能将AIME 2024测试准确率从约8%提升到超过25%；在AIME 2025中，替换约1.53%也能把准确率从5%提升到14%以上。反向替换会让强化学习模型的表现迅速回落到基础模型水平，表明这批关键位置对能力增益起决定作用。研究还指出，强化学习带来的提升往往不是引入全新词汇，而是对已有候选重新排序：即便在变化明显的位置，两类模型的候选集合重叠度仍然很高，不少“最终答案词”在基础模型中本就位于Top-3。这提示能力提升可能更多来自对推理路径、格式策略、终止条件等高杠杆环节的精细选择，而不是对“知识”进行大范围改写。对策：基于这些发现，训练策略可从“面上更新”转向“关键点加权优化”。研究团队探索了散度加权优势函数等方法，对高变化或低变化位置施加不同权重，并在多个数据集上获得增强。由此可延伸出三点方向：一是在训练阶段引入更细的“位置重要性”度量，减少无效更新；二是在对齐与安全治理中，把审计与约束更多投向高杠杆位置，降低输出风险；三是在评测与调参环节，围绕开头决策、结尾格式与高不确定性节点，建立更可解释、更可复现的诊断工具。前景：大模型训练正从“规模驱动”转向“结构化效率”的竞争。该研究揭示的稀疏更新规律，有望推动训练范式走向更低成本、更强可控、也更易解释。接下来，如何稳定识别跨任务通用的关键位置集合，如何在不同语言、不同推理类型与不同生成长度下验证其可迁移性，以及如何与数据治理、奖励建模和安全评估协同，将成为值得持续关注的研究与产业议题。

这项研究为理解大模型训练中的性能提升机制提供了更清晰的线索：关键变化集中在少数位置，而非全局均匀改进。在算力资源愈发紧张的背景下，围绕关键位置进行识别与优化，有望在提升训练效率的同时增强可控性与可解释性。随着有关方法落地，行业或将从更粗放的训练方式，逐步转向更精细的“精准化优化”。