大型语言模型推理的强化学习(基于一个训练示例)

我们证明了,使用单样本可验证奖励的强化学习(单样本 RLVR)能够有效激励大型语言模型 (LLM) 的数学推理能力。将 RLVR 应用于基础模型 Qwen2.5-Math-1.5B,我们发现单个样本即可将模型在 MATH500 上的性能提升从 36.0% 提升至 73.6%,并将六个常见数学推理基准测试的平均性能提升从 17.6% 至 35.7%。这一结果与使用包含上述样本的 1.2k DeepScaleR 子集(MATH500:73.6%,平均值:35.9%)获得的性能相当。在各种模型(Qwen2.5-Math-7B、Llama3.2-3B-Instruct、DeepSeek-R1-Distill-Qwen-1.5B)、强化学习算法(GRPO 和 PPO)以及不同的数学示例(其中许多示例在用作单个训练示例时,在 MATH500 上取得了约 30% 或更高的提升)中都观察到了类似的显著提升。此外,我们还发现了 1-shot RLVR 中的一些有趣现象,包括跨领域泛化、自我反思频率的提升,以及即使在训练准确率饱和后仍能持续的测试性能提升(我们将这种现象称为饱和后泛化)。此外,我们还验证了 1-shot RLVR 的有效性主要源于策略梯度损失,这与“grokking”现象有所区别。我们还展示了促进探索(例如,通过添加适当系数的熵损失)在 1-shot RLVR 训练中的关键作用。更进一步的是,我们观察到,仅应用熵损失,而不添加任何结果奖励,就能显著提升 Qwen2.5-Math-1.5B 在 MATH500 上的表现 27.4%。这些发现可以启发未来关于 RLVR 数据效率的研究,并鼓励我们重新审视 RLVR 的最新进展及其背后的机制。我们的代码、模型和数据均已开源,请访问此 https URL。