HyperAI超神经

大型语言模型推理的强化学习(基于一个训练示例)

Yiping Wang, Qing Yang, Zhiyuan Zeng, Liliang Ren, Lucas Liu, Baolin Peng, Hao Cheng, Xuehai He, Kuan Wang, Jianfeng Gao, Weizhu Chen, Shuohang Wang, Simon Shaolei Du, Yelong Shen
发布日期: 5/6/2025
大型语言模型推理的强化学习(基于一个训练示例)
摘要

我们证明了,使用单样本可验证奖励的强化学习(单样本 RLVR)能够有效激励大型语言模型 (LLM) 的数学推理能力。将 RLVR 应用于基础模型 Qwen2.5-Math-1.5B,我们发现单个样本即可将模型在 MATH500 上的性能提升从 36.0% 提升至 73.6%,并将六个常见数学推理基准测试的平均性能提升从 17.6% 至 35.7%。这一结果与使用包含上述样本的 1.2k DeepScaleR 子集(MATH500:73.6%,平均值:35.9%)获得的性能相当。在各种模型(Qwen2.5-Math-7B、Llama3.2-3B-Instruct、DeepSeek-R1-Distill-Qwen-1.5B)、强化学习算法(GRPO 和 PPO)以及不同的数学示例(其中许多示例在用作单个训练示例时,在 MATH500 上取得了约 30% 或更高的提升)中都观察到了类似的显著提升。此外,我们还发现了 1-shot RLVR 中的一些有趣现象,包括跨领域泛化、自我反思频率的提升,以及即使在训练准确率饱和后仍能持续的测试性能提升(我们将这种现象称为饱和后泛化)。此外,我们还验证了 1-shot RLVR 的有效性主要源于策略梯度损失,这与“grokking”现象有所区别。我们还展示了促进探索(例如,通过添加适当系数的熵损失)在 1-shot RLVR 训练中的关键作用。更进一步的是,我们观察到,仅应用熵损失,而不添加任何结果奖励,就能显著提升 Qwen2.5-Math-1.5B 在 MATH500 上的表现 27.4%。这些发现可以启发未来关于 RLVR 数据效率的研究,并鼓励我们重新审视 RLVR 的最新进展及其背后的机制。我们的代码、模型和数据均已开源,请访问此 https URL。