RL训练如何提升大模型能力上限？-平芜编程栈

简介

文章探讨了强化学习(RL)能否提高大语言模型(LLM)能力上限的争议，引用CMU最新研究通过控制变量实验得出三个关键结论：1)RL在任务难度适中时能有效提升模型上限；2)pretrain阶段需有一定相关数据才能使RL有效；3)mid-train阶段在计算资源有限时能有效提升模型性能，尤其对边缘OOD样本。这些发现对LLM训练策略优化具有重要指导意义。

随着 LLM 的 post training（尤其是强化学习 RL）的重要性被各家越来越重视，一个很重要的问题也备受关注：RL 能否给模型注入新的知识，提高模型上限呢？这个问题仍然存在争议。

一方认为：RL 训练的样本全部是 LLM 自己 rollout 出来的，因此可以让 LLM 的输出更稳定，但无法提升根本上限。

相关工作不少，代表性的如 yueyang 大佬 NeurIPS 的 best paper runner-up 之作：《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》

另一方则认为：随着 RL 的不断进行，模型的分布会不断演化，最终可以逐步探索到更好的 rollout 结果，提升能力上限。

这类相关工作也不少，如：《Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs》。

笔者一直比较迷信 RL 的能力，自己也做了不少相关研究和实验，窃附于第二种观点。但一直无法解释这两方研究之间的矛盾点。

最近看到了 CMU 的一篇文章《On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models》，对此问题通过控制变量的方法做了比较详细的实验。

用一句话来概括，本文的核心观点是：RL 是否有效和训练基础模型的数据集强相关；同时，通过调整 mid-training 和 post-training 的数据，可以最大化训练的效率。

一、背景

LLM 上限的定义

首先回顾一下如何定义 LLM 的能力“上限”。在当前的工作中，往往是以 pass@k 作为 metric。

这个 metric 指的是模型回答 k 次，能至少答对一次的比例。一般为了逼近 LLM 的能力上限，k 值往往取的较大（如 128，256）。

本文的 training pipeline

这篇文章假设采用标准的 pre-training -> mid-training -> post-training 三段训练法。

这三个阶段在真正 LLM 中的具体含义和作用可以参考 Karpathy 大神的 nanochat repo：

https://github.com/karpathy/nanochat/discussions/1

在本文中，为了精确控制不同阶段的数据难度，作者使用了合成任务 GSM-Infinite 进行训练。

这个数据集的具体含义暂时不论，它的好处在于可以通过一个数值 op 来反应某一条数据的难度，op 越大难度越高。

接下来我们介绍本文尝试解答的几个核心问题。

二、RL 什么时候可以提高基模型的上限？

结论 1：当 RL 阶段的任务相对于 pretrain 阶段既不太简单也不太难时，RL 可以提高基模型的上限。但如果测试集的难度和 pretrain 阶段近似，这种提升是难以捕捉的。

实验配置：

在难度 op=2-10 的 case 上进行 pretrain
在 post train 的 RL 阶段，分别使用 op=7-10；op=9-12；op=11-14；op=17-20 的数据，进行了四组实验
测试时，使用了 ID(op=2-10)，OOD-mid(op=11-14)，OOD-hard(op=15-20) 三组测试集

实验结果：

不难看出：

当测试集和训练集重叠时（ID 情况），模型的测试结果上限（k 较大时）确实差异不大。
但上述测试结果的差异不大不代表模型真实能力差异不大，可能只是因为测试集中的解题思路都在 pretrain 阶段都有所体现，多次 rollout 总有能蒙对的 —— 这点在 OOD 场景下会进一步验证。
OOD 场景下的结果表明，合适难度的 RL 配方可以明显提升测试结果。而这个“合适”有点玄学，但是大致指的就是既不太难又不太简单的样本。这个结论和 DAPO 是类似的（DAPO 是从 gradient 的角度出发解释的）。

三、Pre-train 数据如何影响 Post-train 的效果？

结论 2：如果想要 RL 提升模型上限，必须在 pretrain 阶段有一点相关数据，哪怕是 OOD 的或数量稀少。

实验配置：

有两个不同的实验场景（context A & B），这两个场景并不相关，各自都可以用难度 op 进行衡量
pre-train 数据：包含大量的 context A 数据和少量的 context B 数据
RL 数据：等量的 context A 数据和 context B 数据（op=2-20），做充分训练
测试数据：统计不同 op 的 context B 场景下，模型的上限（pass 128）

实验结果：

随着 context B 难度的变化，pass@128 的相应趋势

可以看出：

如果在 pretrain 阶段，完全没有 context B 的数据，RL 再怎么训练也没用
如果在 pretrain 阶段， context B 数据非常少，那么会影响 RL 阶段的泛化性
如果在 pretrain 阶段， context B 有一定的数量，那么 RL 的泛化性可以得到保证
但继续提升 context B 的数量，对结果并没有影响

四、Mid-train 在训练过程中起到了什么作用？

结论 3：在计算开销一定的情况下，增加 mid-train 阶段可以有效提升模型效果。

实验配置：

在 pre-train 和 post-train（RL）阶段，插入 mid-train。为了控制变量，如果 mid-train 投入了更多算力，就会相应减少 RL 的算力分配
pre-train：op=2-10的训练数据
mid-train & post-train：调配了不同的 mid-training 和 RL 的算力分配比例。难度范围都是（op=11-14）

实验结果：

可以看出：

对于特别 OOD 的样本（OOD-hard），无脑投入 RL 算力就完事了
对于边缘 OOD 的样本（OOD-hard），mid-training 是一个更有性价比的选择

五、简单总结

本文对 RL 能否提高 LLM 上限的相关问题进行了讨论，得出了一些对笔者来说 make sense 的结论。

虽然说数据集是合成的，且整体模型不大，但确实分析真实的 LLM 训练数据和过程太困难了。总体来说，我认为本文的结论还是比较可信的。

六、如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。