在 DeepSeek-R1 和 OpenAI o1 等模型通过强化学习(RL)展现出惊人的数学与逻辑推理能力后,AI 社区陷入了一场激烈的辩论:RL 真的让模型“学会”了预训练阶段未曾见过的推理能力吗?还是说,它仅仅是让模型更擅长提取预训练中已经埋藏的知识?
目前的文献众说纷纭。一派认为 RL 只是“能力精炼器”,无法突破预训练的上限;另一派则通过实验证明 RL 能让模型解决预训练中从未见过的复杂问题 。这种分歧的根源在于,现代大模型的预训练数据(数万亿 token)是一个巨大的“黑盒”,我们根本不知道模型在预训练阶段到底见过什么,因此无法判断 RL 后的表现是“回忆”还是“创新”。
论文:On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models
链接:https://www.arxiv.org/abs/2512.07783
卡内基梅隆大学(CMU)的研究团队带来的这篇论文 ,就像是给这个混乱的辩论场带来了一把精准的手术刀。他们没有使用不可控的互联网数据,而是构建了一个完全可控的合成数据“实验室”。在这个实验室里,他们不仅解开了预训练、中期训练和 RL 之间复杂的纠缠关系,还给出了一套关于“如何培养推理模型”的精确配方。,如下图所示:
图解:该图概括了论文的三大核心发现:左图显示 RL 仅在任务难度略高于预训练范围时有效;中图显示情境泛化依赖于预训练的微量接触(长尾分布);右图显示中期训练能显著提升计算效率。
接下来,我们将详细拆解这些发现...
1. 实验方法:打造一个“纯净的实验室”
为了搞清楚因果关系,研究团队必须摆脱真实数据的干扰,建立一个受控环境。
1.1 数据生成框架:骨架与皮肤
研究者基于GSM-Infinite框架生成数据 。这个框架极其巧妙地将数学问题拆解为两个部分:
依赖图(Dependency Graph):这是问题的“骨架”或逻辑结构。例如,A + B = C,C * D = E。通过控制图的节点数量(运算步数,记为),可以精确控制问题的难度 。
情境模板(Contextual Template):这是问题的“皮肤”或故事背景。同样的逻辑骨架,可以被渲染成“动物园里的狮子和老虎”(情境 A),也可以渲染成“学校里的老师和学生”(情境 B) 。
如图所示,左侧展示了控制逻辑复杂度的依赖图,中间是不同的情境模板,右侧则是生成的具体数学问题和推理步骤。这种设计实现了对“难度”和“内容”的完全解耦。
1.2 两个维度的泛化
论文定义了两种关键的推理能力指标:
外推性泛化(Extrapolative Generalization):深度上的扩展。如果模型在预训练时只见过 10 步以内的运算,它能通过 RL 解决 20 步的运算吗?
情境性泛化(Contextual Generalization):广度上的迁移。如果模型在预训练时只做过“动物园”的题,它能通过 RL 学会做逻辑结构相同但背景是“学校”的题吗?
1.3 严苛的评分标准:过程验证
为了防止模型“蒙对答案”(这在 RL 中很常见),研究者采用过程级验证(Process-Verified Evaluation)。只有当模型生成的推理步骤(中间变量、运算逻辑)与真实依赖图完全一致,且最终答案正确时,才算得分 。
2. 核心发现一:RL 何时能提升推理能力?(外推性泛化)
很多研究者发现 RL 有时极有效,有时却无效。本文揭示了其背后的规律:RL 的有效性取决于任务难度与模型当前能力的相对关系。
2.1 三个难度区间的表现
研究者将预训练模型(Base Model)的能力范围设定在(即 2 到 10 步运算)。然后观察 RL 在不同难度数据上的表现:
分布内(ID, op=2-10):RL 对准确率(pass@128)几乎没有提升。因为模型已经学会了,RL 只是让它更自信(pass@1 提升),属于“锦上添花” 。
能力边界(OOD-edge, op=11-14):这是 RL 的黄金区间。这些任务比预训练稍微难一点,模型虽然做不对(pass@1 低),但偶尔能蒙对或做对一部分(pass@128 不为零)。在这种数据上进行 RL,模型能通过探索学会组合已有的原子操作,实现真正的能力飞跃 。
极难任务(OOD-hard, op=15-20):如果直接用这些太难的数据进行 RL,模型会两眼一抹黑,完全学不会。但在“能力边界”区间训练后的模型,却能泛化解决这些极难任务。
上图清晰展示了这一现象:左图(简单任务)RL 曲线重合,无明显提升;中图(边界任务)RL 带来了巨大的性能增益;右图(极难任务)显示,只有在边界任务上训练过的 RL 模型(绿色线)才能解决极难问题。
2.2 结论
RL 产生真正推理收益需要满足两个条件:
预训练没学满(留有提升空间)。
RL 数据必须位于模型的**“能力边界”(Edge of Competence)**——既不能太简单,也不能难到模型完全无法理解 。
3. 核心发现二:从“动物园”到“学校”的跨越(情境性泛化)
如果模型只学过计算“狮子和老虎”,它能通过 RL 学会计算“老师和学生”吗?
3.1 “种子”理论
实验极其精彩:研究者在预训练中放入了 99.9% 的“情境 A”(如动物园),通过控制“情境 B”(如学校)的混入比例(0%, 0.1%, 1%, 10%),观察 RL 后的效果。
0% 接触:如果预训练完全没见过情境 B,无论 RL 怎么训练,模型都无法学会情境 B。RL 无法“无中生有”地创造概念 。
0.1% 接触:效果极差,模型依然无法泛化。
1% 接触:奇点时刻!只要预训练中有 1% 的数据涉及情境 B(哪怕只是简单的原子操作),RL 就能像浇水一样,让这点微小的“种子”生根发芽,最终让模型能够完美解决情境 B 中的复杂问题 。
请看图中的对比:左侧两张图(0%和0.1%预训练暴露)显示 RL 后性能依然趴在底线;而右侧两张图(1%和10%预训练暴露)显示 RL 迅速将性能拉升至 100%。这证明了“种子”的重要性。
3.2 结论
RL 不是创造者,而是放大器。它需要预训练阶段提供最基础的“原语”(primitives)或“种子”。只要种子存在,RL 就能将其组合、强化,实现强大的跨情境泛化 。
4. 核心发现三:被忽视的英雄——中期训练(Mid-Training)
中期训练(Mid-Training)是指在预训练和 RL 之间,使用高质量、特定领域数据进行的监督微调。这通常被忽视,但本文证明它至关重要。
4.1 计算预算的博弈
为了公平,研究者设定了固定的计算预算(Compute Budget),并研究如何分配给中期训练和 RL。 这里引入了一个等效公式来统一衡量两者的计算成本:
其中是样本数,是采样次数(rollout),是序列长度 。这个公式告诉我们,RL 的采样探索是非常昂贵的。
4.2 实验结果:混合策略最优
Light-RL(重中期训练,轻 RL):在固定预算下,这种策略在**能力边界任务(OOD-edge)**上的 pass@1(一次通过率)最高 。这意味着中期训练能极好地固化基础能力,提高稳定性。
Heavy-RL(轻中期训练,重 RL):这种策略在**极难任务(OOD-hard)**上表现最好 。大量的 RL 探索对于攻克那些模型从未见过的深层逻辑至关重要。
图中对比了不同配比策略。可以看到,深蓝色的线(Light RL)在左侧图(边界任务)表现最好,而棕色的线(Heavy RL)在右侧图(极难任务)表现最优。
4.3 结论
中期训练是预训练和 RL 之间的桥梁。它负责将模型调整到“RL 就绪”状态。最佳实践是:保留一部分预算给中期训练以建立先验,然后用 RL 进行大规模探索。
5. 核心发现四:拒绝“投机取巧”——过程奖励的作用
RL 的一个经典问题是 Reward Hacking:模型可能推理逻辑全是错的,但恰好凑出了正确答案(比如)。
5.1 奖励函数的设计
为了解决这个问题,论文引入了过程监督。奖励函数被设计为:
:结果奖励(答案对给1,错给0),这是稀疏的。
:过程验证奖励(每一步推理对不对),这是密集的 。
更严格的版本是:只有当过程完全正确时,才给结果奖励 。
5.2 效果验证
实验表明,引入过程奖励(Process Rewards)能显著减少逻辑错误(如幻觉出不存在的节点),并将外推性任务(OOD-hard)的 pass@1 准确率提升了4-5%。
柱状图清晰地展示了,相比于纯结果奖励(灰色柱),混合了过程奖励的策略(蓝色、黄色、绿色柱)在所有难度任务上都取得了更高的准确率,证明了过程监督能有效抑制奖励黑客行为。
结论与展望
这篇论文通过严格的控制变量实验,终结了关于 RL 推理能力的许多猜测,并为 AI 训练师提供了一份详尽的“操作指南”:
RL 的本质:它不是魔法,无法无中生有。它是一个强大的组合器和放大器。
预训练的关键:必须覆盖广泛的基础“原语”和长尾知识的“种子”(至少 1% 覆盖率),否则后续 RL 再努力也无法迁移。
训练策略:
难度设计:RL 数据应针对模型的“能力边界”(Edge of Competence),太难太易都没用。
阶段配合:不要跳过中期训练。用中期训练打基础,用 RL 攻克难关。
奖励设计:尽可能使用过程奖励,防止模型“学坏”。
这项研究告诉我们,打造强大的推理模型不仅需要大规模算力(RL 探索),更需要精细的数据工程(预训练种子)和科学的课程设计(难度阶梯)。