news 2026/1/16 8:29:24

RL并非万能药:CMU 新论文揭秘大模型推理能力的真正来源

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
RL并非万能药:CMU 新论文揭秘大模型推理能力的真正来源

在 DeepSeek-R1 和 OpenAI o1 等模型通过强化学习(RL)展现出惊人的数学与逻辑推理能力后,AI 社区陷入了一场激烈的辩论:RL 真的让模型“学会”了预训练阶段未曾见过的推理能力吗?还是说,它仅仅是让模型更擅长提取预训练中已经埋藏的知识?

目前的文献众说纷纭。一派认为 RL 只是“能力精炼器”,无法突破预训练的上限;另一派则通过实验证明 RL 能让模型解决预训练中从未见过的复杂问题 。这种分歧的根源在于,现代大模型的预训练数据(数万亿 token)是一个巨大的“黑盒”,我们根本不知道模型在预训练阶段到底见过什么,因此无法判断 RL 后的表现是“回忆”还是“创新”。

  • 论文:On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

  • 链接:https://www.arxiv.org/abs/2512.07783

卡内基梅隆大学(CMU)的研究团队带来的这篇论文 ,就像是给这个混乱的辩论场带来了一把精准的手术刀。他们没有使用不可控的互联网数据,而是构建了一个完全可控的合成数据“实验室”。在这个实验室里,他们不仅解开了预训练、中期训练和 RL 之间复杂的纠缠关系,还给出了一套关于“如何培养推理模型”的精确配方。,如下图所示:

图解:该图概括了论文的三大核心发现:左图显示 RL 仅在任务难度略高于预训练范围时有效;中图显示情境泛化依赖于预训练的微量接触(长尾分布);右图显示中期训练能显著提升计算效率。

接下来,我们将详细拆解这些发现...

1. 实验方法:打造一个“纯净的实验室”

为了搞清楚因果关系,研究团队必须摆脱真实数据的干扰,建立一个受控环境。

1.1 数据生成框架:骨架与皮肤

研究者基于GSM-Infinite框架生成数据 。这个框架极其巧妙地将数学问题拆解为两个部分:

  • 依赖图(Dependency Graph):这是问题的“骨架”或逻辑结构。例如,A + B = C,C * D = E。通过控制图的节点数量(运算步数,记为),可以精确控制问题的难度 。

  • 情境模板(Contextual Template):这是问题的“皮肤”或故事背景。同样的逻辑骨架,可以被渲染成“动物园里的狮子和老虎”(情境 A),也可以渲染成“学校里的老师和学生”(情境 B) 。

如图所示,左侧展示了控制逻辑复杂度的依赖图,中间是不同的情境模板,右侧则是生成的具体数学问题和推理步骤。这种设计实现了对“难度”和“内容”的完全解耦。

1.2 两个维度的泛化

论文定义了两种关键的推理能力指标:

  1. 外推性泛化(Extrapolative Generalization):深度上的扩展。如果模型在预训练时只见过 10 步以内的运算,它能通过 RL 解决 20 步的运算吗?

  2. 情境性泛化(Contextual Generalization):广度上的迁移。如果模型在预训练时只做过“动物园”的题,它能通过 RL 学会做逻辑结构相同但背景是“学校”的题吗?

1.3 严苛的评分标准:过程验证

为了防止模型“蒙对答案”(这在 RL 中很常见),研究者采用过程级验证(Process-Verified Evaluation)。只有当模型生成的推理步骤(中间变量、运算逻辑)与真实依赖图完全一致,且最终答案正确时,才算得分 。

2. 核心发现一:RL 何时能提升推理能力?(外推性泛化)

很多研究者发现 RL 有时极有效,有时却无效。本文揭示了其背后的规律:RL 的有效性取决于任务难度与模型当前能力的相对关系。

2.1 三个难度区间的表现

研究者将预训练模型(Base Model)的能力范围设定在(即 2 到 10 步运算)。然后观察 RL 在不同难度数据上的表现:

  • 分布内(ID, op=2-10):RL 对准确率(pass@128)几乎没有提升。因为模型已经学会了,RL 只是让它更自信(pass@1 提升),属于“锦上添花” 。

  • 能力边界(OOD-edge, op=11-14):这是 RL 的黄金区间。这些任务比预训练稍微难一点,模型虽然做不对(pass@1 低),但偶尔能蒙对或做对一部分(pass@128 不为零)。在这种数据上进行 RL,模型能通过探索学会组合已有的原子操作,实现真正的能力飞跃 。

  • 极难任务(OOD-hard, op=15-20):如果直接用这些太难的数据进行 RL,模型会两眼一抹黑,完全学不会。但在“能力边界”区间训练后的模型,却能泛化解决这些极难任务

上图清晰展示了这一现象:左图(简单任务)RL 曲线重合,无明显提升;中图(边界任务)RL 带来了巨大的性能增益;右图(极难任务)显示,只有在边界任务上训练过的 RL 模型(绿色线)才能解决极难问题。

2.2 结论

RL 产生真正推理收益需要满足两个条件:

  1. 预训练没学满(留有提升空间)。

  2. RL 数据必须位于模型的**“能力边界”(Edge of Competence)**——既不能太简单,也不能难到模型完全无法理解 。

3. 核心发现二:从“动物园”到“学校”的跨越(情境性泛化)

如果模型只学过计算“狮子和老虎”,它能通过 RL 学会计算“老师和学生”吗?

3.1 “种子”理论

实验极其精彩:研究者在预训练中放入了 99.9% 的“情境 A”(如动物园),通过控制“情境 B”(如学校)的混入比例(0%, 0.1%, 1%, 10%),观察 RL 后的效果。

  • 0% 接触:如果预训练完全没见过情境 B,无论 RL 怎么训练,模型都无法学会情境 B。RL 无法“无中生有”地创造概念 。

  • 0.1% 接触:效果极差,模型依然无法泛化。

  • 1% 接触:奇点时刻!只要预训练中有 1% 的数据涉及情境 B(哪怕只是简单的原子操作),RL 就能像浇水一样,让这点微小的“种子”生根发芽,最终让模型能够完美解决情境 B 中的复杂问题 。

请看图中的对比:左侧两张图(0%和0.1%预训练暴露)显示 RL 后性能依然趴在底线;而右侧两张图(1%和10%预训练暴露)显示 RL 迅速将性能拉升至 100%。这证明了“种子”的重要性。

3.2 结论

RL 不是创造者,而是放大器。它需要预训练阶段提供最基础的“原语”(primitives)或“种子”。只要种子存在,RL 就能将其组合、强化,实现强大的跨情境泛化 。

4. 核心发现三:被忽视的英雄——中期训练(Mid-Training)

中期训练(Mid-Training)是指在预训练和 RL 之间,使用高质量、特定领域数据进行的监督微调。这通常被忽视,但本文证明它至关重要。

4.1 计算预算的博弈

为了公平,研究者设定了固定的计算预算(Compute Budget),并研究如何分配给中期训练和 RL。 这里引入了一个等效公式来统一衡量两者的计算成本:

其中是样本数,是采样次数(rollout),是序列长度 。这个公式告诉我们,RL 的采样探索是非常昂贵的。

4.2 实验结果:混合策略最优

  • Light-RL(重中期训练,轻 RL):在固定预算下,这种策略在**能力边界任务(OOD-edge)**上的 pass@1(一次通过率)最高 。这意味着中期训练能极好地固化基础能力,提高稳定性。

  • Heavy-RL(轻中期训练,重 RL):这种策略在**极难任务(OOD-hard)**上表现最好 。大量的 RL 探索对于攻克那些模型从未见过的深层逻辑至关重要。

图中对比了不同配比策略。可以看到,深蓝色的线(Light RL)在左侧图(边界任务)表现最好,而棕色的线(Heavy RL)在右侧图(极难任务)表现最优。

4.3 结论

中期训练是预训练和 RL 之间的桥梁。它负责将模型调整到“RL 就绪”状态。最佳实践是:保留一部分预算给中期训练以建立先验,然后用 RL 进行大规模探索

5. 核心发现四:拒绝“投机取巧”——过程奖励的作用

RL 的一个经典问题是 Reward Hacking:模型可能推理逻辑全是错的,但恰好凑出了正确答案(比如)。

5.1 奖励函数的设计

为了解决这个问题,论文引入了过程监督。奖励函数被设计为:

  • :结果奖励(答案对给1,错给0),这是稀疏的。

  • :过程验证奖励(每一步推理对不对),这是密集的 。

更严格的版本是:只有当过程完全正确时,才给结果奖励 。

5.2 效果验证

实验表明,引入过程奖励(Process Rewards)能显著减少逻辑错误(如幻觉出不存在的节点),并将外推性任务(OOD-hard)的 pass@1 准确率提升了4-5%

柱状图清晰地展示了,相比于纯结果奖励(灰色柱),混合了过程奖励的策略(蓝色、黄色、绿色柱)在所有难度任务上都取得了更高的准确率,证明了过程监督能有效抑制奖励黑客行为。

结论与展望

这篇论文通过严格的控制变量实验,终结了关于 RL 推理能力的许多猜测,并为 AI 训练师提供了一份详尽的“操作指南”:

  1. RL 的本质:它不是魔法,无法无中生有。它是一个强大的组合器和放大器

  2. 预训练的关键:必须覆盖广泛的基础“原语”和长尾知识的“种子”(至少 1% 覆盖率),否则后续 RL 再努力也无法迁移。

  3. 训练策略:

  • 难度设计:RL 数据应针对模型的“能力边界”(Edge of Competence),太难太易都没用。

  • 阶段配合:不要跳过中期训练。用中期训练打基础,用 RL 攻克难关。

  • 奖励设计:尽可能使用过程奖励,防止模型“学坏”。

这项研究告诉我们,打造强大的推理模型不仅需要大规模算力(RL 探索),更需要精细的数据工程(预训练种子)和科学的课程设计(难度阶梯)。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/8 2:02:21

Kubernetes Pod 垂直扩缩容实战指南:从重启到无重启

Kubernetes Pod 垂直扩缩容实战指南:从重启到无重启 在 Kubernetes 中,Pod 的 CPU 和内存资源(resources.requests 与 resources.limits)通常在创建时就确定,后续调整往往意味着 Pod 重启,这在对高可用、低中断的业务场景中并不理想。 从 Kubernetes 1.27 开始,官方引…

作者头像 李华
网站建设 2025/12/25 19:59:14

Wan2.2-T2V-A14B如何应对‘先因后果’的时间逻辑关系?

Wan2.2-T2V-A14B如何应对“先因后果”的时间逻辑关系? 在AI生成内容迈向影视级叙事的今天,一个看似简单却长期困扰行业的难题浮出水面:为什么AI生成的视频里,“爆炸”总比“点火”来得更快? 这并非玩笑。许多文本到视频…

作者头像 李华
网站建设 2026/1/2 20:23:09

DevUI modal 弹窗表单联动实战:表格编辑功能完整实现

最近在做一个用户管理模块,需要在表格中点击"编辑"按钮弹出表单弹窗来修改数据。刚开始用 d-modal 组件直接写,结果各种问题,后来发现官方推荐用 DialogService,这才算解决了。记录一下踩坑过程。前言 弹窗表单是后台管…

作者头像 李华
网站建设 2025/12/25 10:10:36

Wan2.2-T2V-A14B生成太空失重环境下人体运动的真实性

Wan2.2-T2V-A14B生成太空失重环境下人体运动的真实性 在航天任务日益频繁、公众对宇宙探索兴趣高涨的今天,如何真实还原宇航员在太空中的动作细节,成为科学传播与影视制作共同面临的挑战。传统的三维动画依赖专业团队逐帧调整姿态和物理参数,…

作者头像 李华
网站建设 2026/1/15 22:58:08

通用电气 DS3820HSMD1C1D

DS3820HSMD1C1D 模块概述DS3820HSMD1C1D 是通用电气(GE)生产的一款工业控制模块,常用于燃气轮机或蒸汽轮机的控制系统。该模块属于 Mark VI 或 Mark VIe 系列的一部分,负责信号处理、通信或控制功能。主要功能与特点信号处理&…

作者头像 李华