news 2026/7/4 21:18:58

RL训练如何提升大模型能力上限?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
RL训练如何提升大模型能力上限?

简介

文章探讨了强化学习(RL)能否提高大语言模型(LLM)能力上限的争议,引用CMU最新研究通过控制变量实验得出三个关键结论:1)RL在任务难度适中时能有效提升模型上限;2)pretrain阶段需有一定相关数据才能使RL有效;3)mid-train阶段在计算资源有限时能有效提升模型性能,尤其对边缘OOD样本。这些发现对LLM训练策略优化具有重要指导意义。


随着 LLM 的 post training(尤其是强化学习 RL)的重要性被各家越来越重视,一个很重要的问题也备受关注:RL 能否给模型注入新的知识,提高模型上限呢?这个问题仍然存在争议。

一方认为:RL 训练的样本全部是 LLM 自己 rollout 出来的,因此可以让 LLM 的输出更稳定,但无法提升根本上限。

相关工作不少,代表性的如 yueyang 大佬 NeurIPS 的 best paper runner-up 之作:《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》

另一方则认为:随着 RL 的不断进行,模型的分布会不断演化,最终可以逐步探索到更好的 rollout 结果,提升能力上限。

这类相关工作也不少,如:《Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs》。

笔者一直比较迷信 RL 的能力,自己也做了不少相关研究和实验,窃附于第二种观点。但一直无法解释这两方研究之间的矛盾点。

最近看到了 CMU 的一篇文章《On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models》,对此问题通过控制变量的方法做了比较详细的实验。

用一句话来概括,本文的核心观点是:RL 是否有效和训练基础模型的数据集强相关;同时,通过调整 mid-training 和 post-training 的数据,可以最大化训练的效率。

一、背景

  1. LLM 上限的定义

首先回顾一下如何定义 LLM 的能力“上限”。在当前的工作中,往往是以 pass@k 作为 metric。

这个 metric 指的是模型回答 k 次,能至少答对一次的比例。一般为了逼近 LLM 的能力上限,k 值往往取的较大(如 128,256)。

  1. 本文的 training pipeline

这篇文章假设采用标准的 pre-training -> mid-training -> post-training 三段训练法。

这三个阶段在真正 LLM 中的具体含义和作用可以参考 Karpathy 大神的 nanochat repo:

https://github.com/karpathy/nanochat/discussions/1

在本文中,为了精确控制不同阶段的数据难度,作者使用了合成任务 GSM-Infinite 进行训练。

这个数据集的具体含义暂时不论,它的好处在于可以通过一个数值 op 来反应某一条数据的难度,op 越大难度越高。

接下来我们介绍本文尝试解答的几个核心问题。

二、RL 什么时候可以提高基模型的上限?

结论 1:当 RL 阶段的任务相对于 pretrain 阶段既不太简单也不太难时,RL 可以提高基模型的上限。但如果测试集的难度和 pretrain 阶段近似,这种提升是难以捕捉的。

实验配置:

  • 在难度 op=2-10 的 case 上进行 pretrain
  • 在 post train 的 RL 阶段,分别使用 op=7-10;op=9-12;op=11-14;op=17-20 的数据,进行了四组实验
  • 测试时,使用了 ID(op=2-10),OOD-mid(op=11-14),OOD-hard(op=15-20) 三组测试集

实验结果:

不难看出:

  • 当测试集和训练集重叠时(ID 情况),模型的测试结果上限(k 较大时)确实差异不大。
  • 但上述测试结果的差异不大不代表模型真实能力差异不大,可能只是因为测试集中的解题思路都在 pretrain 阶段都有所体现,多次 rollout 总有能蒙对的 —— 这点在 OOD 场景下会进一步验证。
  • OOD 场景下的结果表明,合适难度的 RL 配方可以明显提升测试结果。而这个“合适”有点玄学,但是大致指的就是既不太难又不太简单的样本。这个结论和 DAPO 是类似的(DAPO 是从 gradient 的角度出发解释的)。

三、Pre-train 数据如何影响 Post-train 的效果?

结论 2:如果想要 RL 提升模型上限,必须在 pretrain 阶段有一点相关数据,哪怕是 OOD 的或数量稀少。

实验配置:

  • 有两个不同的实验场景(context A & B),这两个场景并不相关,各自都可以用难度 op 进行衡量
  • pre-train 数据:包含大量的 context A 数据和少量的 context B 数据
  • RL 数据:等量的 context A 数据和 context B 数据(op=2-20),做充分训练
  • 测试数据:统计不同 op 的 context B 场景下,模型的上限(pass 128)

实验结果:

随着 context B 难度的变化,pass@128 的相应趋势

可以看出:

  • 如果在 pretrain 阶段,完全没有 context B 的数据,RL 再怎么训练也没用
  • 如果在 pretrain 阶段, context B 数据非常少,那么会影响 RL 阶段的泛化性
  • 如果在 pretrain 阶段, context B 有一定的数量,那么 RL 的泛化性可以得到保证
  • 但继续提升 context B 的数量,对结果并没有影响

四、Mid-train 在训练过程中起到了什么作用?

结论 3:在计算开销一定的情况下,增加 mid-train 阶段可以有效提升模型效果。

实验配置:

  • 在 pre-train 和 post-train(RL)阶段,插入 mid-train。为了控制变量,如果 mid-train 投入了更多算力,就会相应减少 RL 的算力分配
  • pre-train:op=2-10的训练数据
  • mid-train & post-train:调配了不同的 mid-training 和 RL 的算力分配比例。难度范围都是(op=11-14)

实验结果:

可以看出:

  • 对于特别 OOD 的样本(OOD-hard),无脑投入 RL 算力就完事了
  • 对于边缘 OOD 的样本(OOD-hard),mid-training 是一个更有性价比的选择

五、简单总结

本文对 RL 能否提高 LLM 上限的相关问题进行了讨论,得出了一些对笔者来说 make sense 的结论。

虽然说数据集是合成的,且整体模型不大,但确实分析真实的 LLM 训练数据和过程太困难了。总体来说,我认为本文的结论还是比较可信的。

六、如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

第一阶段:从大模型系统设计入手,讲解大模型的主要方法;

第二阶段:在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段:大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段:大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段:大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段:以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段:以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/4 19:08:29

开发者必看:Linly-Talker API接口调用示例大全

Linly-Talker API 接口调用实战指南:从原理到落地 在直播带货的深夜,一位“主播”仍在声情并茂地讲解商品特性——她不会疲倦、无需休息,声音与表情自然流畅。这不是科幻电影,而是基于 Linly-Talker 这类数字人系统的现实应用。 随…

作者头像 李华
网站建设 2026/7/4 8:18:40

零基础教程:5分钟学会安装使用VSCode汉化插件

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个新手友好的VSCode汉化插件教学demo,要求:1.极简安装流程 2.可视化配置界面 3.实时预览效果 4.内置常见问题解答 5.提供测试用迷你语言包。界面要求…

作者头像 李华
网站建设 2026/7/4 4:38:44

1小时打造定制化Redis管理POC验证方案

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个可扩展的Redis管理原型系统,核心功能包括:1.插件式架构设计 2.基础连接管理模块 3.键值浏览器的MVP实现 4.简单的性能图表 5.API文档生成。使用Typ…

作者头像 李华
网站建设 2026/7/2 22:46:52

SGMICRO圣邦微 SGM2032-2.7YN5G/TR SOT23 线性稳压器(LDO)

特性 工作输入电压范围:2.5V至5.5V 固定输出电压: 0.9V、1.3V、2.1V、2.7V、2.9V、3.1V、3.2V、3.6V、4.2V和5.0V 可调输出范围:0.8V至5.0V 输出电压精度:25C时士2% 低输出噪声:30pVRmms(典型值) 低压差电压:在300mA时为270mV(典型值) 高PSRR:75dB(典型值)1kHz 低负载供电电流:…

作者头像 李华
网站建设 2026/6/30 9:46:30

电商数据分析实战:WITH AS处理复杂业务逻辑

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个电商数据分析的SQL示例,使用WITH AS处理以下业务场景:1) 计算每个用户的首次购买和最近购买时间 2) 识别高价值用户(最近30天购买3次以上) 3) 分析…

作者头像 李华
网站建设 2026/7/4 13:40:06

AI如何助力APT攻击检测与防御系统开发

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个基于AI的APT攻击检测系统,要求:1. 使用机器学习算法分析网络流量日志 2. 实现异常行为检测功能 3. 包含威胁情报整合模块 4. 提供可视化告警界面 5…

作者头像 李华