news 2026/7/1 23:54:53

极简RL新范式:一半算力刷新1.5B模型推理SOTA

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
极简RL新范式:一半算力刷新1.5B模型推理SOTA

当我们在谈论 RL 时,我们在谈论什么?

在过去的一年里,大模型推理能力的提升似乎进入了一种“炼金术”时代,尤其是对于 1.5B - 7B 这种中小参数量模型(SLM)。为了让它们追赶 OpenAI o1 或 DeepSeek-R1 的推理能力,开发者们构建了极其复杂的 RL(强化学习)流水线:

从 DeepScaleR 的三阶段上下文递增,到 ProRL-V2 的九阶段训练;从动态调整温度(Temperature)到复杂的课程学习(Curriculum Learning) 。每一篇新论文似乎都在告诉我们:RL 很不稳定,你必须用这十几个 Trick 才能按住它。

  • 论文:JustRL: Scaling a 1.5B LLM with a Simple RL Recipe

  • 链接:https://arxiv.org/pdf/2512.16649

JustRL这篇论文的出现,就像是在喧闹的集市中突然按下了静音键。清华大学和 UIUC 的研究者们提出了一个振聋发聩的问题:“这些复杂性真的是必须的吗?”

他们的答案是否定的。他们用一套极简的、单阶段的、固定超参的训练方案,在两个主流 1.5B 模型上刷新了 SOTA,同时节省了 2 倍的算力 。

0核心方法:回归本质的“极简配方”

JustRL 的核心理念可以用 Antoine de Saint-Exupéry 的那句名言概括:“完美的达成,不是当无以复加时,而是当无可删减时。”

相比于同行们复杂的架构,JustRL 的配置简单到令人惊讶。让我们拆解一下这个“配方” :

  • 算法内核:标准的 GRPO(Group Relative Policy Optimization),配合二元奖励(Binary Outcome Rewards)。

  • 训练流程单阶段(Single-stage)。没有从 8k 到 16k 再到 24k 的上下文渐进,直接端到端训练。

  • 超参数完全固定(Fixed)。学习率恒定 1e-6,温度恒定 1.0,Clip Ratio 固定在 [0.8, 1.28]。没有动态调整策略。

  • 长度控制:没有复杂的长度惩罚项(Length Penalty),仅仅设置了一个 16k 的硬性上限。

  • Prompt:一句简单的 "Please reason step by step...",甚至没有做 Prompt Tuning。

这就好比大家都还在研究怎么通过复杂的变速箱逻辑来省油时,JustRL 直接换了一个更高效的引擎,然后把变速箱锁死在了一个档位上,结果跑得更快更稳。

1实验论证:以简驭繁的胜利

口说无凭,数据是最好的证明。JustRL 在 DeepSeek-R1-Distill-Qwen-1.5B 和 OpenMath-Nemotron-1.5B 两个基座上进行了验证。

1. DeepSeek 赛场的“降维打击”

在 DeepSeek-R1-Distill-Qwen-1.5B 这个基座上,JustRL 的表现令人印象深刻。

*我们可以看到 JustRL 在多个数学基准测试中的平均表现。*
  • 性能超越:JustRL 取得了54.87%的平均准确率,击败了此前拥有复杂九阶段训练流程的 ProRL-V2 (53.08%) 。在 AIME 2024 上,JustRL 更是达到了 52.60%,优于 ProRL-V2 的 51.87% 。

  • 算力节省:这才是最杀人诛心的部分。如下表所示,JustRL 的算力消耗仅为 tokens,约为 ProRL-V2 () 的一半,更是只有 BroRL () 的五分之一 。

JustRL 在仅使用约 ProRL-V2 50% 的算力预算下,达到了更高的性能。这说明过去的许多“Trick”可能是在空转。

2. Nemotron 赛场的“稳健发挥”

在更强的 OpenMath-Nemotron-1.5B 基座上,JustRL 同样展现了统治力。

  • 它达到了64.32%的平均准确率,超过了使用了复杂课程学习(Curriculum Learning)和问题增强(Question Augmentation)技术的 QuestA (63.81%) 。

  • QuestA 需要构建包含部分 CoT(思维链)提示的数据集来做课程引导,而 JustRL 仅使用了标准的问答对,没有做任何数据增强 。

无论是 DeepSeek 还是 Nemotron 基座,JustRL 都展现出了平滑、单调上升的趋势(a, b 图)。即使在 4000+ 步的训练中,也没有出现通常被认为是 RL 通病的“模型坍塌”或“震荡”。

2为什么“标准技巧”反而有毒?

这篇论文最精彩的洞察来自于它的Ablation Study(消融实验)。作者尝试把一些社区公认的“好用的 Trick”加回去,结果却引发了性能退化。这一点非常反直觉,值得我们深思。

陷阱一:显式长度惩罚(Overlong Penalty)

通常认为,为了防止模型输出过长(废话连篇),需要加一个长度惩罚项。但 JustRL 发现,加上这个惩罚后,AIME 2024 的准确率直接从 55% 卡顿在了 50% 。

  • Why?观察熵(Entropy)的变化曲线可以发现,加上长度惩罚后,策略的熵迅速降低至 0.5-0.6(而 Baseline 保持在 1.2-1.4) 。这意味着模型为了避免惩罚,过早地收敛到了短回复模式,放弃了探索更复杂的推理路径。它为了“短”而牺牲了“深”。

陷阱二:鲁棒验证器(Robust Verifier)

另一个直觉是:如果验证器太严格(比如格式不对就判错),会造成 False Negative,所以应该用更宽容、更鲁棒的验证器。但实验表明,引入宽松验证器后,性能进一步跌至 45% 。

  • Why?作者认为,严格的验证器虽然偶尔会误伤,但它提供的“高标准”反而迫使模型生成更规范、逻辑更严密的解。过于宽容的验证器让模型失去了打磨细节的动力,也减少了从细微错误中学习的机会 。

消融实验图表清晰地展示了“画蛇添足”的后果。图 (b) 中的 Entropy 曲线尤为明显,蓝线(JustRL)保持了健康的探索活力,而红线和黄线(加了Trick)则迅速坍塌,导致模型丧失了进化的潜力。

3总结与展望

JustRL 给狂热的 AI 社区泼了一盆冷水,但这是一盆清醒的冷水。

它证明了在 1.5B 这个尺度上,只要基座模型足够好,RL 训练本身并不像传说中那么不稳定。所谓的“不稳定性”,很多时候可能是我们引入的复杂机制(如动态超参调节、不恰当的数据筛选)人为制造出来的“症状”,而非病根 。

JustRL 的价值不在于它提出了什么新算法,而在于它设立了一个坚实的 Baseline。

它告诉所有研究者:在你决定引入复杂的课程学习或多阶段流水线之前,请先确认你的方法能跑赢这个只有几十行配置代码的“傻瓜式”基准。如果连这都跑不赢,那么那些复杂度就只是在浪费 GPU 而已。

正如作者所言:“我们不是在否定技巧的价值,而是主张在通过实证确认其有效性之前,不要默认它们是必须的。”

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/26 15:23:24

x64dbg用户层调试核心要点一文说清

x64dbg 用户层调试实战精要:从断点到追踪的深度掌控 在逆向工程的世界里,静态分析能告诉你“代码长什么样”,而动态调试才能揭示“它到底做了什么”。随着现代软件普遍采用混淆、加壳、反调试等防护手段,仅靠 IDA 或 Ghidra 这类静…

作者头像 李华
网站建设 2026/6/26 15:23:25

负载均衡配置:多实例分摊请求压力

负载均衡配置:多实例分摊请求压力 在企业级 AI 应用逐渐从“能用”走向“好用”的今天,性能与稳定性成了决定用户体验的关键。以 anything-llm 为代表的本地化 RAG 平台,虽然功能强大——支持文档上传、私有知识问答、多模型切换——但一旦用…

作者头像 李华
网站建设 2026/6/26 15:23:25

基于Java+SpringBoot+SSM,SpringCloud企业网络主机IP地址管理系统(源码+LW+调试文档+讲解等)/企业网络IP管理/企业主机管理/企业网络管理系统/企业IP地址管理

博主介绍 💗博主介绍:✌全栈领域优质创作者,专注于Java、小程序、Python技术领域和计算机毕业项目实战✌💗 👇🏻 精彩专栏 推荐订阅👇🏻 2025-2026年最新1000个热门Java毕业设计选题…

作者头像 李华
网站建设 2026/6/29 0:02:04

在线电路仿真对比:LTspice Web与其他工具优劣比较

电路仿真工具怎么选?LTspice Web 深度实测,对比五款主流在线平台的真实表现 你有没有遇到过这样的场景:刚画好一个电源电路,想快速验证环路稳定性,却发现本地没装仿真软件;或者团队协作时,同事根…

作者头像 李华
网站建设 2026/6/28 23:39:20

Python 第三方库:darts(现代化时间序列建模与预测框架)

darts 是一个专门用于时间序列分析、建模与预测的 Python 库,提供统一而高层的 API,集成了统计模型(如 ARIMA)、机器学习模型(如 LightGBM)、深度学习模型(如 RNN、Transformer、N-BEATS、TCN 等…

作者头像 李华
网站建设 2026/6/28 23:46:29

支持多模型切换的Anything-LLM究竟有多强大?

支持多模型切换的Anything-LLM究竟有多强大? 在企业知识管理日益复杂的今天,一个现实问题摆在开发者面前:如何让AI助手既能准确回答专业问题,又不把敏感数据上传到第三方API?更进一步——能否在一个系统里,…

作者头像 李华