news 2026/5/15 12:45:06

当SFT遇上RL:基于样本学习阶段的动态策略优化机制

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
当SFT遇上RL:基于样本学习阶段的动态策略优化机制
清华大学深圳国际研究生院&中兴通讯&重庆邮电大学 投稿
量子位 | 公众号 QbitAI

过去一段时间里,在围绕大模型推理能力增强的研究中,SFT 和 RL 是两类核心后训练范式 —— 前者稳定收敛快,能高效吸收高质量推理数据;后者更具探索性,有望推动模型实现复杂推理和分布外泛化。

但在实际训练中,这两种信号却难以有效融合,现有工作大多仅停留在 “把两个loss混在一起” 的层面。


为应对这一挑战,研究团队提出了DYPO(Dynamic Policy Optimization)动态策略优化方法。

核心思考在于:既然 SFT 和 RL 的学习信号统计性质天然不同,统一优化要如何做,才能既保留监督学习的稳定性,又不牺牲强化学习的探索能力?

△ 图1:DYPO的整体框架

如图1,模型会先根据一组rollout的结果判断样本所处的学习阶段,再决定它应该走监督路径、强化学习路径,还是暂时跳过。

SFT和RL为什么很难真正协同

如果把大模型后训练比作“教学生做题”,SFT 和 RL 的特性差异便一目了然。

SFT更像老师直接讲标准答案。它的优点是学得快、过程稳、收敛也更容易控制,但问题在于,学生很容易学成“会按套路做题”,一旦题目稍微变形,就可能缺乏泛化能力。

RL更像让学生自己反复尝试,再根据得分不断修正策略。它的优点是更有探索性,更可能逼着模型从“记住解法”走向“学会推理”,但缺点同样明显:训练过程中波动更大,奖励一旦稀疏,模型就很容易学偏,甚至不稳定。

从理论层面看,这背后对应着典型的偏差—方差矛盾

  • SFT:低方差,但高偏差。SFT的梯度来自静态高质量数据,更新稳定、噪声小,却天然偏向拟合示范分布,压缩模型探索空间;

  • RL:低偏差,但高方差。RL通过奖励驱动试错,更接近 “有效策略优化”,但受采样随机性和奖励稀疏性影响,梯度方差高、训练易波动。

问题也正出在这里。很多统一训练方法虽然同时用了SFT和RL,但默认所有样本都值得用同一种方式去处理。

但实际情况中,不同样本的学习信号存在显著差异:有些问题模型已经会了,多次rollout都能答对,这类样本继续训练,收益往往很有限;有些问题模型当前完全不会,多次rollout全部失败,这时直接做RL通常也拿不到什么有效奖励;

真正最值得优化的,反而是那些“已经会一点,但还不稳定”的样本。它们既说明模型已经摸到了门槛,又保留了区分正确轨迹和错误轨迹的空间。

因此,这项工作想解决的,并不是“要不要把SFT和RL放在一起”,而是更进一步:不同学习阶段的样本,到底应该怎样被优化,才能在稳定和探索之间找到更合理的平衡。

△ 图2:SFT与RL的偏差—方差矛盾

SFT更稳,但偏差更大;RL偏差更低,但训练波动明显更强。

DYPO如何同时处理偏差和方差问题

基于上述思考,本文提出了Dynamic Policy Optimization(DYPO)。它的核心思想并不是再堆一个更复杂的训练流程,而是先根据rollout结果判断样本所处的学习阶段,再去匹配最合适的优化路径。

具体而言,DYPO 会让当前策略为每个问题生成一组rollout,然后根据这些rollout的成败情况,把样本划分成三类:

  1. Easy样本:一组 rollout 全部成功,说明模型已掌握这类问题,直接跳过以减少无效更新;

  2. Hard样本:一组 rollout 全部失败,说明模型缺乏足够知识基础,直接做RL难获稳定正向信号。对此采用多教师蒸馏(Multi-Teacher Distillation),引入多个teacher让student学习多种合理推理轨迹的共通部分,减少单一teacher的特定偏差,先建立可靠先验,再去谈后续探索;

  3. Mid样本:一组rollout有成功也有失败,是最有价值的“学习前沿”。这类样本适合RL优化。但为解决标准RL的高方差问题,团队在GRPO的基础上引入了Group Alignment Loss,也就是GAL,来对齐损失。

GAL的核心思路是利用同一组rollout中的成败轨迹差异,显式将模型拉向正确轨迹、推离错误轨迹。这让RL更新不再仅依赖高噪声奖励信号,而是额外获得了一层更稳定的相对对齐约束。

换句话说,GAL的作用并不是简单“再加一个loss”,而是在RL更新过程中充当一个动态的方差抑制项。

如果从理论上总结DYPO的设计逻辑,它其实是在分别处理SFT和RL的两个核心缺陷:

  • 多教师蒸馏针对Hard 样本,缓解SFT的高偏差问题。多个 teacher 的组合可抵消个体偏差,使整体监督偏差随teacher数量增加而下降;

  • GAL 针对Mid 样本,解决RL的高方差问题。混合目标的梯度方差严格小于纯 GRPO,且随模型区分轨迹能力的提升,GAL本身的方差还会进一步自然衰减。

由此可见,DYPO并不是简单把SFT和RL拼起来,而是在结构上把“高偏差监督”和“高方差强化学习”分别放到最适合的样本上处理。也正因为如此,它更像是一种重新组织后训练过程的方式,而不仅仅是一个新的训练技巧。

△ 图3:GAL的直观机制

如图3,它利用同一组rollout中已经出现的正负样本,把模型往正确轨迹方向拉近,同时把错误轨迹往外推开。

实验结果

研究团队在数学和逻辑推理场景开展实验,基础模型包括Qwen2.5-Math-7B和Qwen3-4B-Base,评测任务覆盖AIME 2024/2025、AMC、MATH-500、Minerva,以及更偏分布外泛化的ARC-c和GPQA-Diamond。

对这类工作来说,分数当然重要,但如果只看最终结果,很容易把DYPO理解成“又一个做得更高的训练技巧”。真正值得看的,其实是它到底赢在什么地方。

Qwen2.5-Math-7B上,和传统SFT→RL顺序pipeline相比,DYPO:

  • 五个复杂推理benchmark上的平均分从47.7提升到52.5,对应4.8个点的提升

  • 在OOD任务上,平均分从48.3提升到61.6,对应13.3个点的提升

这一提升并非依赖单一任务冲高,而是整体表现更稳定。尤其是在GPQA-Diamond这种更看重迁移推理能力的任务上,DYPO取得了表中最好的结果,这说明它学到的并不只是更贴近训练分布的模板。

△ 图4:Qwen2.5-Math-7B上的整体结果对比

如图显示,DYPO在复杂推理和分布外任务上都表现出较强的综合优势。

Qwen3-4B-Base上,类似的趋势依然存在。DYPO:

  • 在ID任务上的平均分达到66.9,明显高于SFT→RL56.1

  • 在OOD任务上,平均分达到68.5,也高于后者的 52.6。

这说明它的收益并不只依赖某一个特定backbone,而更像来自这套动态分流机制本身。

此外,消融实验进一步验证了方法有效性。

很多时候,一个方法看起来更强,未必是因为方法本身,也可能只是teacher更强、数据更好。

但在这项工作里,即便把第二个teacher换成比原教师deepseek-R1更弱的Qwen3-8B模型,DYPO依然能把AIME 2522.0提升到27.8,把GPQA-Diamond30.8提升到39.4

这意味着它的提升并不只是来自“多喂了一些更强teacher的数据”,而是后面这套动态路由与低方差优化本身确实发挥了作用。

除了最终结果,研究还验证了 DYPO 的训练稳定性。

作者分析了训练过程中离线数据占比、reward和策略熵的变化。

一个很有意思的现象是,DYPO并不是一上来就把模型推向更强的探索,而是随着能力提升,逐步降低对监督信号的依赖,让训练自然从“更靠teacher扶着走”过渡到“更依赖策略自己探索”。

这个过程有点像一种自适应课程学习:先把基础稳住,再把探索空间慢慢放出来。

△ 图5:训练动态分析

如图,随着训练推进,DYPO会逐步减少对离线监督的依赖,同时保持相对健康的策略多样性。

再看梯度范数。

标准GRPO的梯度曲线会有比较明显的剧烈震荡,而DYPO的曲线要平滑得多。这种差异看起来像是训练细节,但背后对应的其实是一个很实际的问题:如果梯度一直在大幅摆动,训练就更容易发散,也更难把学习率和优化策略设得积极。

DYPO在这里表现出的稳定性,正好说明它对RL那部分高方差更新做了有效约束。

△ 图6:梯度范数对比

如图6, 和标准GRPO相比,DYPO的更新轨迹更平滑,也更容易保持可控。

总结

DYPO不是在证明SFT和RL可以一起用,而是在回答它们到底应该怎样一起用。它提供的,是一种更像“训练组织方式”的思路。

过往研究已意识到,单纯依赖监督或者单纯依赖强化学习,都不足以把大模型推理能力往前再推一大步。但核心难点并非设计目标函数,而是不同阶段、不同样本暴露出来的学习信号本身就不一样。

DYPO的核心贡献,是将优化逻辑前移:先判断样本学习阶段,再匹配优化路径。这样一来,SFT负责把模型扶稳,RL负责让模型继续往外探索,而非无差别地混合两种信号。

当然,这项工作也有其实验边界。

目前主要验证的是数学与逻辑推理场景,对开放式对话、创作类任务是否同样有效,还需要进一步观察;同时,为了稳定估计样本难度,训练时每个prompt需要生成8条rollout,这也意味着额外算力开销。

对于大模型推理能力增强来说,这也许不是终点,但DYPO无疑提供了一个值得持续推进的新方向。

Arxiv Link: https://arxiv.org/pdf/2604.08926
Github Link:https://github.com/Tocci-Zhu/DYPO

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/15 12:44:06

2026年服务器集群演进:从同构GPU到异构AI算力的调度实战

最近和几个做AI大模型训练的朋友聊天,大家都在吐槽算力成本。2026年了,还在单纯堆NVIDIA A100/H100的时代已经过去了。现在的服务器集群架构正在经历一场从“同构”到“异构”的深刻变革。今天咱们就结合最新的IDC趋势,聊聊怎么在代码和架构层…

作者头像 李华
网站建设 2026/5/15 12:41:07

避坑指南:为你的ESP32-S2/S3项目选对USB摄像头(UVC/MJPEG/分辨率详解)

ESP32-S2/S3项目实战:如何精准选择USB摄像头并规避性能陷阱 在智能家居监控、工业视觉检测或无人机图传等物联网应用中,USB摄像头作为感知终端扮演着关键角色。但许多开发者在使用ESP32-S2/S3系列芯片时,常因选型不当导致帧率骤降、内存溢出甚…

作者头像 李华
网站建设 2026/5/15 12:39:49

初创团队如何利用Taotoken的Token Plan有效控制AI研发成本

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 初创团队如何利用Taotoken的Token Plan有效控制AI研发成本 对于预算敏感的初创团队而言,在产品研发和迭代中频繁调用大…

作者头像 李华
网站建设 2026/5/15 12:39:41

Shell脚本实现工作区管理器:自动化多项目开发环境切换

1. 项目概述:一个提升开发效率的“工作区管理器”如果你和我一样,每天需要在多个项目、多个终端窗口、多个IDE之间反复横跳,那么“工作区管理”绝对是一个能让你效率翻倍的概念。今天要聊的这个项目falaky87/workspace-manager-skill&#xf…

作者头像 李华
网站建设 2026/5/15 12:36:08

2026 选型指南 | 中大型企业数据安全合规 ERP 推荐:头部厂商深度对比

2026 年企业数字化环境持续变化,随着《数据安全法》《个人信息保护法》全面实施,跨境数据流动监管不断细化,中大型企业的合规压力从被动应对转向主动建设。同时,生成式 AI 应用、信创替代推进、出海业务扩张,让 ERP 选…

作者头像 李华