简介
本文研究了强化学习微调(RLVR)中的参数高效方法,发现传统LoRA在RLVR中表现不佳。基于SVD的初始化方法(如PiSSA)会导致"谱崩塌",因为RLVR倾向于在非主成分空间更新。浙大团队提出的DoRA通过解耦幅度和方向,提供了更适合RLVR的更新机制,实验证明其在数学推理任务上不仅优于标准LoRA,甚至超过了全参数微调,为RL微调提供了新思路。
❝
一句话概括:强化学习微调还在用LoRA?这篇浙大新作告诉你错了!RLVR训练其实是在修补模型的“细枝末节”,强制修改主成分的初始化方法(如PiSSA)注定失败,只有解耦幅度和方向的DoRA才能打破性能天花板。(Evaluating Parameter Efficient Methods for RLVR,点击阅读原文可直接跳转至原文链接, Published on arXiv on 30 Dec 2025, by Zhejiang University)
第一阶段:识别核心概念
论文的Motivation分析
目前的LLM训练范式通常遵循“预训练 -> SFT(监督微调) -> RL(强化学习)”的路径。在SFT阶段,LoRA(低秩适配)因其节省显存且效果显著,已成为标准操作。然而,在RL阶段(特别是针对像DeepSeek-R1这类通过RL提升推理能力的模型),社区往往惯性地直接沿用标准LoRA架构。
核心痛点:目前缺乏系统性研究来验证适合SFT的LoRA架构是否同样适用于RLVR(带验证奖励的强化学习)。RLVR依赖稀疏的奖励信号,其优化动力学与依赖密集监督信号的SFT完全不同。盲目沿用LoRA可能会限制模型推理能力的上限,甚至导致训练失败。
论文主要贡献点分析
- 建立了首个PEFT-RLVR基准:作者在DeepSeek-R1-Distill系列模型上,构建了一个包含超过12种参数高效微调(PEFT)方法的大规模评估基准。
- 结构性变体优于标准LoRA:
- 实验证明,DoRA(解耦方向和幅度的LoRA)、AdaLoRA等结构性变体在数学推理任务上一致优于标准LoRA。
- DoRA的表现甚至超过了全参数微调(Full Fine-Tuning),这挑战了“全参数微调效果最好”的传统认知。
- SVD初始化在RL中面临“谱崩塌”:
- 发现基于奇异值分解(SVD)的初始化方法(如PiSSA、MiLoRA),虽然在SFT中表现优异,但在RL中会导致训练彻底失败(Spectral Collapse)。
- PiSSA的准确率甚至跌至接近0%,揭示了SVD初始化与RL优化目标的根本性冲突。
- 发现“表达能力下限”:
- 极致压缩参数的方法(如VeRA、Rank-1 LoRA)在RL中表现不佳。
- 这表明RLVR虽然信号稀疏,但仍需要一定量的可训练参数空间来重组复杂的推理回路。
理解难点识别
- 核心难点概念:“谱崩塌”(Spectral Collapse)与“非主成分更新”(Off-Principal Update)。
- 挑战点:理解这一现象需要结合矩阵的奇异值分解(SVD)理论,以及SFT与RL在权重更新方向上的本质差异。
- 重点解释:为何RL倾向于在“非主成分”空间更新,而PiSSA等方法强制在“主成分”空间更新,这种结构性错位是如何导致训练崩溃的。
概念依赖关系
理解的逻辑链路如下:
- 理解RLVR通过奖励信号调整模型的机制。
- 引入“权重更新方向”的概念(主成分 vs 非主成分)。
- 对比不同PEFT方法的归纳偏置(Inductive Bias)。
- 解释为何DoRA(解耦幅度与方向)能适应RL的更新需求,而PiSSA(锁定主成分)会导致失败。
第二阶段:深入解释核心概念
设计生活化比喻
想象我们拥有一个刚刚建好的高档毛坯房(这对应经过SFT后的Base Model)。
- SFT(监督微调)就像是“硬装修”: 这包括砸墙、铺地板、改水电等大动作。在这个阶段,我们改变的是房子的主要结构和核心功能区域。我们关注的是最显眼、影响最大的部分(主成分)。
- RLVR(强化学习)就像是“软装与调优”: 房子已经硬装完毕,现在是为了居住体验进行微调:调整灯光的色温、改变沙发的摆放角度,或者精细调节音响系统的均衡器。在这个阶段,我们绝对不会去砸承重墙。这些调整是微妙的、针对细节的,旨在优化特定场景下的体验(非主成分)。
建立比喻与实际技术的对应关系
- 房子/音响系统:对应预训练好的**权重矩阵 **。
- 砸墙的大锤子:对应主成分(Principal Components)。这是权重矩阵中奇异值最大、能量最强的方向。SFT通常在这些方向上进行大幅更新。
- 调节音响的旋钮:对应非主成分(Off-Principal Components)。这是权重矩阵中奇异值较小、但在特定任务(如复杂推理)中决定精细表现的方向。RLVR倾向于调整这些区域。
- PiSSA/MiLoRA(SVD初始化方法):对应强制使用大锤子进行微调。这类方法在初始化时,将可训练参数锁定在的主成分上。
- DoRA(解耦方法):对应将“开关”与“旋钮”分离。它允许你在不改变整体结构强度(幅度)的情况下,自由调整功能方向(方向)。
深入技术细节
论文揭示了一个关键机制:RLVR的更新主要发生在非主成分(Off-Principal)空间。
**SVD初始化的数学形式(PiSSA/MiLoRA的逻辑):**对于预训练权重 ,对其进行SVD分解,提取前 个最大的奇异值成分来初始化适配器矩阵 和 :
其中, 和 初始化为 的主成分。这相当于在训练开始前就人为规定:“接下来的更新必须主要发生在原本数值就很大的那些方向上。”
RLVR的梯度更新逻辑:
自然语言替换版:
新的参数状态旧的参数状态学习率计算出的调整方向
冲突的根源: RL算法计算出的调整方向(梯度 )本质上指向非主成分方向。因为RL旨在增强推理逻辑,这通常涉及调整模型中原本不活跃、但对逻辑判断至关重要的细微连接,而不是改变模型的核心语言能力(主成分)。
将技术细节与比喻相互映射
- 冲突的本质:PiSSA方法强行把工具限制为“大锤子”(锁定主成分),要求模型去进行“硬装修”。
- RL的行为:RL算法拼命想去拧“音响旋钮”(更新非主成分),因为它发现优化这些细节才能提高推理的正确率(Reward)。
- 崩塌的发生:当RL微弱的梯度信号试图流向非主成分时,PiSSA的结构限制将其强行投影回主成分空间。这就好比你想微调音量,但手中的工具只能用来砸墙。结果是,梯度更新被主成分巨大的数值淹没或扭曲,导致模型要么无法学习(Accuracy接近0%),要么产生破坏性更新(谱崩塌)。
总结
- 比喻核心:SFT是粗犷的结构改造(主成分),RLVR是精细的功能调优(非主成分)。
- 关键原理:工具必须匹配任务。DoRA之所以成功,是因为它通过数学上的解耦(),允许RL算法自由地调整方向向量 (包括非主成分方向),而不受原始权重幅度 的强约束。这消除了“装修工具”与“调优任务”之间的错位。
第三阶段:详细说明流程步骤
1. 准备阶段:模型手术与DoRA挂载
- 输入:经过SFT训练的Base Model(例如 DeepSeek-R1-Distill-Qwen-7B)。
- 处理:
- 冻结原模型的所有参数。
- 在每个线性层(Linear Layer)旁挂载DoRA适配器。
- DoRA将权重分解为幅度向量 和方向矩阵 。
- 在 上附加低秩矩阵 和 进行更新。
- 将 设置为可训练参数。
- 输出:带有可训练DoRA模块的冻结基座模型。
2. 采样阶段:模型做题(Rollout)
- 输入:一批数学题目Prompt(例如:“计算积分 ”)。
- 处理:
- 模型接收Prompt,并进行自回归生成。
- 每个Prompt生成 个不同的回答(例如 )。
- 强制格式约束:要求模型输出必须包含
<think>...</think>的思考过程标签,并用\boxed{}包裹最终答案。
- 输出:一组包含完整推理链(CoT)和最终答案的文本序列。
3. 验证与奖励计算(Reward Calculation)
- 输入:模型生成的 个回答,以及题目的标准答案(Ground Truth)。
- 处理:
若答案数学等价,奖励 。
若答案错误或格式解析失败,奖励 。
使用解析脚本(如
latex2sympy或math_verify)从\boxed{}中提取数学答案。将提取结果与标准答案进行比对。
二值奖励分配:
- 输出:对应的奖励值列表(例如 )。
4. 优势估计(Advantage Estimation)
- 输入:奖励值列表。
- 处理:
计算基于组(Group)的相对优势。
符号替换版公式:
某回答的优势值该回答的奖励本组所有回答的平均奖励本组所有回答的标准差
目的:标准化奖励信号。如果某回答得分高于平均水平,则为正优势,模型应增加其生成概率;反之则为负优势。
- 输出:每个Token对应的优势值(Advantage)。
5. 优化更新(Optimization Update)
- 输入:原始Prompt、生成的回答序列、优势值。
- 处理:
- 使用GRPO或DAPO算法计算策略梯度损失(Policy Gradient Loss)。
- 计算损失函数关于DoRA参数()的梯度。
- 执行反向传播,更新DoRA参数。
- 机制验证:由于DoRA解耦了幅度,梯度能够有效地调整方向矩阵 中的非主成分方向,从而优化推理逻辑。
- 输出:更新后的DoRA参数,模型推理能力得到微小提升。
6. 迭代循环
- 重复步骤2至5,直到模型在验证集上的准确率收敛。
第四阶段:实验设计与验证分析
主实验设计解读
- 核心主张:验证LoRA并非RLVR的最佳选择,且结构性变体(如DoRA)具有显著优势。
- 数据集选择:
- 选用了MATH-500, AIME, AMC, Minerva等高难度数学推理基准。
- 合理性:数学问题的答案客观唯一,且极其依赖多步逻辑推理(Chain-of-Thought),是检验RLVR推理能力增强的最佳试金石。
- 基线方法:
- Full Fine-Tuning(全量微调):作为传统认知中的性能天花板。
- Standard LoRA:作为当前的行业标准基线。
- 结果分析:
- **DoRA (46.6%) \gt Full FT (44.9%) \gt LoRA (42.5%)**。
- 结论:实验结果不仅证实了DoRA优于LoRA,更令人惊讶地显示PEFT方法击败了全量微调。这表明在RL的稀疏奖励信号下,全量微调可能面临过拟合或优化方向模糊的问题,而DoRA提供了更优的归纳偏置。
消融实验分析
作者对Rank(秩)和学习率进行了详细的消融研究:
- Rank的影响:
- 测试了 Rank = 1, 8, 16, 32。
- 发现Rank=1时性能显著下降。
- 结论:这证明了RLVR存在**“表达能力下限”**。尽管奖励信号稀疏,但模型需要足够的参数自由度来重构推理回路。极致的压缩(如Rank=1或VeRA)会形成信息瓶颈,限制模型的进化。
深度实验剖析:谱分析(Spectral Analysis)
这是论文中最具洞察力的实验(对应文中Figure 3),深入揭示了方法成败的微观机制。
- 实验设计:
- 可视化权重更新量在不同奇异值分量上的分布。
- 横轴为奇异值索引 ( 为最大奇异值/主成分),纵轴为更新幅度的归一化值。
- 实验现象:
- Full FT / LoRA / DoRA:更新量均匀分布在整个频谱上,或者明显偏向尾部(非主成分区域)。
- PiSSA:更新量极度集中在 的位置(主成分区域),形成尖峰。
- MiLoRA:尽管设计初衷是利用非主成分,但实验显示其在训练初期迅速退化,更新分布同样坍缩至 处。
- 核心洞见:
- 实验直观地证明了RLVR本质上是一个非主成分(Off-Principal)优化过程。
- 任何试图违背这一物理规律、强制在主成分上进行更新的方法(如基于SVD的初始化),必然在RLVR场景下失效。
如何学习AI大模型?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
第一阶段:从大模型系统设计入手,讲解大模型的主要方法;
第二阶段:在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段:大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段:大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段:大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段:以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段:以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓