news 2026/3/22 17:36:04

告别 Router Replay:利用 Online IcePop 解决 MoE 模型 RL 训练的不稳定性

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
告别 Router Replay:利用 Online IcePop 解决 MoE 模型 RL 训练的不稳定性

作者:作者:初七123334
https://zhuanlan.zhihu.com/p/1984379979035850499

英文版

https://hijkzzz.notion.site/online-ice-pop

在 LLM 的后训练(Post-training)阶段,MoE(Mixture-of-Experts)模型凭借其稀疏激活的特性,在推理效率和模型容量之间取得了极佳的平衡。然而,在进行 PPO 等强化学习训练时,MoE 架构却带来了一个棘手的稳定性难题

本文将探讨一种结合了蚂蚁百灵团队 IcePop 算法与 Qwen 团队 MiniRL (Online Policy Gradient) 发现的组合策略——Online IcePop。这套方案不仅能有效稳定 MoE 的训练,还能让我们抛弃复杂的 Router Replay 机制。

为什么 MoE 的 RL 训练如此不稳定?在 PPO(Proximal Policy Optimization)这类 Off-policy(或者说近似 On-policy)算法中,我们通常依赖 重要性采样(Importance Sampling, IS) 来修正旧策略(Behavior Policy)与当前策略(Target Policy)之间的偏差。IS 权重ρt\rho_tρt定义为

ρt=πnew(at∣st)πold(at∣st) \rho_t = \frac{\pi_{\text{new}}(a_t|s_t)}{\pi_{\text{old}}(a_t|s_t)}ρt=πold(atst)πnew(atst)

对于 Dense 模型,策略的变化通常是平滑的。但对于 MoE 模型,情况截然不同:

  • Router Logits 的微小扰动:训练过程中,Router 的输出 Logits 只要发生微小变化,就可能导致选中的 Experts 发生离散的跳变。
  • 概率剧变:一旦 Expert 选择发生变化,πnew\pi_{\text{new}}πnew4πold4\pi_{\text{old}}4πold在特定路径上的概率比值就会发生剧烈波动。这种波动会导致 Importance Sampling Weights 出现极端值,进而导致梯度更新方差过大,模型训练发散。

为了解决这个问题,业界之前往往不得不采用 Router Replay(在更新时重新计算旧数据的 Router 路径)等复杂且计算昂贵的手段。

针对 IS 权重剧变的问题,蚂蚁百灵团队在论文 IcePop: An Effective Method for MoE Stability 中提出了一种优雅的解法。

https://arxiv.org/pdf/2510.18855

截断重要性采样(Truncated Importance Sampling)用于校正 vLLM (推理引擎) 和 FSDP (训练引擎)之间的精度误差。但这对于 MoE 来说还不够。IcePop 的核心思想是在此基础上增加了一个 Mask 操作:

核心机制:当 Importance Sampling Weight 超出预设的阈值范围时,IcePop 不仅仅是将其截断,而是直接将其 Mask 掉(视为无效样本或零贡献)。

这种做法看似激进,实则精准地剔除了那些因为 Expert 突变导致“统计上不可信”的样本,极大地降低了估计器的方差。

仅仅处理推理引擎和训练引擎之间的误差还不够,如果不从源头上减少策略偏差,训练依然可能低效。

Qwen 团队在最新的研究 Online Policy Gradient for MoE 中发现了一个关键结论:发现:对于 MoE 类模型,使用纯 Online Policy Gradient(即去掉 PPO 的 Mini-batch 多次迭代,采用类似 A2C 的单次更新模式)对于提升稳定性至关重要

当我们将 Buffer 中的数据反复训练(Replay)时,MoE 的 Router 分布往往已经漂移,导致 Off-policy 的 gap 越来越大。采用纯 Online 模式,确保了πold\pi_{\text{old}}πoldπnew\pi_{\text{new}}πnew几乎一致,从源头上减少了 Router 行为的差异。

https://arxiv.org/pdf/2512.01374

基于上述两项工作,我们总结出了一套针对 MoE RL 训练的“黄金组合”:Online IcePop。

具体做法:

  • 移除 PPO 的 Mini-batch 循环:放弃传统的 Epochs 迭代,采用纯 Online 模式,数据采样后立即更新,更新完即丢弃。
  • 应用 IcePop Masking:在计算 Loss 时,应用 IcePop 的逻辑,对所有超出阈值的 IS Weights 进行 Mask 处理。

主要收益:

  • 极佳的稳定性:Online 模式保证了策略偏差最小化,IcePop 兜底处理了极端情况下的方差爆炸。
  • 工程极简(No Router Replay):由于我们采用了 Online 模式且有 IcePop 保护,我们不再需要耗费显存和算力去进行 Router Replay(即重新过一遍 Router 计算 Logits)。这大大简化了训练代码的复杂度,并提升了吞吐效率。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/21 4:16:48

Reactor Core 性能调优实战:从瓶颈发现到极致优化

Reactor Core 性能调优实战:从瓶颈发现到极致优化 【免费下载链接】reactor-core Non-Blocking Reactive Foundation for the JVM 项目地址: https://gitcode.com/gh_mirrors/re/reactor-core 在高并发场景下,响应式编程框架的性能表现往往决定了…

作者头像 李华
网站建设 2026/3/12 23:14:58

雷达流量计:非接触式流量监测的技术革新与实践应用

一.前言在水资源管理、生态保护及工程建设等领域,流量数据的精准获取是科学决策的核心支撑。雷达流量计作为非接触式测量技术的典型代表,凭借先进的微波探测原理与智能化设计,突破了传统接触式设备的应用局限,成为复杂…

作者头像 李华
网站建设 2026/3/14 12:47:28

26、趣味Shell脚本游戏:从州首府问答到纸牌游戏

趣味Shell脚本游戏:从州首府问答到纸牌游戏 1. 州首府问答游戏 1.1 游戏介绍 州首府问答游戏是一个简单而有趣的脚本,它会随机选择美国50个州中的一个,让玩家猜测该州的首府。玩家可以通过输入首府名称来进行回答,如果回答正确,会得到相应的提示;如果回答错误,脚本会告…

作者头像 李华
网站建设 2026/3/14 7:56:27

GRETNA 2.0.0脑网络分析工具包:从入门到精通的完整指南

GRETNA 2.0.0脑网络分析工具包:从入门到精通的完整指南 【免费下载链接】GRETNA A Graph-theoretical Network Analysis Toolkit in MATLAB 项目地址: https://gitcode.com/gh_mirrors/gr/GRETNA 作为一名神经科学研究人员,您是否曾经在脑网络分析…

作者头像 李华
网站建设 2026/3/17 17:05:47

Amlogic S9xxx设备终极改造指南:从电视盒子到全能网络服务器

Amlogic S9xxx设备终极改造指南:从电视盒子到全能网络服务器 【免费下载链接】amlogic-s9xxx-openwrt Support for OpenWrt in Amlogic, Rockchip and Allwinner boxes. Support a311d, s922x, s905x3, s905x2, s912, s905d, s905x, s905w, s905, s905l, rk3588, rk…

作者头像 李华
网站建设 2026/3/14 5:50:37

在OpenWrt上使用图形化界面管理Docker容器的完整指南

在OpenWrt上使用图形化界面管理Docker容器的完整指南 【免费下载链接】luci-app-dockerman Docker Manager interface for LuCI 项目地址: https://gitcode.com/gh_mirrors/lu/luci-app-dockerman luci-app-dockerman为OpenWrt系统提供了强大的Docker容器管理能力&#…

作者头像 李华