告别 Router Replay：利用 Online IcePop 解决 MoE 模型 RL 训练的不稳定性-平芜编程栈

作者：作者：初七123334
https://zhuanlan.zhihu.com/p/1984379979035850499

英文版

https://hijkzzz.notion.site/online-ice-pop

在 LLM 的后训练（Post-training）阶段，MoE（Mixture-of-Experts）模型凭借其稀疏激活的特性，在推理效率和模型容量之间取得了极佳的平衡。然而，在进行 PPO 等强化学习训练时，MoE 架构却带来了一个棘手的稳定性难题。

本文将探讨一种结合了蚂蚁百灵团队 IcePop 算法与 Qwen 团队 MiniRL (Online Policy Gradient) 发现的组合策略——Online IcePop。这套方案不仅能有效稳定 MoE 的训练，还能让我们抛弃复杂的 Router Replay 机制。

为什么 MoE 的 RL 训练如此不稳定？在 PPO（Proximal Policy Optimization）这类 Off-policy（或者说近似 On-policy）算法中，我们通常依赖重要性采样（Importance Sampling, IS）来修正旧策略（Behavior Policy）与当前策略（Target Policy）之间的偏差。IS 权重ρt\rho_tρt定义为

ρt=πnew(at∣st)πold(at∣st) \rho_t = \frac{\pi_{\text{new}}(a_t|s_t)}{\pi_{\text{old}}(a_t|s_t)}ρt=πold(at∣st)πnew(at∣st)

对于 Dense 模型，策略的变化通常是平滑的。但对于 MoE 模型，情况截然不同：

Router Logits 的微小扰动：训练过程中，Router 的输出 Logits 只要发生微小变化，就可能导致选中的 Experts 发生离散的跳变。
概率剧变：一旦 Expert 选择发生变化，πnew\pi_{\text{new}}πnew和4πold4\pi_{\text{old}}4πold在特定路径上的概率比值就会发生剧烈波动。这种波动会导致 Importance Sampling Weights 出现极端值，进而导致梯度更新方差过大，模型训练发散。

为了解决这个问题，业界之前往往不得不采用 Router Replay（在更新时重新计算旧数据的 Router 路径）等复杂且计算昂贵的手段。

针对 IS 权重剧变的问题，蚂蚁百灵团队在论文 IcePop: An Effective Method for MoE Stability 中提出了一种优雅的解法。

https://arxiv.org/pdf/2510.18855

截断重要性采样（Truncated Importance Sampling）用于校正 vLLM （推理引擎）和 FSDP （训练引擎）之间的精度误差。但这对于 MoE 来说还不够。IcePop 的核心思想是在此基础上增加了一个 Mask 操作：

核心机制：当 Importance Sampling Weight 超出预设的阈值范围时，IcePop 不仅仅是将其截断，而是直接将其 Mask 掉（视为无效样本或零贡献）。

这种做法看似激进，实则精准地剔除了那些因为 Expert 突变导致“统计上不可信”的样本，极大地降低了估计器的方差。

仅仅处理推理引擎和训练引擎之间的误差还不够，如果不从源头上减少策略偏差，训练依然可能低效。

Qwen 团队在最新的研究 Online Policy Gradient for MoE 中发现了一个关键结论：发现：对于 MoE 类模型，使用纯 Online Policy Gradient（即去掉 PPO 的 Mini-batch 多次迭代，采用类似 A2C 的单次更新模式）对于提升稳定性至关重要。

当我们将 Buffer 中的数据反复训练（Replay）时，MoE 的 Router 分布往往已经漂移，导致 Off-policy 的 gap 越来越大。采用纯 Online 模式，确保了πold\pi_{\text{old}}πold和πnew\pi_{\text{new}}πnew几乎一致，从源头上减少了 Router 行为的差异。

https://arxiv.org/pdf/2512.01374

基于上述两项工作，我们总结出了一套针对 MoE RL 训练的“黄金组合”：Online IcePop。

具体做法：

移除 PPO 的 Mini-batch 循环：放弃传统的 Epochs 迭代，采用纯 Online 模式，数据采样后立即更新，更新完即丢弃。
应用 IcePop Masking：在计算 Loss 时，应用 IcePop 的逻辑，对所有超出阈值的 IS Weights 进行 Mask 处理。

主要收益：

极佳的稳定性：Online 模式保证了策略偏差最小化，IcePop 兜底处理了极端情况下的方差爆炸。
工程极简（No Router Replay）：由于我们采用了 Online 模式且有 IcePop 保护，我们不再需要耗费显存和算力去进行 Router Replay（即重新过一遍 Router 计算 Logits）。这大大简化了训练代码的复杂度，并提升了吞吐效率。

Reactor Core 性能调优实战：从瓶颈发现到极致优化

Reactor Core 性能调优实战：从瓶颈发现到极致优化【免费下载链接】reactor-core Non-Blocking Reactive Foundation for the JVM 项目地址: https://gitcode.com/gh_mirrors/re/reactor-core 在高并发场景下，响应式编程框架的性能表现往往决定了…

李华

雷达流量计：非接触式流量监测的技术革新与实践应用

一．前言在水资源管理、生态保护及工程建设等领域，流量数据的精准获取是科学决策的核心支撑。雷达流量计作为非接触式测量技术的典型代表，凭借先进的微波探测原理与智能化设计，突破了传统接触式设备的应用局限，成为复杂…

李华

26、趣味Shell脚本游戏：从州首府问答到纸牌游戏

趣味Shell脚本游戏：从州首府问答到纸牌游戏 1. 州首府问答游戏 1.1 游戏介绍州首府问答游戏是一个简单而有趣的脚本，它会随机选择美国50个州中的一个，让玩家猜测该州的首府。玩家可以通过输入首府名称来进行回答，如果回答正确，会得到相应的提示；如果回答错误，脚本会告…

李华

GRETNA 2.0.0脑网络分析工具包：从入门到精通的完整指南

GRETNA 2.0.0脑网络分析工具包：从入门到精通的完整指南【免费下载链接】GRETNA A Graph-theoretical Network Analysis Toolkit in MATLAB 项目地址: https://gitcode.com/gh_mirrors/gr/GRETNA 作为一名神经科学研究人员，您是否曾经在脑网络分析…

李华

在OpenWrt上使用图形化界面管理Docker容器的完整指南

在OpenWrt上使用图形化界面管理Docker容器的完整指南【免费下载链接】luci-app-dockerman Docker Manager interface for LuCI 项目地址: https://gitcode.com/gh_mirrors/lu/luci-app-dockerman luci-app-dockerman为OpenWrt系统提供了强大的Docker容器管理能力&#…

李华

Reactor Core 性能调优实战：从瓶颈发现到极致优化

雷达流量计：非接触式流量监测的技术革新与实践应用

26、趣味Shell脚本游戏：从州首府问答到纸牌游戏

GRETNA 2.0.0脑网络分析工具包：从入门到精通的完整指南

Amlogic S9xxx设备终极改造指南：从电视盒子到全能网络服务器

在OpenWrt上使用图形化界面管理Docker容器的完整指南