ToolsAi

原创让你更懂AI的 2025-10-15 13:12 北京

用路由一致性，重构MoE强化学习的稳定边界

“95 后天才少女”罗福莉以通讯作者身份参与小米联合发布的 R3（Rollout Routing Replay），首次从路由一致性层面对齐 MoE 强化学习的根因不稳，让训练曲线从“崩盘”回到可控区间。

在 AI 圈，“罗福莉”这个名字总是伴随着高度关注——她被称为“95 后天才少女”，也一度被传“被雷军重金挖至小米”。如今，这些传闻终于迎来了技术层面的回应。

近日，她以通讯作者身份出现在一篇由小米 × 北京大学联合署名的论文中，聚焦 Mixture-of-Experts（MoE）大模型在强化学习（RL）阶段常见的训练不稳问题——尤其是推理引擎与训练引擎之间路由选择不一致导致的系统性崩盘。

论文提出的 R3（Rollout Routing Replay）方法，看似简单却一针见血：在推理（rollout）阶段记录每层、每个 token 的专家路由选择（Top-K mask），并在训练前向中原样回放，同时保留训练端 logits 的梯度与可学习性。

这一设计让 MoE-RL 的训练–推理 KL 显著下降，“极端 token”比例减少一个量级，单步设定下的崩盘几乎完全消失。R3 不仅正交兼容 GRPO、GSPO 等主流优化器，也为大模型强化学习的稳定性提供了新的“第一性原则”：先对齐离散路由，再谈优化器技巧。

这篇论文也是罗福莉加入小米体系后的首个公开研究成果。它标志着她将研究重心正式带入工程落地与系统稳定性方向。

论文题目：

Stabilizing MoE Reinforcement Learning by Aligning Training and Inference Routers

论文地址：

https://arxiv.org/pdf/2510.11370

研究背景

强化学习（RL）正在成为大语言模型（LLM）后训练阶段的关键环节——从 OpenAI 的 PPO 与 DPO，到近年来大火的 GRPO、GSPO、DAPO 等方法，研究者们不断探索如何让模型在不改参数的前提下“学会思考”。

然而，当强化学习遇上 MoE 架构时，问题骤然复杂。MoE 模型通过路由器（router）动态选择少量专家参与计算，既带来了算力效率的提升，也引入了新的不稳定性：

每次前向传播的路由选择是离散且不确定的；
不同引擎（训练与推理）的计算实现细节不同，哪怕同样的输入，也可能触发不同专家路径；
这种“轻微偏差”在强化学习循环中被指数级放大，最终演化为训练崩盘。

过去一年的 RL 研究主要聚焦于优化层面的稳态化，比如：

GSPO 通过序列级重要性采样减小方差；
TIS（Token-level Importance Sampling）在局部层面修正比值；
Clip Higher、DAPO 等则通过边界裁剪限制梯度爆炸。

这些方法在 dense 模型上效果显著，但在 MoE 上往往失效。作者在论文中通过实验证明：即便保持相同的优化器与超参数，MoE 模型的训练–推理差异（KL divergence）比稠密模型高出一个数量级；换言之，MoE 的问题不是“优化不稳”，而是“路径错乱”。

而路径错乱的根源，正是推理与训练阶段路由器决策的不一致。论文将这种错配拆解为三个层面：

路由层级：同一 token 在不同阶段激活的专家集合不同；
token 级别：单个 token 的选路分布不一致，概率偏移显著；
序列级别：多 token 累积误差导致整体策略发散。

这种层层传导的错配，最终使得 MoE 的强化学习训练在中后期频繁“崩盘”，表现为损失曲线振荡、奖励塌陷、输出长度异常等。因此，如果不先解决路由一致性问题，任何优化器的改进都只是头痛医头。

这正是 R3 诞生的起点——它并非又一个“新优化器”，而是一次回到架构本身的系统修正：在训练阶段，沿用推理时的路由决策。

方法解析

强化学习训练的核心是让策略在奖励信号下不断改进。在传统 PPO 或 GRPO 框架中，策略更新的目标函数为：

其中表示重要性比值，而与分别代表推理与训练阶段的策略。

问题在于，MoE 模型中二者的路由选择机制（router）并不一致，导致与之间存在结构性偏差，从而放大了 KL 散度与梯度噪声。

2.1 关键思路：对齐路由分布

作者提出的 R3（Rollout Routing Replay），核心思想是记录推理时的路由决策，并在训练阶段原样回放，以此保持训练与推理之间的专家选择一致。

在标准 MoE 层中，训练阶段的路由计算如下：

而 R3 则直接替换训练阶段的路由掩码为推理阶段的，从而构建出：

最终输出：

这样，模型在前向计算中依旧可保持梯度可传播（softmax 仍在训练 logits 上），但路由选择完全与推理阶段一致，从根本上消除了“专家漂移”的不确定性。

▲ 图1. R3 框架示意。左为推理阶段记录路由；右为训练阶段回放时的专家选择过程。

2.2 实现细节与工程优化

作者在实现中针对真实系统优化了两点：

路由缓存（Router Mask Caching）：在支持 KVCache 的推理引擎（如 SGLang）中，R3 同步缓存路由掩码。当多轮交互（multi-turn dialogue）中上下文重复时，模型可直接复用对应掩码，而无需重新计算。这不仅减少显存开销，也让 R3 自然适配于Agent 场景（如网页交互、代码代理）。
兼容性与开销：R3 不改动模型结构、也不引入额外梯度路径，因而与 GRPO、GSPO、TIS 等优化器正交。实测中，R3 对训练吞吐的影响几乎可忽略——保持在原速 97% 以上。

实验结果：从崩盘到收敛

作者在论文中主要验证了两个问题：

1. R3 是否真的能消除 MoE 强化学习的崩盘现象；

2. 这种稳定性是否伴随性能退化。

3.1 稳定性：崩盘消失，训练曲线回归平滑

R3 的直接效果体现在训练动态上。图 2 展示了 MoE 模型在强化学习阶段的 KL 散度变化：未使用 R3 的基线在 120 步后迅速抬升，出现典型“训练–推理发散”；而使用 R3 后，KL 保持稳定甚至略有下降。

▲ 图2. 训练–推理 KL 曲线对比。R3 显著压低并平滑了 KL 波动。

与此同时，论文还绘制了“极端 token 占比”统计（即概率比值 > 2 的 token 数量）。基线模型在训练后期极端 token 占比飙升，而 R3 版本下降约一个数量级，说明路由一致性确实改善了分布稳定性。

这种趋势在视觉上非常直观——崩盘前的模型往往在输出层出现“短句化”“重复化”，而 R3 训练的模型输出长度与多样性均保持正常。

3.2 性能：更稳，也更强

表 1 汇总了在多项数学推理任务上的结果。R3 无论与 GRPO 还是 GSPO 搭配，都显著提升了模型表现，并完全避免崩盘。

▲ 表1. R3 在 Qwen3-30B-A3B MoE 模型上的数学推理任务结果。

值得注意的是，R3 并非通过正则或约束“换取稳定性”，它同时带来了泛化性能的提升。在 AIME 与 MATH500 等测试集上，R3 模型在多项基准上带来稳定提升；部分设置约 +2–3pp，也存在更大幅度的增益。这说明路由一致性带来的并非训练收敛假象，而是真实的性能增益。

3.3 训练动态：从噪声到信号

下图进一步分析了梯度范数、输出熵与验证得分。

▲ 图3. 训练动态曲线。R3 降低梯度波动，显著改善学习稳定性。

在没有 R3 的情况下，梯度范数曲线呈高频震荡，训练噪声巨大；引入 R3 后，梯度变化平滑，输出熵（entropy）也逐步提升，代表模型探索过程更加健康。

同时，验证得分曲线在 150 step 后仍保持上升趋势，而对照组已提前塌陷。换句话说，R3 不仅让模型学得更稳，也学得更久。

3.4 工程层面：几乎零代价

从训练动态（见图 3）可以看出，R3 在稳定性提升的同时，并没有带来显著的效率损失。论文进一步说明，R3 的实现仅需在推理阶段缓存并回放路由掩码，不引入额外参数，也不改变优化器结构。

论文指出 R3 不损失训练速度，且与现有优化器正交，可直接插入既有 RL Pipeline。

换句话说，R3 让 MoE 强化学习在不牺牲速度与兼容性的前提下获得稳定性提升。这种“机制级修正”思路为工程实践提供了一条极具性价比的路径：先对齐系统行为，再考虑优化技巧。

总结：回到一致性这一原则

R3 的核心贡献，不在于设计新的优化器，而在于重新定义了 MoE 强化学习的前提条件。过去的研究更多从损失函数或采样机制出发，试图缓解训练不稳；而这篇工作则从系统角度指出，问题的根源并非优化不足，而是训练与推理行为的不一致。

通过一次简单的“回放”机制，R3 在几乎零代价的条件下对齐了路由决策，显著降低了训练–推理 KL 散度和极端 token 的比例，让强化学习过程重新回到可控区间。这一结果表明——在复杂模型结构中，稳定性不一定依赖更强的算法，而可能源于更干净的机制设计。

对工程实践而言，R3 的价值在于提供了一种低风险、高复用度的稳定化方案：无需改动优化器，可与 GRPO、GSPO 等方法直接结合；在 MoE 模型大规模 RL 训练中，这种机制级修正可能成为默认模块。

对研究者而言，这项工作也给出了一个新的视角：在追求更大、更强、更复杂之前，先确保模型在“对齐的世界”中学习。这种理念——Align before optimize——也许会成为未来 MoE-RL 稳定性研究的新出发点。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

阅读原文

跳转微信打开

动态列表

罗福莉担任通讯作者，小米 × 北大联合发布R3：让MoE强化学习从崩盘回归可控

“95 后天才少女”罗福莉以通讯作者身份参与小米联合发布的 R3（Rollout Routing Replay），首次从路由一致性层面对齐 MoE 强化学习的根因不稳，让训练曲线从“崩盘”回到可控区间。

类别

资源

联系我们