动态列表

  • 马斯克的作业还是被奥特曼「抄走了」
  • 苏姿丰出手!Oracle下单5万颗AMD芯片,英伟达王座撼动
  • 具身智能算法哪家强?RoboChallenge见真章!全球首个大规模真机算法评测平台来了
  • NTU等联合提出A-MemGuard:为AI记忆上锁,投毒攻击成功率暴降95%
  • 苹果M5「夜袭」高通英特尔!AI算力狂飙400%,Pro三剑客火速上新
  • IDEA提出Rex-Omni:将目标检测变为“下一个点预测”,零样本性能超越DINO
  • TPAMI 2025 | 华中科大与大疆等提出LLF-LUT++:4K照片增强仅需13ms,PSNR提升2.64dB!
  • 下周见!Wiley Advanced主编论坛@IROS 2025:从审稿人视角重塑论文表达
  • AAAI 2026联合会议征稿开启:大语言模型中的深度逻辑推理
  • Altman:ChatGPT将支持成人内容;港版iPhone Air无法用内地eSIM;传雷军一夜掉粉30万|极客早知道
  • Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」
  • 英伟达AI超算3999开售,「掌心之中」可部署所有大参数开源模型!
  • 登顶Hugging Face GAIA全球榜首!中兴超级智能体终结「AI黑盒」时代
  • AI圈再颠覆!中国AI翻译耳机通话翻译,实测震撼
  • 一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军
  • vivo X300 Pro:以「水桶旗舰」之躯,重登旗舰山巅
  • 8美元“驯服”DeepSeek-V3.2?Training-Free GRPO把RL成本打到地板
  • 让论文自己讲!Paper2Video一键生成论文讲解视频,赶顶会DDL不慌了
  • 直到毕业我才懂:原来延期的博士,不止我一个
  • NeurIPS 2025 | 让AIGC视频变为可探索场景:Instant4D实现单目动态场景的分钟级重建
  • NeurIPS 2025 | PPFN:渐进式提示融合,让红外图像增强在复杂场景下性能提升8.76%
  • 库克抖音带货 iPhone 17 Air,22 日开售;小米客服回应「SU7 门把手」;「丐版」特斯拉明年国内投产
  • 他用一生证明AI没有意识!「中文屋」提出者逝世,享年93岁
  • 今年诺奖成果曾遭质疑无用,但华人团队用它研制了未来芯片的「钥匙」
  • 剑桥揭开大模型翻车黑箱!别再怪它不懂推理,是行动出错了
  • ICLR神秘论文曝光!SAM3用「概念」看世界,重构视觉AI新范式
  • 硅谷爆发反AI「起义」!程序员拒用Cursor被一周解雇
  • 强化学习再迎范式切换:Sergey Levine团队把目标改写成“到达时间”
  • 如果RL可预测,我们还需要把训练跑满吗?中科大揭示参数更新的线性秘密
  • 国行 eSIM 尘埃落定,iPhone Air「下周见」
  • 为什么谷歌搜不到「没有条纹的衬衫」|AI 上新
  • SAM 3揭开面纱:不止分割万物,更能理解概念,交互式分割迎来新篇章!
  • ACM MM2025 Oral | MoSEAR:为多模态情感推理补齐“冲突场景”的短板
  • 雷军亲自测试,小米YU9实车谍照曝光;宇树获「秧歌机器人」专利;微团开卖「Win XP」蓝天白云拖鞋
  • 永别了,人类冠军!AI横扫天文奥赛,GPT-5得分远超金牌选手2.7倍
  • 濒死3次,医生判他死刑!宾大教授奇迹自救,誓用AI攻克14000种绝症
  • 告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星
  • Bug变奖励:AI的小失误,揭开创造力真相!
  • 复旦张军平:人类是硅基生命过渡体?
  • Meta Ray-Ban Display 首发体验合集:悬浮在现实中的一张便签
  • OriginOS 6 深度体验:当操作系统回归「体验为王」
  • 93%成功率!从“改提示”到“写剧情”:STaR-Attack用叙事推理攻破大模型防线
  • Mamba-3惊现ICLR 2026投稿:三重升级打满“推理优先”范式
  • 不到1 年卖出 40 万台,吉利星愿做对了什么?
  • NeurIPS 2025 | NTN-Diff:一石二鸟,利用空文本与频率感知破解图像修复难题
  • NeurIPS 2025 | Latent Harmony:潜空间和谐共生,实现UHD图像修复新SOTA
  • 马斯克脑机公司展示脑机控制机械臂;三星中国发布折叠屏新机,16999 元起售;滴滴自动驾驶获 20 亿元融资 | 极客早知道
  • 77岁「AI教父」Hinton:AI早有意识!我们打造的智能,可能终结人类文明
  • 全球首款1.8nm芯片亮相!华人CEO打响关键一战,英特尔杀回来了
  • 清华万引教授:万倍加速催化剂设计,AI突破DFT瓶颈!
  • 陶哲轩亲测!GPT-5 Pro 40分钟破解3年难题,登顶最难数学考试
  • 刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人
  • Attention is NOT All You Need:让“深度”重新流入时间,而非堆叠在参数之上
  • NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!
  • OpenAI 卖货做视频,Anthropic 专心写代码,谁能赢?
  • 一颗 1.8 纳米芯片,成了英特尔「最后的救赎」
  • 这款 AI 调研神器,让我一键产生 1000 个「种子用户」|AI 上新
  • 都用 GPT,为什么你没法中「百万大奖」?
  • ChatGPT 变身 App Store,「对话即应用」时代到了
  • IROS 2025 | 速度飙升24倍!巴黎萨克雷大学等提出HARP-NeXt:实时3D激光雷达分割新标杆
  • IROS 2025 Oral | RAG-6Dpose:三大创新模块,利用 CAD 作为知识库进行检索增强 6D 姿态估计
  • 「丐中丐」版特斯拉来了,Model 3/Y降价超3.5万元
  • 高德扫街榜的 23 天奇袭
  • 张一鸣近年来首次公开亮相;微软上海开始新一轮裁员,补偿N+4;罗永浩锐评 iPhone 17
  • GPT-5王者归来?奥特曼称AI已跨科学门槛,三大学科正迎来实质性突破
  • 老黄押宝「美版DeepSeek」!谷歌天才叛将创业,一夜吸金20亿美元
  • 任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码
  • 13万被引!ImageNet作者苏昊或将加盟复旦
  • 250份文档投毒,一举攻陷万亿LLM!Anthropic新作紧急预警
  • 和两位 CEO 聊 Sora: 应用层爆发的里程碑事件,创业者的机会来了
  • 新一代短剧人,涌向郑州「淘金」
  • 社交媒体的黄金时代,结束了
  • 东京大学、牛津大学等联合发布VLA万字综述:机器人迈向通用智能的全栈指南
  • U-Bench:U-Net十年“大乱斗”终结者,100个变体、28个数据集的终极对决
  • DeepSeek苦练1T,清华只用5B?InfLLM-V2把稀疏注意力玩明白了
  • 北京/上海内推 | 阶跃星辰招聘RL for AIGC方向算法研究员/实习生
  • EMNLP 2025 | 拨云见日:知识电路分析揭示大语言模型“知识遮蔽”幻觉之源
  • Sora 下载量破 100 万次;国庆中秋假期国内游总花费超过 8000 亿元;智驾多位核心高管离职,蔚来回应|极客早知道
  • 谷歌杀入诺奖神殿,两年三冠五得主!世界TOP3重现贝尔实验室神话
  • OpenAI×英伟达,可能创造了人类史上最大万亿级泡沫
  • H-1B正在筛掉「下一个英伟达」?
  • 全球AI视频大战升级!「中国版Sora」Vidu Q2参考生月底发布,能力对标Sora 2
  • 第二代InfLLM开源,同尺寸快三倍!零参数,可训练稀疏注意力
  • 马毅团队重磅发布新书:从MCR²到白盒Transformer,重构深度学习的第一性原理
  • 稳住训练、跑出泛化:STAGE重写「自回归图像生成」的强化学习范式
  • 腾讯推出TRM:让大模型像人类一样批判性思考,从文本依赖到事实正确
  • 北大等提出TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%
  • Diffusion²来袭:威斯康星大学&华盛顿大学等提出双扩散模型,“回溯历史-预测未来”,破解自动驾驶“鬼探头”难题
  • 把我的第一次日本旅行,完全交给 AI 是什么体验?
  • 英伟达将投资马斯克的 xAI;低价版Model 3/Y 「阉割」智驾功能;微信推出批量撤回信息功能

罗福莉担任通讯作者,小米 × 北大联合发布R3:让MoE强化学习从崩盘回归可控

原创 让你更懂AI的 2025-10-15 13:12 北京

用路由一致性,重构MoE强化学习的稳定边界

“95 后天才少女”罗福莉以通讯作者身份参与小米联合发布的 R3(Rollout Routing Replay),首次从路由一致性层面对齐 MoE 强化学习的根因不稳,让训练曲线从“崩盘”回到可控区间。

在 AI 圈,“罗福莉”这个名字总是伴随着高度关注——她被称为“95 后天才少女”,也一度被传“被雷军重金挖至小米”。如今,这些传闻终于迎来了技术层面的回应。

近日,她以通讯作者身份出现在一篇由小米 × 北京大学联合署名的论文中,聚焦 Mixture-of-Experts(MoE)大模型在强化学习(RL)阶段常见的训练不稳问题——尤其是推理引擎与训练引擎之间路由选择不一致导致的系统性崩盘。

论文提出的 R3(Rollout Routing Replay)方法,看似简单却一针见血:在推理(rollout)阶段记录每层、每个 token 的专家路由选择(Top-K mask),并在训练前向中原样回放,同时保留训练端 logits 的梯度与可学习性。

这一设计让 MoE-RL 的训练–推理 KL 显著下降,“极端 token”比例减少一个量级,单步设定下的崩盘几乎完全消失。R3 不仅正交兼容 GRPO、GSPO 等主流优化器,也为大模型强化学习的稳定性提供了新的“第一性原则”:先对齐离散路由,再谈优化器技巧。

这篇论文也是罗福莉加入小米体系后的首个公开研究成果。它标志着她将研究重心正式带入工程落地与系统稳定性方向。

论文题目:

Stabilizing MoE Reinforcement Learning by Aligning Training and Inference Routers

论文地址:

https://arxiv.org/pdf/2510.11370

研究背景

强化学习(RL)正在成为大语言模型(LLM)后训练阶段的关键环节——从 OpenAI 的 PPO 与 DPO,到近年来大火的 GRPO、GSPO、DAPO 等方法,研究者们不断探索如何让模型在不改参数的前提下“学会思考”

然而,当强化学习遇上 MoE 架构时,问题骤然复杂。MoE 模型通过路由器(router)动态选择少量专家参与计算,既带来了算力效率的提升,也引入了新的不稳定性:

  • 每次前向传播的路由选择是离散且不确定的;

  • 不同引擎(训练与推理)的计算实现细节不同,哪怕同样的输入,也可能触发不同专家路径;

  • 这种“轻微偏差”在强化学习循环中被指数级放大,最终演化为训练崩盘。

过去一年的 RL 研究主要聚焦于优化层面的稳态化,比如:

  • GSPO 通过序列级重要性采样减小方差;

  • TIS(Token-level Importance Sampling)在局部层面修正比值;

  • Clip Higher、DAPO 等则通过边界裁剪限制梯度爆炸。

这些方法在 dense 模型上效果显著,但在 MoE 上往往失效。作者在论文中通过实验证明:即便保持相同的优化器与超参数,MoE 模型的训练–推理差异(KL divergence)比稠密模型高出一个数量级;换言之,MoE 的问题不是“优化不稳”,而是“路径错乱”。

而路径错乱的根源,正是推理与训练阶段路由器决策的不一致。论文将这种错配拆解为三个层面:

  • 路由层级:同一 token 在不同阶段激活的专家集合不同;

  • token 级别:单个 token 的选路分布不一致,概率偏移显著;

  • 序列级别:多 token 累积误差导致整体策略发散。

这种层层传导的错配,最终使得 MoE 的强化学习训练在中后期频繁“崩盘”,表现为损失曲线振荡、奖励塌陷、输出长度异常等。因此,如果不先解决路由一致性问题,任何优化器的改进都只是头痛医头。

这正是 R3 诞生的起点——它并非又一个“新优化器”,而是一次回到架构本身的系统修正:在训练阶段,沿用推理时的路由决策。

方法解析

强化学习训练的核心是让策略 在奖励信号下不断改进。在传统 PPO 或 GRPO 框架中,策略更新的目标函数为:

其中 表示重要性比值,而 分别代表推理与训练阶段的策略。

问题在于,MoE 模型中二者的路由选择机制(router)并不一致,导致 之间存在结构性偏差,从而放大了 KL 散度与梯度噪声。

2.1 关键思路:对齐路由分布

作者提出的 R3(Rollout Routing Replay),核心思想是记录推理时的路由决策,并在训练阶段原样回放,以此保持训练与推理之间的专家选择一致。

在标准 MoE 层中,训练阶段的路由计算如下:

而 R3 则直接替换训练阶段的路由掩码为推理阶段的 ,从而构建出:

最终输出:

这样,模型在前向计算中依旧可保持梯度可传播(softmax 仍在训练 logits 上),但路由选择完全与推理阶段一致,从根本上消除了“专家漂移”的不确定性。

▲ 图1. R3 框架示意。左为推理阶段记录路由;右为训练阶段回放时的专家选择过程。

2.2 实现细节与工程优化

作者在实现中针对真实系统优化了两点:

  • 路由缓存(Router Mask Caching):在支持 KVCache 的推理引擎(如 SGLang)中,R3 同步缓存路由掩码 。当多轮交互(multi-turn dialogue)中上下文重复时,模型可直接复用对应掩码,而无需重新计算。这不仅减少显存开销,也让 R3 自然适配于Agent 场景(如网页交互、代码代理)。

  • 兼容性与开销:R3 不改动模型结构、也不引入额外梯度路径,因而与 GRPO、GSPO、TIS 等优化器正交。实测中,R3 对训练吞吐的影响几乎可忽略——保持在原速 97% 以上。

实验结果:从崩盘到收敛

作者在论文中主要验证了两个问题:

1. R3 是否真的能消除 MoE 强化学习的崩盘现象;

2. 这种稳定性是否伴随性能退化。

3.1 稳定性:崩盘消失,训练曲线回归平滑

R3 的直接效果体现在训练动态上。图 2 展示了 MoE 模型在强化学习阶段的 KL 散度变化:未使用 R3 的基线在 120 步后迅速抬升,出现典型“训练–推理发散”;而使用 R3 后,KL 保持稳定甚至略有下降。

▲ 图2. 训练–推理 KL 曲线对比。R3 显著压低并平滑了 KL 波动。

与此同时,论文还绘制了“极端 token 占比”统计(即概率比值 > 2 的 token 数量)。基线模型在训练后期极端 token 占比飙升,而 R3 版本下降约一个数量级,说明路由一致性确实改善了分布稳定性。

这种趋势在视觉上非常直观——崩盘前的模型往往在输出层出现“短句化”“重复化”,而 R3 训练的模型输出长度与多样性均保持正常。

3.2 性能:更稳,也更强

表 1 汇总了在多项数学推理任务上的结果。R3 无论与 GRPO 还是 GSPO 搭配,都显著提升了模型表现,并完全避免崩盘。

▲ 表1. R3 在 Qwen3-30B-A3B MoE 模型上的数学推理任务结果。

值得注意的是,R3 并非通过正则或约束“换取稳定性”,它同时带来了泛化性能的提升。在 AIME 与 MATH500 等测试集上,R3 模型在多项基准上带来稳定提升;部分设置约 +2–3pp,也存在更大幅度的增益。这说明路由一致性带来的并非训练收敛假象,而是真实的性能增益。

3.3 训练动态:从噪声到信号

下图进一步分析了梯度范数、输出熵与验证得分。

▲ 图3. 训练动态曲线。R3 降低梯度波动,显著改善学习稳定性。

在没有 R3 的情况下,梯度范数曲线呈高频震荡,训练噪声巨大;引入 R3 后,梯度变化平滑,输出熵(entropy)也逐步提升,代表模型探索过程更加健康。

同时,验证得分曲线在 150 step 后仍保持上升趋势,而对照组已提前塌陷。换句话说,R3 不仅让模型学得更稳,也学得更久。

3.4 工程层面:几乎零代价

从训练动态(见图 3)可以看出,R3 在稳定性提升的同时,并没有带来显著的效率损失。论文进一步说明,R3 的实现仅需在推理阶段缓存并回放路由掩码,不引入额外参数,也不改变优化器结构。

论文指出 R3 不损失训练速度,且与现有优化器正交,可直接插入既有 RL Pipeline。

换句话说,R3 让 MoE 强化学习在不牺牲速度与兼容性的前提下获得稳定性提升。这种“机制级修正”思路为工程实践提供了一条极具性价比的路径:先对齐系统行为,再考虑优化技巧。

总结:回到一致性这一原则

R3 的核心贡献,不在于设计新的优化器,而在于重新定义了 MoE 强化学习的前提条件。过去的研究更多从损失函数或采样机制出发,试图缓解训练不稳;而这篇工作则从系统角度指出,问题的根源并非优化不足,而是训练与推理行为的不一致。

通过一次简单的“回放”机制,R3 在几乎零代价的条件下对齐了路由决策,显著降低了训练–推理 KL 散度和极端 token 的比例,让强化学习过程重新回到可控区间。这一结果表明——在复杂模型结构中,稳定性不一定依赖更强的算法,而可能源于更干净的机制设计。

对工程实践而言,R3 的价值在于提供了一种低风险、高复用度的稳定化方案:无需改动优化器,可与 GRPO、GSPO 等方法直接结合;在 MoE 模型大规模 RL 训练中,这种机制级修正可能成为默认模块。

对研究者而言,这项工作也给出了一个新的视角:在追求更大、更强、更复杂之前,先确保模型在“对齐的世界”中学习。这种理念——Align before optimize——也许会成为未来 MoE-RL 稳定性研究的新出发点。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们