朱泠皞 2025-08-21 13:37 北京
Advantage 不再塌、Rollout 不再“哑”
©作者 | 朱泠皞
单位 | 华中科技大学/小米公司
研究方向 | 多模态大模型
太长不看:我们提出了 Shuffle-R1,一个简单而高效的多模态大语言模型(MLLM)强化学习后训练框架,它通过“动态数据洗牌”机制,大幅提升了训练效率和模型性能。
太长不看:我们提出了 Shuffle-R1,一个简单而高效的多模态大语言模型(MLLM)强化学习后训练框架,它通过“动态数据洗牌”机制,大幅提升了训练效率和模型性能。
在多模态 RL 的训练中,常见的效率瓶颈——优势值塌陷与 rollout 静默——让计算资源白白浪费,也限制了模型能力的提升。Shuffle-R1 从“数据利用率”出发,利用成对轨迹采样(PTS)与批次洗牌(ABS),把有限的更新集中在最有价值的样本上,从而让模型学得更快、更好。
下面就来分享我们在多模态 RL 上的最新工作:
论文标题:
Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle
论文链接:
https://arxiv.org/abs/2508.05612
项目主页:
https://xenozlh.github.io/Shuffle-R1/
工作简介
Shuffle-R1 是一个简单而有效的多模态 RL 框架,它通过动态数据选择与训练批次重组来提高强化学习微调效率。具体而言,Shuffle-R1 引入了两个关键模块:
Pairwise Trajectory Sampling(PTS):成对轨迹采样,专挑优势值反差大的样本对,像挑重点题一样精准
Advantage-based Batch Shuffle(ABS):基于优势的批次重组,动态调整训练批次,让模型多学有价值的内容
在多个多模态基准上的测试实验表明,Shuffle-R1 以极小的额外计算开销,超越了 GRPO、DAPO 等强化学习基准算法,以及一系列开源的多模态推理模型。特别地,在相同的实验设置下,Shuffle-R1 仅使用一半的训练步骤,就能取得超越 GRPO 的推理性能。
研究背景与问题
多模态 RL 在近一段时间获得了大量的关注,催生了一系列的研究工作。然而在多模态 RL 的训练过程中,我们发现了两个影响训练效率的问题:
▲ 揭示两个“训练黑洞”的探针实验
问题 1:Advantage Collapsing
理想情况下,优势值(advantage)应该有足够的离散度,才能提供强而多样的梯度信号。然而在实际训练中,大多数优势值挤在 0 附近,真正“有用”的高幅值样本很少,导致极其缓慢的梯度更新。
问题 2:Rollout Silencing
随着训练推进,产生非零梯度的 rollout 占比不断下降,导致大量无效的梯度计算。这个现象不仅消耗了大量无用的计算资源,同时阻碍模型持续学习。
如何解决?
上述的两个“训练黑洞”意味着:与其再去“调更复杂的奖励”,不如先回答一个更基础的问题:模型到底该在“哪些数据”上更新? 我们从 data-centric 的角度重新思考了 RL 的训练流程,尝试在训练过程中引入动态的数据选择与训练批次重组。Shuffle-R1 的核心就是把有限的更新“配给”到最能带来收益的样本,实现以数据为中心的训练效率最大化,进而提升模型的推理能力再进步。
方法设计
▲ Shuffle-R1 示意图
PTS 成对轨迹采样
PTS 的目标是缓解 Advantage Collapsing 现象。通过将 Group 内候选的轨迹组织成具有对比差异的 pair,我们以此增强训练中具有更大 advantage 的样本的梯度信号。我们先扩展 rollout 池,从一个更大的采样空间内收集 response,再将 rollout 按优势值从大到小排序,用“最大配最小”的 max-min 配对形成对比样本,训练时只保留对比差异最大的少部分对(高对比度、高幅值)。直觉上理解,就是把“最会教你”的两条轨迹(一个非常好,一个非常坏)放一起,让梯度信号更尖锐。
给定一个 query 以及 个 rollout,将当前的 Group 记为 。我们可以将排序后的 advantage 集合记为:
基于这个排序,我们可以构建下面的配对集合:
通过一个简单的 top-k 采样策略,我们从 中采样具有更大对比差异的有效配对集 :
在不显著增加计算成本的情况下,PTS 从更大的探索空间中选择对比度强、梯度信息丰富的轨迹对,以提高策略梯度的有效性并提升数据利用率。
ABS 基于优势值的批次洗牌
为了缓解 Rollout Silencing,我们引入了 ABS,它根据轨迹 pair 的优势值动态地对训练批次进行洗牌重组操作。原始 RL 训练中,每个 batch 内的样本仅更新一次就丢弃。我们希望通过一个动态的批次重构操作,删除掉无梯度的样本,同时复用批次中的高价值样本,提高训练效率的同时实现更加充分的模式学习。
将经过 PTS 操作后的一个 batch 记为:
batch size 为 。在标准的训练流程中,每个 batch 会被切分为 个 mini-batch 进行梯度累积更新。
对每个轨迹对 ,为其分配一个重要性权重:
根据重要性权重,得到 batch 内每个 pair 的采样概率:
基于采样概率,我们对原始的 batch 执行 次独立的无放回子采样,每个子批次容量为 个 pair( 个轨迹)
我们将所有的子批次拼接在一起得到洗牌后的 batch:
通过引入 ABS,我们将批次分布转换为一种“软优先级”结构,在保持多样性的同时实现高价值样本的“多重曝光”,从而提高数据利用率并缓解 Rollout Silencing 现象。
实验结果
我们首先在小规模的训练数据上和 RL 基线进行比较,以探究方法在有限训练样本下的性能
▲ 与 GRPO 和 DAPO 的对比
在 Geometry3K 和 K12 数据集上的实验(约 2.1k 训练样本)表明,Shuffle-R1 在 in-domain 和 out-of-domain 测试集上都相较于基础模型有显著的性能提升,优于 GRPO 和 DAPO。
我们进一步将训练数据规模扩展至 30k 样本,Shuffle-R1 展现出了优秀的性能,特别地,7B 模型在 MathVerse 上达到 53.9% 准确率,在 MathVista 上达到了 77.0% 准确率。3B 模型也具有出色的表现,甚至能够媲美不少 7B 模型。
▲ 30k 规模实验的性能
进一步观察 training dynamic 曲线,在训练准确率和测试准确率上 Shuffle-R1 都有明显的提升。在相同设置下,Shuffle-R1 仅用一半的训练步数,验证集准确率就超越了 GRPO。此外,非零梯度 rollout 占比始终处于绝对高位,有效缓解了 Rollout Silencing 现象。
▲ Training dynamic 曲线
统计训练批次的优势值分布可以发现,Shuffle-R1 在训练中鼓励了更多的高优势值样本参与训练,有效的缓解了 Advantage Collapsing 现象。
▲ 训练批次的优势值分布统计
小结
本文介绍了 Shuffle-R1,一个简单但有效的 RL 后训练框架,可提高多模态大语言模型强化学习的训练效率。
通过 PTS(成对轨迹采样)和 ABS(基于优势值的批次洗牌),Shuffle - R1 在多个多模态推理 benchmark 上取得了优异的性能,证明了以数据为中心的自适应动态 RL 算法的价值。我们希望我们的动机、方法和发现对进一步的研究有所帮助。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·