让你更懂AI的 2025-10-13 23:23 北京
从混沌到线性,RL训练或许早已可被计算
RL 训练真的像我们以为的那样“混沌”吗?中科大团队发现,大模型的强化学习过程几乎沿着一条线性轨迹前进——早期的参数更新就能预测训练终局。 从复杂到可预测,这一发现让 RL 的漫长训练第一次显得“可计算”。
也许未来,我们不再需要把训练跑满,就能知道模型最终会变成什么样。
RL 训练真的像我们以为的那样“混沌”吗?中科大团队发现,大模型的强化学习过程几乎沿着一条线性轨迹前进——早期的参数更新就能预测训练终局。 从复杂到可预测,这一发现让 RL 的漫长训练第一次显得“可计算”。
也许未来,我们不再需要把训练跑满,就能知道模型最终会变成什么样。
概览
虽然 LLMs 的推理能力依靠强化学习(RL)训练得到了大幅提升,但 RL 过程总是太过漫长、耗卡。想必各位学者每次感叹训练缓慢的时候都有想过:如果这一过程是可预测的、可凭借训练前期的 checkpoint 直接推出最终训练好时模型的参数就好了!
近期,中国科学技术大学研究团队发现,绝大部分主流 RL 算法(如 GRPO)的训练过程是可以被近似预测的。这源于两个 simple yet effective 的规律:
第一:在任意 RL epoch 中,将总参数更新进行 SVD 分解,仅保留奇异值最大的分量(即 Rank-1 空间)、删除其余数千个分量,模型的推理能力几乎不受影响(下降 < 1%)。
第二:RL 训练时,Rank-1 空间几乎呈线性变化(线性率 R²>0.98)。
这意味着,只要通过 RL 早期的 checkpoint(e.g., 0-100 epoch)对训练后期的 Rank-1 空间进行线性预测,就可以直接计算出实现最优推理能力(e.g., 第 400 epoch)时 LLM 的参数更新,从而直接避免了 60% 以上的 RL 训练。
简而言之,这项工作的意义在于:
1. 所提供的 RL 加速算法是“免费午餐”:无需任何模块、人工、复杂超参设计,即插即用;
2. 揭示了 RL 复杂的多步优化过程可能遵循着一个极其简洁的低维核心机制,这不仅为后续 RL 算法的优化、解释、加速等提供了潜在方向,更为链接 empirical scaling laws 与 reasoning emergence 提供了理论理解的可能。
论文链接:
https://arxiv.org/pdf/2510.00553
代码链接:
https://github.com/caiyuchen-ustc/Alpha-RL
模型链接:
https://huggingface.co/caiyuchen
太长不看版
为了揭示 RL 训练过程的黑盒,首先,研究团队使用 SVD 对参数更新矩阵进行分解:
仅保留最大奇异值 及对应的 ,定义为 Rank-1 更新矩阵:
之后,将 Rank-1 更新矩阵 加到基础模型上,得到 Rank-1 模型。
实验设计
模型:涵盖 7B 至 32B 大小的模型,均采用全参数训练。
算法:
RL 类:包括 PPO、RLOO、GRPO、Dr.GRPO、DAPO 等;
对比类:监督微调(SFT)、蒸馏(DIST)。
测评任务:多个数学推理任务,包括:AIME24、AIME25、MATH-500 等。
▲ 图1(a)不同方法的相对准确率对比;(b)训练过程中的 Rank-1 子空间对性能提升的影响。
2.1 Rank-1 Dominance
在所有 RL 算法中,仅对基础模型注入Rank-1 子空间更新,就能恢复 95% 以上的性能增益。例如在图 1(a)MATH-500 任务中,RLOO、GRPO、DAPO 的 Rank-1 模型相对准确率均超 98%,而 SFT 和蒸馏的模型则需要更多的秩信息才能逐步恢复其推理能力。
不同于 LoRA [2] 这类需要在训练前预定义子空间维度的设定,该发现作用于全参数 RL 训练之后,其推理能力的提升仍然几乎完全可以被 Rank-1 子空间所捕获。
随后作者在整个 RL 训练过程中检验了 Rank-1 的性质,结果见图 1(b)。训练初期,Rank-1 子空间性能略低于训练模型;但后续检查点中,其性能与训练模型相同。
团队推测其原因是:早期梯度更新较为分散,未集中到稳定子空间;随训练推进,RL 更新方向逐渐收敛并对齐到统一的推理增强模式,而 Rank-1 子空间正捕捉到该模式的主要成分。
▲ 图2(a)不同单个子空间对性能的影响;(b)按比例放大 Rank-1 子空间对推理性能的影响。
为验证不同子空间在推理中的作用,团队还测试了其它子空间的性能,发现 Rank-1 子空间显著优于其他空间,如图 2(a)。这说明 Rank-1 子空间是推理增强的“核心引擎”,其余空间虽有贡献,但不如 Rank-1 稳定、有效。
团队还通过引入缩放因子 ,其定义为:
通过调整 来测试推理性能随 Rank-1 子空间强度变化情况。如图 2(b),结果显示当 ,性能快速上升,这进一步验证了 Rank-1 Dominance 的性质;再进一步增大 ,性能反而下降,表明过强更新可能损伤原模型结构。
▲ 图3(a)各方法更新矩阵的性质;(b)不同更新方法对词嵌入层的影响。
团队对比了 RL,监督微调和蒸馏给模型所带来的差异。首先看参数更新情况,如图 3(a),蒸馏和监督微调方法的更新范数比 RL 大 1 到 2 个数量级,意味着训练时参数变化更大;RL 则不同,更新更为集中,未缩放的 Rank-1 子空间和 Rank-1% 子空间在总更新范数里占比更高。
再看词嵌入的分布变化, 如图 3(b),蒸馏和监督微调会让词嵌入空间有明显漂移,这说明它们的更新不只是调整高层推理路径,还对低层表征空间有大幅全局修改。但 RL 几乎不改变词嵌入空间,说明其推理提升主要靠优化调整高层信息流。
最后,团队还深入探讨了 RL 中低秩结构的成因,并指出其可能是 RL 模型能够抗灾难性遗忘 [3],并且拥有强泛化性 [4] 的根本原因,同时发现了 Rank-1 子空间在引导推理思维链中的关键作用。更多细节请参考论文正文与附录实验分析。
2.2 Rank-1 Linear Dynamics
▲ 图4(a)降维可视化结果;(b)PLS拟合结果;(c)滑动窗口注入结果。
进一步的,为了研究参数的更新规律,团队收集了 RL 训练中不同 checkpoint 的 Rank-1 子空间数据,进行 PCA 降维与可视化。如图 4(a)所示,其更新轨迹呈现出一定线性规律。
为了进一步验证这种更新规律与推理性能是否有关联,团队通过偏最小二乘法(PLS)来拟合 Rank-1 子空间与推理准确率的关系,其结果展示出高度的线性特性。甚至部分模块的 值接近 1(见图 4(b)),表明 Rank-1 更新方向与推理性能高度相关,且可通过固定的线性关系有效建模。
为了探究不同模块的 Rank-1 子空间的更新轨迹的线性程度与模块本身重要性之间的关系。团队将所有模块按 Rank-1 的 降序排序,利用滑动窗口(大小约为总模块数的三分之一,步长约为总模块数的七分之一)选择子集,仅注入选中模块的 Rank-1 子空间更新,其他模块保持为基础模型的数值。
如图 4(b)所示,随着窗口内最小 降低,相应模型的推理性能也逐渐降低,说明 有效量化了模块更新的贡献,是分析 RL 训练中模块功能的可靠指标。
AlphaRL
受上述“Rank-1 子空间”现象的启发,团队进一步提出全新加速算法 AlphaRL。AlphaRL 的核心思路如下:
1. 拟合早期 Rank-1 演化
利用 PLS 拟合早期 Rank-1 子空间与推理准确率的关系,从而获得模型中各个模块的更新轨迹。
2. 目标准确率反演
给定目标推理准确率,通过反演得到对应的 Rank-1 子空间。
3. 生成最终更新
将预测的 Rank-1 子空间加入原模型,即可实现对模型训练的加速。
▲ 表1 AlphaRL 加速结果
为了全面地评估了 AlphaRL 的有效性,团队在 3 个主流 RL 方法和 6 个推理数据集上测试了加速效果,结果如表 1。在不同方法的不同训练阶段上,AlphaRL 均实现了有效的加速。在 DAPO 中,通过使用 AlphaRL,仅需 40% 的训练步骤就可以得到近乎完整的训练效果。更多实验结果请移步我们的文章或代码。
参考文献
[1] On Predictability of Reinforcement Learning Dynamics for LLMs
[2] LORA: LOW-RANK ADAPTATION OF LARGE LAN
GUAGE MODELS
[3] Why online reinforcement learning forgets less
[4] Improving generalization in intent detection: Grpo with reward-based curriculum sampling
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·