ToolsAi

让你更懂AI的 2025-10-13 23:23 北京

从混沌到线性，RL训练或许早已可被计算

RL 训练真的像我们以为的那样“混沌”吗？中科大团队发现，大模型的强化学习过程几乎沿着一条线性轨迹前进——早期的参数更新就能预测训练终局。从复杂到可预测，这一发现让 RL 的漫长训练第一次显得“可计算”。
也许未来，我们不再需要把训练跑满，就能知道模型最终会变成什么样。

概览

虽然 LLMs 的推理能力依靠强化学习（RL）训练得到了大幅提升，但 RL 过程总是太过漫长、耗卡。想必各位学者每次感叹训练缓慢的时候都有想过：如果这一过程是可预测的、可凭借训练前期的 checkpoint 直接推出最终训练好时模型的参数就好了！

近期，中国科学技术大学研究团队发现，绝大部分主流 RL 算法（如 GRPO）的训练过程是可以被近似预测的。这源于两个 simple yet effective 的规律：

第一：在任意 RL epoch 中，将总参数更新进行 SVD 分解，仅保留奇异值最大的分量（即 Rank-1 空间）、删除其余数千个分量，模型的推理能力几乎不受影响（下降＜ 1%）。

第二：RL 训练时，Rank-1 空间几乎呈线性变化（线性率 R²＞0.98）。

这意味着，只要通过 RL 早期的 checkpoint（e.g., 0-100 epoch）对训练后期的 Rank-1 空间进行线性预测，就可以直接计算出实现最优推理能力（e.g., 第 400 epoch）时 LLM 的参数更新，从而直接避免了 60% 以上的 RL 训练。

简而言之，这项工作的意义在于：

1. 所提供的 RL 加速算法是“免费午餐”：无需任何模块、人工、复杂超参设计，即插即用；

2. 揭示了 RL 复杂的多步优化过程可能遵循着一个极其简洁的低维核心机制，这不仅为后续 RL 算法的优化、解释、加速等提供了潜在方向，更为链接 empirical scaling laws 与 reasoning emergence 提供了理论理解的可能。

论文链接：

https://arxiv.org/pdf/2510.00553

代码链接：

https://github.com/caiyuchen-ustc/Alpha-RL

模型链接：

https://huggingface.co/caiyuchen

太长不看版

为了揭示 RL 训练过程的黑盒，首先，研究团队使用 SVD 对参数更新矩阵进行分解：

仅保留最大奇异值及对应的，定义为 Rank-1 更新矩阵：

之后，将 Rank-1 更新矩阵加到基础模型上，得到 Rank-1 模型。

实验设计

模型：涵盖 7B 至 32B 大小的模型，均采用全参数训练。

算法：

RL 类：包括 PPO、RLOO、GRPO、Dr.GRPO、DAPO 等；
对比类：监督微调（SFT）、蒸馏（DIST）。

测评任务：多个数学推理任务，包括：AIME24、AIME25、MATH-500 等。

▲ 图1（a）不同方法的相对准确率对比；（b）训练过程中的 Rank-1 子空间对性能提升的影响。

2.1 Rank-1 Dominance

在所有 RL 算法中，仅对基础模型注入Rank-1 子空间更新，就能恢复 95% 以上的性能增益。例如在图 1（a）MATH-500 任务中，RLOO、GRPO、DAPO 的 Rank-1 模型相对准确率均超 98%，而 SFT 和蒸馏的模型则需要更多的秩信息才能逐步恢复其推理能力。

不同于 LoRA [2] 这类需要在训练前预定义子空间维度的设定，该发现作用于全参数 RL 训练之后，其推理能力的提升仍然几乎完全可以被 Rank-1 子空间所捕获。

随后作者在整个 RL 训练过程中检验了 Rank-1 的性质，结果见图 1（b）。训练初期，Rank-1 子空间性能略低于训练模型；但后续检查点中，其性能与训练模型相同。

团队推测其原因是：早期梯度更新较为分散，未集中到稳定子空间；随训练推进，RL 更新方向逐渐收敛并对齐到统一的推理增强模式，而 Rank-1 子空间正捕捉到该模式的主要成分。

▲ 图2（a）不同单个子空间对性能的影响；（b）按比例放大 Rank-1 子空间对推理性能的影响。

为验证不同子空间在推理中的作用，团队还测试了其它子空间的性能，发现 Rank-1 子空间显著优于其他空间，如图 2（a）。这说明 Rank-1 子空间是推理增强的“核心引擎”，其余空间虽有贡献，但不如 Rank-1 稳定、有效。

团队还通过引入缩放因子，其定义为：

通过调整来测试推理性能随 Rank-1 子空间强度变化情况。如图 2（b），结果显示当，性能快速上升，这进一步验证了 Rank-1 Dominance 的性质；再进一步增大，性能反而下降，表明过强更新可能损伤原模型结构。

▲ 图3（a）各方法更新矩阵的性质；（b）不同更新方法对词嵌入层的影响。

团队对比了 RL，监督微调和蒸馏给模型所带来的差异。首先看参数更新情况，如图 3（a），蒸馏和监督微调方法的更新范数比 RL 大 1 到 2 个数量级，意味着训练时参数变化更大；RL 则不同，更新更为集中，未缩放的 Rank-1 子空间和 Rank-1% 子空间在总更新范数里占比更高。

再看词嵌入的分布变化, 如图 3（b），蒸馏和监督微调会让词嵌入空间有明显漂移，这说明它们的更新不只是调整高层推理路径，还对低层表征空间有大幅全局修改。但 RL 几乎不改变词嵌入空间，说明其推理提升主要靠优化调整高层信息流。

最后，团队还深入探讨了 RL 中低秩结构的成因，并指出其可能是 RL 模型能够抗灾难性遗忘 [3]，并且拥有强泛化性 [4] 的根本原因，同时发现了 Rank-1 子空间在引导推理思维链中的关键作用。更多细节请参考论文正文与附录实验分析。

2.2 Rank-1 Linear Dynamics

▲ 图4（a）降维可视化结果；（b）PLS拟合结果；（c）滑动窗口注入结果。

进一步的，为了研究参数的更新规律，团队收集了 RL 训练中不同 checkpoint 的 Rank-1 子空间数据，进行 PCA 降维与可视化。如图 4（a）所示，其更新轨迹呈现出一定线性规律。

为了进一步验证这种更新规律与推理性能是否有关联，团队通过偏最小二乘法（PLS）来拟合 Rank-1 子空间与推理准确率的关系，其结果展示出高度的线性特性。甚至部分模块的值接近 1（见图 4（b）），表明 Rank-1 更新方向与推理性能高度相关，且可通过固定的线性关系有效建模。

为了探究不同模块的 Rank-1 子空间的更新轨迹的线性程度与模块本身重要性之间的关系。团队将所有模块按 Rank-1 的降序排序，利用滑动窗口（大小约为总模块数的三分之一，步长约为总模块数的七分之一）选择子集，仅注入选中模块的 Rank-1 子空间更新，其他模块保持为基础模型的数值。

如图 4（b）所示，随着窗口内最小降低，相应模型的推理性能也逐渐降低，说明有效量化了模块更新的贡献，是分析 RL 训练中模块功能的可靠指标。

AlphaRL

受上述“Rank-1 子空间”现象的启发，团队进一步提出全新加速算法 AlphaRL。AlphaRL 的核心思路如下：

1. 拟合早期 Rank-1 演化

利用 PLS 拟合早期 Rank-1 子空间与推理准确率的关系，从而获得模型中各个模块的更新轨迹。

2. 目标准确率反演

给定目标推理准确率，通过反演得到对应的 Rank-1 子空间。

3. 生成最终更新

将预测的 Rank-1 子空间加入原模型，即可实现对模型训练的加速。

▲ 表1 AlphaRL 加速结果

为了全面地评估了 AlphaRL 的有效性，团队在 3 个主流 RL 方法和 6 个推理数据集上测试了加速效果，结果如表 1。在不同方法的不同训练阶段上，AlphaRL 均实现了有效的加速。在 DAPO 中，通过使用 AlphaRL，仅需 40% 的训练步骤就可以得到近乎完整的训练效果。更多实验结果请移步我们的文章或代码。