动态列表

  • Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」
  • 英伟达AI超算3999开售,「掌心之中」可部署所有大参数开源模型!
  • 登顶Hugging Face GAIA全球榜首!中兴超级智能体终结「AI黑盒」时代
  • AI圈再颠覆!中国AI翻译耳机通话翻译,实测震撼
  • 一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军
  • vivo X300 Pro:以「水桶旗舰」之躯,重登旗舰山巅
  • 直到毕业我才懂:原来延期的博士,不止我一个
  • 让论文自己讲!Paper2Video一键生成论文讲解视频,赶顶会DDL不慌了
  • 8美元“驯服”DeepSeek-V3.2?Training-Free GRPO把RL成本打到地板
  • NeurIPS 2025 | 让AIGC视频变为可探索场景:Instant4D实现单目动态场景的分钟级重建
  • NeurIPS 2025 | PPFN:渐进式提示融合,让红外图像增强在复杂场景下性能提升8.76%
  • 库克抖音带货 iPhone 17 Air,22 日开售;小米客服回应「SU7 门把手」;「丐版」特斯拉明年国内投产
  • 他用一生证明AI没有意识!「中文屋」提出者逝世,享年93岁
  • 今年诺奖成果曾遭质疑无用,但华人团队用它研制了未来芯片的「钥匙」
  • 剑桥揭开大模型翻车黑箱!别再怪它不懂推理,是行动出错了
  • ICLR神秘论文曝光!SAM3用「概念」看世界,重构视觉AI新范式
  • 硅谷爆发反AI「起义」!程序员拒用Cursor被一周解雇
  • 强化学习再迎范式切换:Sergey Levine团队把目标改写成“到达时间”
  • 国行 eSIM 尘埃落定,iPhone Air「下周见」
  • 为什么谷歌搜不到「没有条纹的衬衫」|AI 上新
  • SAM 3揭开面纱:不止分割万物,更能理解概念,交互式分割迎来新篇章!
  • ACM MM2025 Oral | MoSEAR:为多模态情感推理补齐“冲突场景”的短板
  • 雷军亲自测试,小米YU9实车谍照曝光;宇树获「秧歌机器人」专利;微团开卖「Win XP」蓝天白云拖鞋
  • 永别了,人类冠军!AI横扫天文奥赛,GPT-5得分远超金牌选手2.7倍
  • 濒死3次,医生判他死刑!宾大教授奇迹自救,誓用AI攻克14000种绝症
  • 告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星
  • Bug变奖励:AI的小失误,揭开创造力真相!
  • 复旦张军平:人类是硅基生命过渡体?
  • Meta Ray-Ban Display 首发体验合集:悬浮在现实中的一张便签
  • OriginOS 6 深度体验:当操作系统回归「体验为王」
  • Mamba-3惊现ICLR 2026投稿:三重升级打满“推理优先”范式
  • 93%成功率!从“改提示”到“写剧情”:STaR-Attack用叙事推理攻破大模型防线
  • NeurIPS 2025 | Latent Harmony:潜空间和谐共生,实现UHD图像修复新SOTA
  • NeurIPS 2025 | NTN-Diff:一石二鸟,利用空文本与频率感知破解图像修复难题
  • 马斯克脑机公司展示脑机控制机械臂;三星中国发布折叠屏新机,16999 元起售;滴滴自动驾驶获 20 亿元融资 | 极客早知道
  • 77岁「AI教父」Hinton:AI早有意识!我们打造的智能,可能终结人类文明
  • 全球首款1.8nm芯片亮相!华人CEO打响关键一战,英特尔杀回来了
  • 清华万引教授:万倍加速催化剂设计,AI突破DFT瓶颈!
  • 陶哲轩亲测!GPT-5 Pro 40分钟破解3年难题,登顶最难数学考试
  • 刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人
  • Attention is NOT All You Need:让“深度”重新流入时间,而非堆叠在参数之上
  • NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!
  • OpenAI 卖货做视频,Anthropic 专心写代码,谁能赢?
  • 一颗 1.8 纳米芯片,成了英特尔「最后的救赎」
  • 这款 AI 调研神器,让我一键产生 1000 个「种子用户」|AI 上新
  • 都用 GPT,为什么你没法中「百万大奖」?
  • ChatGPT 变身 App Store,「对话即应用」时代到了
  • IROS 2025 Oral | RAG-6Dpose:三大创新模块,利用 CAD 作为知识库进行检索增强 6D 姿态估计
  • IROS 2025 | 速度飙升24倍!巴黎萨克雷大学等提出HARP-NeXt:实时3D激光雷达分割新标杆
  • 「丐中丐」版特斯拉来了,Model 3/Y降价超3.5万元
  • 高德扫街榜的 23 天奇袭
  • 张一鸣近年来首次公开亮相;微软上海开始新一轮裁员,补偿N+4;罗永浩锐评 iPhone 17
  • GPT-5王者归来?奥特曼称AI已跨科学门槛,三大学科正迎来实质性突破
  • 老黄押宝「美版DeepSeek」!谷歌天才叛将创业,一夜吸金20亿美元
  • 任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码
  • 13万被引!ImageNet作者苏昊或将加盟复旦
  • 250份文档投毒,一举攻陷万亿LLM!Anthropic新作紧急预警
  • 和两位 CEO 聊 Sora: 应用层爆发的里程碑事件,创业者的机会来了
  • 新一代短剧人,涌向郑州「淘金」
  • 社交媒体的黄金时代,结束了
  • U-Bench:U-Net十年“大乱斗”终结者,100个变体、28个数据集的终极对决
  • 东京大学、牛津大学等联合发布VLA万字综述:机器人迈向通用智能的全栈指南
  • 北京/上海内推 | 阶跃星辰招聘RL for AIGC方向算法研究员/实习生
  • EMNLP 2025 | 拨云见日:知识电路分析揭示大语言模型“知识遮蔽”幻觉之源
  • DeepSeek苦练1T,清华只用5B?InfLLM-V2把稀疏注意力玩明白了
  • Sora 下载量破 100 万次;国庆中秋假期国内游总花费超过 8000 亿元;智驾多位核心高管离职,蔚来回应|极客早知道
  • 谷歌杀入诺奖神殿,两年三冠五得主!世界TOP3重现贝尔实验室神话
  • OpenAI×英伟达,可能创造了人类史上最大万亿级泡沫
  • H-1B正在筛掉「下一个英伟达」?
  • 全球AI视频大战升级!「中国版Sora」Vidu Q2参考生月底发布,能力对标Sora 2
  • 第二代InfLLM开源,同尺寸快三倍!零参数,可训练稀疏注意力
  • 腾讯推出TRM:让大模型像人类一样批判性思考,从文本依赖到事实正确
  • 马毅团队重磅发布新书:从MCR²到白盒Transformer,重构深度学习的第一性原理
  • 稳住训练、跑出泛化:STAGE重写「自回归图像生成」的强化学习范式
  • Diffusion²来袭:威斯康星大学&华盛顿大学等提出双扩散模型,“回溯历史-预测未来”,破解自动驾驶“鬼探头”难题
  • 北大等提出TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%
  • 把我的第一次日本旅行,完全交给 AI 是什么体验?
  • 英伟达将投资马斯克的 xAI;低价版Model 3/Y 「阉割」智驾功能;微信推出批量撤回信息功能
  • 刚刚,清华物理传奇Yao Shunyu,跳槽谷歌DeepMind!
  • 赚100亿,烧1万亿!OpenAI算力神话:英伟达撒钱、AMD送股、全硅谷陪跑
  • 英伟达垄断AI算力局面或将被颠覆!AMD赌上身家发起决斗,奥特曼窃喜
  • 刚刚,2025年诺贝尔化学奖揭晓!偷溜进图书馆的少年,改变了世界
  • 小心,AI依赖会让你变笨!吴恩达等专家教你如何正确使用AI
  • 无RLHF,7M小模型反超DeepSeek-R1:三星团队用递归思考取代规模堆叠
  • 告别深度传感器!慕尼黑工业大学提出DropD-SLAM:仅用单目RGB即可实现RGB-D级的SLAM精度
  • IROS 2025 | Waymo与谷歌DeepMind联手提出Drive&Gen:用生成视频评估自动驾驶,虚拟测试更逼真

如果RL可预测,我们还需要把训练跑满吗?中科大揭示参数更新的线性秘密

让你更懂AI的 2025-10-13 23:23 北京

从混沌到线性,RL训练或许早已可被计算

图片

RL 训练真的像我们以为的那样“混沌”吗?中科大团队发现,大模型的强化学习过程几乎沿着一条线性轨迹前进——早期的参数更新就能预测训练终局。 从复杂到可预测,这一发现让 RL 的漫长训练第一次显得“可计算”。

也许未来,我们不再需要把训练跑满,就能知道模型最终会变成什么样。

概览

虽然 LLMs 的推理能力依靠强化学习(RL)训练得到了大幅提升,但 RL 过程总是太过漫长、耗卡。想必各位学者每次感叹训练缓慢的时候都有想过:如果这一过程是可预测的、可凭借训练前期的 checkpoint 直接推出最终训练好时模型的参数就好了!

近期,中国科学技术大学研究团队发现,绝大部分主流 RL 算法(如 GRPO)的训练过程是可以被近似预测的。这源于两个 simple yet effective 的规律:

第一:在任意 RL epoch 中,将总参数更新进行 SVD 分解,仅保留奇异值最大的分量(即 Rank-1 空间)、删除其余数千个分量,模型的推理能力几乎不受影响(下降 < 1%)。

第二:RL 训练时,Rank-1 空间几乎呈线性变化(线性率 R²>0.98)。

这意味着,只要通过 RL 早期的 checkpoint(e.g., 0-100 epoch)对训练后期的 Rank-1 空间进行线性预测,就可以直接计算出实现最优推理能力(e.g., 第 400 epoch)时 LLM 的参数更新,从而直接避免了 60% 以上的 RL 训练。

简而言之,这项工作的意义在于:

1. 所提供的 RL 加速算法是“免费午餐”:无需任何模块、人工、复杂超参设计,即插即用;

2. 揭示了 RL 复杂的多步优化过程可能遵循着一个极其简洁的低维核心机制,这不仅为后续 RL 算法的优化、解释、加速等提供了潜在方向,更为链接 empirical scaling laws 与 reasoning emergence 提供了理论理解的可能。

论文链接:

https://arxiv.org/pdf/2510.00553

代码链接:

https://github.com/caiyuchen-ustc/Alpha-RL

模型链接:

https://huggingface.co/caiyuchen

太长不看版

为了揭示 RL 训练过程的黑盒,首先,研究团队使用 SVD 对参数更新矩阵进行分解:

仅保留最大奇异值 及对应的 ,定义为 Rank-1 更新矩阵

之后,将 Rank-1 更新矩阵 加到基础模型上,得到 Rank-1 模型。

实验设计

模型:涵盖 7B 至 32B 大小的模型,均采用全参数训练。

算法

  • RL 类:包括 PPO、RLOO、GRPO、Dr.GRPO、DAPO 等;

  • 对比类:监督微调(SFT)、蒸馏(DIST)。

测评任务:多个数学推理任务,包括:AIME24、AIME25、MATH-500 等。

▲ 图1(a)不同方法的相对准确率对比;(b)训练过程中的 Rank-1 子空间对性能提升的影响。

2.1 Rank-1 Dominance

在所有 RL 算法中,仅对基础模型注入Rank-1 子空间更新,就能恢复 95% 以上的性能增益。例如在图 1(a)MATH-500 任务中,RLOO、GRPO、DAPO 的 Rank-1 模型相对准确率均超 98%,而 SFT 和蒸馏的模型则需要更多的秩信息才能逐步恢复其推理能力。

不同于 LoRA [2] 这类需要在训练前预定义子空间维度的设定,该发现作用于全参数 RL 训练之后,其推理能力的提升仍然几乎完全可以被 Rank-1 子空间所捕获。

随后作者在整个 RL 训练过程中检验了 Rank-1 的性质,结果见图 1(b)。训练初期,Rank-1 子空间性能略低于训练模型;但后续检查点中,其性能与训练模型相同。

团队推测其原因是:早期梯度更新较为分散,未集中到稳定子空间;随训练推进,RL 更新方向逐渐收敛并对齐到统一的推理增强模式,而 Rank-1 子空间正捕捉到该模式的主要成分。

▲ 图2(a)不同单个子空间对性能的影响;(b)按比例放大 Rank-1 子空间对推理性能的影响。

为验证不同子空间在推理中的作用,团队还测试了其它子空间的性能,发现 Rank-1 子空间显著优于其他空间,如图 2(a)。这说明 Rank-1 子空间是推理增强的“核心引擎”,其余空间虽有贡献,但不如 Rank-1 稳定、有效。

团队还通过引入缩放因子 ,其定义为:

通过调整 来测试推理性能随 Rank-1 子空间强度变化情况。如图 2(b),结果显示当 ,性能快速上升,这进一步验证了 Rank-1 Dominance 的性质;再进一步增大 ,性能反而下降,表明过强更新可能损伤原模型结构。

▲ 图3(a)各方法更新矩阵的性质;(b)不同更新方法对词嵌入层的影响。

团队对比了 RL,监督微调和蒸馏给模型所带来的差异。首先看参数更新情况,如图 3(a),蒸馏和监督微调方法的更新范数比 RL 大 1 到 2 个数量级,意味着训练时参数变化更大;RL 则不同,更新更为集中,未缩放的 Rank-1 子空间和 Rank-1% 子空间在总更新范数里占比更高。

再看词嵌入的分布变化, 如图 3(b),蒸馏和监督微调会让词嵌入空间有明显漂移,这说明它们的更新不只是调整高层推理路径,还对低层表征空间有大幅全局修改。但 RL 几乎不改变词嵌入空间,说明其推理提升主要靠优化调整高层信息流。

最后,团队还深入探讨了 RL 中低秩结构的成因,并指出其可能是 RL 模型能够抗灾难性遗忘 [3],并且拥有强泛化性 [4] 的根本原因,同时发现了 Rank-1 子空间在引导推理思维链中的关键作用。更多细节请参考论文正文与附录实验分析。

2.2 Rank-1 Linear Dynamics

▲ 图4(a)降维可视化结果;(b)PLS拟合结果;(c)滑动窗口注入结果。

进一步的,为了研究参数的更新规律,团队收集了 RL 训练中不同 checkpoint 的 Rank-1 子空间数据,进行 PCA 降维与可视化。如图 4(a)所示,其更新轨迹呈现出一定线性规律。

为了进一步验证这种更新规律与推理性能是否有关联,团队通过偏最小二乘法(PLS)来拟合 Rank-1 子空间与推理准确率的关系,其结果展示出高度的线性特性。甚至部分模块的 值接近 1(见图 4(b)),表明 Rank-1 更新方向与推理性能高度相关,且可通过固定的线性关系有效建模。

为了探究不同模块的 Rank-1 子空间的更新轨迹的线性程度与模块本身重要性之间的关系。团队将所有模块按 Rank-1 的 降序排序,利用滑动窗口(大小约为总模块数的三分之一,步长约为总模块数的七分之一)选择子集,仅注入选中模块的 Rank-1 子空间更新,其他模块保持为基础模型的数值。

如图 4(b)所示,随着窗口内最小 降低,相应模型的推理性能也逐渐降低,说明 有效量化了模块更新的贡献,是分析 RL 训练中模块功能的可靠指标。

AlphaRL

受上述“Rank-1 子空间”现象的启发,团队进一步提出全新加速算法 AlphaRL。AlphaRL 的核心思路如下:

1. 拟合早期 Rank-1 演化

利用 PLS 拟合早期 Rank-1 子空间与推理准确率的关系,从而获得模型中各个模块的更新轨迹。

2. 目标准确率反演

给定目标推理准确率,通过反演得到对应的 Rank-1 子空间。

3. 生成最终更新

将预测的 Rank-1 子空间加入原模型,即可实现对模型训练的加速。

▲ 表1 AlphaRL 加速结果

为了全面地评估了 AlphaRL 的有效性,团队在 3 个主流 RL 方法和 6 个推理数据集上测试了加速效果,结果如表 1。在不同方法的不同训练阶段上,AlphaRL 均实现了有效的加速。在 DAPO 中,通过使用 AlphaRL,仅需 40% 的训练步骤就可以得到近乎完整的训练效果。更多实验结果请移步我们的文章或代码。

参考文献

[1] On Predictability of Reinforcement Learning Dynamics for LLMs

[2] LORA: LOW-RANK ADAPTATION OF LARGE LAN

GUAGE MODELS

[3] Why online reinforcement learning forgets less

[4] Improving generalization in intent detection: Grpo with reward-based curriculum sampling

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们