动态列表

  • ACL最佳论文幕后的北大人!北大张铭带出顶会常胜军和百亿CEO天团|新智元十周年峰会
  • 刚刚,这款Agent浏览器力压OpenAI,72%成功率全球第一!还能免费用
  • =COPILOT()函数横空出世!AI自动写公式效率起飞,网友:让Excel再次伟大
  • 当智能醒于物理世界,英伟达副总裁: 下一个十年属于物理AI!|新智元十周年峰会
  • 刚刚,英伟达祭出下一代GPU!狂飙百万token巨兽,投1亿爆赚50亿
  • 00后挑大梁!近20国选手激战外滩大会,AI科创赛三赛道冠军诞生
  • CoRL 2025 | 港大InfoBodied AI团队首发具身表征新范式,构建任务自适应的感知框架
  • 英伟达下一代GPU登场,Rubin CPX一次推理数百万Token,网友:这是头野兽
  • 谷歌AI新里程碑:一个能「做研究」的系统诞生了,用LLM+树搜索编写专家级软件
  • 爱诗科技完成6000万美元B轮融资,阿里巴巴领投,达晨财智、深创投、北京市AI基金、巨人网络、Antler等跟投
  • 当人工智能「看见」量子世界:AI如何改变对复杂量子系统的认知,南洋理工、上交等发布量子系统学习综述
  • DeepSeek、Gemini都不行?AgenTracer锁定多智能体“背锅侠”,8B小模型反超闭源巨模
  • 北京内推 | AMD北京AI算法团队招聘模型量化/剪枝算法实习生(可远程)
  • 院士领衔!从智能算网到司法AI:顶尖学者直播解读AI与工程前沿趋势
  • AI应用元年,这场标杆赛事见证了中国创新速度与野心
  • AI胡说八道这事,终于有人管了?
  • 人人都能炼专属Agent,上海交大开源端侧Agent全栈工具链,真实场景性能超GPT-5!
  • TPAMI 2025 | H2OT:分层沙漏型Tokenizer,重塑高效视频姿态Transformer
  • 苹果发布会:耳机测心率、手表听音乐、iPhone Air超级薄
  • 不到10天,国产「香蕉」突袭!一次7图逼真还原,合成大法惊呆歪果仁
  • 再也不怕面瘫脸!YouTube黑科技:AI帮你「永久微笑」,连僵尸都咧嘴笑
  • OpenAI真正王牌,不是Ilya!刚刚,奥特曼罕见致谢这两人
  • 缔造OpenAI的秘密,竟只有一个词!新智元十年峰会圆桌,七位大咖激辩
  • Hinton预言失灵?掌握AI技能涨薪23%,比读硕士更赚钱
  • 文心新出的推理大模型,给了我们信心
  • SFT远不如RL?永不过时的剃刀原则打开「终身学习」大模型训练的大门
  • 从第一性原理出发的RAG推理新范式来了,蚂蚁DIVER登顶权威基准
  • 击败多个行业巨头,优必选自研人形机器人最强大脑 Thinker 斩获全球四项第一
  • 字节跳动发布 Seedream 4.0 图像创作模型,豆包、即梦可免费体验
  • 从科幻到产业元年 | 「脑机接口」系统综述发布:全景解析理论、技术、挑战、趋势
  • 硅谷也996实锤了?AI的火,烧掉了硅谷的周末
  • DPad: 扩散大语言模型的中庸之道,杜克大学陈怡然团队免训推理加速61倍
  • Altman亲自发博客点赞,这两大杰出人才是谁?
  • 自变量机器人完成近 10 亿元 A+ 轮融资,多元资本押注共同布局具身智能未来
  • 不止综述!多模态大模型持续学习全链路:Benchmark、方法与Codebase一网打尽
  • 科研实习 | 北京大学计算机学院潘亮铭老师课题组招收NLP/大模型方向科研实习生
  • ICML 2025 | 别再只拼CoT了!不完备信息下的主动推理,LLM普遍掉线
  • 报名启动!西湖大学云谷青年学者论坛·人工智能分论坛诚邀全球英才
  • 时空壶发布 W4:用「硬核」技术,打赢一场 AI 翻译的「标准」之战
  • Science | 西奈山伊坎医学院新AI算法为1600种变异定量「风险」,解析疾病外显率难题
  • TPAMI 2025 | IGEV++:迭代多范围几何编码,刷新立体匹配技术新高度
  • 原来你是这样的外滩大会!
  • 小米通报王腾因泄密被辞退,本人发微博回应;传 IPO 估值 500 亿,宇树回应 ;辛顿自曝被女友用 AI 分手 | 极客早知道
  • Hinton自曝:前女友提分手,用ChatGPT列出自己「七宗罪」
  • 从「会说」迈向「会做」,LLM下半场:Agentic强化学习范式综述
  • 字节Seedream 4.0将全量开放!抢先评测来了,我们摸索出AI生图20种「邪修」玩法
  • 全球图生视频榜单第一,爱诗科技PixVerse V5如何改变一亿用户的视频创作
  • 扎克伯格的豪赌初见成效?Meta新方法让LLM长上下文处理提速30倍
  • 具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法
  • 上海AI Lab重磅综述:AI实现自主科学发现时代已经到来
  • 6 个月估值暴涨 5 倍突破 100 亿美元,三个「00后」逼急 Scale AI
  • Focal Loss也能无监督?北大×港中文团队用“双重不确定性优化”提升鲁棒3D感知
  • 给RL装上“防抖器”!GRPO稳化版来了:更高熵、更低KL、更稳更新
  • 深圳内推 | 腾讯音乐天琴实验室招聘音乐生成算法研究员(社招/校招)
  • 导师放养真的会毁掉一个人……
  • 上汽通用五菱与华为深化合作,推出首款车型宝骏华境S
  • IEEE TPAMI | M²Diffuser: 让机器人学会“脑补”,在复杂3D场景中实现精准移动操作
  • 国行版苹果 AI 推迟至年底上线;视频平台广告被曝「偷时间」;美国计划限制进口中国无人机和重型载具 | 极客早知道|极客早知道
  • 16岁创业,22岁做成百亿独角兽!3位高中同学帮大厂训AI年入1亿美金
  • 《2025新智元ASI前沿趋势报告》全文
  • 一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发
  • 苹果端侧AI两连发!模型体积减半、首字延迟降85倍,iPhone离线秒用
  • Claude不让我们用!国产平替能顶上吗?
  • SceneSplat: 基于3DGS的场景理解和视觉语言预训练,让3D高斯「听懂人话」的一跃
  • 慕尼黑车展 2025前瞻:中国队组团出海,BBA 走向「新」时代
  • 国内外AI大厂重押,初创梭哈,谁能凭「记忆」成为下一个「DeepSeek」?
  • 斯坦福:优化器「诸神之战」?AdamW 凭「稳定」胜出
  • 字节跳动Seed推出「机器人大脑」Robix:让机器人学会思考、规划与灵活互动
  • 浙大提出SSGaussian:注入语义与结构灵魂的3D风格迁移,让高斯溅射场景化身艺术品
  • 苹果 iPhone 17 系列规格已全被曝光;Anthropic 全面封杀中国公司接入;今夜将迎来「血月」月全食|极客早知道
  • OpenAI重组GPT-5「灵魂」团队!亚裔女负责人遭调离,罕见自曝AI幻觉祸首
  • 设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25
  • 谁不用谁亏!Karpathy吹爆GPT-5:10分钟编码完胜Claude一小时,奥特曼秒回感谢
  • 震撼实锤!清华姚班校友揭「1.4×加速」陷阱:AI优化器为何名不符实?
  • Anthropic被作家告了,违规下载700万本书,15亿美元和解了
  • 英伟达的局:狂撒15亿美元,从Lambda那租到了搭载自家AI芯片的GPU服务器
  • OpenAI罕见发论文:我们找到了AI幻觉的罪魁祸首
  • 00后以1.1亿美金「掀桌」,硅谷AI将书写影视新传奇 终结制片旧时代
  • 任意骨骼系统的模型都能驱动?AnimaX提出基于世界模型的3D动画生成新范式
  • IEEE TPAMI 2025| PointGST:参数量仅0.67%,精度首破99%,三维点云处理迎来谱域新范式!
  • ICCV 2025 | MOSEv2 全新亮相,第七届 LSVOS 挑战赛正式开启!
  • 华为新问界 M7,6 小时订单破 13 万;等 eSIM,iPhone17 Air 首发无国行;特斯拉拟给马斯克 1 万亿薪酬
  • 力压哈佛MIT!北交大、清华勇夺2025国际大学生程序设计竞赛金牌
  • 长视频生成可以回头看了!牛津提出「记忆增稳」,速度提升12倍
  • 0.01%参数定生死!苹果揭秘LLM「超级权重」,删掉就会胡说八道
  • 今天,特朗普闭门宴请了大半个硅谷的CEO,马斯克老黄没来
  • 追觅给洗地机,加了一双「灵巧手」
  • 被网友逼着改名的谷歌Nano Banana,正在抢99%时尚博主的饭碗
  • 不止会动嘴,还会「思考」!字节跳动发布OmniHuman-1.5,让虚拟人拥有逻辑灵魂
  • 外滩大会主论坛阵容揭幕!顶级学者、产业领袖和青年创新力量共话未来
  • 第一家 AI 浏览器公司,卖了 43 亿!
  • Nano Banana爆火之后,一个神秘的「胡萝卜」代码模型又上线了
  • 透明度罕见!百川公开M2完整技术报告,强化学习新范式引发行业关注
  • 博士申请 | 香港中文大学(深圳)游宇宁老师招收人工智能+生物医药全奖博士/实习生
  • 推理加持的排序SOTA!把“召回+相似度”写进RL,文档排序更稳更准
  • KDD 2025 | 图异常基础模型来了:跨域零样本、少样本微调,原型残差全拿下
  • 沉寂一个月,openPangu性能飙升8%!华为1B开源模型来了
  • 多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!
  • TPAMI重磅综述:一文读懂人类动作视频生成的五大阶段与三大多模态技术
  • 拓展天文学认知边界,Google DeepMind用AI助力LIGO,填补宇宙演化史缺失环节
  • 拍我AI限时免费6天!手办、宠物、奇幻创意随你生成不限次!
  • 传 DeepSeek AI 代理新模型年底发布;马斯克「金色擎天柱」首曝;比亚迪不回应销量下调传闻
  • 通用LLM压缩算法,居然藏视频编码里!2.5bit实现4bit性能,硬件无缝支持
  • 83岁用DeepSeek抢单,96岁凭AI挣养老钱!这群80+老人比你还会玩AI
  • 「纳米香蕉」LMArena两周500万投票,引爆10倍流量!谷歌、OpenAI扎堆打擂台
  • DeepSeek大招曝光?梁文峰督战超级智能体:能自主学习,或年底发布
  • 24999 元!华为推了一个「最大」的 Mate!
  • 刚刚,李飞飞主讲的斯坦福经典CV课「2025 CS231n」免费可看了
  • 又多了一个哄孩子AI神器,一张破涂鸦竟能秒变迪士尼动画
  • PosterGen:告别学术海报制作烦恼,从PDF一键生成「演示级」可编辑PPTX学术海报
  • 「一句话生成爆款视频」,这款 AI 流量神器有点东西|AI 上新
  • Claude Code凭什么牛?大模型团队天天用自家产品,发现bug直接就改了
  • 刚刚,OpenAI发布白皮书:如何在AI时代保持领先
  • 科研AI的进化论!系统梳理600+数据集与模型,上海AI Lab等发布科学大语言模型全景式综述
  • 腾讯 ARC Lab 开源 IC-Custom :一个强大且灵活的图像定制化工具!
  • 长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型InfinityHuman
  • 全奖读AI!人工智能专业排名全球前10的MBZUAI启动本硕博项目招生
  • SIGCOMM 2025|重新定义个性化视频体验,快手与清华联合提出灵犀系统
  • 拜读了某大佬发表的N篇顶会,原来论文“灌水”是这么玩的
  • 北京内推 | 阿里夸克教育团队招聘推荐大模型数据算法实习生
  • 听见空间!ASAudio全景综述:空间音频表示→理解→生成全链路
  • 多模态大模型,真的“懂”世界吗?ICML 2025高分论文实锤核心认知盲区
  • 特斯拉下一代金色Optimus原型现身?一双「假手」成为最大槽点
  • 让具身智能体拥有「空间感」!清华、北航联合提出类脑空间认知框架,导航、推理、做早餐样样精通
  • 传特斯拉 Model Y L 日均订单过万;苹果联手谷歌,Siri 整合 Gemini;优必选获 2.5 亿,全球最大人形机器人订单

SFT真不如RL?MIT团队抛出“RL的剃刀”,砍掉遗忘直通终身学习

让你更懂AI的 2025-09-10 13:41 北京

为什么RL更抗遗忘?

©来源 | 机器之心

我们已经进入了大模型时代,越来越多的应用依赖大模型的能力,可以说大模型已经成为智能化基础设施的核心组成部分,支撑着语言,视觉分析,智能驾驶,机器人等各种下游应用。

在大模型的实际使用中我们发现,大部分的模型还只是某个细分领域任务的大牛,离我们理想中的 AGI 仍然遥遥无期。

准确的说,这些投入部署的大模型大多是「静态」模型,对于其预训练或微调时优化的系列任务表现良好,但是在动态学习,自我提升这部分能力是缺位的。

如果我们希望实现更加通用的大模型,使其能像长期的智能助手一样,随时间不断适应新的任务与需求,很多技术瓶颈亟待突破。而最大的挑战之一就是「灾难性遗忘」。

相信大家对这个概念已经非常熟悉了,灾难性遗忘指的是模型在学习新任务时,会丢掉之前学到的技能。扩大模型规模、增加预训练数据确实能稍微缓解遗忘现象,但始终不能彻底解决。

▲ 图源:小红书 @机器坏人(AI 版)

针对灾难性遗忘的问题,研究者们提出了各种各样的改进方法,包括正则化、经验回放、参数微调等等。

但有没有一种可能,我们对大模型遗忘的研究想的有些太复杂了,如无必要勿增实体的剃刀原则才是根治问题的最佳手段。

几天前,来自麻省理工学院(MIT)Improbable AI Lab 的研究者针对该问题发表了一篇研究论文,将奥卡姆的剃刀伸向了大模型后训练,揭示了大模型遗忘现象的基本规律和训练策略,目前已在 Alphaxiv 上热度排名第一。

论文标题:

RL's Razor: Why Online Reinforcement Learning Forgets Less

论文链接:

https://www.arxiv.org/abs/2509.04259

现代 AI 系统面临一个根本性挑战:在学习新任务时,它们常常灾难性地遗忘先前获得的知识。这种现象严重限制了基础模型作为长期、持续学习代理的能力。

这项研究集中在一个惊人的实证观察上:

研究者比较了两种常见的后训练方式:监督微调(SFT) 和 强化学习(RL)。结果很出乎意料:

  • 即便 SFT 和 RL 在新任务上表现一样好,SFT 往往是通过 「牺牲旧知识」 来换取新任务的提升;

  • RL 却能在学习新技能的同时,更多地保留原有能力。

那么问题来了:为什么 RL 不容易遗忘?

图片

遗忘定律

研究揭示了一个新的规律,称为「遗忘定律」:

当模型 π 在新任务 τ 上进行微调时,遗忘程度可以通过 精确预测,即在新任务上评估的微调策略和基线策略之间的KL散度

这条定律在实践中非常有用,因为它可以在微调过程中进行测量甚至影响,而无需访问旧任务数据。尽管其机制仍有待充分理解,但这条定律在不同模型和领域之间的一致性表明它反映了遗忘的一个基本属性。

也就是说,微调后模型与原始模型在新任务分布上的差异越大,遗忘就越严重。

偏向 KL - 最小解减少了遗忘。左图显示,在能够解决新任务的策略中,RL 收敛到 KL 散度上最接近基模型的那些策略。右图显示,在相同的新任务性能下,这种 KL 偏向使得 RL 相比 SFT 能更好地保留先验任务的知识。

研究者进行了广泛的实验,以确定什么因素预示着灾难性遗忘。他们测试了各种假设,包括权重级变化、表示偏移和分布差异。通过对多个领域和模型架构进行系统性消融研究,他们发现微调策略和基础策略之间的前向 KL 散度是遗忘的一个惊人一致的预测指标

前向 KL 散度定义为:

其中 代表微调策略, 代表原始模型。

这种关系适用于不同的训练算法和超参数,形成了作者所称的「经验性遗忘定律」。在使用简化 ParityMNIST 任务的对照实验中,这种关系实现了 0.96 的 R²,证明了其预测能力。

该图显示,在帕累托前沿上,RL 始终优于 SFT,在语言模型(数学、科学问答、工具使用)和机器人任务中,RL 在新任务性能和先验知识保留之间实现了更好的权衡。

图片

RL的剃刀:KL最小路径原理

更有意思的是,RL 的优势正来自于它的「KL 偏好」。

  • 在新任务上,存在许多能达到高表现的解。

  • RL 天然偏向选择那些 离原始模型更近(KL 更小)的解;

  • 而 SFT 则可能收敛到距离原始模型很远的解,从而带来严重遗忘。

核心理论贡献是「RL 的剃刀」—— 即在解决新任务的所有方法中,RL 偏好与原始模型在 KL 散度上最接近的解决方案。这种偏向 KL 最小解的偏好解释了为什么 RL 比 SFT 遗忘得少。

为了验证 KL 假设,研究者构造了一个理想的「oracle SFT」 分布:它在保证新任务完美准确的同时,也做到 KL 最小化。结果显示,在这个分布上训练,遗忘比 RL 还少。这说明 RL 的优势并不是来自某种「本质上的不同」,而是源于它隐式地执行了 KL 最小化。只要训练过程偏向 KL 最小解,模型遗忘就会随之减少。

左图通过使用一个「Oracle SFT」分布来证明这一原理,该分布在实现完美新任务准确性的同时,解析地最小化了 KL 散度。

使用这种 Oracle 分布进行训练产生的遗忘比标准 RL 更少,证实了 KL 最小化是关键机制。中图展示了 KL 散度与遗忘之间的强关联(R² = 0.961),而右图则说明了与 SFT 相比,RL 如何通过较小的 KL 偏移实现高准确性。

图片

机制分析:在线策略学习与离线策略学习

为了理解 RL 何种机制驱动了其 KL 保守行为,研究人员比较了四种不同的训练范式:

分析揭示,数据收集的在线策略性质是关键因素,而不是负面示例的使用。在线策略方法(GRPO 和 1-0 Reinforce)保持较小的 KL 偏移和更好的先验任务保留,而离线方法(SFT 和 SimPO)无论是否使用负面示例,其行为都相似。

理论基础

作者通过信息几何的视角,为强化学习的 KL - 最小收敛提供了理论基础。他们表明,带有二元奖励的策略梯度方法可以被理解为在概率空间中执行交替的信息(I-)投影和期望(M-)投影:

这种迭代过程收敛到可表示策略类中的 KL - 最小最优策略,为「RL 的剃刀」提供了形式化解释。I - 投影步骤在满足奖励约束的同时最小化 KL 散度,而 M - 投影步骤则朝着更高奖励的动作更新。

更多数据

这项研究表明,这一原理超越了简单的实验环境。使用中心核对齐(Centered Kernel Alignment)进行的表示保留分析表明,与 SFT 相比,RL 保持与基础模型更高的相似性:

此外,对更大模型(70 亿和 140 亿参数)的实验证实,仅仅扩大规模并不能消除 SFT 中固有的遗忘权衡:

图片

总结

本篇论文的核心贡献有三点:

1. 实验证明:在相同性能下,RL 比 SFT 更不容易遗忘;

2. 提出遗忘定律:新任务上的 KL 散度 是预测遗忘的关键指标;

3. 理论与实证结合,解释了 RL 的优势来自其 on-policy 特性

这项研究为后训练提供了新的视角:为了实现无遗忘的持续适应,算法应该明确地旨在最小化与基模型之间的 KL 散度,确立了 KL 散度作为持续学习系统的基本设计原则。

这一原则为设计未来的训练方法打开了大门,这些方法将 RL 保留先验知识的能力与 SFT 的效率相结合,使基础模型能够真正地「终身学习」。

对于使用基础模型的实践者来说,这项研究提供了明确的指导:当持续适应很重要时,在线策略 RL 方法比标准微调方法具有显著优势。KL 散度指标还为模型适应期间的遗忘监测和预测提供了一个实用工具。

这项工作有助于我们理解为什么像 RLHF 中的 KL 正则化这样的常见实践是有效的,将经验观察提升到理论基础。这种原则性理解为开发真正长寿、能够持续学习而不会灾难性遗忘的 AI 代理开辟了新方向。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们