动态列表

  • 比GPT-5还准?AIME25飙到99.9%刷屏,开源模型首次!
  • 苹果AI秘密武器曝光!代号「AKI」团队浮出水面,乔布斯遗愿Siri终要翻身?
  • AI浪潮重塑一切,图形学路在何方?北大陈宝权入主SIGGRAPH执委会,肩负新使命
  • OpenAI用GPT-4b攻克诺奖难题!人体细胞「返老还童」,逆转效率飙升50倍
  • 「只参与,不参赛」奖牌数却仅次于宇树,这个幕后玩家如何做到的?
  • OpenAI重大发现:GPT-4b micro改造诺奖研究,山中因子重编程效率提高50倍
  • 第一名方案公开,代码智能体安全竞赛,普渡大学拿下90%攻击成功率
  • Coinbase强制全员上手AI工具,拒绝者直接开除
  • Chain-of-Agents: OPPO推出通用智能体模型新范式,多榜单SOTA,模型代码数据全开源
  • 马斯克沉迷的「刷刷刷」游戏,要来中国了
  • Anthropic 寻求 100 亿美元新融资;《恋与深空》获科隆展最佳移动游戏奖;脑瘫司机靠特斯拉 FSD 开车养家
  • 全球95%企业AI惨败?MIT报告引硅谷恐慌!90%员工偷用ChatGPT续命
  • 全球第一!西湖大学成功登顶Science,卷赢同行背后黑科技揭秘
  • 马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?
  • 刚刚,大模型棋王诞生!40轮血战,OpenAI o3豪夺第一,人类大师地位不保?
  • 可灵AI单季营收超2.5亿,快手财报里的「AI含金量」有多高?
  • NASA、IBM打造日地物理学首个开放式 AI 基础模型,用九年观测训练提升约16%耀斑预测准确率
  • 1 个月,2 场胜仗,李斌从「斌子」变成「斌神」
  • 球首款AI原生游戏引擎再进化:GTA6再不来,我们就AI一个
  • KDD 2025 Best Paper Runner-Up | EI-BERT:超紧凑语言模型压缩框架
  • 即梦推出“智能多帧”功能 突破AI视频长镜头创作瓶颈
  • 从实验室到餐桌:Robert Langer团队杨昕博士用新材料破解全球「隐性饥饿」
  • 北京内推 | 快手商业化算法部内循环电商模型组招聘推荐大语言模型算法实习生
  • 考场高分≠临床可靠!全球首个医疗动态红队测试框架,破解医疗AI落地危机
  • ICCV 2025 | 换脸迈入“电影级”!小红书发布DynamicFace,统一图像视频换脸基线
  • 那些让你「活人微死」的工作日,终于有救了
  • Cursor为Blackwell从零构建MXFP8内核,MoE层提速3.5倍,端到端训练提速1.5倍
  • 谷歌Gemini一次提示能耗≈看9秒电视,专家:别太信,有误导性
  • 从繁杂技巧到极简方案:ROLL团队带来RL4LLM新实践
  • 究竟会花落谁家?DeepSeek最新大模型瞄准了下一代国产AI芯片
  • ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式
  • 对话小米 AI 眼镜负责人:20 天卖光库存,但属于产品的「长跑」才刚开始
  • DeepSeek V3.1 发布:更强的 Agent ,更贵的 API;多家网约车平台集体降抽成;影石发布 4K 画质「口袋相机」|极客早知道
  • 谷歌手机十年最狠升级,全家桶AI宣战苹果!一句话P图,100倍变焦
  • GPT-5点赞!八大顶尖机构发布「自进化智能体」全面综述
  • 打工半年后,Atlas觉醒!「大行为模型」零代码上新技能,AI工业革命来了?
  • DeepSeek-V3.1震撼发布,全球开源编程登顶!R1/V3首度合体,训练量暴增10倍
  • 刚刚,好莱坞特效师展示AI生成的中文科幻大片,成本只有330元
  • 摆脱遥控器,波士顿动力人形机器人,开始「长脑子」干活了
  • 微软AI CEO警告:我们需要警惕「看似有意识的AI」
  • ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力
  • 汽车业务还没盈利,小米却已找到「第三曲线」
  • 通义APP上线官方知识库,首批覆盖教育、法律、金融等五大领域
  • AI Scientist生成的论文被指「剽窃」,回应称「未引用相关研究」,AI自动化科研还靠谱吗?
  • 训练减半反超GRPO!Shuffle-R1引入动态洗牌术,突破多模态RL效率瓶颈
  • 提分不提参!遥感图像四大SOTA trick:多模态融合、统一框架、轻量化与新范式
  • ICLR 2025 | 大模型为何会“举一反三”?揭开「上下文学习」的小样本学习密码
  • 博士申请 | 香港理工大学Ajay Kumar教授(IEEE Fellow)招收计算机视觉全奖博士生
  • 击败Meta登榜首:推理增强的文档排序模型ReasonRank来了
  • 千寻位置护航无人机表演,开启品牌多城联动新篇章
  • 刚刚,字节开源Seed-OSS-36B模型,512k上下文
  • 上下文记忆力媲美Genie3,且问世更早:港大和可灵提出场景一致的交互式视频世界模型
  • OpenAI 单月营收已经破 10 亿美元;马斯克的 Grok,超 37 万条用户聊天记录「裸奔」;谷歌发布 AI 手机
  • 成为「流量黑马」的老品牌,如何借拼多多秒懂 00 后?
  • AI 的终点不是对话框,这家公司想让真实世界成为 AI 的提示词
  • 网易有道发布子曰教育大模型多款AI新品,定义教育AI应用能力L1-L5分级
  • 二十余名英国青年科学家在沪参与好望角科学沙龙活动
  • 为长视频生成减负!浙大与华为提出Compact Attention,挖掘结构化稀疏加速2.5倍
  • TPAMI 2025 | 骨架动作理解大一统:东南大学等提出USDRL,一个面向密集表征学习的基础模型
  • 报名开启|中关村国际青年论坛:诚邀全球青年学者共探AI前沿
  • Sora没做到的,LongVie框架给解决了,超长视频生成SOTA
  • 「价格战」打了半年,吉利如何做到核心利润暴增102%?
  • 小鹏Q2财报「炸裂」:营收暴涨125%,毛利率反超特斯拉
  • Nature子刊 | 上智院统一框架RXNGraphormer,实现化学反应多任务精准预测,自发掌握分类规律
  • 首个面向肽分子设计的大模型平台:直接「读序列」出结合子,无需结构输入即可生成
  • 北京内推 | 清华×生数科技联合招聘音视频生成方向研究型实习生
  • 类PPO强化学习三部曲:GRPO简化→DAPO修正→GSPO全面进化
  • ICCV 2025满分论文!空间理解与主动探索大统一,MTU3D重塑AI具身导航范式
  • 90.5%准确率登顶8B模型榜首,快手Klear-Reasoner破解RL训练裁剪难题
  • 智谱推出AutoGLM 2.0:手机 Agent 的「Manus 时刻」?
  • 论坛报名已启动,速来锁定席位!解码具身智能的落地挑战与产业爆点
  • DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学
  • dLLM的「Free Lunch」!浙大&蚂蚁利用中间结果显著提升扩散语言模型
  • DeepSeek开源新基础模型,但不是V4,而是V3.1-Base
  • Meta超级智能实验室重组为四个部门,某些高管将离开
  • ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测
  • 黑神话系列第二作,《黑神话:钟馗》先导宣传片公布;小米卢伟冰:2027 年进军欧洲汽车市场;宇树预告新机器人
  • GPT-5暴写「屎山代码」!14个Prompt,看穿GPT-1到GPT-5七年智商进化史
  • 微软最新揭秘:「话痨实习生」AI助手,到底能帮人类做什么?
  • 陶哲轩「断粮」后,25年首次绝望怒吼:美国科学命脉被砍断!
  • 16岁天才少年炒掉马斯克,空降华尔街巨头!9岁上大学,14岁进SpaceX
  • 中科慧远发布CASIVIBOT,以九年积累开启AOI与机器人协同的品质检测新时代
  • 英伟达ViPE:任意视频一键转为3D几何数据,开源引擎与亿级帧数据集重磅发布!
  • CVPR 2025 | DeCLIP:解耦CLIP注意力,哈工大(深圳)、港大提出通用开放词汇密集感知新框架
  • 强化学习之父Richard Sutton最新演讲揭示OaK架构:通向超级智能的八步愿景
  • ICCV 2025 | RobustSplat: 解耦致密化与动态的抗瞬态3DGS三维重建
  • 医疗AI安全革命:全球首个医疗动态红队测试框架DAS,破解临床落地信任危机
  • 谷歌在上海办了场 AI 嘉年华,开发者们却说像逛「AI 基地」
  • 7年了,OpenAI官方给出五代GPT对比,网友却怀念起「狂野」初代
  • X-SAM:从「分割一切」到「任意分割」:统一图像分割多模态大模型,在20+个图像分割数据集上均达SoTA
  • FlashCommunication V2登场!突破「任意比特」通信瓶颈,加速大模型分布式训练与部署
  • CVPR 2025 | 打破壁垒!多模态统一学习新范式来了,数据、模型、代码全开源
  • 重温经典!十年前的视觉MoE雏形:HD-CNN用分层路由预演大模型逻辑
  • 博后招募 | 清华大学信息国家研究中心招收大模型/多模态/CV等方向博后/实习生
  • 开源版Genie 3世界模型来了:实时+长时间交互,单卡可跑,国内公司出品
  • 图生视频新玩法刷爆外网:图上画两笔就能动起来,终于告别文本提示
  • 妙笔生维:线稿驱动的三维场景视频自由编辑
  • 一句话,性能暴涨49%!马里兰MIT等力作:Prompt才是大模型终极武器
  • Z世代生存、学习与未来宣言!伯克利学霸预言课堂,用AI设计人生
  • AI来了!记者、UP主、写手,谁能逃过这场「灭绝浪潮」?
  • Hinton预言成真!AI接管美国一半白领,牛津哈佛扎堆转行做技工
  • 为什么「游戏」是 AI 陪伴落地的好场景?
  • 新加坡 AI 办公系统 Agnes:200 个 Agent 并行研究,让 AI 主动「找茬」打磨设计
  • 机器人也会「摸鱼」了?宇树G1赛后葛优瘫刷美女视频,网友:比人还懂享受生活
  • LLM为什么能看懂图?秘密不在Projector,残差结构才是跨模态理解的关键
  • 从GPT-2到gpt-oss,深度详解OpenAI开放模型的进化之路
  • NextStep-1:一次在图像生成上自回归范式的探索
  • KDD 2025 | UoMo来了,首个无线网络流量预测模型,一个框架搞定三类任务
  • ICCV 2025 | MobileViCLIP:快55倍!南大等提出首个高效“视频-文本模型,让多模态AI在手机可运行!
  • 突破长视频生成瓶颈:南大 × TeleAI 联合推出全新 AI 生成范式 MMPL,让创意“一镜到底”
  • 开源扩散大模型首次跑赢自回归!上交大联手UCSD推出D2F,吞吐量达LLaMA3的2.5倍
  • 一张图,开启四维时空:4DNeX让动态世界 「活」起来
  • AI发现新物理定律:纠正等离子体理论多年错误假设
  • 多模态大模型在化学与材料学的「体检表」——哪些能力靠谱,哪些还差很远?
  • Altman:希望 AGI 能提高生育率;与辉同行否认董宇辉年收入二三十亿元;今年国内智能眼镜市场同比增长121.1%
  • 刚刚!谷歌内部揭秘Genie 3:Sora后最强AI爆款,开启世界模型新时代
  • 硬核拆解!从GPT-2到gpt-oss,揭秘大模型进化关键密码
  • 黄仁勋子女逆袭上位!4万亿「皇储」成长史首曝:一个学烘培,一个开酒吧
  • GPT-5首次会推理,OpenAI联创曝AGI秘诀!超临界学习吞噬算力,2045金钱无用?
  • 400万人围观的分层推理模型,「分层架构」竟不起作用?性能提升另有隐情?
  • CoRL 2025|隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力
  • SEAgent:开启从实战经验中自我进化的GUI智能体新纪元
  • 给DiT装上“迷你”控制舵:NanoControl实现高效精准控制,参数量仅增0.024%
  • OpenAI估值达5000亿美元;「原道」联手小岛秀夫,推《死亡搁浅》耳机;苹果手表将「大幅重新设计」

别再分开训!SFT+RL融合范式全解析:统一视角下的六大方法

白强伟 2025-08-22 14:27 北京

效率翻倍,难题也能啃!

©作者 | 白强伟

单位 | 熵基跃迁

研究方向 | 强化学习

为什么要融合SFT和RL

RL 虽然能够有效提升模型的推理能力,但一个重要的前提是基础模型本身具备了一定的相关能力。在 RL 训练中,通过多次 rollout 能够采样到正确的轨迹,这样通过 RL 才能进一步提升。这无疑限制了 RL 的探索空间。

因此,主流的方式是通过 SFT 赋予模型一些基础能力,然后在进一步利用 RL 来提升相关能力。但是一些研究认为两阶段的方式并不是最优的:

  • [1] 通过实验发现,RL 能改善中低难度问题的解决能力,SFT 则对高难度问题更有效;

  • [4] 则认为更大模型(或者专家)构造的 SFT 包含跳跃逻辑,通过 SFT 难以完全模仿这些逻辑,导致进行 RL 时难以 rollout 出有效的正样本;

  • [3][5] 则直接认为两个独立的阶段本身没有必要存在,应该统一;

  • [6] 进一步分析,发现 SFT 和 RL 之间存在着某种对抗,SFT 使模型大幅度偏离基础模型,而 RL 又会将其拉回基础模型;

综上,这些研究均认为有必要将 SFT 和 RL 融合为单一阶段。

基础知识

在标准的 LLM 训练流程中,通常包含三个阶段:Pre-training、SFT 和 RL。Pre-training 阶段采用自回归的方式在海量数据上完成预训练,为后续的 Post-training 奠定基础。Post-training 通常分为 SFT 和 RL,这两个阶段均需要一个多样性丰富的 prompt 集合

2.1 SFT

在该阶段对于 prompt ,会采用专家撰写、人工合成或者强模型蒸馏的方法来构造高质量的响应 。这里不妨假设 ,其中 代表人类专家或者更强的模型等。那么,SFT 训练的损失函数为

该损失函数的梯度表示为

2.2 RL

RL 通常在 SFT 阶段后进行。在 On-Policy 的设定下,对于 promt ,通常会从当前策略 中采样响应 。RL 的损失函数为

该损失函数的策略梯度为

其中, 是针对 的奖励。公式(4)是标准 REINFORCE 的梯度,在实际中通常为了降低方差会采用带基线的 REINFORCE。

带基线的 REINFORCE 本质上是用优势函数来代替奖励,相比于奖励的直接含义,优势函数代表相对于平均状况的改善程度。因此,带基线的 REINFORCE 的梯度为:

其中, 的优势。

2.2.1 GRPO

到目前为止,GRPO 已经近乎于 LLM 后训练中 RL 算法的事实标准了。GRPO 是 PPO 的一种无 critic 模型的变种,针对同一个 promt ,会同时采样 个响应 ,每个响应 对应于一个标量奖励

在标准的 PPO 中需要 critic 模型来辅助计算优势,GRPO 则采用组内标准化实现优势的近似计算:

这里 是指第 个响应的第 个 token 的优势。除了优势的计算外,损失函数与 PPO 类似

其中 是重要性采样。

交替进行SFT和RL

ReLIFT [1] 认为 RL 改善中低难度问题,SFT 改善高难度问题。因此,设计了一种交替方案。具体来说,在 RL 过程中将 rollout 过程中完全错误的样本放入缓冲池。当缓冲池满时,利用这些样本进行 SFT。

将SFT用作RL中的Off-Policy样本

相比于交替进行 SFT 和 RL,LUFFY [2] 则将 SFT 用作 Off-Policy 样本,然后通过重要性采样将其统一在 RL 过程中。显然,这样的方式更自然一些。

4.1 符号

表示直接使用策略进行 rollout 得到的 Non 条轨迹。

则是 条 SFT 数据。

4.2 混合On和Off的样本

最简单的方式是直接将 Off-Policy 的样本混合到 On-Policy 数据中进行训练,那么损失函数可以写为:

其中 是归一化因子。

但是上式中的 off policy objective 中的重要性采样 如果仍然使用 并不合适,因为分母中的 并不是产生 off policy 数据 的分布。因此,第一项应该采用新的重要性采样:

将新的重要性采样系数(9)替换公式(8)就得到了最终的混合损失函数:

4.3 重要性采样修正

依照公式(10)进行训练,虽然解决了梯度偏差的问题。但是,训练中发现其加速收敛的同时,也显著抑制了探索,导致快速的熵坍缩,如上图左所示。

进一步的分析认为,当模型同时接收 On 和 Off 的信号时,其倾向于优先加强那些既存在于 On-Policy 轨迹中,也存在于 Off-Policy 轨迹中的概率较高 token。

那些来自于 Off-Policy 轨迹中的低概率 token,对于推理至关重要,但是由于 太小导致学习信号微弱。

因此,[2] 提出利用一个修正函数 来调整重要性采样 ,即使用 替换公式(10)中的

为什么能放大 Off-Policy 轨迹中的低概率 token?

对于 Off-Policy 部分的损失函数针对 的梯度可以表示为

观察上式可以发现新损失函数相当于在原始策略梯度的基础上添加了一个权重因子 。为了简化分析,可以合理假设离策略对其生成样本的置信度为 1,即 。那么权重因子进一步简化为 。由于 ,当 时,,相当于放大梯度。反之,当 时,,这是一个非常小的数,相当于缩小梯度。

同时进行SFT和RL

相较于 LUFFY [2] 通过将 SFT 视为 Off-Policy 样本,从而统一至 RL。SRFT [6] 则进一步采用了偏向于实践的风格,即同时采用 SFT 和 RL 损失。

SFT 损失函数。标准的 SFT 损失函数为如公式(1)所示,但是若一个样本的熵太高,则表明该样本对当前模型来说比较陌生。应该降低 SFT 损失的比例,因此采用带有权重的 SFT 损失函数:

其中

Off-Policy RL 损失函数。类似于 LUFFY,将 SFT 视为 Off-Policy 样本:

其中 同 LUFFY 的公式(9)。

On-Policy RL 损失函数。在二元奖励 {+1, -1} 设定下,标准的 On-Policy RL 损失函数为:

但是,SRFT 为了缓解熵坍缩,对正样本部分的损失添加了一个基于熵的权重:

其中 。当熵较大时,意味着模型对这个样本不太确定,较大的 强制模型更多的学习该样本。

最终的损失函数。将公式(11)、(12)和(13)求和得到最终的损失函数:

因此,该方法同时进行 SFT、Off-Policy RL 和 On-Policy RL。

将SFT用作hint

hint 是指问题和部分正确答案的拼接。标准 RL 的主要问题是针对难问题无法 rollout 出正样本。SFT 作为天然正样本,可以将其一部分响应与问题进行拼接,从而构造出一个 hint。策略基于 hint 进行 rollout,而不是原始的 prompt。

基于 hint 的方法主要围绕两个问题:a. 如何构造合适的 hint?b. hint 部分在训练中怎么处理?

6.1 如果构造合适的 hint

动态调整 hint 的长度[3][5] 采用了动态调整 hint 长度的方式,从而构造出难度循序渐进的 hint。这种方式即能调整难度,也能缓解训推不一致的问题。假设一条 SFT 样本的完整长度为 [3] 使用余弦退火的方式动态调整 hint 的占比系数 。但不直接使用 作为 hint 的长度,而是将 视为试验数, 作为成功概率的二项分布,然后基于该分布采样 hint 长度 [5] 则是从动态区间 中进行采样,其中上界 high 是固定的,下界 low 则是通过余弦函数从 high 一直衰减到 0。这样,模型能够从刚开始基于较多提示才能回答对问题,逐步能够独立回答对问题。

基于 rollout 的结果调整 hint[4] 提出二分搜索的方式寻找合适的 hint。具体来说,分如下情况:

  • 若基于当前的 hint 进行 rollout,所有 rollout 均失败,则加长 hint;

  • 若基于当前的 hint 进行 rollout,所有 rollout 均成功,则缩短 hint;

  • 介于二者之间则认为是难度适宜的 hint;

6.2 训练方式

标准 RL 训练方式[4][5] 均是将基于 hint 得到的 rollout 当做普通 rollout,采用标准 RL 进行训练。相比于 [4] 仅使用基于 hint 的 rollout,[5] 则会将标准 rollout 和基于 hint 的 rollout 混合在一起进行训练。此外,[5] 认为 hint 部分直接加入到强化学习中,会强制模型学习概率降低的 token,产生巨大梯度,从而导致训练不稳定。因此,需要对来自于 SFT 部分的 token 进行筛选,仅保留熵最高的 top-k% 个 token 的梯度。

结合 SFT 和 RL 训练方式[3] 对于 hint 部分和 rollout 部分采用了不同的损失函数。对于 hint 部分使用 SFT 损失函数,对于 rollout 部分使用 RL 损失函数。具体来说,在 GRPO 的设定下,每个 prompt 会产生 个 response ,每个 的前 部分属于 hint。那么,损失函数为

参考文献

[1] Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

https://arxiv.org/pdf/2506.07527

[2] Learning to Reason under Off-Policy Guidance

https://arxiv.org/pdf/2504.14945

[3] UFT: Unifying Supervised and Reinforcement Fine-Tuning

https://arxiv.org/pdf/2505.16984

[4] BREAD: Branched Rollouts from Expert Anchors Bridge SFT & RL for Reasoning

https://arxiv.org/pdf/2506.17211

[5] Blending Supervised and Reinforcement Fine-Tuning with Prefix Sampling

https://arxiv.org/pdf/2507.01679

[6] SRFT: A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning

https://arxiv.org/pdf/2506.19767

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们