动态列表

  • 不到10天,国产「香蕉」突袭!一次7图逼真还原,合成大法惊呆歪果仁
  • 再也不怕面瘫脸!YouTube黑科技:AI帮你「永久微笑」,连僵尸都咧嘴笑
  • OpenAI真正王牌,不是Ilya!刚刚,奥特曼罕见致谢这两人
  • 缔造OpenAI的秘密,竟只有一个词!新智元十年峰会圆桌,七位大咖激辩
  • Hinton预言失灵?掌握AI技能涨薪23%,比读硕士更赚钱
  • 文心新出的推理大模型,给了我们信心
  • SFT远不如RL?永不过时的剃刀原则打开「终身学习」大模型训练的大门
  • 从第一性原理出发的RAG推理新范式来了,蚂蚁DIVER登顶权威基准
  • 击败多个行业巨头,优必选自研人形机器人最强大脑 Thinker 斩获全球四项第一
  • 字节跳动发布 Seedream 4.0 图像创作模型,豆包、即梦可免费体验
  • 从科幻到产业元年 | 「脑机接口」系统综述发布:全景解析理论、技术、挑战、趋势
  • 硅谷也996实锤了?AI的火,烧掉了硅谷的周末
  • DPad: 扩散大语言模型的中庸之道,杜克大学陈怡然团队免训推理加速61倍
  • Altman亲自发博客点赞,这两大杰出人才是谁?
  • 自变量机器人完成近 10 亿元 A+ 轮融资,多元资本押注共同布局具身智能未来
  • 报名启动!西湖大学云谷青年学者论坛·人工智能分论坛诚邀全球英才
  • 不止综述!多模态大模型持续学习全链路:Benchmark、方法与Codebase一网打尽
  • 科研实习 | 北京大学计算机学院潘亮铭老师课题组招收NLP/大模型方向科研实习生
  • ICML 2025 | 别再只拼CoT了!不完备信息下的主动推理,LLM普遍掉线
  • 时空壶发布 W4:用「硬核」技术,打赢一场 AI 翻译的「标准」之战
  • Science | 西奈山伊坎医学院新AI算法为1600种变异定量「风险」,解析疾病外显率难题
  • TPAMI 2025 | IGEV++:迭代多范围几何编码,刷新立体匹配技术新高度
  • 原来你是这样的外滩大会!
  • 小米通报王腾因泄密被辞退,本人发微博回应;传 IPO 估值 500 亿,宇树回应 ;辛顿自曝被女友用 AI 分手 | 极客早知道
  • Hinton自曝:前女友提分手,用ChatGPT列出自己「七宗罪」
  • 从「会说」迈向「会做」,LLM下半场:Agentic强化学习范式综述
  • 字节Seedream 4.0将全量开放!抢先评测来了,我们摸索出AI生图20种「邪修」玩法
  • 全球图生视频榜单第一,爱诗科技PixVerse V5如何改变一亿用户的视频创作
  • 扎克伯格的豪赌初见成效?Meta新方法让LLM长上下文处理提速30倍
  • 具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法
  • 上海AI Lab重磅综述:AI实现自主科学发现时代已经到来
  • 6 个月估值暴涨 5 倍突破 100 亿美元,三个「00后」逼急 Scale AI
  • 导师放养真的会毁掉一个人……
  • Focal Loss也能无监督?北大×港中文团队用“双重不确定性优化”提升鲁棒3D感知
  • 深圳内推 | 腾讯音乐天琴实验室招聘音乐生成算法研究员(社招/校招)
  • 上汽通用五菱与华为深化合作,推出首款车型宝骏华境S
  • IEEE TPAMI | M²Diffuser: 让机器人学会“脑补”,在复杂3D场景中实现精准移动操作
  • 国行版苹果 AI 推迟至年底上线;视频平台广告被曝「偷时间」;美国计划限制进口中国无人机和重型载具 | 极客早知道|极客早知道
  • 16岁创业,22岁做成百亿独角兽!3位高中同学帮大厂训AI年入1亿美金
  • 《2025新智元ASI前沿趋势报告》全文
  • 一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发
  • 苹果端侧AI两连发!模型体积减半、首字延迟降85倍,iPhone离线秒用
  • Claude不让我们用!国产平替能顶上吗?
  • SceneSplat: 基于3DGS的场景理解和视觉语言预训练,让3D高斯「听懂人话」的一跃
  • 慕尼黑车展 2025前瞻:中国队组团出海,BBA 走向「新」时代
  • 国内外AI大厂重押,初创梭哈,谁能凭「记忆」成为下一个「DeepSeek」?
  • 斯坦福:优化器「诸神之战」?AdamW 凭「稳定」胜出
  • 字节跳动Seed推出「机器人大脑」Robix:让机器人学会思考、规划与灵活互动
  • 浙大提出SSGaussian:注入语义与结构灵魂的3D风格迁移,让高斯溅射场景化身艺术品
  • 苹果 iPhone 17 系列规格已全被曝光;Anthropic 全面封杀中国公司接入;今夜将迎来「血月」月全食|极客早知道
  • OpenAI重组GPT-5「灵魂」团队!亚裔女负责人遭调离,罕见自曝AI幻觉祸首
  • 设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25
  • 谁不用谁亏!Karpathy吹爆GPT-5:10分钟编码完胜Claude一小时,奥特曼秒回感谢
  • 震撼实锤!清华姚班校友揭「1.4×加速」陷阱:AI优化器为何名不符实?
  • Anthropic被作家告了,违规下载700万本书,15亿美元和解了
  • 英伟达的局:狂撒15亿美元,从Lambda那租到了搭载自家AI芯片的GPU服务器
  • OpenAI罕见发论文:我们找到了AI幻觉的罪魁祸首
  • 00后以1.1亿美金「掀桌」,硅谷AI将书写影视新传奇 终结制片旧时代
  • 任意骨骼系统的模型都能驱动?AnimaX提出基于世界模型的3D动画生成新范式
  • ICCV 2025 | MOSEv2 全新亮相,第七届 LSVOS 挑战赛正式开启!
  • IEEE TPAMI 2025| PointGST:参数量仅0.67%,精度首破99%,三维点云处理迎来谱域新范式!
  • 华为新问界 M7,6 小时订单破 13 万;等 eSIM,iPhone17 Air 首发无国行;特斯拉拟给马斯克 1 万亿薪酬
  • 力压哈佛MIT!北交大、清华勇夺2025国际大学生程序设计竞赛金牌
  • 长视频生成可以回头看了!牛津提出「记忆增稳」,速度提升12倍
  • 0.01%参数定生死!苹果揭秘LLM「超级权重」,删掉就会胡说八道
  • 今天,特朗普闭门宴请了大半个硅谷的CEO,马斯克老黄没来
  • 追觅给洗地机,加了一双「灵巧手」
  • 被网友逼着改名的谷歌Nano Banana,正在抢99%时尚博主的饭碗
  • 不止会动嘴,还会「思考」!字节跳动发布OmniHuman-1.5,让虚拟人拥有逻辑灵魂
  • 外滩大会主论坛阵容揭幕!顶级学者、产业领袖和青年创新力量共话未来
  • 第一家 AI 浏览器公司,卖了 43 亿!
  • Nano Banana爆火之后,一个神秘的「胡萝卜」代码模型又上线了
  • 推理加持的排序SOTA!把“召回+相似度”写进RL,文档排序更稳更准
  • KDD 2025 | 图异常基础模型来了:跨域零样本、少样本微调,原型残差全拿下
  • 透明度罕见!百川公开M2完整技术报告,强化学习新范式引发行业关注
  • 博士申请 | 香港中文大学(深圳)游宇宁老师招收人工智能+生物医药全奖博士/实习生
  • 沉寂一个月,openPangu性能飙升8%!华为1B开源模型来了
  • 多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!
  • TPAMI重磅综述:一文读懂人类动作视频生成的五大阶段与三大多模态技术
  • 拓展天文学认知边界,Google DeepMind用AI助力LIGO,填补宇宙演化史缺失环节
  • 拍我AI限时免费6天!手办、宠物、奇幻创意随你生成不限次!
  • 传 DeepSeek AI 代理新模型年底发布;马斯克「金色擎天柱」首曝;比亚迪不回应销量下调传闻
  • 通用LLM压缩算法,居然藏视频编码里!2.5bit实现4bit性能,硬件无缝支持
  • 83岁用DeepSeek抢单,96岁凭AI挣养老钱!这群80+老人比你还会玩AI
  • 「纳米香蕉」LMArena两周500万投票,引爆10倍流量!谷歌、OpenAI扎堆打擂台
  • DeepSeek大招曝光?梁文峰督战超级智能体:能自主学习,或年底发布
  • 24999 元!华为推了一个「最大」的 Mate!
  • 刚刚,李飞飞主讲的斯坦福经典CV课「2025 CS231n」免费可看了
  • 又多了一个哄孩子AI神器,一张破涂鸦竟能秒变迪士尼动画
  • PosterGen:告别学术海报制作烦恼,从PDF一键生成「演示级」可编辑PPTX学术海报
  • 「一句话生成爆款视频」,这款 AI 流量神器有点东西|AI 上新
  • Claude Code凭什么牛?大模型团队天天用自家产品,发现bug直接就改了
  • 刚刚,OpenAI发布白皮书:如何在AI时代保持领先
  • 科研AI的进化论!系统梳理600+数据集与模型,上海AI Lab等发布科学大语言模型全景式综述
  • 腾讯 ARC Lab 开源 IC-Custom :一个强大且灵活的图像定制化工具!
  • 长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型InfinityHuman
  • 全奖读AI!人工智能专业排名全球前10的MBZUAI启动本硕博项目招生
  • SIGCOMM 2025|重新定义个性化视频体验,快手与清华联合提出灵犀系统
  • 北京内推 | 阿里夸克教育团队招聘推荐大模型数据算法实习生
  • 听见空间!ASAudio全景综述:空间音频表示→理解→生成全链路
  • 多模态大模型,真的“懂”世界吗?ICML 2025高分论文实锤核心认知盲区
  • 拜读了某大佬发表的N篇顶会,原来论文“灌水”是这么玩的
  • 特斯拉下一代金色Optimus原型现身?一双「假手」成为最大槽点
  • 让具身智能体拥有「空间感」!清华、北航联合提出类脑空间认知框架,导航、推理、做早餐样样精通
  • 传特斯拉 Model Y L 日均订单过万;苹果联手谷歌,Siri 整合 Gemini;优必选获 2.5 亿,全球最大人形机器人订单
  • UCSD首个智能体浏览器发布!多页面设计,颠覆传统交互
  • Hinton最新警告:杀手机器人或将带来更多战争,最大担忧是AI接管人类
  • AI教父Hinton诺奖演讲首登顶刊!拒绝公式,让全场秒懂「玻尔兹曼机」
  • 奥数金牌只是序章!OpenAI谷歌彻底打脸预言家,AI巨浪势不可挡
  • 出货 1000 万台硬件后,我们和「凯叔讲故事」聊了聊「AI玩具」的核心
  • 他不懂代码,却用 AI 黑掉 17 家医院和机构,Vibe Hacking 让全世界变成缅北
  • 刚刚,谷歌放出Nano Banana六大正宗Prompt玩法,手残党速来
  • Anthropic承认模型降智后仍放任其偷懒?Claude Code用户信任崩塌中
  • ICCV 2025 | 基于时序增强关系敏感知识迁移的弱监督动态场景图生成
  • ICLR 2025|KGExplainer:让新知识的发现“有理可循”
  • 入局AI4S?CPO宣布「OpenAI for Science」计划:打造下一代科学工具
  • 2025外滩大会下周开幕 16位院士、图灵奖得主领衔40多场思想盛宴
  • 从复刻魔术开始,RoboMirage打开了机器人仿真的新世界
  • 宇树科技官宣:年内提交IPO,或将冲刺科创板
  • 其实,扩散语言模型在最终解码之前很久,就已确定最终答案
  • 语音分离最全综述来了!清华等团队深度分析200+文章,系统解析「鸡尾酒会问题」研究
  • 原子思维上线!Agentic Deep Research再进化:推理更深、答案更准
  • Benchmark新试炼场!从棋盘到德扑全覆盖,GAMEBoT虐测大模型推理力
  • 北京/苏州内推 | 微软亚太研发集团招聘AI智能预测实习生
  • 【9月9日直播】大模型复杂推理技术:如何重塑AI推理逻辑
  • USO:鱼与熊掌亦可兼得,字节跳动提出统一框架,完美融合主体与风格生成
  • 刚刚,Anthropic在质疑声中获130亿美元融资,估值达1830亿
  • IROS 2025 | 机器人衣物折叠新范式,NUS邵林团队用MetaFold解耦轨迹与动作
  • iPhone 17定价曝光,仅Pro涨价;李斌:4季度实现月卖5万台车;COD「使命召唤」大电影官宣|极客早知道

给RL装上“防抖器”!GRPO稳化版来了:更高熵、更低KL、更稳更新

让你更懂AI的 2025-09-08 13:32 北京

把平均值一换,训练就稳了

近年来,强化学习(RL)在大型语言模型(LLM)的微调过程中,尤其是在推理能力提升方面,取得了显著的成效。

传统的强化学习方法,如近端策略优化(Proximal Policy Optimization,PPO)及其变种,包括组相对策略优化(Group Relative Policy Optimization,GRPO),在处理复杂推理任务时表现出了强大的潜力。

然而,尽管它们在许多场景下都表现良好,仍然面临着在训练过程中不稳定的问题,尤其是在处理带有极端重要性加权奖励时。几何平均策略优化(Geometric-Mean Policy Optimization,GMPO),作为 GRPO 的稳定化版本,解决这一问题。

本文将深入探讨 GMPO 的原理、优势,并通过理论分析和实验验证来展示其强大的效果。

论文标题:

Geometric-Mean Policy Optimization

论文链接:

https://arxiv.org/abs/2507.20673

代码链接:

https://github.com/callsys/GMPO

▲ 图1. GMPO 和 GRPO 的对比。GRPO 优化算数平均奖励、而 GMPO 优化几何平均奖励(左)。 在训练过程中,GRPO 经常出现极端重要性采样比率,更新不稳定,而 GMPO 有更稳定的重要性采样比率,更新更加稳定(右)。

图片

GRPO面临的挑战

组相对策略优化(GRPO)是强化学习在大型语言模型微调中的重要进展。GRPO 通过优化 token 级奖励的算术平均值来进行训练(忽略了剪切操作):

然而算数平均对异常值十分敏感,在训练过程中容易产生极端的重要性采样比率(ps. 当前策略与旧策略分配给一个 token 的概率比)。在训练过程中,重要性采样比率(即当前策略与旧策略分配给一个标记的概率比)可能会大幅波动。这种波动导致策略更新不稳定。

为了缓解这一问题,GRPO 引入了对重要性采样比率的剪切操作,但这种方法并未完全解决稳定性问题,并且还过度限制模型更新幅度使得模型探索能力变弱,进而影响了模型的泛化能力。

图片

GMPO:GRPO的稳定化版本

GMPO 通过优化几何平均来替代 GRPO 中的算术平解决了 GRPO 在训练过程中容易受到异常值影响的问题。几何平均本身对异常值更具鲁棒性,因为它会相对抑制极端值的影响,从而使训练过程更加稳定。GMPO 的训练目标可以表示为:

这种简单而有效的修改确保了 GMPO 在训练过程中能够更好地处理极端奖励,从而避免了 GRPO 中常见的不稳定情况。

通过将 PPO 中的 token 级裁切策略引入 GMPO,我们得到了 GMPO 的完整公式:

为了维持计算的稳定性,GMPO 中的连乘操作和裁切操作被放在 log 域执行。GMPO 的伪代码如下所示:

为了进一步理解为什么 GMPO 相比于 GRPO 更加稳定,我们推导并证明了 GMPO 在梯度层面上相对 GRPO 更加鲁棒:

可以看到,GRPO 每个 token 的梯度受到了它自身的重要性采样比率加权,容易受到极端值影响。GMPO 每个 token 的梯度则受到序列重要性采样比率的几何平均加权,不容易受到极端值影响。

图2. 不同剪切范围和训练步骤下的重要性采样比率范围。范围越宽,表示策略更新越不稳定。与 GRPO(剪切范围为 (0.8, 1.2))相比,GMPO 在剪切范围为 (e−0.4, e0.4) 的情况下表现出更大的稳定性。

除了算数平均向几何平均的变化,GMPO 还有两个关键设计:

1. 在 token 级别进行裁切。不同于 DeepSeek-Math,在 DeepSeek-R1 中,GRPO 被定义在了序列级。序列级重要性采样比率等效于 token 级重要性采样比率的连乘,DeepSeek-R1 对序列级重要性采样比率进行了裁切。

GMPO 没有跟随 DeepSeek-R1 进行序列级别裁切,而是继续跟随 DeepSeek-Math 进行 token 级裁切。原因如下:

(1)与序列级别的剪切相比,词元级别的剪切更加稳定。如图 2 所示,序列级别剪切(GMPO-seqclip-(e−0.4,e0.4))的采样范围大于词元级别剪切(GMPO (e−0.4,e0.4)),因此在优化过程中更容易产生极端梯度。

(2)序列级别的剪切相比 token 级别的剪切过于激进。一旦触发,它会将整个序列中所有 token 的梯度置为零,可能会丢失来自序列中有价值部分的梯度信号。

2. 更宽的裁切。正如 DAPO 所示,剪切操作可能限制探索并导致早期的确定性策略,从而妨碍扩展过程。为了在不牺牲稳定性的情况下促进探索,DAPO 采用了剪切上限策略,将剪切范围从 (0.8, 1.2) 轻微扩展至 (0.8, 1.28)。

如图 1 所示,我们可视化了 GRPO 和 GMPO 在每个训练步骤中的最大和最小重要性采样比率。关键观察结果如下:

(1)随着训练的进行,重要性采样比率的范围逐渐扩大,表明策略更新变得更为激进,稳定性降低。

(2)与 GRPO 相比,GMPO 保持了更稳定的采样比率范围,表明更新更加稳定。

(3)对于 GMPO,将剪切范围从 (e−0.2,e0.2) 扩展至 (−∞,+∞) 会增加策略更新的不稳定性。基于这些发现,我们通过将方程 4 中的剪切阈值 (ϵ1,ϵ2) 设置为 (e−0.4,e0.4) 来平衡训练稳定性与探索性。这个范围显著大于 GRPO 和 DAPO,能鼓励更大的探索,并提升性能。

图片

GMPO的优势

与 GRPO 相比,GMPO 在以下几个方面具有明显的优势:

1. 更稳定的策略更:GMPO 的梯度更新更加稳定。

2. 更高的奖励:与 GRPO 相比,GMPO 在简单数据集 MATH Level 3-Level 5 上维持了相当的奖励。在更难的 DeepScaleR 和多模态数据集 Geometry3K 上有更高的奖励。

3. 减少过拟合的风险:相对于 GRPO,GMPO 自然地维持了和 RL 前模型的 KL 散度。通过保持较小的 KL 散度,GMPO 减少了过拟合的风险,有助于模型在更复杂的任务中取得更好的表现。

4. 更高的熵值:GMPO 在训练过程中能够保持更高的熵,支持更加持续的探索,避免了训练过程中的早期收敛。

图片

实验验证:GMPO与GRPO的对比

为了验证 GMPO 的有效性,我们在多个语言任务和多模态推理基准上进行了广泛的实验。实验结果表明,GMPO 在多个数据集上显著优于 GRPO,无论是在稳定性方面,还是在推理能力方面。

1. 语言任:在语言推理任务中,GMPO 在五个数学推理基准上进行了测试,这些基准包含不同难度的数学问题,包括 AIME24、AMC、MATH500、Minerva 和 OlympiadBench。实验结果显示:

2. 多模态任务:在多模态推理任务中,GMPO 在 Geometry3K 基准上进行了测试,该任务涉及几何问题的解答。GMPO 相比 GRPO,在 Pass@1 准确率上提高了 1.4%,这表明 GMPO 在多模态任务中的应用潜力。

图片

结论

Geometric-Mean Policy Optimization(GMPO)通过优化标记级奖励的几何平均值,成功克服了 GRPO 在训练过程中面临的不稳定性问题。

与传统的算术平均方法相比,GMPO 的策略更新更加稳定,探索能力更强,同时减少了过拟合的风险。通过广泛的理论分析和实验验证,GMPO 在语言任务和多模态推理任务中都取得了显著的优势。

GMPO 的提出为未来强化学习在大型语言模型中的应用提供了一个更加可靠且可扩展的解决方案,为未来的研究奠定了坚实的基础。随着对 LLM 推理能力的不断提升,GMPO 无疑将在推动更高效、更稳定的强化学习系统方面发挥重要作用。

关于作者:

本文主要作者:赵毓钟,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为多模态学习、语言模型后训练。刘悦,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为视觉表征模型。

指导老师:万方,中国科学院大学计算机学院副教授,博导。叶齐祥,中国科学院大学电子学院教授,博导。 崔磊,微软亚洲研究院通用人工智能组(GenAI)首席研究经理。韦福如,微软亚洲研究院通用人工智能组(GenAI)杰出科学家。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们