动态列表

  • 陶哲轩联手ChatGPT!10分钟击碎30年「无理」难题,数学圈炸裂
  • 刚刚,奥特曼官宣ChatGPT「终极OS入口」!8分钟速搭智能体,8亿人狂欢
  • 顿悟不是玄学!港科大清华等联手:撕开推理黑箱,RL让AI像人思考
  • 4万亿帝国接班人浮出水面!苹果不需要另一个库克
  • 刚刚,2025年诺贝尔物理学奖揭晓!量子计算成最大赢家
  • NeurIPS 2025 | 北邮用“图+文”把人物检索拉满:自动合成数据 × 细粒度特征对齐
  • TPAMI 2025 | 电子科大等提出EEMFlow:从事件相机学习高效Meshflow与光流,速度提升30倍
  • MICCAI 2025 | 莱斯大学提出MetaSeg:参数减少90%,元学习隐式网络重塑医学图像分割
  • OpenAI 与 AMD 签百亿美元协议,后者股价暴涨;特斯拉廉价 Model Y 将于 7 日发布;知名旅行、听歌应用入住 ChatGPT
  • 乔纳森下一个iPhone神话,要黄了?OpenAI秘密AI硬件深陷三重困境
  • 3年手搓ChatGPT!剑桥天才少年在Minecraft游戏中爆火回归
  • 一举击败Claude Code!微软提出代码生成黑科技:一键直出36K行代码
  • 刚刚,2025年诺贝尔生理学或医学奖揭晓!三位得主点燃器官移植希望
  • OpenAI入股AMD,股价暴涨35%!奥特曼左手黄仁勋,右手苏姿丰,通吃全球算力
  • 真实数据、全链路、可复核:GenoMAS打造更可信的基因分析智能体
  • 自进化Agent的第三种可能:隐式记忆,不动模型参数,胜过GRPO
  • NeurIPS 2025 | 高通提出GCL:无需额外数据,通用多模态检索迎来“一统江湖”新范式
  • NeurIPS 2025 | 慕尼黑工业大学提出SIM(3)等变网络:让3D形状补全告别“姿态偏见”,实现跨域泛化
  • 今日迎本世纪「最晚中秋月圆」;雷军:小米17 五天销量破百万;ChatGPT 或添私信聊天功能
  • 腾讯王者归来:混元图像3.0登顶LMArena!一手实测全球最强图像AI
  • AI「学不会」竟成相变探针!UCSD华人联手谷歌等,曝光量子纠缠秘密
  • 最新,2025诺奖预测出炉!中国科学家有望拿下化学奖?
  • 奥特曼:感受不到GPT-5变强,是因为你还不够「专业」
  • GPT-6或将比GPT-5强10倍!奥特曼揭秘ChatGPT如何诞生
  • 宾大提出F³:事件相机迎来“预测性”表征新范式,光流、分割、深度全SOTA!
  • LSTM之父再出手!xLSTM挑战Transformer:一场关于Scaling Laws的正面交锋
  • NeurIPS 2025 | AI也能做数学建模?本科生携手MM-Agent勇夺美赛全球前2%
  • “移步换景”一试,大模型全乱了:OST-Bench揭示MLLM时空推理短板
  • 微软下架「炉石」等多款游戏;华为云:华为算力效能超英伟达芯片 3 倍;马斯克回应特斯拉机器人打拳:并非遥控
  • 陶哲轩联手GPT-5,1小时攻克数学难题!全程无需编码,OpenAI副总惊呼
  • 1亿签约金抢AI大神?谷歌AI元老劝退全网:别再读博了!
  • 三天逆袭,Sora登顶美榜!15秒大片玩疯奥特曼,全网直呼真假难辨
  • 10个Agent一键组队:并行智能体协作,端到端交付从24h缩减到4h!
  • 首位AI女演员出道!好莱坞「天敌」来了,下一代偶像全是代码制造?
  • 南理工提出FMC-DETR:巧用“频率解耦”,航拍小目标检测精度飙升8.2% AP50
  • 网红挑战特斯拉FSD穿越美国出车祸;小米回应「小米汽车突然自己开走」;Sora 登顶美区苹果商城免费榜
  • 刚刚,Anthropic紧急换帅!新任CTO执掌算力命脉,直面OpenAI千亿赌局
  • Gemini 3.0 Pro内测流出,编程实力惊人!下周上线
  • 刚刚,奥特曼首曝:AI取代CEO后,我想去当农民!
  • 华人主导谷歌SLED,论文登顶会!一键让模型学会自救
  • LeCun考虑辞职!Meta AI百亿豪赌引爆「内战」,逼走首席科学家
  • NeurIPS 2025 | RAD:基于大规模3DGS孪生数字世界的端到端强化学习训练策略
  • 小米 17 系列销量超百万;苹果新产品泄密源头疑为越南工厂;低价版 model Y 现身官网代码|极客早知道
  • 刚刚,这家0产品0模型就估值854亿的公司,终于发布了首款产品!
  • 刚刚,奥特曼亲赴,韩国「举国」投靠!
  • 奥特曼「一张脸」引爆全球狂欢!Sora 2冲上APP榜第三,邀请码炒到1250元
  • 60岁老人AI养生三个月吃进医院!「AI精神病」全球扩散,OpenAI急招医生
  • 一杯咖啡,3亿美金!斯坦福天才少女退学创业,Meta AI大牛排队加入
  • 武大新作MASt3R-Fusion:融合IMU与GNSS,为新一代视觉SLAM注入“多感官”智慧
  • 中科大、清华、快手等发布OpenGPT-4o-Image:为多模态AI打造的“超级燃料”,图像编辑性能提升18%
  • 历史首位,马斯克身家突破 5000 亿美元;王腾注销、清空多个社媒账号;美国演员工会抵制 AI 演员
  • 刚刚,OpenAI Sora 2重磅登场!首个APP上线,或将成为AI时代新TikTok
  • Sora 2全网疯狂实测:以假乱真、脑洞大开、虚实难分|附首个APP教程和邀请码
  • OpenAI和DeepMind大佬离职联手,誓用AI科学家实现室温超导!已融3亿美元
  • 天津大学联合腾讯提出Wan-Alpha:一键生成高质量透明视频,发丝级抠图不再是梦
  • 南洋理工联合商汤提出Visual Jigsaw:像玩拼图一样,显著提升多模态大模型的视觉理解力
  • OpenAI 深夜重磅推出新视频模型和独立 App;英伟达市值突破4.5万亿美元;特斯拉预计推出第三代人形机器人 | 极客早知道

告别梯度!Evolution Strategies全参微调挑战PPO/GRPO:更稳、更省、更好复现

原创 让你更懂AI的 2025-10-07 19:04 北京

从梯度到演化:一次重新定义后训练稳定性的尝试

过去两年里,“后训练=RL”的观念几乎成了行业默认。很多团队把 PPO、GRPO 写进了自己的 Pipeline,并习惯性地在动作空间里做探索与优化。

这篇论文则把镜头拉回到参数空间:作者将 Evolution Strategies(ES,进化策略)扩展到十亿级参数的全参微调场景,给出与主流 RL 方法的系统对照——在 Qwen-2.5 与 LLaMA-3 家族的多个规模上,ES 更稳、更省样本,且几乎不需要网格化的超参搜索。

对于那些只有终局可观测信号、信用分配困难、RL 易“黑客奖励”的问题,ES 的表现尤其亮眼。作者单位来自 Cognizant AI Lab、MIT 与 UT Austin,研究团队在方法选择、实验对照与工程可复现上都做得相当克制和透明。

论文题目:

Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning

论文链接:

https://arxiv.org/abs/2509.24372

代码链接:

https://github.com/VsonicV/es-fine-tuning-paper

在这个视频中,作者直观展示了 ES 的核心思想——在参数空间上进行群体探索,通过多次扰动与加权汇聚,实现稳定且无梯度的优化过程。

研究背景

RL 的强项与短板同样醒目:它擅长在可验证短视野的任务上学习精细策略,但在长视野、仅结果可观测的场景中往往吃力——梯度估计方差高、信用分配困难、跨运行不稳定、超参数敏感,甚至容易出现“奖励黑客”(reward hacking),生成“短而错”或插入无意义符号的答案。

作者提出的动机很直接:把探索噪声从“动作序列”搬到“参数向量”一次参数采样决定整段生成轨迹,通过 roll-out 计算奖励,再基于群体加权平均更新参数——不依赖梯度、没有 actor-critic 架构,却能把长期信号打包进一次评估,天然降方差、易并行,也更难被“黑”。

这条路线并非凭空出现。早期的 NES [1] OpenAI-ES [2] 已奠定算法与工程基础,但长期被质疑“无法在十亿级参数空间上稳定跑通”。

这篇工作首次给出了实证证据——在 Qwen-2.5(0.5B–7B)与 LLaMA-3(1B–8B)上,进化策略(ES)实现了稳定的全参微调(full-parameter fine-tuning),为参数空间探索提供了坚实的现实支撑。

从基础ES到可扩展全参实现

本节介绍进化策略 (Evolution Strategies, ES) 在大模型微调中的算法框架。整体结构分为三部分:

1. 基础 ES 算法(Algorithm 1)——对参数空间的直接探索;

2. 可扩展工程实现(Algorithm 2)——让“全参 ES” 在十亿级 LLM 上可落地;

3. 行为度量与奖励定义——用于与 PPO/GRPO 等 RL 方法的对齐比较。

2.1 Basic ES(算法主体)

论文采用的是简化版 NES,整体近似 OpenAI-ES。目标是直接在参数空间进行无梯度优化:在第 次迭代,从高斯分布采样 组噪声 ,对模型参数加性扰动并分别评估奖励

最终更新公式为:

其中 为学习率, 为噪声尺度。论文实现时将 吸收到 中,得到更简洁的形式:

直观理解:模型做 N 次“试探”——给参数加不同噪声,观察哪次更好(奖励更高),再把这些“更有利的方向”平均叠加回去。整个过程不需要反传梯度,也不依赖 actor-critic 结构,优化对象是整段响应的整体质量,特别适合只提供最终奖励的任务。

▲ 图1. 展示ES在每次迭代中的完整流程:采样高斯噪声,对参数扰动、评估奖励,再将奖励加权方向叠加回参数,实现无梯度的全参更新。

算法整体流程如上图所示,展示了从噪声采样到参数更新的完整迭代闭环。

2.2 可扩展实现

基础 ES 虽简单直观,但若直接用于十亿级 LLM,显存与通信成本将极高。为此,作者在 Algorithm 2 中提出七项关键优化,使 ES 能在大模型规模下稳定、可复现地运行。

▲ 图2. 展示可扩展ES的工程化实现流程:通过种子复现、分层扰动与并行评估,实现十亿级参数模型的稳定、可复现微调。

实际实现流程如上图所示,构建在基础 ES 之上,通过多项工程优化让全参搜索在大模型规模下可落地。

七个关键设计如下:

  • 随机种子复现噪声:仅保存每个扰动的随机种子,通过复位 RNG 即可完全还原噪声,从而显著节省显存;

  • 进程级并行评估:将 N 个扰动分配到不同进程或设备,可天然并行化计算,大幅提升采样效率;

  • 分层就地“扰动–评估–还原”:每次仅对一层参数加噪、评估、回滚,峰值显存开销仅与该层大小相关,极大降低内存占用;

  • 奖励 z-score 归一化:为消除任务间与阶段间的尺度差异,对奖励进行标准化处理:

  • 贪心解码评估:在评估阶段采用贪心解码而非采样,以避免性能波动源自解码随机性,而聚焦于参数差异;

  • 分解式参数更新:主进程按“层 × 种子”顺序累加梯度近似,实现显存分解式更新,进一步压低显存峰值。

  • 吸收 并入 ,实现更简洁、更稳定的学习率调度。

这些策略组合形成了“显存换时间”的平衡:每次只在一层上扰动与评估,所有扰动进程并行执行,更新逐层累积。 结果是——即使在十亿级参数模型上,也能把“全参搜索 – 评估 – 更新” 过程稳定、可复现地跑起来。

2.3 行为度量与KL近似

当任务目标涉及行为或风格(而非单纯正确率)时,论文采用两维度量:

  • 平均奖励(衡量目标行为达成度);

  • 相对基座模型的 KL 散度(衡量保持原能力的程度)。

KL 使用 Schulman (2020) [3] 的近似式:

该近似在不需要 Monte-Carlo 采样的前提下,提供了稳定的行为对齐度量。

2.4 “简洁性”奖励的可核验定义

在“简洁性”任务中,每个问题的可核验集提供一个最短正确答案

对模型输出 y,定义奖励为:

即输出长度越接近“最短正确答案”,奖励越高。这种定义量化了“趋近正确而不取巧”的能力——鼓励模型生成既正确又简洁的答案,防止出现“更短但错误”的 reward hacking 行为。

小结:这部分通过 Algorithm 1 和 Algorithm 2 层层展开,先给出 ES 在参数空间的核心更新机制,再展示可扩展实现,使得 ES 首次在 LLM 全参微调场景中实现可行与稳定。它以简单、可并行的无梯度优化流程,提供了 PPO/GRPO 之外的一条可靠后训练路径。

实验与结果

符号推理:ES稳定高效,样本利用率更优

▲ 表1. Countdown任务中,Qwen-2.5(0.5B–7B)与LLaMA-3(1B–8B)的准确率对比。ES统一超参,RL逐模型调参。

这组实验首先纠正了一个常被忽视的事实:在小模型段,RL 往往“抬不动”性能,而 ES 依然能显著拉升。例如在最小的 Qwen-2.5-0.5B 上,Base、PPO、GRPO 几乎贴地,ES 却将正确率从 0.3% 提升到 14.4%。

随着模型增大(1.5B、3B、7B 以及 LLaMA-3 的 1B、3B、8B),ES 的领先并未被“规模稀释”——在多数配置下,它都能把曲线整体推高。更关键的是:ES 全线使用统一超参,而 RL 端还针对每个模型做了 (β, α) 网格搜索。在这样“对 RL 更有利”的设定下,ES 仍保持优势,说明差距并非偶然,而是稳定规律。

▲ 图3. 不同模型的训练曲线(横轴为样本评估次数)。ES收敛更快,达到相同性能所需的评估量更少。

如果把视线从最终数值拉回训练过程,会发现另一层差异:ES 更省样本评估。在横轴对齐“总样本评估次数”的条件下,ES 曲线普遍更早离开底部并进入平台区。换句话说,要达到 RL 相同的准确率,ES 通常只需 20% 左右的样本量

这种效率差来自方法本身:一次参数噪声对应一整段生成轨迹,长程信号被集中地压入单次评估;再叠加小种群(N=30)的并行与加权平均,方差被显著平滑。于是 ES 能更快积累有效梯度,也更容易稳步上升。

综合两张图可见:ES 不仅能“抬起”小模型,还能在中大规模上兼顾性能与效率。从工程视角看,这意味着更低的试错成本、统一的调参策略与更强的跨模型迁移性。

行为对齐:ES的前沿更优、更稳、更干净

▲ 图4. Reward–KL二维前沿。蓝线(ES)整体位于GRPO黑线左上方——在更低KL下取得更高 Reward。ES未显式加KL惩罚。

当目标从“正确率”转向“行为/风格”时,作者使用 Reward 与相对基座 KL 构成二维度量。直觉上,右上角越好:Reward 高、KL 低,代表既学到目标行为,又保留原有能力。

从图中可以看到,ES 的前沿整体覆盖 GRPO 曲线左上区域,即在更低 KL 下获得更高 Reward。更关键的是,ES 即使不在目标函数中显式加入 KL 惩罚,也未出现“投机取巧”的 reward hacking——说明它的优化轨迹本质不同,更像是在参数空间内收敛到一族好解,而非依赖外部约束“强行拉回”。

▲ 表2. Qwen-2.5-7B的“简洁性”任务(4次独立运行)。GRPO在较小β下出现reward hacking,ES未出现黑客,且跨运行方差显著更低。

从定量结果看,GRPO 对 β 异常敏感——β 太小会“黑”奖励,稍大又推高 KL。ES 在完全不引入 KL 惩罚的前提下,既无乱码输出,也保持跨运行稳定。

对部署者而言,这意味着结果更可预测:不必押注“幸运跑次”,也无需为每个基座重新大规模网格搜索 β 与学习率。

参数幅度变化直方图。Countdown任务变化集中于0附近;在“简洁性”对齐中,多为“小幅改动”。

参数幅度分布揭示了 ES 的“内部动作”:在推理任务中,更新接近“随机游走式微调”,说明信号被群体平均后温和传导;而在行为对齐中,变化集中在大量小幅度区间,暗示大模型行为可能存在冗余编码——无需大迁移即可稳定拧动输出风格。这解释了为何 ES 即使不加 KL 约束,也能保持低遗忘与稳定。

小结:稳定、省样本、可复现

无论在符号推理还是行为对齐中,ES 都展现出一致的优势:

  • 跨模型稳定性强:从 0.5B 到 8B 均能稳定收敛;

  • 样本效率高:达到同等性能所需评估量 ≈ RL 的 20%;

  • 方差小、易复现:多次独立运行结果几乎重合;

  • 抗 reward hacking:无需 KL 约束也保持输出正确性。

这让 ES 成为一种真正可扩展、工程上可落地的后训练路径——在长视野、仅结果可观测的任务中,比传统 RL 更稳、更省、更易复现

总结

这项研究以 Evolution Strategies(ES)为核心,重新审视了后训练阶段的优化路径,也为长期以来由强化学习(RL)主导的范式提供了一种可行的替代方案。

ES 的关键思想是从参数空间而非动作空间进行探索。它以群体采样取代单路径梯度估计,以全局评估取代局部 credit assignment,从而在长视野、仅结果可观测的任务中获得更稳定的优化行为和更高的样本效率。

与 PPO、GRPO 等方法相比,ES 不依赖 actor-critic 结构,也不需要复杂的优势估计或 KL 惩罚项。在 Qwen-2.5 与 LLaMA-3 不同规模的实验中,作者展示了 ES 的一致优势:它能够在统一超参数下稳定跨规模运行,在小模型段显著提升推理准确率,在大模型段维持收敛速度与样本利用率的双重领先。

在“简洁性”行为对齐任务中,ES 甚至在未引入 KL 约束的前提下,依然保持低遗忘与强一致性,几乎完全消除了 reward hacking 问题。

从机制角度来看,ES 的稳定性源于其“群体平均”特性。在每轮迭代中,参数扰动在多个方向上被并行采样与评估,噪声在总体统计中被抵消,留下的更新方向往往是全局一致、方差可控的。这种机制使模型能够以更温和的方式吸收长期信号,同时减少对随机初值与超参数的敏感性。

因此,ES 的贡献不仅在于性能的提升,更在于重新定义了后训练的优化逻辑。它提示我们:在那些奖励稀疏、反馈延迟、梯度难以稳定传播的任务中,全参级的参数空间优化可能比基于梯度的局部更新更具可扩展性与可复现性。

在强化学习方法不断复杂化的当下,ES 的结果反而呈现出一种少见的清晰与稳健——它以简驭繁,用群体探索替代复杂机制,为后训练的下一阶段提供了一个值得深思的方向。

图片

参考文献

图片

[1] Wierstra, D., Schaul, T., Glasmachers, T., Sun, Y., Peters, J., & Schmidhuber, J. (2014). Natural Evolution Strategies. Journal of Machine Learning Research, 15, 949–980. arXiv:1106.4487

[2] Salimans, T., Ho, J., Chen, X., Sidor, S., & Sutskever, I. (2017). Evolution Strategies as a Scalable Alternative to Reinforcement Learning. arXiv preprint arXiv:1703.03864.

[3] Schulman, J. (2020). Proximal Policy Optimization Algorithms. arXiv preprint arXiv:1707.06347.

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们