动态列表

  • 九天大模型大变身:性能狂飙35%!还能一键P大象
  • 万亿参数狂欢!一文刷爆2025年七大顶流大模型架构
  • 豪拒15亿美金天价Offer,硅谷最狂AI巨星身份曝光!小扎、奥特曼抢破头
  • 兔子蹦迪疯传,5亿观看!全球恐慌:一段AI视频把全人类拉入虚拟现场
  • 全网苦等GPT-5,超级对齐团队遗作成重要线索,奥特曼发话「惊喜很多」
  • 图灵奖得主Sutton再突破:强化学习在控制问题上媲美深度强化学习?
  • GUI定位还在玩「非黑即白」?浙大团队提出GUI-G²,显著提升GUI智能体定位性能
  • OpenAI IMO金牌团队爆料:AI拒绝作答第六题
  • ​特斯拉车祸,被判赔偿超 2 亿美元;传 OpenAI 将推 10 美元「亲民订阅」;影石刘靖康:祝贺同行大疆推全景相机
  • GPT-5难产内幕曝光!核心团队遭挖空,推理魔咒难破,靠英伟达续命
  • 哥大学生全员AI作弊?小哥「创业逆袭」:不用AI等于输在起跑线!
  • Hinton预言成真,美国大学生掀起本科辍学潮!月入万刀修马桶,不怕AI裁员
  • 天才美少女的开挂人生,首次揭晓!11岁自学微积分,17岁推翻40年难题
  • GPT-5难产,外媒爆料:性能提升不大,OpenAI高管Slack上当众破防
  • 19岁小哥伯克利辍学创业,获2800万美元融资,OpenAI投了
  • 通向L3的正确范式?理想i8全球首发VLA高阶辅助驾驶,我们帮你试了试
  • ICCV 2025 | EPD-Solver:西湖大学发布并行加速扩散采样算法
  • 刚刚,谷歌「IMO金牌」模型上线Gemini,数学家第一时间证明猜想
  • 一个模型超了DeepSeek R1、V3,参数671B,成本不到350万美元
  • 多模态后训练反常识:长思维链SFT和RL的协同困境
  • 库克打气苹果 AI:不拼首创,自信能主导市场;微信提现手续费下调至 0.01 元;Manus 推 Wide Research
  • 微软破4万亿,被裁员工扎心!70级工程师天价薪酬曝光:入职大礼包2700万
  • 港科大发布「大模型越狱攻击」评估基准,覆盖37种、6大类别方法
  • 刚刚,OpenAI神秘开源模型泄露!「闪现」1分钟被删,配置被网友扒光
  • 24岁辍学博士,小扎捧2.5亿薪酬包亲自上门抢人!AI顶薪已让NBA汗颜
  • 奕派科技重磅发布“未来之翼”战略,2026款东风奕派eπ008限时先享价17.36万元
  • 一切竞争,都变成了「AI 竞争」
  • 途深智合推出旗下AI科研品牌--追梦AI
  • 模型共享、数据互通、设施互连,上海人工智能实验室上线「书生」科学发现平台
  • 一次中稿10篇ACL25,通义实验室 代码智能&对话智能团队 在研究什么
  • 联合三大蛋白质模型,仅需4~6周,定制癌细胞特效「识别器」
  • 全球首款通用AI科研智能体问世:我一个文科生用它写了份CRISPR基因编辑综述报告
  • 中国在AI领域超越美国已是板上钉钉?吴恩达:美国无法保持领先
  • 驯服复杂表格:九天重磅开源,开启「人与表格对话」智能新时代
  • 思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型
  • 超聚变亮相WAIC 2025 重构数智化平台,共建智能体时代
  • Manus大升级,100多个智能体并发给你做任务
  • 挖人上瘾的Meta又被员工吐嘈:不帮忙宣传项目,开源只会越来越糟
  • 机器人不只会抓和放!北京大学X银河通用「世界-动作模型」赋能全面泛化的非抓握技能
  • 火山引擎作为「AI 原生」基础设施,变得更强了
  • 英伟达回应「芯片后门」:不存在后门;大疆推 Osmo 360 全景相机,2999元;微软成第二家 4 万亿美元公司
  • WAIC唯一指定C位,AI「国家队」又赢麻了!秒懂Hinton伦敦腔,现场杀疯老外狂点赞
  • 首部法律LLM全景综述发布!双重视角分类法、技术进展与伦理治理
  • 小扎一夜反水,背刺开源!亲手葬送「Llama神话」,股价大涨12%
  • GPT-5发布倒计时?全网泄露来了:微软Copilot憋大招,GPT-5上线最后冲刺!
  • 17.98 万的乐道 L90,有多少蔚来的诚意,就有多少李斌的「求生欲」
  • ACL'25最佳论文独家解读:大模型有「抗改造」基因,现有后训练范式失灵预警
  • ACL 2025主会论文 | TRIDENT:基于三维多样化红队数据合成的LLM安全增强方法
  • 谷歌发布AlphaEarth基础模型:构建「地球版ChatGPT」,融合多源数据,实现10米级地球观测
  • 微软花重金做的Copilot,居然被WPS一个按钮给秒了?
  • 定义科学智能2.0:在WAIC,复旦与上智院的答案是开放协作、科学家为中心,以及一个「合作伙伴」
  • OpenAI提出的CLIP,被Meta联合谢赛宁、刘壮,扩展到全球300+语言
  • VLA-OS:NUS邵林团队探究机器人VLA做任务推理的秘密
  • XREAL One Pro 体验:AR 老炮的自我革命
  • WAIC UP! 之夜:一场关于AI与人类未来的星空思辨
  • AI 智能体,让每个人可以像科学家一样工作和思考
  • 刚刚,扎克伯格公开信:Meta不会开源全部模型
  • 没敲过代码的我,半小时「聊」出一个能用能分享的「小程序」
  • 把指纹焊死在频率上:抗微调神经网络指纹的硬核方案来了
  • 32.18万起!理想i8正面「硬刚」特斯拉Model X
  • 智能驾驶最大的障碍,不是懂车帝
  • 刚刚,DeepSeek梁文锋NSA论文、北大杨耀东团队摘得ACL 2025最佳论文
  • 小米青年公寓正式启用,1999 元/月;Meta AI 数据中心投入 720 亿美元;NBA 引入「AI 篮球」
  • AI百人榜刷屏,小扎照单全收?辛顿Ilya师徒霸榜,第二名竟是本科生
  • 炮轰黄仁勋,决裂奥特曼!1700亿美元估值背后,硅谷最不好惹的AI狂人
  • 别只盯着李飞飞!AI的「3D数据底座」已被这家中国公司悄悄建好
  • 无需准确传感信号!轻松搞定「多段软体机械臂」复杂位姿与形状控制
  • Nature 子刊 | DeepSeek落户超750家医院,清华团队剖析AI医疗监管隐忧
  • P图手残党有救了,豆包·图像编辑模型3.0上线,一个对话框搞定「增删改替」
  • 开出10亿美元天价,小扎挖人Mira创业公司惨遭拒:俺们不差钱
  • 当智能成为主要生产资料,硅基经济学引爆「AI+金融」
  • SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」
  • 刚刚,OpenAI推出学习模式,AI教师真来了,系统提示词已泄露
  • 凌晨,Qwen又更新了,3090就能跑,3B激活媲美GPT-4o
  • AI安全上,开源仍胜闭源,Meta、UCB防御LLM提示词注入攻击
  • 字节辟谣「豆包汽车」:无造车计划;英伟达市值突破4.3 万亿美元;传特斯拉将推「低价赛博皮卡」
  • 科学能力太强,这个多模态推理「六边形战士」被严重低估!Intern-S1开源登顶
  • 全球首次,「AI记忆」开源落地!MIRIX同步上线APP
  • GPT-5基准测试泄露,被曝两天后发布?打Minecraft震撼开挂网友直呼封神
  • 马斯克偷偷憋了个大招!Grok秒出《阿凡达》画质,好莱坞瑟瑟发抖?
  • 理想i8正式发布:首款纯电SUV,售价32.18万元起
  • WAIC 2025大黑马,一个「谢耳朵AI」如何用分子式超越Grok-4
  • 通义实验室大火的 WebAgent 续作:全开源模型方案超过GPT4.1 , 收获开源SOTA
  • 这家国内公司,在给具身智能技术栈做「通解」
  • ACL首届博士论文奖公布,华人学者李曼玲获荣誉提名
  • 全球首个全链式空间天气AI预报模型“风宇”!国家卫星气象中心牵头,联合南昌大学、华为共同研发
  • LeCun出手,造出视频世界模型,挑战英伟达COSMOS
  • 联合十余家国产生态,商汤大装置发布“算力Mall”,打造算力超级市场
  • 用说的就能做 App,这家公司想做 AI 时代的 ins
  • 从数字人到「有温度的」机器人,京东把 AI 深度应用的路线图「摸透」了
  • 开启RL Scaling新纪元,siiRL开源:完全分布式强化学习框架,支持超千卡规模高效训练
  • 共青年之智,铸AGI未来|2025 WAIC云帆奖得主名单揭晓
  • 阿里再开源,全球首个MoE视频生成模型登场,电影级美学效果一触即达
  • 不靠海量数据,如何精准喂养大模型?上交Data Whisperer:免训练数据选择法,10%数据逼近全量效果
  • WAIC2025,斑马智行元神AI获国际测评机构全项第一
  • 蛋白质基座的GPT时代来了?AMix用Test-time Scaling让蛋白质设计迈向通用智能
  • Allegro-FM:剑指分子动力学基础模型,零样本预测89种元素及复杂反应
  • AI 上新|不会用 PS 的我,却敢去小红书上接「设计单」了
  • GMI Cloud 于 WAIC 2025 展现全栈 AI 基建实力,破解出海成本与效率难题
  • WAIC 2025: 斑马智行元神AI大模型,获全球机构测评第一
  • 国内首例!由钉钉AI平台训练的豆蔻大模型通过妇产科主任医师考试
  • 闭幕式 | 2025世界人工智能大会暨人工智能全球治理高级别会议成功举办
  • 智谱发布新一代基座模型GLM-4.5:开源、高效、低价,专为智能体而生
  • AI Agents的“超级大脑”来了 阿里云正式发布无影Agentbay
  • WAIC 2025前探:AI硬件如何改变我们的日常生活
  • 这届WAIC,无问芯穹发布了三个「盒子」
  • 「幻觉」竟是Karpathy十年前命名的?这个AI圈起名大师带火了多少概念?
  • EvaLearn:AI下半场的全新评测范式!
  • 蚂蚁数科发布金融推理大模型 助力金融机构加速落地智能体应用
  • 2025 WAIC容联云AI AGENT论坛启幕,以技术引擎驱动产业智能跃迁
  • 商汤大装置亮相WAIC 2025,多项标志性成果打造AI基础设施新范式
  • 广大、清华等开发EdgeAIGC,让边缘缓存命中率飙升41%,AIGC延迟与成本双降
  • WAIC直击|快手可灵AI引领「生成式AI应用元年」,累计生成超2亿视频
  • 硬核「吵」了30分钟:这场大模型圆桌,把AI行业的分歧说透了
  • ICCV 2025|UV-CoT:无监督视觉推理新突破,偏好优化重塑图像级思维链
  • 扣子开源全家桶,Apache 2.0加持,AI Agent又一次卷到起飞
  • 多模态大模型,真的「懂」世界吗?——揭秘 MLLM 的核心知识缺陷
  • 具身智能,腾讯「低调入局」
  • 首次结合RL与SFT各自优势,动态引导模型实现推理⾼效训练
  • 特斯拉廉价 Model Y 减配内饰曝光;Firefox 终止中国账户运营;宇树王兴兴:经常偷懒,用 AI 写代码|极客早知道

当提示词优化器学会进化,竟能胜过强化学习

仅靠提示词优化就能超越 DeepSeek 开发的 GRPO 强化学习算法?

是的,你没有看错。近日上线 arXiv 的一篇论文正是凭此吸引了无数眼球。

图片

这篇论文提出的 GEPA(Genetic-Pareto)采用了一种名为 reflective prompt evolution(反思式提示词进化)的技术,可以实现比 GRPO 高 20% 的性能,同时还能将 rollout 次数减少到原来的 1/35。

图片

那么,GEPA 究竟是如何做到这一点的呢?让我们翻开这篇来自 UC 伯克利和斯坦福等多家机构的论文一探究竟。

图片
  • 论文标题:GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

  • 论文地址:https://arxiv.org/abs/2507.19457

GEPA:反思式提示词进化

GEPA 的全称是 Genetic-Pareto(遗传-帕累托),这是一种用于复合式 AI 系统的样本高效型优化器,其核心原理包括:

  • 遗传式提示词进化

  • 利用自然语言反馈的反思

  • 基于帕累托的候选选择

下图给出了 GEPA 的概况。

图片

下面则给出了 GEPA 的算法。

图片

GEPA 的输入是一个复合 AI 系统 Φ,其中包含待优化的简单提示词、训练数据集 D_train、该任务的标准评估指标 μ、反馈函数 μ_f 以及总部署预算 B。

遗传式优化循环

给定一个复合 AI 系统 Φ,优化过程的目标是确定一组参数 ⟨Π, Θ⟩_Φ,以最大化其在任务分布上的得分。

GEPA 首先会初始化一个候选池 P,其中候选项是该复合系统中一个带有可学习参数 ⟨Π, Θ⟩_Φ 的具体实例。

一开始,该候选池仅包含基础系统的参数 —— 这是唯一候选。然后,GEPA 进入优化循环,迭代地提出新的候选项并将其添加到池中,持续此过程直至耗尽评估预算。

通过突变或杂交修改现有候选集,GEPA 可以迭代式地提出效果越来越好的候选项。相关信息则来自收集的 rollout 的学习信号以及跟踪每个新候选集的祖先。这使得 GEPA 能够在优化过程中沿着遗传树积累经验教训。每个新候选项都会继承其父级的学习信号,以及当前 rollout 的信号。

在每次迭代中,GEPA 都会从候选池中识别出有希望的候选项(候选项选择),并提议一个新的候选项(可能通过基于反思反馈对模块中的提示词执行突变,或在两个候选项之间进行杂交)并在小批量任务上评估这个新变体。如果新提出的候选项在本地小批量数据上相对于其父集表现出更高的性能,GEPA 会将该新候选项添加到候选池 P 中。这需要跟踪内部数据结构,包括跟踪新候选项的祖先,以及在 D_pareto(用于候选项选择的验证集)上对新候选项进行全面评估。

预算耗尽后,GEPA 将返回在 D_pareto 上总体性能最佳的候选项。

反思式提示词突变

在复合 AI 系统执行过程中生成的自然语言轨迹能够体现其中间推理和底层推理步骤,从而提供对每个模块行为和职责的丰富可见性。

当这些轨迹与系统的最终结果(例如成功或失败)配对时,就能提供重要的诊断价值,从而帮助将错误或成功追溯到做出的具体决策 —— 可达模块级别。

然后,LLM 可以通过反思利用这些轨迹进行隐式 credit 分配,将最终结果的成败归因到相关模块。这种反思过程可用于对各个模块进行有针对性的更新,从而对整个系统的行为进行大规模且有效的更新。

GEPA 的操作如下:给定一个在优化循环的当前迭代中进行突变的候选模块,GEPA 使用候选参数更新系统,在系统中选择一个目标模块进行改进(通过循环调度确保所有模块都收到更新),并在从训练数据集中采样的小批量上生成一些 rollout,记录它们的结果(成功 / 失败)。

通过检查系统的执行轨迹,GEPA 可以识别目标模块的输入、输出和推理。据此,GEPA 使用 LLM 反思性地检查这些信息,将成功或失败归因于模块提示词的元素,并为目标模块提出新的指令。然后,一个新的候选模块被提出,作为当前指令的副本,目标模块的提示词也更新为新提出的提示词。

GEPA 用于执行反思提示词更新的元提示词可见原论文附录部分。

评估轨迹作为诊断信号:虽然系统自身的执行轨迹已经提供了有用的信息,可以成功进行反思和提示词更新,但该团队发现了另一个高度诊断性的信息来源:评估指标 μ。

通常,评估指标 μ 会应用丰富的策略来执行评估,以得出最终分数。例如,代码评估环境会运行一系列步骤(编译、执行、性能分析等),每个步骤都会生成自然语言轨迹,然后提供标量奖励。

该团队建议,除了系统自身的执行轨迹之外,还应使用这些评估轨迹来执行反思信用分配和有针对性的提示词更新。GEPA 将其操作化为对评估指标 μ 的简单更新,以创建反馈函数 μ_f,该函数会识别评估指标执行过程中生成的相关文本轨迹,并返回最终分数以及反馈文本 (feedback_text)。只要可用,这样的反馈函数还可以提供模块级反馈(例如,在 multi-hop 系统中,评估器可以在系统每一跳之后提供反馈)。

基于帕累托的候选选择

GEPA 是一种高度模块化的算法,能够支持在每次优化迭代中选择候选的各种策略。最关键的是,候选选择策略的选择决定了优化器所采用的探索 - 利用权衡。

一种简单的策略是始终选择池中表现最佳的候选。然而,这可能导致优化器陷入提示词空间内的局部最优:一旦找到占优策略,就很难超越它,优化器会在没有学习新的、可能更好的策略的情况下耗尽其预算。

图 6a 展示了使用此策略生成的示例搜索树。具体来说,请注意搜索过程如何找到一个新的策略(第一个子节点),然后不断尝试改进它,但在多次迭代中都失败了,最终耗尽了所有的 rollout 预算。

图片

为了解决这个问题,GEPA 采用了基于帕累托的 illumination 策略(Mouret & Clune,2015),如算法 2 所示。

图片

具体来说,GEPA 会确定池中所有候选项中每个训练实例所取得的最高分数,从而创建一个迄今为止优化过程所取得分数的「帕累托前沿」。然后,GEPA 会编制一份至少在一项训练任务中取得最佳分数的候选项列表。这会实现对候选池的过滤,筛选出那些采用了「获胜」策略的候选项,从而保留在任何反思突变中发现的所有宝贵见解。

接下来,GEPA 会修剪那些严格占优的候选项:例如,如果候选项 2 仅在任务 1 上取得最佳分数,但候选项 3 在任务 1 和任务 2 上都取得了相同的最佳分数,则将候选项 2 移除。

最后,GEPA 会从修剪后的列表中随机抽取一个候选项,为在更多训练实例中取得最佳分数的候选项分配更高的选择概率。

在实践中,该策略有助于 GEPA 避免陷入局部最优,而无需过度扩大搜索范围。通过将资源集中在那些已经展现出有效「获胜」策略的有潜力的候选项上,GEPA 可有效地平衡探索与利用,从而能够在优化预算范围内持续改进。

GEPA 表现如何?

该团队也通过实验验证了 GEPA 的表现,并将结果总结成了 5 点观察。

图片

观察 1:反思式提示词进化具有极高的样本效率,其性能甚至超越权重空间强化学习。

在所有四个基准测试中,GEPA 在复合 AI 系统中展现出了快速的适应性和强大的泛化能力 —— 其性能比 GRPO(使用 LoRA 进行 24,000 次 rollout)高 19%,同时 rollout 次数减少到了其 1/35。

图片

观察 2:反思式提示词进化可使单独的指令优化性能优于联合式指令和少样本优化。

该团队使用两个领先模型(GPT-4.1 mini 和 Qwen3 8B)在四个不同的任务中对 GEPA 与 MIPROv2(一种最先进的联合式指令和少样本优化器)进行了比较。

实验发现,GEPA 在所有设置下均始终优于 MIPROv2,在 GPT-4.1 mini 上实现了高达 11.1% 的优势,在 Qwen3 8B 上实现了高达 10.3% 的优势。此外,在所有基准测试和两个模型中,GEPA 和 GEPA+Merge 的总增益均是 MIPROv2 基线的两倍以上(分别为 +16.02% 和 +14.29%,而 MIPROv2 为 +7.04%)。

值得注意的是,不同于与先前的一些研究结果(指令优化主要通过准样本 (Quasi-Exemplars) 实现改进),GEPA 的提示词通常包含完成任务的详细声明式指令,如图 2 所示。

图片

观察 3:下一候选项的选择策略对优化轨迹和最终性能有显著影响,其中基于帕累托的采样方法具有明显的优势。

GEPA 的目标是通过利用新版本中的反馈来迭代优化提示词。为了测试基于帕累托的候选选择策略的效果,该团队考虑了一个简单的基准来实例化 SelectCandidate 策略:始终选择当前表现最佳的候选项。

如表 2 中的消融结果所示,这种方法通常会导致对提示词搜索空间的探索不够理想,最终导致性能不佳 —— 采用基于帕累托的采样策略的 GEPA 比 SelectBestCandidate 策略的性能高出 8.17%,在所有基准测试中保持了 +6.4% 的总体优势。

图片

图 6 展示了这种简单策略与该团队提出的基于帕累托的采样策略在优化轨迹上的显著差异。

始终选择当前最佳候选往往会在下一次迭代中立即带来改进,但随后会导致优化器停滞,耗尽其整个部署预算来尝试进一步改进该特定候选。相比之下,该团队基于帕累托的采样方法通过考虑所有 Pareto 最优候选(代表迄今为止发现的所有「获胜」策略)来扩展搜索范围,从而确保在探索和利用权衡之间取得紧密平衡 —— 最终在相同的部署预算内收敛到性能更高的解答。

观察 4:经过指令优化的提示词比少样本演示提示词计算成本更低,泛化能力更强。

除了强大的泛化能力外,反思式进化的指令还具有显著的实用优势:它们通常比少样本演示提示词更短,因此计算效率更高。这种优势在复杂任务中尤为明显,因为即使是单个少样本演示也可能非常长。当使用最新技术优化少样本示例时,问题会进一步加剧。诸如 MIPROv2 等先进方法,可以联合优化多个演示以便同时使用,从而进一步增加提示词长度。

观察 5:系统感知型杂交策略可以带来巨大的收益,但突变和杂交之间的最优预算分配以及何时调用合并仍需进一步研究。

该团队确定了一种独特的系统感知型杂交策略,并将其做成了一个操作 Merge。

GEPA+Merge 的性能比 GEPA 高出 5%,在 GEPA 已经拥有的强劲性能基础上再提升 2%。详细结果见表 1。该团队将这些收益归因于 GEPA+Merge 能够识别不同的优化谱系,这些谱系已经学习了互补策略(通过演化不同的模块),并通过从每个谱系中挑选不同模块的最佳版本来合并它们,从而提出一个单一的最优候选方案。

最后,如果你也疑惑 GEPA 的读音是什么又怎么与 JEPA 区分,Yann LeCun 发推给出了相当详细的解释:

图片
]]>

联系我们