让你更懂AI的 2025-10-14 13:48 北京
RL在大模型上终于“平民化”
强化学习之父、图灵奖得主 Richard Sutton 认为:新一代的智能体将主要通过从经验中学习来获得超人类的能力,而不是仅靠人类数据的监督学习。
强化学习之父、图灵奖得主 Richard Sutton 认为:新一代的智能体将主要通过从经验中学习来获得超人类的能力,而不是仅靠人类数据的监督学习。
传统 RL 训练在 32B 模型上动辄上万美元,现在只要 8 美元就能对 671B 的最新 DeepSeek-V3.2 进行强化学习!这一切只需通过 GRPO 在实践中学习经验,而非传统 GRPO 中对模型参数进行昂贵的调整。
在 DeepSeek-V3.1-Terminus上,Training-Free GRPO 仅需 100 条 DAPO-Math 训练数据和 18 美元,即可实现 AIME 榜单的 OOD 可迁移提升!
强化学习的天价训练成本,却带来与之不匹配的泛化能力
大模型虽强,但在专业领域表现往往不尽如人意。常见的解决方案是通过监督微调或者强化学习更新模型参数,但这背后是高昂的代价与新的局限:
算力黑洞:单次训练动辄消耗数万美元,每一次迭代都是真金白银的投入
泛化困境:通过参数微调优化的模型,往往泛化性不佳,只能胜任特定窄域任务。这导致企业不得不部署多个专用模型来覆盖完整业务需求,显著增加了系统复杂度和维护成本
数据稀缺:需要大量高质量标注数据。这正如强化学习之父 Richard Sutton 所言,人类数据中提取的知识正迅速接近极限。
面对这些痛点,我们不禁要问:面向实际落地场景,有没有既高效又便宜的替代方案?
革命性突破:Training-Free GRPO
腾讯优图实验室提出的 Training-Free GRPO 给出了肯定答案!这种方法的核心思想是:不修改模型参数,而是通过反复积累和迭代“经验知识”来指导模型行为。这也对齐了是强化学习之父 Richard Sutton 倡议的超级人工智能发展思路:让智能体从自身的经验中持续学习,而非仅仅模仿人类偏好。
如上图所示,传统 GRPO 需要更新模型参数,而 Training-Free GRPO 冻结了模型参数,通过多轮强化学习不断更新优化经验库,在推理时注入学习到的经验知识,实现了零参数更新的强化学习效果。
四步详解:如何不用训练也能“调教”大模型
第一步:多路径探索(Rollout)
如上图左侧所示,对于每个问题,模型会生成多个不同的解答路径。就像让学生用不同方法解同一道题,我们能够观察各种可能的解题思路。
比如在数学题中,有的路径可能选择复杂的坐标几何法,有的可能发现更巧妙的几何性质法。这种多路径探索帮助我们发现最优策略。
第二步:强化学习奖励(Reward)
奖励只需提供少量样本及其参考答案,提供一个优化的方向即可。每个生成的解答都会获得一个客观评分。这个评分可以是:
与标准答案的匹配度
代码执行结果的正确性
网页搜索任务的成功率
第三步:语义优势提炼(Group Advantage)
如上图右侧所示,模型会自我反思:比较同一组内的不同解答,总结出:“为什么A方法得分高?B方法哪里出错了?”。比如在案例中,模型发现:
成功路径:正确设定坐标方向,系统化验证所有条件
失败路径:方向设定错误,缺乏完整性检查
这种语义层面的洞察比单纯的数值评分更有指导意义。
第四步:经验库优化(Optimization)
基于提炼出的语义优势,模型会动态更新经验知识库:
新增经验:添加被验证有效的解题策略
修正经验:完善现有指导原则
删除经验:淘汰被证明无效的方法
整个过程就像一位学生在不断更新学习笔记,积累沉淀学到的经验
惊人效果:小成本大提升
在数学推理上,仅用 100 个训练样本,花费约 8-18 美元,就能在已经足够强大的 671B 模型上继续提升性能。如下表所示,无论是否采用代码工具(CI,code interpreter)帮助解题,在 AIME 榜单上的 Mean@32 指标都能实现提升。
训练仅需要三个轮次,下方左侧子图中训练集 Reward 指标(橙色)和样本外AIME榜单上 Mean@32 指标(绿色和蓝色)都在稳步提升。
右侧子图展现了训练中和样本外的平均工具调用次数均有所减少。这表明Training-Free GRPO 不仅能够鼓励正确的推理和行动,还能教会代理找捷径,更高效明智地使用工具。
而在下表所示的网页搜索场景中,Training-Free GRPO 同样无需更新模型参数,即可在 DeepSeek-V3.1-Terminus 强悍水平之上,实现了 4.6% 的 Pass@1 显著提升。
成本对比:降维打击传统方法
与传统强化学习(RL)方法相比,Training-Free GRPO 实现了训练成本的数量级降低:
传统 RL 训练:约 10,000 美元(训练 32B 模型如 Retool,400 个 step 需要 2 万 A100 卡时)
Training-Free GRPO:约 8~18 美元(优化 DeepSeek-V3.1 或 V3.2 的 671B 模型)
同时,对于大多数非密集调用型的实际应用,专门准备 GPU 提供训练好的 32B 模型推理服务也带来一定的固定成本。而 Training-Free GRPO 无论训练和推理都仅需 API,随用随付!
这种方法特别适合:
长尾细分场景适配:有一定价值,但无法支撑大规模训练和部署
快速迭代场景:需要频繁更新的大模型应用
预算有限团队:个人开发者,中小企业和研究机构
结语
Training-Free GRPO 的提出,将强化学习在超大规模 LLM 及复杂 Agent 系统上的训练成为可能,启动了低成本、高效率的强化学习新时代。从此,强化学习不再是巨头的专属游戏,每个开发者的小业务都能用得起、用得好。
8 美元就能做强化学习,你还等什么?
本文方法已开源,欢迎 Star 和试用!GitHub 地址:
https://github.com/TencentCloudADP/youtu-agent/tree/training_free_GRPO
arXiv 链接:
https://arxiv.org/abs/2510.08191
预告:Training-Free GRPO 将作为一个新功能集成到 Youtu-Agent 框架中,帮助开发者们进一步提升各种自定义场景的效果。
注:成本计算基于 DeepSeek API 官方定价,实际可能因使用情况而有所波动
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·