ToolsAi

原创让你更懂AI的 2025-09-26 17:35 北京

显式思考 + 偏好奖励：小模型逼近GPT-4o的新范式

在大语言模型的进化史上，RLHF（Reinforcement Learning with Human Feedback）无疑是最具里程碑意义的范式之一：它让模型从“机械对话机”蜕变为“人类偏好的镜子”。但 RLHF 也有致命的弱点——它并没有要求模型真正去推理。于是我们常常看到模型给出的答案“似是而非”，表面上让人满意，实质上逻辑空洞。

另一方面，近两年兴起的 RLVR（Reinforcement Learning with Verifiable Rewards）在数学、代码等可验证任务上展现了惊人的威力。它要求模型必须先写出显式推理轨迹，再用规则判定答案对错。这让模型在“算题”上表现优异，却难以推广到开放式任务，因为这些场景里并没有唯一的“对错”标准。

那么，能否把 RLHF 的“神”与 RLVR 的“形”结合起来？让模型既学会显式思考，又能生成合乎人类偏好的回答？

普林斯顿陈丹琦组的最新论文给出了答案：RLMT（Reinforcement Learning with Model-rewarded Thinking）。它强制模型在回答前“写下长链推理”，再用偏好奖励模型来评判最终答案。

实验结果显示：一个 8B 模型，凭借 RLMT，就能在聊天和创作任务上逼近甚至超越 GPT-4o 和 Claude-3.7 Sonnet。

论文题目：

Language Models that Think, Chat Better

论文链接：

https://arxiv.org/pdf/2509.20357

代码链接：

https://github.com/princeton-pli/RLMT

这不仅是技术上的突破，更是范式上的转折。下面，我们就沿着论文的逻辑主线，逐步拆解 RLMT 的核心思想与实验发现。

RLMT的形与神

如果把 RLHF 看作“人类偏好的镜子”，RLVR 看作“可验证推理的钢尺”，那么 RLMT 就是试图把两者合一：既要模型学会显式地思考，又要它的回答能合乎人类的期待。

在 RLMT 中，模型被强制先写下一段思考轨迹 z，然后再产出最终回答 y。不同于 RLVR 那种用严格校验器来判定“对错”，这里的评价者是一个偏好奖励模型 r。于是，训练目标就变成了：

为了更好理解，我们先回顾两条“父路线”：

RLHF 的目标函数：

RLVR 的目标函数：

对比可见：RLMT 延续了 RLVR 的“先想后答”生成方式，但最终奖励机制不是硬性的对错判据，而是 RLHF 风格的人类偏好模型。这使得模型必须生成推理链条，但又能在开放域场景里保持灵活。

图 1 展示了三者的结构差异：RLHF 直接用偏好奖励，RLVR 强调严格验证，而 RLMT 则把“显式思考”与“偏好打分”结合在一起。

▲ 图1. RLMT框架结合了RLVR的显式思考流程与RLHF的偏好奖励机制。

图 2 给出了 RLMT 的案例：面对开放式问题，模型会先写下一段 checklist 或草稿式规划，再生成最终回答。

▲ 图2. RLMT让模型在回答前显式生成推理轨迹，思维风格从checklist向迭代修订转变。

有效成分拆解

论文的消融实验表明，RLMT 的成功并非单点创新，而是多因素叠加的结果：

奖励模型的强度是关键基石。作者使用了 Skywork 系列奖励模型，并发现当奖励模型更强时，RLMT 的表现显著更好；反之，弱奖励模型会让整体性能下滑。
提示分布比数据规模更重要。相比堆砌大规模指令数据，选择更贴近真实聊天语境的 WildChat-IF 子集（约 7.5k 样本）反而带来了更稳定的收益。
算法选择并非唯一要素。在 GRPO、PPO、DPO 三种优化器下，RLMT 都能有效运行，且 GRPO 效果最佳，但整体差异并非决定性。

这些因素共同保证了 RLMT 不仅在数学公式上“看起来合理”，更在工程实践中“跑得顺畅”。

从验证到突破

显式思考，是否真的有用？

论文的第一个问题是：如果强制模型“先思考再回答”，到底有没有收益？

答案写在表 1 的上半部分。同样是 8B 模型，RLMT 在几乎所有开放域基准上都比 RLHF 高出 1.5–4 分。尤其是 WildBench 和 AlpacaEval2，提升最为明显。这证明“显式思考”不是负担，而是助力。

▲ 表1. 上半部分中，RLMT在WB、AE2、CWv3等任务上明显超过RLHF。

从“小模型”到“大对手”

表 2 展示了 RLMT 8B 模型与 GPT-4o、Claude-3.7 Sonnet 的对比。在 WB 和 AE2 上，8B-RLMT 不仅超过 GPT-4o，还短暂反超 Claude。虽然在 AH2 和 CWv3 上仍有差距，但整体平均分 54.1，已比 GPT-4o（53.2）更高。

这说明，RLMT 让小模型第一次具备了与旗舰商用模型“掰手腕”的可能性。

▲ 表2. 8B-RLMT在部分任务上实现对GPT-4o、Claude的超越。

数学逻辑 ≠ 通用推理

图 3 揭示：仅在数学域训练出来的 RLVR 模型，迁移到开放域时效果几乎失效；而 RLMT 在 WildBench 等任务上表现稳定。

逻辑很清楚：推理链条需要配合合适的奖励信号。单纯可验证的“对错”无法推广到开放式场景。

▲ 图3. 数学域RLVR模型在WildBench上表现不佳，而RLMT保持优势。

如果连SFT都跳过？

表 1 的下半部分给出答案：Zero-RLMT。

在 Qwen-2.5-7B 上，Zero-RLMT 平均分 36.4，超过 Instruct 的 35.0。
在 Llama-3.1-8B 上，总分略低（28.7 vs 30.8），但在聊天能力（AvgChat）上反超 5.5 分。

这说明 RLMT 的关键并不依赖繁重的 SFT，哪怕从零开始，它依然能跑通。

▲ 表1. 下半部分中，Zero-RLMT在Qwen上全面超过Instruct，在Llama上聊天能力更强。

算法选择只是细节

表 3 表明：不管是 DPO、PPO 还是 GRPO，RLMT 都能稳定超过 RLHF。差别在于 GRPO 最优，比 PPO 高 1–3 分，比 DPO 高约 5 分。但核心增益来自“显式思考 + 偏好奖励”，而不是具体优化器。

▲ 表3. GRPO效果最佳，但RLMT在不同优化器下都成立。

消融实验：验证哪些因素真正关键

在方法部分，作者提出过“有效成分假设”：奖励模型的强弱、训练提示分布的质量，以及 warm-start 的来源，可能决定最终性能。

表 4 的消融实验正好从三个角度验证：

Prompt mixture：结果显示，WildChat-IF 子集效果最佳，比 UltraFeedback 或随机混合更能提升性能。这印证了前文的观点：相比数据规模，训练分布的“贴合度”更关键。
Warm-start source：这里作者没有使用 Gemini-2.5，而是采用 GPT-4.1-mini 生成的 SFT 数据来做预热。结果表明，即便换成 GPT-4.1-mini，RLMT 依然能跑通，并保持与原始设置类似的趋势。这说明 warm-start 的来源并不是决定性因素。
Reward model 强弱：Skywork-V2 显著优于 V1 和 ArmoRM。强奖励模型不仅提升聊天任务分数，还能减少在非聊天任务上的性能下滑。