原创 让你更懂AI的 2025-10-09 23:49 北京
忠实性→推理→正确性
最近,腾讯 WXG 推出了思维监督奖励模型Thinking-supervised Reward Model (TRM),旨在提升大语言模型(LLM)在开放域问答任务中的事实正确性。
TRM 通过引入忠实性 → 推理 → 正确性的三步思考链路,教会大模型像人类一样批判性思考,从而显著提升了在开放式问答场景中(open-domain QA)对错误句子的识别能力。
TRM 已被应用到大模型的 RL 后续训练中,并在开放域问答数据集上实现了最高 30.3% 的正确率提升。
论文题目:
From Faithfulness to Correctness: Generative Reward Models that Think Critically
论文链接:
https://arxiv.org/abs/2509.25409
代码链接:
https://github.com/Martin-qyma/TRM
模型链接:
https://huggingface.co/QiyaoMa/TRM
导读
通过可验证奖励的强化学习(RLVR),大语言模型(LLM)在数学、编程等结果易于验证的领域取得了显著进展。然而,当应用于开放域问答等更复杂的任务时,RLVR 面临重大挑战,原因在于“正确性”难以验证。
现实世界知识往往具有复杂性和模糊性,使得在这些场景中难以可靠地评估答案是否正确。这就要求模型不仅具备逻辑一致性,还需要具备同时理解和评估 外部资料与自身内部知识的能力。
近期的研究主要聚焦于提升忠实性 —— 即答案与支持文档的语义一致性。但这种方法可能导致模型过于依赖外部资料,从而削弱了其批判性思考的能力。
为解决这一问题,我们提出了思维监督奖励模型(TRM)。TRM 在句子层面引入力导思维监督,赋予奖励模型批判性思考能力。针对一个查询、答案和支持文档,TRM 首先评估答案中每个句子是否忠实于文档,然后再通过推理步骤判断该句子的正确性。
通过将奖励建模过程明确结构化为忠实性 → 推理 → 正确性的链路,TRM 鼓励模型批判性地评估并利用外部与内部知识。实验结果表明,TRM 在错误句子识别上有显著提升,而将 TRM 融入策略优化后,还能有效提高答案的正确性与实用性。
模型方法
在开放域问答中,一个答案往往不是“全对”或“全错”,而是夹杂着局部准确和局部错误。传统的监督方式会因为个别错误而整体否定答案,导致模型难以学习精细化判断。为此,我们提出了思维监督奖励模型(TRM)。
TRM 的核心创新是句子级别的奖励信号,并设计出一个仿照人类批判性思维的推理链条:
忠实性(Faithfulness):先判断每一句话是否忠实于参考文档。
推理(Reasoning):在忠实性的基础上,结合模型内在知识进行分析。
正确性(Correctness):最终判断句子是否事实正确。
这样的三步流程让 TRM 能够区分四种关键场景:
忠实且正确(可靠答案)
忠实但错误(文档本身可能有误)
不忠实但正确(模型借助内部知识修正了文档缺陷)
不忠实且错误(典型幻觉或伪造)通过这种设计,TRM 不仅帮助模型发现“哪一句有问题”,还学会像人类一样,既参考外部证据,又检验自身知识。在实验中,TRM 显著提升了错误检测能力,并为后续的强化学习提供了更精确的奖励信号。
模型验证
在开放域问答中,如何精准识别“哪些句子是错的”始终是一大挑战。为验证思维监督奖励模型(TRM)的有效性,我们进行了大规模实验:
数据构建:
来自腾讯搜索引擎的真实查询,经过严格匿名化;
答案被分割成句子,以便精细化标注;
双阶段人工标注:先判断句子是否忠实于文档,再结合外部知识确认其事实正确性。
构建出可区分“忠实但错误、非忠实但正确”等复杂场景的高质量数据集。
实验设计:
对比三类基线:结果监督奖励模型(ORM)、过程监督奖励模型(PRM)、以及我们提出的 TRM。
针对答案正确率高度不平衡(约 87% 句子为正确)的挑战,评估聚焦于错误句子识别能力。
核心指标包括:句子级 F1 分数、错误答案检测率等。
关键结果:
TRM 在所有指标上全面超越 ORM 和 PRM;
显著提升了对错误句子的定位与识别能力(F1 提升约 +6.5%,检测率提升约 +5.9%);
实验证明:显式引入 “忠实性 → 推理 → 正确性” 的思维链条,是提升模型批判性思维与鲁棒判断力的关键。
模型应用
在实际应用中,一个答案正确并不等于好用。简短的回答也许精准无误,却可能缺乏信息量和实用价值。为此,我们在策略优化(Policy Optimization)阶段引入了一套双重奖励机制:
TRM(思维监督奖励模型) —— 专注于逐句判断答案的事实正确性。
Prefer(偏好奖励模型) —— 关注答案是否更完整、更实用、更符合用户偏好。
在强化学习过程中,我们将 TRM 的句子级正确性奖励 与 Prefer 的答案级偏好奖励 融合,通过 GRPO 算法共同引导策略模型的优化。这样,模型不仅学会避免错误,还能在众多候选中生成更有用、更全面的回答。
实验结果显示:这种联合优化方法在困难场景中显著提升了答案的实用性(+35%),在常见问题中则进一步增强了正确率(+30%)。
结语
本文提出的思维监督奖励模型(TRM),通过“忠实性 → 推理 → 正确性”的分层链路,将奖励建模从单一的结果判定,扩展为具备批判性思考的过程。
实验充分验证:TRM 在句子级别和答案级别都显著提升了错误检测能力,并在强化学习中结合正确性与偏好奖励,实现了答案更可靠、更有用的统一优化。
整体而言,TRM 不仅解决了开放域问答验证难的问题,也为未来更可解释、更稳健的奖励建模探索提供了新的方向。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·