原创 让你更懂AI的 2025-09-22 14:17 北京
算力变监督,学生一度跑赢老师!
在没有标准答案的任务里,大模型该向谁学习?
长期以来,我们依赖人类标注、LLM 判官或多数投票来为模型提供监督,但这些方式要么成本高昂,要么偏好明显,要么只能在候选里“挑最不差的”。
但如果——算力本身就能反过来提供监督,会怎样?
Meta 与牛津大学最新提出的 Compute as Teacher (CaT) 框架,给出了一个大胆的新思路:把推理时消耗的算力回收利用。模型在一次推理中生成多条 rollouts,再由锚点模型进行综合,产出新的“参考答案”,并进一步转化为奖励信号。
实验表明,这一方法在数学和医疗等任务上最高带来 +30% 提升,甚至出现了“学生反超老师”的现象。它不仅是后训练的一次技术革新,更可能改写我们对监督信号的基本理解:未来的监督,或许就来自模型自身的探索与综合。
论文题目:
Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision
论文地址:
https://arxiv.org/pdf/2509.14234
研究背景:从“选择”到“综合”
在大模型的后训练实践中,研究者主要依赖三类监督信号:
1. 有标注数据的监督微调(SFT),需要大规模人工标注;
2. 可验证任务的程序化奖励,如数学答案匹配、代码执行;
3. 替代性信号:多数投票(Self-Consistency)、困惑度排序(PPL-based)、LLM 判官打分。
问题在于:
SFT 标注稀缺,难以扩展;
程序化奖励只适用于有限场景;
判官 LLM 和投票机制,都存在稳定性差或“随大流”的问题。
于是,作者提出:与其从 rollouts 里“挑最好的”,不如把它们综合成更优答案。在多样化探索下,矛盾和差异反而能成为学习信号的养分。
把“并行思考”炼成“可学监督”
从“选择”到“合成”
CaT 的出发点是一个看似简单的问题:当模型一次性生成多条推理路径(rollouts)时,我们能否不只是“挑出最好的一条”,而是把这些路径综合成更优的参考答案?
设当前策略为 ,面对问题 ,它会生成 条回答轨迹:
这些 rollouts 有时相互补充,有时相互矛盾。传统方法往往在这里结束:通过困惑度排序(min-PPL)、自一致性投票(Self-Consistency)、或 LLM 判官打分来选一条。
而 CaT 引入了一个冻结的锚点策略 ,让它基于 做“信息调和”,产出新的参考回答 :
其中 是综合提示词,要求锚点聚合差异信息,消解冲突,而不是简单复写。
▲ 图1. CaT 总体流程。当前策略探索,锚点综合,得到参考答案并转化为奖励。
值得注意的是, 看不到原题。这是一个关键设计:如果给它原题,它很容易“自己再写一遍答案”,而不是在已有 rollouts 之间调和。盲题综合迫使它必须依赖 rollouts 的差异,从而实现真正的“跨样本综合”。
GRPO框架下的CaT
CaT 的训练建立在 Group Relative Policy Optimization (GRPO) 上。对于每个 rollout ,目标函数为:
其中, 一般取 ,保证策略更新不过度偏离锚点。
直观理解:它不是要求模型绝对最优,而是学会在一组候选里“比平均更好”。
剪切式surrogate loss
在每个 token 上,采用 PPO 式的剪切 surrogate loss:
其中 是策略比率:
而优势函数 通过组内归一化计算:
▲ 图2. 锚点在 rollouts 间做综合,而不是选择。即便多数是错的,它也可能调和出正确答案。
直观理解:奖励是相对性的,只有比同组平均更好的回答,才会得到正向强化。
奖励机制:可验证 vs 非可验证
合成参考 只是第一步,接下来要把它转化为奖励。这里 CaT 区分了两类任务:
可验证任务(如数学、代码)
廉价且精确,适合结构化任务。
非可验证任务(如医疗问诊、对话)
CaT 让锚点把参考答案 拆解为一组 rubrics,每条 rubric 是一个可审计的二元标准(如“是否提到患者年龄”)。判官 LLM 逐条打分:
这样,复杂的整体好坏问题被分解成“逐条核查”,显著降低了不稳定性和形式偏差。
▲ 图3. 奖励机制。左:可验证域直接比对。右:非可验证域先拆成 rubrics,再逐条判定。
CaT与“选择类方法”的本质区别
与 Self-Consistency / Best-of-N 之类方法相比,CaT 的关键不同在于:它能跳出候选空间。
论文实验表明:
在 14% 的题目上,CaT 与多数 rollouts 答案不同;
在 1% 的题目上,CaT 与所有 rollouts 都不同,但却是正确的。
这说明它不是在“选”,而是真正在“合成”。
实验结果:从“老师更强”到“学生反超老师”
在 MATH-500 上,CaT 作为推理外挂即可带来 +27% 的提升,进入 RL 循环后提升至 +33%。在 HealthBench 上,也能带来 +12%~+30% 的增益。
▲ 图4. 不同模型在 MATH-500 与 HealthBench 上的整体提升。CaT-RL 优势最显著。
更有意思的是,CaT 在非可验证任务中表现出了“超越专家”的潜力。作者比较了三种奖励机制:
自生成 rubrics
LLM 判官
专家 rubrics
结果显示:CaT 的 rubrics 优于 LLM 判官,在部分模型上甚至超过专家。
▲ 图 5 左:CaT rubrics 超越 LLM 判官,媲美甚至超过专家。右:CaT-RL 显著优于 CaT-SFT。
此外,统计数据显示:
在 14% 的题目上,CaT 给出的答案逆多数而行;
在 1% 的题目上,它甚至与所有 rollouts 都不同,却能给出正确答案。
这正是“综合 > 选择”的最佳例证。
当算力成为“老师”,接下来会发生什么?
CaT 展示了一条新路径:让模型在推理时消耗的算力,反过来成为监督信号。它既能在 test-time 提升表现,也能在 RL 训练中让学生逐渐反超老师。
然而,它并非无穷尽。当模型越来越强、rollouts 越来越一致时,CaT 的增益逐渐消失——这是论文 Figure 8 揭示的“收益走平”现象。
▲ 图 8. 当 rollouts 收敛时,CaT 的优势不再显著,收益逐渐走平。
未来的可能方向包括:
保持多样性:让模型探索不同路径,避免“千篇一律”;
多锚点教师:组建一个“教师团队”,互补视角;
跨模态扩展:把思路带到图像、视频等更复杂任务中。
深度解读:我怎么看CaT?
在笔者看来,CaT 的贡献不只是技术层面,它背后隐含了一种新的“资源观”:算力本身也可以是监督资源。这让我们重新思考大模型训练的边界——未来或许并不需要无穷无尽的人类标注,而是让模型自己在推理时产出可利用的信号。
但它也有局限:当 rollouts 缺乏多样性时,锚点综合不再有意义。这点在 Figure 8 的“收益走平”现象里已经显现。如果没有新的“多样性激活”机制,CaT 很快会遇到天花板。
笔者觉得值得探索的方向有三个:
更主动的多样性引导:让模型在 rollouts 时刻意探索不同推理路径;
跨模型综合:不仅综合自己生成的回答,还引入不同规模或不同架构模型的视角;
与人类偏好结合:rubrics 的生成是否也能引入轻量级人类干预,从而保持长期可信?
如果 RLHF 是“人教机”,那么 CaT 是“机教机”。从更长远的角度看,这或许是迈向自我提升型 AI 的必要一步。
那么,你认为未来的模型训练,还会有哪些“自我监督”的可能性?
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·