动态列表

一半人明天不上班，GDP不会掉一点！耶鲁大学揭AGI残酷真相
告别胶水代码，5倍飚速！无问芯穹首次揭秘，Infra智能体蜂群登场
Depth Anything再出新作！浙大 & 港大出品：零样本，优化任意深度图
H-1B「天价签证」引爆恐慌！印裔精英返乡梦碎，2800亿市场剧震
突发：甲骨文CEO下台！刚和OpenAI签下3000亿美元大单，或因路线斗争
年轻一代创作者，学会与 AI 共舞
MiniCPM-V 4.5技术报告正式出炉！首个高刷视频理解多模态模型全解析
KDD 2025 | 从个股偏离到市场共振：UMI挖出股市非理性因子，显著提升预测精度
一套框架搞定图像定制！IC-Custom统一「位置相关/无关」，万物迁移真落地
北京内推 | Apple中国招聘机器学习/AI方向研究型实习生
Yann LeCun团队新作LLM-JEPA：结合联合嵌入预测架构，显著提升大模型微调性能与效率，在代码生成任务上表现卓越
SilentStriker：无声击溃大模型
TPAMI | 数据增强还在“盲操”？南大提出IPF-RDA，让模型训练告别信息丢失
小米 17 系列手机官宣 9 月 25 日发布；iPhone 17 标准款需求超预期，苹果已增产；罗永浩再回应债务问题：个人债务五年前就还完了，后面是主动还的公司债务｜极客早知道
比思维链准43%！逻辑脑+大模型直觉，推理可靠性大幅提升
陶哲轩官宣AI数学基金首轮名单：29个项目瓜分1.3亿，数学界沸腾！
GPT-5仅23.3%，全球AI集体挂科！地狱级编程考试，夺金神话破灭
一手奶瓶一手键盘！新手宝妈产假氛围编程，自研实用家庭App
刚刚，DeepSeek-V3.1「终极版」重磅发布！最大提升超36%，V4/R2还远吗？
为了千元机用户的「流畅权」，OPPO 为安卓换了个「引擎」
一年卖出 10 个亿，这是年轻人真正的「户外神器」
Teable 宣布完成数百万美元天使轮融资，让数据库「长出耳朵和手」
北京内推 | 智源研究院多模态交互研究中心招聘多模态/具身智能方向研究型实习生
博士申请 | 复旦大学魏龙老师课题组招收AI4Science方向博士/硕士/RA/实习生
Lumos-1登场！自回归 + 离散扩散合体：让大模型真正“构造”动态世界！
不到两千块，我拍到了专业级别的月全食｜New Things
苹果发布Manzano：一种简单可扩展的统一多模态大模型，其混合视觉Tokenizer统一了理解与生成任务，性能SOTA
博后年薪40万到90万 | 东方理工朱文韬课题组招聘AI方向博士后、研究助理教授、访问学生、实习生
字节跳动SAIL-VL2登顶OpenCompass，开源高效多模态新标杆
黄仁勋出手，50 亿美元入股英特尔，英伟达一统「GPU+x86」生态
巴菲特清仓比亚迪，期间股价上涨 38 倍；苹果折叠屏手机细节曝光；雷军年度演讲定档 9 月 25 日
刚刚，Gemini「灵魂人物」官宣加盟xAI！马斯克火速转推背书
靠10万+粉丝，北漂插画师秒贷款！华为全栈AI加速，让银行及时看见
醒醒，LLM根本没有性格！加州理工华人揭开AI人格幻觉真相
哈佛大佬都哭了！H-1B签证飙至10万刀，微软谷歌连夜召回全球员工
马斯克xAI百天血战，100天狂招100人！联创实权被削，豪言干掉微软
全球双榜SOTA！明略科技专有大模型 Mano开启GUI智能操作新时代
谷歌Gemini IMO和ICPC夺金功臣之一被xAI挖走，马斯克直呼：起飞
工业级3D世界构建提速90倍！全新框架LatticeWorld让虚拟世界「一句话成真」
集合通信库VCCL释放GPU极致算力，创智、基流、智谱、联通、北航、清华、东南重磅开源
【招生招聘】阿卜杜拉国王科技大学孟彦达博士组全奖博士、博后、实习、交流生
告别视频“抽帧”理解，美国东北大学新算法GRT算法实现高效可扩展的高帧率密集视频理解
iPhone17 卖爆，官网发货延至双 11；比亚迪仰望 U9 赛道版开启预定；网友玩坏 iPhone「舌头刷抖音」
「逆龄大脑药」首次人体试验！奥特曼押注RTR242，返老还童将要成真？
终结CMU霸权，清华首次登顶CSRankings世界第一！北大AI领域夺冠
大模型训练新突破！Meta提出LSP：无数据也能实现能力飞升
OpenAI最新硬件2026年底亮相！狂挖苹果20+老将，首款神秘设备或将颠覆iPhone
小扎AI眼镜当场死机，CTO自曝灾难级演示内幕：一个指令干趴自家服务器
当大厂「卷」Agent，腾讯选择「下产线」
陈天桥旗下AI公司MiroMind打造全球顶尖预测型大模型，性能登顶行业基准
OpenAI从苹果挖了20多人搞硬件，知情人士：苹果创新缓慢、官僚主义令人厌倦
Mini-Omni-Reasoner：实时推理，定义下一代端到端对话模型
TPAMI 2025 | DiffMVS/CasDiffMVS：一种置信度感知的扩散模型，实现轻量且准确的多视图立体三维重建
北大等提出BEVUDA++，首次解决BEV感知跨域难题，夜间检测性能提升12.9%
iPhone 17 Pro 首日即现划痕；传 OpenAI 联手立讯做 AI 硬件；2025 年搞笑诺贝尔出炉
史上最大升级！7亿周活ChatGPT逼宫，谷歌慌了，这次要把AI整个塞进Chrome
谷歌AI或摘千禧年大奖！华人博士破解百年数学难题，首次捕获奇点
登顶多模态推理榜MMMU！UCSD新方法超越GPT-5、Gemini
DeepSeek-R1登顶Nature，8位专家严审通过，大模型「交卷时刻」来了
18岁天才少年，登上Nature封面！
ICML 2025 | 乱写Prompt更给力？删几个Token，上下文学习立刻“反向觉醒”
北京内推 | 腾讯混元大模型X团队招聘大模型/强化学习方向“青云计划”实习生
扩散大语言模型也能飞？DPad免训练加速61倍，全局规划照样稳
不要ViT也不要扩散！OneCAT甩掉编码器，统一多模态自回归模型来了
华为超节点：用「一台机器」的逻辑，驱动AI万卡集群
5555被拒稿，AC接收但PC强拒，NeurIPS揭榜引争议
超强开源模型Qwen3、DeepSeek-V3.1，都被云计算一哥「收」了
攻克大模型训推差异难题，蚂蚁开源新一代推理模型Ring-flash-2.0
给大模型「精准手术」：美团智能客服提出逆向学习技术精准纠偏，风险控制提升38%
Meta新作SyncSeal：用深度学习“封印”同步信息，让数字水印不再怕裁剪和旋转
阿联酋大学CVLab IEEE Fellow团队招收2026春季/秋季全奖博士生
千禧年大奖难题有望突破？AI为流体动力学提供新思路
生物学迎来「ChatGPT时刻」：Evo构建首个AI生成的「基因组」，开启生成式基因设计时代
英伟达50亿美元入股英特尔，将发布CPU+GPU合体芯片，大结局来了？
理解帮助生成？RecA自监督训练让统一多模态模型直升SOTA
投50亿美元，英伟达联手英特尔；谷歌将Gemini加入浏览器；网约车司机平均月入过万
GPT-5攻入数学圈，证明定理快过博士生？网友热议AI新角色
阿里王牌Agent横扫SOTA，全栈开源力压OpenAI！博士级难题一键搞定
ChatGPT负责人深度复盘，爆4o复活内幕！过快下线是失误，将迭代模型人格
全球首个AI基因组诞生，35亿年生命代码重编程！生物学迎「ChatGPT时刻」
芯片大地震，黄仁勋355亿入股！英特尔要为老黄造CPU，股价狂飙30%
新思科技中国30周年，引领AI智能体工程师重塑芯片设计范式
科大讯飞发布面向东盟的多语言大模型及系列产品，布局中国—东盟AI生态大未来
Nature | 20年后你会患上哪些疾病？AI准确预测超1000种疾病患病风险，助力预防
我们还是低估了英伟达
北京内推 | 字节跳动国际电商团队招聘大模型方向算法实习生
少样本不够看？给LLM装上“学习引擎”，上下文学习迈入千样本时代
ICCV 2025 | Gap即力量！挖掘模态间隔潜力，MG-CLIP实现持续学习SOTA
谁在拖慢你的RL？别怪显卡，错的可能是你的PG-loss
OneSearch，揭开快手电商搜索「一步到位」的秘技
17.38 万的大六座 SUV，吉利用银河 M9 敲碎了友商的心
刚刚，OpenAI在ICPC 2025编程赛上满分登顶，Gemini也达到金牌水平
从一个公众号智能体说起：好用的Agent，究竟需要什么?
B站出海的强有力支柱：最新开源文本转语音模型IndexTTS-2.0标志零样本TTS进入双维度时代
腾讯企点营销云发布Magic Agent，营销工具全面AI化
带屏 AI 眼镜登场！Meta「眼镜全家桶」炸街了
通义DeepResearch震撼发布！性能比肩OpenAI，模型、框架、方案完全开源
让机器人「不只是走路」，Nav-R1引领带推理的导航新时代
刚刚，DeepSeek-R1论文登上Nature封面，通讯作者梁文锋
腾讯 AI 的新叙事
传小米 YU7 新车型曝光纽北；李飞飞放出 3D AI 新成果； 49.2%，火山引擎大模型调用份额占半壁江山
小扎豪掷143亿，却换不来AI燃料！数据之争下半场，中国冲出一匹黑马
终结数据荒！智源开源首个Deep Research数据合成框架InfoSeek
我用一张照片，生成了一个能走进去的世界
奥特曼爆料：GPT-5重构彻底一切！一人顶五个团队
最新实测GPT-5-Codex：前端能力碾压，复杂项目轻松搞定，Claude可以扔了!
南开大学等提出RAM++：从关注“降质”到关注“内容”，实现鲁棒的全能图像恢复
TPAMI 2025 | 弱监督与自监督引领自动驾驶运动预测新范式，用场景分割“脑补”运动，仅需0.01%标注，性能媲美监督方法
博士申请 | 新加坡国立大学CoSTA Lab招收人工智能全奖博士/RA/实习生
不改参数不重训！CARVE一招纠偏，对比注意力让视觉模型精准聚焦
ICML 2025 | AI福尔摩斯来了！LLaVA-ReID多轮发问，行人重识别一步步锁定
清华新作颠覆CoT！ParaThinker并行思考，终结单链推理天花板
没想到，音频大模型开源最彻底的，居然是小红书
6.1B打平40B Dense模型，蚂蚁开源最新MoE模型Ling-flash-2.0
「AI助手」真来了？谷歌牵头推进Agent支付协议AP2
腾讯AI Lab首创RL框架Parallel-R1，教大模型学会「并行思维」
阿里开源通义DeepResearch，性能超OpenAI、DeepSeek旗舰模型
华为发布4+10+N中小企业智能化方案，打通迈向智能世界「最后一公里」
LLM开源2.0大洗牌：60个出局，39个上桌，AI Coding疯魔，TensorFlow已死
Cell丨谷歌AI co-scientist联合帝国理工揭开谜团：提出并验证细菌基因转移机制假说
华为首款旅行车 1 小时订单破 5000，余承东再次「封神」？
腾讯、复旦、上海创智学院提出SwiftVideo：首个Continuous-time视频蒸馏加速框架，实现业界最快最高清视频生成
刚刚，李飞飞空间智能新成果震撼问世！3D世界生成进入「无限探索」时代
突破单链思考上限，清华团队提出原生「并行思考」scale范式
刘强东喊话王兴：尊重兴哥，不应是仇人；美机器人公司估值暴涨至390亿美元；iOS 微信支持聊天发实况图｜极客早知道

RLHF要下岗？Meta × 牛津搞出新套路：用算力教算力，大模型训练新范式来了！

2025-09-22未知作者来源

原创让你更懂AI的 2025-09-22 14:17 北京

算力变监督，学生一度跑赢老师！

在没有标准答案的任务里，大模型该向谁学习？

长期以来，我们依赖人类标注、LLM 判官或多数投票来为模型提供监督，但这些方式要么成本高昂，要么偏好明显，要么只能在候选里“挑最不差的”。

但如果——算力本身就能反过来提供监督，会怎样？

Meta 与牛津大学最新提出的 Compute as Teacher (CaT) 框架，给出了一个大胆的新思路：把推理时消耗的算力回收利用。模型在一次推理中生成多条 rollouts，再由锚点模型进行综合，产出新的“参考答案”，并进一步转化为奖励信号。

实验表明，这一方法在数学和医疗等任务上最高带来 +30% 提升，甚至出现了“学生反超老师”的现象。它不仅是后训练的一次技术革新，更可能改写我们对监督信号的基本理解：未来的监督，或许就来自模型自身的探索与综合。

论文题目：

Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision

论文地址：

https://arxiv.org/pdf/2509.14234

研究背景：从“选择”到“综合”

在大模型的后训练实践中，研究者主要依赖三类监督信号：

1. 有标注数据的监督微调（SFT），需要大规模人工标注；

2. 可验证任务的程序化奖励，如数学答案匹配、代码执行；

3. 替代性信号：多数投票（Self-Consistency）、困惑度排序（PPL-based）、LLM 判官打分。

问题在于：

SFT 标注稀缺，难以扩展；
程序化奖励只适用于有限场景；
判官 LLM 和投票机制，都存在稳定性差或“随大流”的问题。

于是，作者提出：与其从 rollouts 里“挑最好的”，不如把它们综合成更优答案。在多样化探索下，矛盾和差异反而能成为学习信号的养分。

把“并行思考”炼成“可学监督”

从“选择”到“合成”

CaT 的出发点是一个看似简单的问题：当模型一次性生成多条推理路径（rollouts）时，我们能否不只是“挑出最好的一条”，而是把这些路径综合成更优的参考答案？

设当前策略为，面对问题，它会生成条回答轨迹：

这些 rollouts 有时相互补充，有时相互矛盾。传统方法往往在这里结束：通过困惑度排序（min-PPL）、自一致性投票（Self-Consistency）、或 LLM 判官打分来选一条。

而 CaT 引入了一个冻结的锚点策略，让它基于做“信息调和”，产出新的参考回答：

其中是综合提示词，要求锚点聚合差异信息，消解冲突，而不是简单复写。

▲ 图1. CaT 总体流程。当前策略探索，锚点综合，得到参考答案并转化为奖励。

值得注意的是，看不到原题。这是一个关键设计：如果给它原题，它很容易“自己再写一遍答案”，而不是在已有 rollouts 之间调和。盲题综合迫使它必须依赖 rollouts 的差异，从而实现真正的“跨样本综合”。

GRPO框架下的CaT

CaT 的训练建立在 Group Relative Policy Optimization (GRPO) 上。对于每个 rollout ，目标函数为：

其中，一般取，保证策略更新不过度偏离锚点。

直观理解：它不是要求模型绝对最优，而是学会在一组候选里“比平均更好”。

剪切式surrogate loss

在每个 token 上，采用 PPO 式的剪切 surrogate loss：

其中是策略比率：

而优势函数通过组内归一化计算：

▲ 图2. 锚点在 rollouts 间做综合，而不是选择。即便多数是错的，它也可能调和出正确答案。

直观理解：奖励是相对性的，只有比同组平均更好的回答，才会得到正向强化。

奖励机制：可验证 vs 非可验证

合成参考只是第一步，接下来要把它转化为奖励。这里 CaT 区分了两类任务：

可验证任务（如数学、代码）

廉价且精确，适合结构化任务。

非可验证任务（如医疗问诊、对话）

CaT 让锚点把参考答案拆解为一组 rubrics，每条 rubric 是一个可审计的二元标准（如“是否提到患者年龄”）。判官 LLM 逐条打分：

这样，复杂的整体好坏问题被分解成“逐条核查”，显著降低了不稳定性和形式偏差。

▲ 图3. 奖励机制。左：可验证域直接比对。右：非可验证域先拆成 rubrics，再逐条判定。

CaT与“选择类方法”的本质区别

与 Self-Consistency / Best-of-N 之类方法相比，CaT 的关键不同在于：它能跳出候选空间。

论文实验表明：

在 14% 的题目上，CaT 与多数 rollouts 答案不同；
在 1% 的题目上，CaT 与所有 rollouts 都不同，但却是正确的。

这说明它不是在“选”，而是真正在“合成”。

实验结果：从“老师更强”到“学生反超老师”

在 MATH-500 上，CaT 作为推理外挂即可带来 +27% 的提升，进入 RL 循环后提升至 +33%。在 HealthBench 上，也能带来 +12%~+30% 的增益。

▲ 图4. 不同模型在 MATH-500 与 HealthBench 上的整体提升。CaT-RL 优势最显著。

更有意思的是，CaT 在非可验证任务中表现出了“超越专家”的潜力。作者比较了三种奖励机制：

自生成 rubrics
LLM 判官
专家 rubrics

结果显示：CaT 的 rubrics 优于 LLM 判官，在部分模型上甚至超过专家。

▲ 图 5 左：CaT rubrics 超越 LLM 判官，媲美甚至超过专家。右：CaT-RL 显著优于 CaT-SFT。

此外，统计数据显示：

在 14% 的题目上，CaT 给出的答案逆多数而行；
在 1% 的题目上，它甚至与所有 rollouts 都不同，却能给出正确答案。

这正是“综合 > 选择”的最佳例证。

当算力成为“老师”，接下来会发生什么？

CaT 展示了一条新路径：让模型在推理时消耗的算力，反过来成为监督信号。它既能在 test-time 提升表现，也能在 RL 训练中让学生逐渐反超老师。

然而，它并非无穷尽。当模型越来越强、rollouts 越来越一致时，CaT 的增益逐渐消失——这是论文 Figure 8 揭示的“收益走平”现象。

▲ 图 8. 当 rollouts 收敛时，CaT 的优势不再显著，收益逐渐走平。

未来的可能方向包括：

保持多样性：让模型探索不同路径，避免“千篇一律”；
多锚点教师：组建一个“教师团队”，互补视角；
跨模态扩展：把思路带到图像、视频等更复杂任务中。

深度解读：我怎么看CaT？

在笔者看来，CaT 的贡献不只是技术层面，它背后隐含了一种新的“资源观”：算力本身也可以是监督资源。这让我们重新思考大模型训练的边界——未来或许并不需要无穷无尽的人类标注，而是让模型自己在推理时产出可利用的信号。

但它也有局限：当 rollouts 缺乏多样性时，锚点综合不再有意义。这点在 Figure 8 的“收益走平”现象里已经显现。如果没有新的“多样性激活”机制，CaT 很快会遇到天花板。

笔者觉得值得探索的方向有三个：

更主动的多样性引导：让模型在 rollouts 时刻意探索不同推理路径；

跨模型综合：不仅综合自己生成的回答，还引入不同规模或不同架构模型的视角；

与人类偏好结合：rubrics 的生成是否也能引入轻量级人类干预，从而保持长期可信？

如果 RLHF 是“人教机”，那么 CaT 是“机教机”。从更长远的角度看，这或许是迈向自我提升型 AI 的必要一步。

那么，你认为未来的模型训练，还会有哪些“自我监督”的可能性？

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

阅读原文

跳转微信打开