动态列表

  • 扎克伯格急了!Meta内部文件曝光:宁用竞品,也要废掉祖传系统
  • 浙大推出首个「多图应用题」基准GSM8K-V,全面评估 VLM数学推理能力
  • 英伟达4段简短提示词,IOI夺金!开源模型也能征服最难编程竞赛
  • 超越纯视觉模型!不改VLM标准架构,实现像素级深度预测
  • 5万美元筛选「超级婴儿」, 智商提升15点?马斯克被曝是客户!
  • NeurIPS 2025 | KAUST与MetaAI提出Vgent:图增强RAG,长视频理解性能超越SOTA 8.6%
  • TPAMI 2025 OccScene:联合扩散框架,同时推进感知与生成进步,3D场景生成新突破!
  • 不靠RL、不用训练:哈佛「Power Sampling」让基座模型推理媲美GRPO
  • 不用微调!像打方向盘一样“操控”大模型思考:Steering正在改写推理范式
  • 中国AIGC用户破5亿,增长1倍;今年超7成外卖低于15元;新能源事故,「破窗锤」被网友买爆|极客早知道
  • AI芯片战争关键一役!英伟达最强Blackwell首次「美国造」
  • 数学界地震!GPT-5连破10道「百年悬案」,陶哲轩:AI革命才刚开始
  • 前OpenAI研究员跨界做文创:Ilya发型帽子走红,AI成潮牌!
  • 训练成本暴降99%,35秒出1分钟高清视频!英伟达MIT等引爆视频AI革命
  • Karpathy泼冷水:AGI要等10年!根本没有「智能体元年」
  • 早鸟票倒计时2天!全国大模型智能生成大会:推理、多模态、智能体前沿集结
  • 一致性轨迹强化学习登场:上海AI Lab让扩散语言模型实现全并行少步数推理
  • 传 iPhone 17 Air 表现不佳,砍百万产量;黄仁勋:英伟达中国份额从 95% 降到 0%;AI 致维基百科访问显著下降
  • 马普所&谷歌等提出AnyUp:无需再训练的通用特征上采样,推理即用,效果SOTA!
  • 北大等提出MaskDCPT:通用图像修复预训练新范式,PSNR提升3.77dB
  • 可处理上万变量,攻克高维时序预测难题!华人团队开源模型、基准
  • Bengio推AGI「高考」,GPT-5单项0分
  • Hassabis官宣用AI点燃「人造太阳」!无限能源时代加速到来
  • 全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA
  • 太狠了,四条腿被锯掉也能爬!通用大脑开启机器人「无休」时代
  • 零跑,不再「摸着理想过河」
  • 硬刚 Sora 2,谷歌的 Veo 3.1 确实有小惊喜|AI 上新
  • 从会画画到会思考:快手可灵提出T2I-CoReBench,最强模型也难逃推理瓶颈
  • NeurIPS 2025 | 上交大提出MM-UPT:多模态大模型的“无监督后训练”范式
  • Meta花了420万美元、烧掉40万GPU·小时,只为验证一条Sigmoid曲线
  • 张鹏对谈朱啸虎、储瑞松、傅盛:Agentic AI 时代,不要什么东西都自己闷头做
  • Real-world Video Super-Resolution | VSR的十字路口
  • Identity-GRPO:阿里开源多人物定制化视频生成的后训练优化算法
  • 蔚来回应外国基金投诉:无事实依据;零跑推D19旗舰SUV,配超大电池;卡西欧推《回到未来》40周年联名表
  • 你的下一个「爱豆」不一定是真人,也可以是AI豆
  • 刚刚,谷歌深夜上新Veo 3.1!网友狂刷2.75亿条,Sora 2要小心了
  • 谷歌142页报告首发揭秘:90%码农每天用AI超2小时!
  • RL微调,关键在前10%奖励!基于评分准则,Scale AI等提出新方法
  • 谷歌×耶鲁联手发布抗癌神器!AI推理精准狙击「隐身」癌细胞
  • GPT越来越保守?斯坦福Manning团队提出Verbalized Sampling,让模型重新“多想一点”
  • ACL 2025 | 北大提出动态焦点解码:让开放生成既“靠谱”又“好看”
  • 统一高效来了!清华发布RLinf-VLA:把VLA+RL的训练与部署“一网打尽”
  • AI 时代,用一场「快闪」改变命运|IF 2026「AI 产品快闪」启动召集!
  • IF 2026 启动:来看看 AI 面前,谁在掌握主动权?
  • 从DNN到MLLM的异常之旅:视频异常检测(VAD)范式大迁徙
  • NeurIPS 2025 | 为Sora视频加上“隐形身份证”:清华大学等提出Safe-Sora,时空频率感知水印新框架
  • 苹果发布 M5 芯片笔记本和 iPad;微信:长时间不用账号,不再强行回收; 乔布斯登上一美元硬币
  • 马斯克的作业还是被奥特曼「抄走了」
  • 苏姿丰出手!Oracle下单5万颗AMD芯片,英伟达王座撼动
  • 具身智能算法哪家强?RoboChallenge见真章!全球首个大规模真机算法评测平台来了
  • NTU等联合提出A-MemGuard:为AI记忆上锁,投毒攻击成功率暴降95%
  • 苹果M5「夜袭」高通英特尔!AI算力狂飙400%,Pro三剑客火速上新
  • TPAMI 2025 | 华中科大与大疆等提出LLF-LUT++:4K照片增强仅需13ms,PSNR提升2.64dB!
  • IDEA提出Rex-Omni:将目标检测变为“下一个点预测”,零样本性能超越DINO
  • AAAI 2026联合会议征稿开启:大语言模型中的深度逻辑推理
  • 下周见!Wiley Advanced主编论坛@IROS 2025:从审稿人视角重塑论文表达
  • 罗福莉担任通讯作者,小米 × 北大联合发布R3:让MoE强化学习从崩盘回归可控
  • Altman:ChatGPT将支持成人内容;港版iPhone Air无法用内地eSIM;传雷军一夜掉粉30万|极客早知道
  • Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」
  • 英伟达AI超算3999开售,「掌心之中」可部署所有大参数开源模型!
  • 登顶Hugging Face GAIA全球榜首!中兴超级智能体终结「AI黑盒」时代
  • AI圈再颠覆!中国AI翻译耳机通话翻译,实测震撼
  • 一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军
  • vivo X300 Pro:以「水桶旗舰」之躯,重登旗舰山巅
  • 直到毕业我才懂:原来延期的博士,不止我一个
  • 8美元“驯服”DeepSeek-V3.2?Training-Free GRPO把RL成本打到地板
  • 让论文自己讲!Paper2Video一键生成论文讲解视频,赶顶会DDL不慌了
  • NeurIPS 2025 | 让AIGC视频变为可探索场景:Instant4D实现单目动态场景的分钟级重建
  • NeurIPS 2025 | PPFN:渐进式提示融合,让红外图像增强在复杂场景下性能提升8.76%
  • 库克抖音带货 iPhone 17 Air,22 日开售;小米客服回应「SU7 门把手」;「丐版」特斯拉明年国内投产
  • 他用一生证明AI没有意识!「中文屋」提出者逝世,享年93岁
  • 今年诺奖成果曾遭质疑无用,但华人团队用它研制了未来芯片的「钥匙」
  • 剑桥揭开大模型翻车黑箱!别再怪它不懂推理,是行动出错了
  • ICLR神秘论文曝光!SAM3用「概念」看世界,重构视觉AI新范式
  • 硅谷爆发反AI「起义」!程序员拒用Cursor被一周解雇
  • 强化学习再迎范式切换:Sergey Levine团队把目标改写成“到达时间”
  • 如果RL可预测,我们还需要把训练跑满吗?中科大揭示参数更新的线性秘密
  • 国行 eSIM 尘埃落定,iPhone Air「下周见」
  • 为什么谷歌搜不到「没有条纹的衬衫」|AI 上新
  • ACM MM2025 Oral | MoSEAR:为多模态情感推理补齐“冲突场景”的短板
  • SAM 3揭开面纱:不止分割万物,更能理解概念,交互式分割迎来新篇章!
  • 雷军亲自测试,小米YU9实车谍照曝光;宇树获「秧歌机器人」专利;微团开卖「Win XP」蓝天白云拖鞋

First Try Matters,不是Aha Moment:邴立东团队揭示推理模型靠首答,不靠反思

原创 让你更懂AI的 2025-10-18 18:39 北京

Aha Moment并非性能来源,反思大多是重复确认。

图片

长思维链没那么神奇:推理模型中九成“反思”只是重复确认,真正决定结果的是第一个答案。邴立东团队系统量化发现,使用有更多反思的数据训练能让首答更准,但推理时截断反思几乎不掉分,却能显著节省 token。

DeepSeek-R1 发布之后,人们普遍惊叹于推理模型通过增加思维链长度进行不断反思,从而得到更准确的答案。

一些研究者对“Aha Moment”做了一些探索,如 [1] 中指出”aha moment”在 base 模型中就存在,并用 case study 展示这种“反思”的 superficial 的特点;[2] 对思维链进行分析指出其中的拟人语气与题目的难度相关,并且这种语气能防止推理过程的崩溃。

然而,对于思维链变长后究竟包含哪些内容、呈现出哪些行为模式,以及它们对准确率提升的具体贡献,社区仍缺乏清晰认识;同时,关于其中的反思行为也缺少系统、量化的深入分析。

本文中,作者对大模型的推理过程进行了深入开箱,重点分析了思维链中模型每次得到候选答案的位置,以及候选答案之间的反思过程,并通过量化的分析展示这种反思模式在训练数据中,以及测试阶段的不同作用。

通过实验作者发现,在训练过程中,使用包含更多反思的训练数据可提升模型的准确率,但提升主要体现在首次答案的准确率上涨,而反思带来的“错改对”的行为仍十分稀少。

同时,作者发现,在测试过程中,往往可以安全地截断第一个答案之后的反思以节省输出 token 的数量,同时维持准确率几乎不变。

论文标题:

First Try Matters: Revisiting the Role of Reflection in Reasoning Models

论文作者:

康力伟,邓岳,肖遥,莫湛锋,Lee Wee Sun,邴立东

论文链接:

https://arxiv.org/abs/2510.08308

代码链接:

https://github.com/Olafyii/first-try-matters

推理模型学会“反思”了吗?

自 OpenAI-o1、DeepSeek-R1 系列模型发布以来,模型自我纠错(self-correction)、“aha moment”的概念引起了广泛的讨论,人们惊叹于推理模型可以在思考过程中进行反思,不借助外界指导自主纠正自己之前的错误。

然而,其实自我纠错的概念在 o 系列模型之前已有许多相关研究,一篇 2023 年的工作 [3] 曾指出,LLM 在没有外界信息引入时,并不能进行自我纠错。

这与当下推理模型所展现出的反思的行为模型似乎相互矛盾。是否随着 LLM 的发展,模型已经涌现出了自我反思的能力?还是当下推理模型的“反思”仍然不是真正的可以纠正之前错误的反思?

本文中作者对此进行深入探究。首先,人为观察一些推理模型的长思维链,作者发现许多模型的自我反思似乎并没有实质性的推进推理的进度。以 DeepSeek-R1 的报告 [4] 中的“aha moment”例子为例,可以看到在“aha”的前后,模型的解题方法是完全一样的。

基于这些观察,本文对众多推理模型在数学问题上的长思维链进行系统性的分析,探究模型是否真的有反思的过程,以及为何模型的思维链长度与推理的准确率有正相关性,并提出测试阶段提升模型推理效率的方法。

推理模型的反思有效性的分析

观察长思维链,可以发现模型经常在得到一个答案之后进行多次的反思、确认答案的正确性,然后才输出最终的答案。

为了更清晰地了解这些反思对最终准确率的贡献,作者分析了八个推理模型(MiMo-7B-RL [5], DeepSeek-R1-Distill-Qwen-7B [4], DeepSeek-R1-Distill-Llama-8B [4], Qwen3-8B [6], DeepSeek-R1-0528-Qwen3-8B [4], gpt-oss-20b [7], Magistral-Small-2506 [8], DeepSeek-R1-0528 [4])在五个数学数据集(Math500, AMC, Olympiad Bench, AIME2024, AIME2025)上的长思维链,提取长思维链中的出现的候选答案以及出现的位置,对模型的反思前后候选答案的变化情况及正确性进行统计。

如上图所示,作者使用 gpt-oss-120b 来抽取长思维链中的候选答案。可以看到依赖模型进行的抽取任务只需要简单的语言理解,同时作者也通过人为验证确保了抽取的准确性。

通过统计思维链中相邻出现的两个答案的变化,作者发现大多数的变化(超过 90%)是确认性的(T→T, F→F (same)),即推理模型所进行的反思并不能改变其之前的答案。

此外,对每个模型统计:思维链中的第一个候选答案的准确率;反思对最终准确率的提升;以及得到第一个答案和其之后的反思分别使用的token数。结果展示在下图(注:得到第一个答案后的长思维链中的内容即为模型反思的部分,对应下图中蓝色部分)。

可以看到,模型之间准确率的区别主要由第一答案的准确率决定;反思虽然消耗了相当比例的 token(16.8%~47.8%),带来的提升却十分有限(≤3.5%)(注:此处及后文中提到的准确率如无特殊标明,均指五个数据集的准确率平均值)。

这其实类似于人类参加考试,大部分题目都是第一次做对的,在考试中的检查(即反思)往往很难带来答案的改变。如果有能力把题目做对,更有可能是第一次尝试时就做对,而不是先生成一个错误答案再通过反思做对。

通过对各个数据集的分析,还可以发现,推理模型的反思频率和题目的难度有显著的负相关性。

如下图所示,简单的数据集(如 Math500)上长思维链中会有更多的候选答案,即更多的反思,而相对更难的数据集(如 AIME2025),思维链中的反思反而更少。这反映出当前推理模型中反思的使用和题目难度的不匹配:模型浪费更多的反思在简单问题上,而在更难的问题上反思却更少。

上图中的准确率是八个模型的平均值。

反思在训练数据中的作用

既然反思往往是确认性的,不能推进推理的进度,为什么有“反思”行为的模型往往效果更好呢?为此,作者精心构建监督学习训练(SFT)实验,探究“反思”数据对模型训练的影响。

为了控制训练数据中“反思”的数量,作者对 DeepSeek-R1 和 Qwen3-8B 的长思维链进行分析,找到每个候选答案出现的位置,通过提前截断,强制生成答案,构造出六份数据集,cut-at-i (i=1, …, 6),第 i 份数据集中每个长思维链都包含i个候选答案,即 i-1 段反思。

为了控制不同数据集的训练 token 数一致,下采样 i 更大的数据集中的问题,使每个数据集都有相同数量的训练 token(28M)。

用 DeepSeek-R1 和 Qwen3-8B 的长思维链分别构造出的六份数据集,作者对 Qwen2.5-7B-Instruct 和 Llama3.1-8B-Instruct 进行 SFT。

训练结果表明,虽然反思在长思维链中往往是“无效”的(没有改变答案),但用反思更多的思维链来训练总会带来更好的效果:训练的思维链反思越多→训练后的模型输出越长,准确率越高。

通过分析 SFT 之后的模型的反思模式(见下图),作者发现模型准确率的提升主要来自输出的第一个答案的准确率的提升;虽然用更多反思的思维链训练(即 cutting position 更大)能增加反思的长度,但反思带来的准确率的提升并没有明显上涨。

对此,作者猜测可能的原因是:更长的思维链中包含了对一道题目的多种解法,在这样的思维链中学习可以让模型有更强的泛化能力,从而提升模型第一次做对题目的准确率。

总结作者的发现,SFT使用更长的思维链训练:

  • 会提升模型输出的第一个答案的准确率,且输出第一个答案需要的 token 增长不明显;

  • 会增加反思的长度;

  • 但不会使反思变得更有效(反思带来的准确率提升涨幅很小)。

基于 SFT 实验的发现,作者进一步探索 RL 训练过程中是否有相同的现象。作者对 RL 前后的模型(DeepSeek-R1-Distill-Qwen-32B →MiroMind-M1-RL-32B [9],MiroMind-M1-SFT-7B→MiroMind-M1-RL-7B [9])的长思维链进行同样的分析。

下图结果中可以看到,RL 前后模型准确率的提升主要体现在第一个答案的准确率(32B 模型提升 4.6%,7B 模型提升 7.7%),而反思所带来的准确率的提升在 RL 前后变化很小(32B 模型提升 0.3%,7B 模型提升 0.1%)。

这说明 RL 训练阶段对模型能力的提升也是主要体现在第一个答案的准确率,模型的反思能力 -- 把错误答案改对的能力,并没有在 RL 训练中得到提升。

测试阶段推理效率提升

既然反思大多是确认性的,作者提出在测试阶段检测模型输出中是否已经包含了候选答案,并根据问题决定是否提前结束思考,生成答案。

为此,作者训练两个分类器:Question Reflection Controller(QRC),用于决定问题是否更有可能获益于更多的反思,如果不是,就在第一次出现候选答案时结束思考(QRC的输入只有问题);Candidate Answer Detector (CAD),用于判断生成的句子中是否包含了候选答案(CAD的输入是问题和思维链中的一句话)。

使用这两个轻量的分类器(基于Qwen3-1.7B),通过调整分类的阈值,可以实现输出长度和输出准确率之间的权衡。

上图右上角,QRC 的阈值是 1.0,即所有问题都在出现第一个候选答案时停止;CAD 的阈值较小,是 0.15,即一个句子更有可能被认为包含候选答案。

总结

通过分析八个模型在五个数学数据集上的长思维链,作者发现:

  • 大模型的反思有超过 90% 是确认性的,且对简单题的反思反而比对难题的反思更多。

  • 即便推理时反思“无效”,作者发现增加训练数据中反思的长度会使模型的准确率提升,但准确率提升的主因是思维链中第一个答案更准确,而非由训练后更长的反思所带来的。

  • 在通过 SFT 和 RL 训练得到推理模型后,其在实际解题时输出的长思维链中的反思行为,对准确率的提升作用很小。这表明,反思本身并不是推理时准确率提升的直接原因。而更可能是包含反思的训练数据为同一道题目提供了多种解题路径,从而增强了模型的泛化能力。

  • 在测试阶段,由于反思大部分不会改变答案,可以安全地截断反思,节省思考 token。

图片

参考文献

图片

[1] Liu, Zichen, et al. "Understanding r1-zero-like training: A critical perspective." arXiv preprint arXiv:2503.20783 (2025).

[2] Yang, Shu, et al. "Understanding aha moments: from external observations to internal mechanisms." arXiv preprint arXiv:2504.02956 (2025).

[3] Huang, Jie, et al. "Large language models cannot self-correct reasoning yet." arXiv preprint arXiv:2310.01798 (2023).

[4] Guo, Daya, et al. "Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning." arXiv preprint arXiv:2501.12948 (2025).

[5] Xiaomi, L. L. M., et al. "MiMo: Unlocking the Reasoning Potential of Language Model--From Pretraining to Posttraining." arXiv preprint arXiv:2505.07608 (2025).

[6] Yang, An, et al. "Qwen3 technical report." arXiv preprint arXiv:2505.09388 (2025).

[7] Agarwal, Sandhini, et al. "gpt-oss-120b & gpt-oss-20b model card." arXiv preprint arXiv:2508.10925 (2025).

[8] Rastogi, Abhinav, et al. "Magistral." arXiv preprint arXiv:2506.10910 (2025).

[9] Li, Xingxuan, et al. "Miromind-m1: An open-source advancement in mathematical reasoning via context-aware multi-stage policy optimization." arXiv preprint arXiv:2507.14683 (2025).

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们