ToolsAi

原创让你更懂AI的 2025-10-18 18:39 北京

Aha Moment并非性能来源，反思大多是重复确认。

长思维链没那么神奇：推理模型中九成“反思”只是重复确认，真正决定结果的是第一个答案。邴立东团队系统量化发现，使用有更多反思的数据训练能让首答更准，但推理时截断反思几乎不掉分，却能显著节省 token。

DeepSeek-R1 发布之后，人们普遍惊叹于推理模型通过增加思维链长度进行不断反思，从而得到更准确的答案。

一些研究者对“Aha Moment”做了一些探索，如 [1] 中指出”aha moment”在 base 模型中就存在，并用 case study 展示这种“反思”的 superficial 的特点；[2] 对思维链进行分析指出其中的拟人语气与题目的难度相关，并且这种语气能防止推理过程的崩溃。

然而，对于思维链变长后究竟包含哪些内容、呈现出哪些行为模式，以及它们对准确率提升的具体贡献，社区仍缺乏清晰认识；同时，关于其中的反思行为也缺少系统、量化的深入分析。

本文中，作者对大模型的推理过程进行了深入开箱，重点分析了思维链中模型每次得到候选答案的位置，以及候选答案之间的反思过程，并通过量化的分析展示这种反思模式在训练数据中，以及测试阶段的不同作用。

通过实验作者发现，在训练过程中，使用包含更多反思的训练数据可提升模型的准确率，但提升主要体现在首次答案的准确率上涨，而反思带来的“错改对”的行为仍十分稀少。

同时，作者发现，在测试过程中，往往可以安全地截断第一个答案之后的反思以节省输出 token 的数量，同时维持准确率几乎不变。

论文标题：

First Try Matters: Revisiting the Role of Reflection in Reasoning Models

论文作者：

康力伟，邓岳，肖遥，莫湛锋，Lee Wee Sun，邴立东

论文链接：

https://arxiv.org/abs/2510.08308

代码链接：

https://github.com/Olafyii/first-try-matters

推理模型学会“反思”了吗？

自 OpenAI-o1、DeepSeek-R1 系列模型发布以来，模型自我纠错（self-correction）、“aha moment”的概念引起了广泛的讨论，人们惊叹于推理模型可以在思考过程中进行反思，不借助外界指导自主纠正自己之前的错误。

然而，其实自我纠错的概念在 o 系列模型之前已有许多相关研究，一篇 2023 年的工作 [3] 曾指出，LLM 在没有外界信息引入时，并不能进行自我纠错。

这与当下推理模型所展现出的反思的行为模型似乎相互矛盾。是否随着 LLM 的发展，模型已经涌现出了自我反思的能力？还是当下推理模型的“反思”仍然不是真正的可以纠正之前错误的反思？

本文中作者对此进行深入探究。首先，人为观察一些推理模型的长思维链，作者发现许多模型的自我反思似乎并没有实质性的推进推理的进度。以 DeepSeek-R1 的报告 [4] 中的“aha moment”例子为例，可以看到在“aha”的前后，模型的解题方法是完全一样的。

基于这些观察，本文对众多推理模型在数学问题上的长思维链进行系统性的分析，探究模型是否真的有反思的过程，以及为何模型的思维链长度与推理的准确率有正相关性，并提出测试阶段提升模型推理效率的方法。

推理模型的反思有效性的分析

观察长思维链，可以发现模型经常在得到一个答案之后进行多次的反思、确认答案的正确性，然后才输出最终的答案。

为了更清晰地了解这些反思对最终准确率的贡献，作者分析了八个推理模型（MiMo-7B-RL [5], DeepSeek-R1-Distill-Qwen-7B [4], DeepSeek-R1-Distill-Llama-8B [4], Qwen3-8B [6], DeepSeek-R1-0528-Qwen3-8B [4], gpt-oss-20b [7], Magistral-Small-2506 [8], DeepSeek-R1-0528 [4]）在五个数学数据集（Math500, AMC, Olympiad Bench, AIME2024, AIME2025）上的长思维链，提取长思维链中的出现的候选答案以及出现的位置，对模型的反思前后候选答案的变化情况及正确性进行统计。

如上图所示，作者使用 gpt-oss-120b 来抽取长思维链中的候选答案。可以看到依赖模型进行的抽取任务只需要简单的语言理解，同时作者也通过人为验证确保了抽取的准确性。

通过统计思维链中相邻出现的两个答案的变化，作者发现大多数的变化（超过 90%）是确认性的（T→T, F→F (same)），即推理模型所进行的反思并不能改变其之前的答案。

此外，对每个模型统计：思维链中的第一个候选答案的准确率；反思对最终准确率的提升；以及得到第一个答案和其之后的反思分别使用的token数。结果展示在下图（注：得到第一个答案后的长思维链中的内容即为模型反思的部分，对应下图中蓝色部分）。

可以看到，模型之间准确率的区别主要由第一答案的准确率决定；反思虽然消耗了相当比例的 token（16.8%～47.8%），带来的提升却十分有限（≤3.5%）（注：此处及后文中提到的准确率如无特殊标明，均指五个数据集的准确率平均值）。

这其实类似于人类参加考试，大部分题目都是第一次做对的，在考试中的检查（即反思）往往很难带来答案的改变。如果有能力把题目做对，更有可能是第一次尝试时就做对，而不是先生成一个错误答案再通过反思做对。

通过对各个数据集的分析，还可以发现，推理模型的反思频率和题目的难度有显著的负相关性。

如下图所示，简单的数据集（如 Math500）上长思维链中会有更多的候选答案，即更多的反思，而相对更难的数据集（如 AIME2025），思维链中的反思反而更少。这反映出当前推理模型中反思的使用和题目难度的不匹配：模型浪费更多的反思在简单问题上，而在更难的问题上反思却更少。

上图中的准确率是八个模型的平均值。

反思在训练数据中的作用

既然反思往往是确认性的，不能推进推理的进度，为什么有“反思”行为的模型往往效果更好呢？为此，作者精心构建监督学习训练（SFT）实验，探究“反思”数据对模型训练的影响。

为了控制训练数据中“反思”的数量，作者对 DeepSeek-R1 和 Qwen3-8B 的长思维链进行分析，找到每个候选答案出现的位置，通过提前截断，强制生成答案，构造出六份数据集，cut-at-i (i=1, …, 6)，第 i 份数据集中每个长思维链都包含i个候选答案，即 i-1 段反思。

为了控制不同数据集的训练 token 数一致，下采样 i 更大的数据集中的问题，使每个数据集都有相同数量的训练 token（28M）。

用 DeepSeek-R1 和 Qwen3-8B 的长思维链分别构造出的六份数据集，作者对 Qwen2.5-7B-Instruct 和 Llama3.1-8B-Instruct 进行 SFT。

训练结果表明，虽然反思在长思维链中往往是“无效”的（没有改变答案），但用反思更多的思维链来训练总会带来更好的效果：训练的思维链反思越多→训练后的模型输出越长，准确率越高。

通过分析 SFT 之后的模型的反思模式（见下图），作者发现模型准确率的提升主要来自输出的第一个答案的准确率的提升；虽然用更多反思的思维链训练（即 cutting position 更大）能增加反思的长度，但反思带来的准确率的提升并没有明显上涨。

对此，作者猜测可能的原因是：更长的思维链中包含了对一道题目的多种解法，在这样的思维链中学习可以让模型有更强的泛化能力，从而提升模型第一次做对题目的准确率。

总结作者的发现，SFT使用更长的思维链训练：

会提升模型输出的第一个答案的准确率，且输出第一个答案需要的 token 增长不明显；
会增加反思的长度；
但不会使反思变得更有效（反思带来的准确率提升涨幅很小）。

基于 SFT 实验的发现，作者进一步探索 RL 训练过程中是否有相同的现象。作者对 RL 前后的模型（DeepSeek-R1-Distill-Qwen-32B →MiroMind-M1-RL-32B [9]，MiroMind-M1-SFT-7B→MiroMind-M1-RL-7B [9]）的长思维链进行同样的分析。

下图结果中可以看到，RL 前后模型准确率的提升主要体现在第一个答案的准确率（32B 模型提升 4.6%，7B 模型提升 7.7%），而反思所带来的准确率的提升在 RL 前后变化很小（32B 模型提升 0.3%，7B 模型提升 0.1%）。

这说明 RL 训练阶段对模型能力的提升也是主要体现在第一个答案的准确率，模型的反思能力 -- 把错误答案改对的能力，并没有在 RL 训练中得到提升。

测试阶段推理效率提升

既然反思大多是确认性的，作者提出在测试阶段检测模型输出中是否已经包含了候选答案，并根据问题决定是否提前结束思考，生成答案。

为此，作者训练两个分类器：Question Reflection Controller（QRC），用于决定问题是否更有可能获益于更多的反思，如果不是，就在第一次出现候选答案时结束思考（QRC的输入只有问题）；Candidate Answer Detector （CAD），用于判断生成的句子中是否包含了候选答案（CAD的输入是问题和思维链中的一句话）。

使用这两个轻量的分类器（基于Qwen3-1.7B），通过调整分类的阈值，可以实现输出长度和输出准确率之间的权衡。

上图右上角，QRC 的阈值是 1.0，即所有问题都在出现第一个候选答案时停止；CAD 的阈值较小，是 0.15，即一个句子更有可能被认为包含候选答案。

总结

通过分析八个模型在五个数学数据集上的长思维链，作者发现：

大模型的反思有超过 90% 是确认性的，且对简单题的反思反而比对难题的反思更多。
即便推理时反思“无效”，作者发现增加训练数据中反思的长度会使模型的准确率提升，但准确率提升的主因是思维链中第一个答案更准确，而非由训练后更长的反思所带来的。
在通过 SFT 和 RL 训练得到推理模型后，其在实际解题时输出的长思维链中的反思行为，对准确率的提升作用很小。这表明，反思本身并不是推理时准确率提升的直接原因。而更可能是包含反思的训练数据为同一道题目提供了多种解题路径，从而增强了模型的泛化能力。
在测试阶段，由于反思大部分不会改变答案，可以安全地截断反思，节省思考 token。

参考文献

[1] Liu, Zichen, et al. "Understanding r1-zero-like training: A critical perspective." arXiv preprint arXiv:2503.20783 (2025).

[2] Yang, Shu, et al. "Understanding aha moments: from external observations to internal mechanisms." arXiv preprint arXiv:2504.02956 (2025).

[3] Huang, Jie, et al. "Large language models cannot self-correct reasoning yet." arXiv preprint arXiv:2310.01798 (2023).

[4] Guo, Daya, et al. "Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning." arXiv preprint arXiv:2501.12948 (2025).

[5] Xiaomi, L. L. M., et al. "MiMo: Unlocking the Reasoning Potential of Language Model--From Pretraining to Posttraining." arXiv preprint arXiv:2505.07608 (2025).

[6] Yang, An, et al. "Qwen3 technical report." arXiv preprint arXiv:2505.09388 (2025).

[7] Agarwal, Sandhini, et al. "gpt-oss-120b & gpt-oss-20b model card." arXiv preprint arXiv:2508.10925 (2025).

[8] Rastogi, Abhinav, et al. "Magistral." arXiv preprint arXiv:2506.10910 (2025).

[9] Li, Xingxuan, et al. "Miromind-m1: An open-source advancement in mathematical reasoning via context-aware multi-stage policy optimization." arXiv preprint arXiv:2507.14683 (2025).

更多阅读