原创 让你更懂AI的 2025-09-24 23:13 北京
让大模型更快迎来Aha时刻
在大模型推理力的进化史上,总有一些让人百思不得其解的“谜之现象”:模型为何会突然迎来 Aha 时刻,像是顿悟般智力飞升?为什么思维链越长,准确率反而更高?为什么训练中的熵曲线与性能关系如此扑朔迷离?
港科大 × 清华 × 滑铁卢等团队的新作,把这些看似毫无关联的谜题一网打尽。他们发现,RL 并不是在所有 token 上平均用力,而是悄然催生出一种“高层规划–低层执行”的分层智能。换句话说,大模型在 RL 的驱动下,先学会“怎么做”,再学会“怎么想”。
基于这一洞察,研究团队提出了 HICRA——一种专门盯住“规划 token”的训练范式。它的思路很简单:别再把学分分给所有 token,而是把梯度火力集中到真正决定成败的“战略节点”。结果令人振奋:模型更早迎来 Aha 时刻,推理能力在文本与多模态任务上全面爆发。
论文标题:
Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning
论文链接:
https://arxiv.org/pdf/2509.03646
项目主页:
https://tiger-ai-lab.github.io/Hierarchical-Reasoner/
Aha时刻揭秘:RL的分层秘密
近年来,围绕 RL 与推理能力的讨论中,学界反复报道了三类“神秘现象”:Aha 时刻(性能突然跳跃)、length scaling(思维链越长准确率越高)、以及熵动态(训练过程中不确定性与性能的非线性关系)。这些现象看似各说各话,长期以来被当作孤立的经验观察,缺乏一个能够统合的解释框架。
这篇论文给出的“揭秘答案”是:RL 的训练并不是线性推进,而是经历了一个“分层演化”的阶段性转移。
在早期,模型主要在学习执行类技能,比如算术、格式化与符号替代,因而执行 token 的困惑度与熵下降得很快,低层执行能力迅速稳固。但随着执行逐渐饱和,性能提升的瓶颈转移到了更高层次——即推理的策略规划。此时,模型要学会如何制定解题路径、何时分支回溯,以及如何进行自我反思。
这种“先执行、后规划”的演化过程,可以通过下图直观理解:
▲ 图1. 分层学习动力学示意
早期执行 token 的熵快速下降,随后规划语块的语义熵逐渐上升,与验证精度提升同步。
换句话说,Aha 时刻的出现,其实就是模型完成“执行→规划”转折的信号;length scaling 反映出策略空间的扩张支持更长的思维链;而熵动态之谜,则来自于传统 token-level 熵无法刻画真正的“策略多样性”。
火力集中!HICRA锁定规划token
在找到推理的真正瓶颈之后,研究团队没有选择“平均撒网”,而是提出了一个极具针对性的策略:把火力集中到最关键的规划 token 上。
传统的 GRPO 中,优势项会平均分配到所有 token:
这种“雨露均沾”的方式,看似公平,但却存在致命缺陷:执行 token 数量庞大,学习信号被稀释,而真正决定推理成败的规划 token 得不到足够的优化压力。于是,模型往往在“算得对”方面越来越熟练,却迟迟学不会“想得好”。
HICRA 的登场,就是为了解决这个问题。它的核心思想是:规划 token 要加码,执行 token 少打扰。具体做法是对规划 token 的优势项进行额外放大:
其中 表示轨迹中规划 token 的集合,α 是放大量级(论文中设为 0.2)。这样一来:
好策略会被额外强化,更容易被固化;
坏策略也不会立刻被“一票否决”,探索空间得以保留;
学习信号集中到了真正的战略维度,避免资源浪费在低价值的执行层。
直观地看,标准策略更新是:
而 HICRA 相当于在规划 token 方向上加大“火力”,形成一种各向异性的目标分布更新。
▲ 图2. GRPO vs HICRA信号分配对比
GRPO 将信号平均分配到所有 token,而 HICRA 把学习压力集中到规划 token。
此外,作者特别指出,衡量探索活性时,传统的 token-level 熵并不可靠,因为它会被执行 token 主导。真正应该关注的,是语义熵:
语义熵刻画的是策略语块的多样性,它的上升意味着模型的策略库正在扩展,并且与验证精度提升高度同步。
文本+多模态,全面反超GRPO
在完成方法设计后,研究团队对 HICRA 进行了大规模验证,涵盖了文本推理和多模态推理两大类任务。无论是在 Qwen、Llama 这样的文本大模型上,还是在 MiMO-VL、Qwen-VL 这样的视觉语言模型上,结果都表现出一个共同趋势:HICRA 全面碾压 GRPO。
首先来看数学推理任务。在 AIME、AMC、Minerva、Olympiad 等多个基准上,HICRA 的准确率相较 GRPO 都有显著提升,尤其在复杂题型上优势更大:
▲ 表1. 文本推理任务结果
结论:在所有数学推理任务上,HICRA 都比 GRPO 提供稳定的提升,验证了“抓住战略瓶颈”的有效性。
更有意思的是,在多模态推理任务中,HICRA 的优势同样明显。无论是需要读懂图表的 MathVista,还是复杂跨模态推理的 MathVerse 和 MathVision,HICRA 的表现都显著优于 GRPO:
▲ 表2. 多模态推理任务结果
结论:HICRA 的提升不仅限于文本,在多模态推理场景同样成立,说明“分层学习动力学”是跨模态的普遍规律。
除了最终性能,作者还跟踪了训练动态。结果发现,HICRA 的语义熵始终高于 GRPO,对应的验证精度曲线也更平稳。这意味着模型的策略空间不断扩展,同时性能也更加稳健:
▲ 图3. 语义熵与验证精度动态关系
结论:策略多样性的扩展(语义熵上升)与性能提升同步发生,进一步验证了 HICRA 的设计初衷。
三步落地,让RL真正会想
这项研究的最大价值,在于它不仅解释了 RL 如何塑造“分层智能”,还给出了明确的工程路径。要想让大模型从单纯的“会做”跃升到真正的“会想”,可以遵循这样三步落地方案:
第一步:构建策略语块库(SGs)
推理能力的核心在于“思路”。因此,首先要把模型常用的高层动作语块化,例如“设两种情况”“反证法证明”“代入已知条件”。通过建立策略语块库,可以把“推理”这件事具体化、可观测化。
第二步:监控语义熵,别再盯 token-level 熵
传统的 token-level 熵往往只反映执行层面的不确定性,而真正决定模型能否学会思考的,是策略多样性。语义熵的动态曲线,才是判断模型是否在拓展“思维空间”的关键指标。
第三步:在 RL 管线中应用 HICRA 定向放大
别再雨露均沾地给所有 token 平均加压,而是把火力集中到规划 token 上。结合自适应的
这“三步走”路径,实质上是一个闭环:
策略库提供了推理的观察窗口;
语义熵给出了进展的衡量标准;
定向放大确保训练资源用在刀刃上。
当这三步合起来,就能让 RL 不再只教模型“怎么做”,而是真正逼近“怎么想”。
推理瓶颈击破,Aha时刻必然来临
这项工作带来的真正突破,在于它打破了“大模型推理难以提升”的思维定势。过去,研究者们只能零散地讨论 Aha 时刻、length scaling 或熵动态,而 HICRA 将这些现象统一在同一个框架下:强化学习不是平均加压,而是天然推动了“执行—规划”的分层演化。
当学习信号集中投向规划 token,模型就不再困于低层执行的反复打磨,而是被迫扩展更高层的推理策略。由此,Aha 时刻也不再是训练中的意外惊喜,而成为分层动力学中的必然拐点。
这意味着:推理瓶颈已经被击破。从文本到多模态,从数学到科学发现,未来的大模型将在更广泛的场景中展现出稳定、可预期的推理飞跃。下一次震撼全场的 Aha 时刻,不是运气,而是范式进化带来的必然结果。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·