动态列表

  • 陶哲轩联手ChatGPT!10分钟击碎30年「无理」难题,数学圈炸裂
  • 刚刚,奥特曼官宣ChatGPT「终极OS入口」!8分钟速搭智能体,8亿人狂欢
  • 4万亿帝国接班人浮出水面!苹果不需要另一个库克
  • 刚刚,2025年诺贝尔物理学奖揭晓!量子计算成最大赢家
  • 告别梯度!Evolution Strategies全参微调挑战PPO/GRPO:更稳、更省、更好复现
  • NeurIPS 2025 | 北邮用“图+文”把人物检索拉满:自动合成数据 × 细粒度特征对齐
  • TPAMI 2025 | 电子科大等提出EEMFlow:从事件相机学习高效Meshflow与光流,速度提升30倍
  • MICCAI 2025 | 莱斯大学提出MetaSeg:参数减少90%,元学习隐式网络重塑医学图像分割
  • OpenAI 与 AMD 签百亿美元协议,后者股价暴涨;特斯拉廉价 Model Y 将于 7 日发布;知名旅行、听歌应用入住 ChatGPT
  • 乔纳森下一个iPhone神话,要黄了?OpenAI秘密AI硬件深陷三重困境
  • 3年手搓ChatGPT!剑桥天才少年在Minecraft游戏中爆火回归
  • 一举击败Claude Code!微软提出代码生成黑科技:一键直出36K行代码
  • 刚刚,2025年诺贝尔生理学或医学奖揭晓!三位得主点燃器官移植希望
  • OpenAI入股AMD,股价暴涨35%!奥特曼左手黄仁勋,右手苏姿丰,通吃全球算力
  • 真实数据、全链路、可复核:GenoMAS打造更可信的基因分析智能体
  • 自进化Agent的第三种可能:隐式记忆,不动模型参数,胜过GRPO
  • NeurIPS 2025 | 高通提出GCL:无需额外数据,通用多模态检索迎来“一统江湖”新范式
  • NeurIPS 2025 | 慕尼黑工业大学提出SIM(3)等变网络:让3D形状补全告别“姿态偏见”,实现跨域泛化
  • 今日迎本世纪「最晚中秋月圆」;雷军:小米17 五天销量破百万;ChatGPT 或添私信聊天功能
  • 腾讯王者归来:混元图像3.0登顶LMArena!一手实测全球最强图像AI
  • AI「学不会」竟成相变探针!UCSD华人联手谷歌等,曝光量子纠缠秘密
  • 最新,2025诺奖预测出炉!中国科学家有望拿下化学奖?
  • 奥特曼:感受不到GPT-5变强,是因为你还不够「专业」
  • GPT-6或将比GPT-5强10倍!奥特曼揭秘ChatGPT如何诞生
  • 宾大提出F³:事件相机迎来“预测性”表征新范式,光流、分割、深度全SOTA!
  • LSTM之父再出手!xLSTM挑战Transformer:一场关于Scaling Laws的正面交锋
  • NeurIPS 2025 | AI也能做数学建模?本科生携手MM-Agent勇夺美赛全球前2%
  • “移步换景”一试,大模型全乱了:OST-Bench揭示MLLM时空推理短板
  • 微软下架「炉石」等多款游戏;华为云:华为算力效能超英伟达芯片 3 倍;马斯克回应特斯拉机器人打拳:并非遥控
  • 陶哲轩联手GPT-5,1小时攻克数学难题!全程无需编码,OpenAI副总惊呼
  • 1亿签约金抢AI大神?谷歌AI元老劝退全网:别再读博了!
  • 三天逆袭,Sora登顶美榜!15秒大片玩疯奥特曼,全网直呼真假难辨
  • 10个Agent一键组队:并行智能体协作,端到端交付从24h缩减到4h!
  • 首位AI女演员出道!好莱坞「天敌」来了,下一代偶像全是代码制造?
  • 南理工提出FMC-DETR:巧用“频率解耦”,航拍小目标检测精度飙升8.2% AP50
  • 网红挑战特斯拉FSD穿越美国出车祸;小米回应「小米汽车突然自己开走」;Sora 登顶美区苹果商城免费榜
  • 刚刚,Anthropic紧急换帅!新任CTO执掌算力命脉,直面OpenAI千亿赌局
  • Gemini 3.0 Pro内测流出,编程实力惊人!下周上线
  • 刚刚,奥特曼首曝:AI取代CEO后,我想去当农民!
  • 华人主导谷歌SLED,论文登顶会!一键让模型学会自救
  • LeCun考虑辞职!Meta AI百亿豪赌引爆「内战」,逼走首席科学家
  • NeurIPS 2025 | RAD:基于大规模3DGS孪生数字世界的端到端强化学习训练策略
  • 小米 17 系列销量超百万;苹果新产品泄密源头疑为越南工厂;低价版 model Y 现身官网代码|极客早知道
  • 刚刚,这家0产品0模型就估值854亿的公司,终于发布了首款产品!
  • 刚刚,奥特曼亲赴,韩国「举国」投靠!
  • 奥特曼「一张脸」引爆全球狂欢!Sora 2冲上APP榜第三,邀请码炒到1250元
  • 60岁老人AI养生三个月吃进医院!「AI精神病」全球扩散,OpenAI急招医生
  • 一杯咖啡,3亿美金!斯坦福天才少女退学创业,Meta AI大牛排队加入
  • 武大新作MASt3R-Fusion:融合IMU与GNSS,为新一代视觉SLAM注入“多感官”智慧
  • 中科大、清华、快手等发布OpenGPT-4o-Image:为多模态AI打造的“超级燃料”,图像编辑性能提升18%
  • 历史首位,马斯克身家突破 5000 亿美元;王腾注销、清空多个社媒账号;美国演员工会抵制 AI 演员
  • 刚刚,OpenAI Sora 2重磅登场!首个APP上线,或将成为AI时代新TikTok
  • Sora 2全网疯狂实测:以假乱真、脑洞大开、虚实难分|附首个APP教程和邀请码
  • OpenAI和DeepMind大佬离职联手,誓用AI科学家实现室温超导!已融3亿美元
  • 天津大学联合腾讯提出Wan-Alpha:一键生成高质量透明视频,发丝级抠图不再是梦
  • 南洋理工联合商汤提出Visual Jigsaw:像玩拼图一样,显著提升多模态大模型的视觉理解力
  • OpenAI 深夜重磅推出新视频模型和独立 App;英伟达市值突破4.5万亿美元;特斯拉预计推出第三代人形机器人 | 极客早知道

顿悟不是玄学!港科大清华等联手:撕开推理黑箱,RL让AI像人思考



  新智元报道  

编辑:KingHZ
【新智元导读】DeepSeek的强化学习GRPO为什么能让大模型「集体顿悟」?港科大、滑铁卢、清华等团队最新研究给出统一解释:在RL中,LLM推理自发分层——先巩固底层「执行」,再探索高层「规划」。基于此,还提出了更强HICRA算法。

一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首

众所周知,强化学习(Reinforcement Learning,RL)能提升大语言模型LLM的推理能力。

但没人说清楚:为什么会这样?

最近,香港科技大学、滑铁卢大学、清华大学等机构的研究者在arXiv提交预印本,首次揭示:

大模型正在以类人的方式学会推理——通过将高层策略规划与底层程序执行相分离。

论文链接:https://arxiv.org/abs/2509.03646

DeepSeek究竟如何让LLM学会推理?

强化学习(RL)虽已成为提升LLM复杂推理能力的颠覆性技术,但其内在机制始终不甚明朗。

年初,DeepSeek-R1一鸣惊人,让开源AI首次直逼OpenAI的推理模型o1。

在论文中,DeepSeek研究团队强调了强化学习的重要性:

大模型与强化学习环境交互,自然涌现出反思和重新评估(reflection)之类的行为。

他们给出了两条重要实验线索:「长度缩放效应」(length-scaling)和「顿悟时刻」(aha moment)。

在训练过程中,DeepSeek-R1-Zero的思考时长持续增长,自然而然地学会了用更多的思考时间来解决推理任务,如下图所示。

在强化学习(RL)过程中,DeepSeek-R1-Zero在训练集上的平均响应长度

在DeepSeek-R1-Zero的某个中间版本中,AI出乎意料地进入了「顿悟时刻」。他们认为这是强化学习的「力与美」。

DeepSeek-R1-Zero的中间版本展现了一个有趣的「顿悟时刻」:该模型学会了采用拟人化的方式来表达思考过程

这些现象如此奇特,被多家实验室复现。

为什么呢?为什么强化学习能提升LLM的推理能力?这些问题之前无人明确解释。

这次的研究突破性地揭示:

像「顿悟时刻」这类令人困惑的现象并不是孤立的事件,而是新兴推理层次结构的标志,类似于人类认知中高层次策略规划与低层次程序执行的分隔。

这一次揭示了强化学习推动推理能力提升的核心机制:模型先固化基础执行能力,再自主发展出策略规划能力。

阶段1(底层技能巩固):以执行tokens(execution tokens)的熵值下降为标志,模型专注于巩固低级技能(如算术计算、格式规范)。

阶段2(高层规划探索):学习重心转向高级规划,以规划tokens(planning tokens)的语义多样性提升为特征,模型持续增强推理能力并出现长度缩放效应(length scaling)。

图1:(左图)大语言模型的推理过程呈现出类人的层次化推理结构:高层策略规划与底层程序执行。(右图)在强化学习训练中,层次化推理通过两阶段动态过程涌现

研究者通过区分两类token验证这种转变:执行token对应具体操作步骤,规划token则体现为「尝试其他方法」等策略性表达。

他们发现,当模型掌握执行token后,规划token的多样性显著增加,这与推理能力提升及解决方案链条延长直接相关。

基于此,团队提出分层感知信用分配机制(HICRA)。

与传统均匀分配学习权重不同,HICRA重点强化规划token的学习权重,从而加速模型探索和巩固策略的能力。

实验表明,HICRA始终优于主流GRPO方法,且在模型已具备扎实执行技能时效果最佳——若执行基础薄弱,HICRA的优势则难以发挥。

这项研究的核心启示在于:推理能力的真正突破源于规划能力的提升,而非仅仅优化执行细节。

强化学习增强推理的两阶段动力学

实验分析表明,经强化学习训练的大语言模型并非整体性提升,而是遵循一种"性能瓶颈"随时间转移的两阶段学习动态。

第一阶段:锻造可靠程序引擎

初期,模型专注于掌握基础能力。它学习可靠地执行低级操作步骤,如格式规范、算术运算和变量替换。

这一阶段体现为「执行token」的不确定性(困惑度及token熵)急剧下降。

RL训练动力学:执行token的熵(图中灰色线)下降,而规划token的语义熵(图中红色线)上升

研究者追踪了代表性模型家族的训练动态曲线。

上图前两列显示,模型初始聚焦于程序巩固阶段,表现为执行token的模型困惑度(更高置信度)和token熵(更确定性)急剧下降。

随后发生向策略规划探索的转变(第三列),规划策略的多样性(语义熵)在Qwen模型上持续增长,或在Llama模型上出现拐点后增长,这与准确率持续提升及推理链延长(第四列)密切相关。

对于强模型或易学习数据,此阶段可能短暂甚至不存在,因为模型已具备可靠的基础低级技能,通常仅需对格式token进行最小调整。

第二阶段:掌握高级策略规划

当模型在低级技能上奠定坚实基础后,学习前沿发生转移。性能提升转为由探索和掌握高级策略驱动——例如选择新方法、回溯或识别关键定理。

通过测量规划token的语义熵,这次研究验证了这一转变。其中的语义熵用于反映模型高级策略计划的多样性。

规划token的语义熵(红线,第三列)从开始或拐点处持续上升,这种增长与推理准确率提升和长度缩放效应同步发生。

这表明策略正在主动扩展其策略计划库,以实现推理能力的持续提升。这与程序巩固阶段token级熵的急剧下降形成鲜明对比。

揭秘「神秘的现象」

这次的分层框架为强化学习训练中一些长期让人困惑的现象,提供了统一而清晰的解释:

1、「顿悟时刻」并非偶然灵光。

这类转折并不是随机爆发的才思,而是某种行为特征信号:模型在「发现—掌握—强化」某种强力的高层策略(如自我反思)

当策略被纳入并稳定执行时,模型的表现会出现突跃式改善。

2、「长度缩放」源于更好的规划。

随着模型探索到更丰富、更精细的策略(包括分类讨论、预先规划、回溯等),它自然会生成更长、更有结构的推理链条;而这类更长的输出,往往意味着更高的成功率与更好的表现

换言之,「输出越长越准」的现象,本质是高层规划能力增强的外在体现。

3、复杂的「熵」变化,其实并不神秘。

整体的token级熵常见下降,并非模型「变笨」,而是因为数量庞大的执行类词元(格式、算术、替换等)在训练中变得高度可预测,把总体曲线往下拉。

真正反映策略探索进展的,是高层规划词元的语义熵:它随训练逐步上升,准确刻画出模型在发明与扩充策略谱系方面的探索步伐。

归结起来:第一阶段通过降低执行不确定性「打好基本功」,第二阶段通过提升规划多样性「把思路打开」。这些看似各自为政的现象,其实都出自同一套分层学习动力学

这一发现揭示了当前RL方法(如GRPO)的核心低效问题:

它们对所有token施加无差别优化压力,稀释了学习信号。

既然高级推理的关键在于掌握策略,为何还要在已掌握的程序性步骤上浪费精力?

为解决此问题,研究者提出了一种新算法HICRA(Hierarchy-Aware Credit Assignment,分层感知信用分配),其核心设计理念是:

将模型的学习能力聚焦于稀疏但高价值的规划token。

分层感知信用分配
聚焦关键要素

通过放大策略举措的学习信号,HICRA加速了有效推理模式的发现与强化进程。

实验结果,效果惊人:定向优化规划全赢了!

在多个纯文本及视觉语言模型中,HICRA不断超越强大的GRPO基线方法,显著验证了定向优化规划token的有效性。

表1:在多项数学推理基准测试中,HICRA、GRPO与基座模型的性能对比。

表2:在多模态推理基准测试中,HICRA与GRPO的性能对比

为探究强化学习最有效的应用方向,这次分析了失败推演中错误类型的演变规律。

首先通过人工审查失败案例,归纳出四种不同的错误成因。

随后使用GPT-4o通过多选题形式将每个失败案例归类到对应成因,最后将这些分类解析为两大范畴:「规划与策略」(如逻辑缺陷、高层计划错误)和「其他错误」(如计算失误、事实检索错误)。

分析表明,强化学习(RL)的主要优势在于修正高层策略失误,而非细微的计算错误。

这也激发了HICRA的设计理念,即将学习重点集中在规划token上。

如下图5所示,HICRA的成功与其维持比GRPO更高的语义熵水平密切相关。

这种高层策略的更高多样性,直接与更强且更稳定的验证准确率相关联,证实了专注的策略探索是推理能力改进的主要驱动力。

何种指标能有效追踪策略探索?

准确衡量策略探索,对于诊断策略学习至关重要。

然而,这次发现诸如token级熵值等常用指标可能产生误导。

1、token级熵值的缺陷:该指标有时会收敛至较低水平,被实践者误判为「崩溃」。但这是错误的。

大量低层执行token主导了token级熵值,而这些token本身就会趋于可预测化(即低熵状态)。低层token的熵值下降,会拉低全局平均熵值,但这并不意味探索停止。相反,只要语义熵保持高位,就说明模型正在积极探索新高阶策略,且性能持续提升。

2、Pass@K指标的盲点:该通过K次尝试成功率衡量的指标,有时会饱和(例如所有查询都可能被解决),导致无法区分方法优劣或追踪训练后期的持续学习动态。

语义熵有效规避了这些缺陷。它直接衡量有意义策略方案的多样性。

如下图所示,语义熵始终保持强大区分力:当token熵值崩溃且Pass@8饱和时,仍能清晰显示HICRA持续的策略探索优势。这使其成为追踪真正推理发展的可靠指南。

token熵值(最右)崩溃且Pass@8(右二)饱和失效时,语义熵(最左)仍明确显示HICRA的持续探索优势,该优势与最终准确率提升正相关。

现有研究提出使用高熵的「分岔token」作为模型推理过程中决策点的代理指标。

链接:https://arxiv.org/abs/2506.01939

这类基于熵的token与基于功能定义的规划token之间,到底什么关系?

研究发现关键不对称性:

虽然大部分规划token确实呈现高熵特性(符合策略选择的预期),但反向关系并不成立。

大多数高熵token并非规划token,它们往往对应表述方式的简单变异或不影响整体策略的低层计算。

这揭示了仅依靠熵值识别具有精确语义功能token的局限性。

虽然功能定义的规划token大多具有高熵特性(下图左),但高熵token并非规划token的有效代理指标,因其多数承担其他功能(下图右)。

参考资料:
https://arxiv.org/abs/2509.03646
https://www.rohan-paul.com/p/new-paper-shows-why-reasoning-improves
https://tiger-ai-lab.github.io/Hierarchical-Reasoner/

<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652632625&amp;idx=3&amp;sn=03cec528a852e8bf129c218d419a00ba&amp;chksm=f0b953d7392bb8246f3cdf602ba903c8c51f0110c9765e1e0ccd040bf2679ab0953c3dd0a917&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/83671/kb6kM8BrHn&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们