动态列表

  • 他用一生证明AI没有意识!「中文屋」提出者逝世,享年93岁
  • 今年诺奖成果曾遭质疑无用,但华人团队用它研制了未来芯片的「钥匙」
  • ICLR神秘论文曝光!SAM3用「概念」看世界,重构视觉AI新范式
  • 硅谷爆发反AI「起义」!程序员拒用Cursor被一周解雇
  • 为什么谷歌搜不到「没有条纹的衬衫」|AI 上新
  • 雷军亲自测试,小米YU9实车谍照曝光;宇树获「秧歌机器人」专利;微团开卖「Win XP」蓝天白云拖鞋
  • 永别了,人类冠军!AI横扫天文奥赛,GPT-5得分远超金牌选手2.7倍
  • 濒死3次,医生判他死刑!宾大教授奇迹自救,誓用AI攻克14000种绝症
  • 告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星
  • Bug变奖励:AI的小失误,揭开创造力真相!
  • 复旦张军平:人类是硅基生命过渡体?
  • Meta Ray-Ban Display 首发体验合集:悬浮在现实中的一张便签
  • OriginOS 6 深度体验:当操作系统回归「体验为王」
  • 93%成功率!从“改提示”到“写剧情”:STaR-Attack用叙事推理攻破大模型防线
  • Mamba-3惊现ICLR 2026投稿:三重升级打满“推理优先”范式
  • NeurIPS 2025 | Latent Harmony:潜空间和谐共生,实现UHD图像修复新SOTA
  • NeurIPS 2025 | NTN-Diff:一石二鸟,利用空文本与频率感知破解图像修复难题
  • 马斯克脑机公司展示脑机控制机械臂;三星中国发布折叠屏新机,16999 元起售;滴滴自动驾驶获 20 亿元融资 | 极客早知道
  • 77岁「AI教父」Hinton:AI早有意识!我们打造的智能,可能终结人类文明
  • 全球首款1.8nm芯片亮相!华人CEO打响关键一战,英特尔杀回来了
  • 清华万引教授:万倍加速催化剂设计,AI突破DFT瓶颈!
  • 陶哲轩亲测!GPT-5 Pro 40分钟破解3年难题,登顶最难数学考试
  • 刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人
  • NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!
  • Attention is NOT All You Need:让“深度”重新流入时间,而非堆叠在参数之上
  • OpenAI 卖货做视频,Anthropic 专心写代码,谁能赢?
  • 一颗 1.8 纳米芯片,成了英特尔「最后的救赎」
  • 这款 AI 调研神器,让我一键产生 1000 个「种子用户」|AI 上新
  • 都用 GPT,为什么你没法中「百万大奖」?
  • ChatGPT 变身 App Store,「对话即应用」时代到了
  • IROS 2025 | 速度飙升24倍!巴黎萨克雷大学等提出HARP-NeXt:实时3D激光雷达分割新标杆
  • IROS 2025 Oral | RAG-6Dpose:三大创新模块,利用 CAD 作为知识库进行检索增强 6D 姿态估计
  • 「丐中丐」版特斯拉来了,Model 3/Y降价超3.5万元
  • 高德扫街榜的 23 天奇袭
  • 张一鸣近年来首次公开亮相;微软上海开始新一轮裁员,补偿N+4;罗永浩锐评 iPhone 17
  • GPT-5王者归来?奥特曼称AI已跨科学门槛,三大学科正迎来实质性突破
  • 老黄押宝「美版DeepSeek」!谷歌天才叛将创业,一夜吸金20亿美元
  • 任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码
  • 13万被引!ImageNet作者苏昊或将加盟复旦
  • 250份文档投毒,一举攻陷万亿LLM!Anthropic新作紧急预警
  • 和两位 CEO 聊 Sora: 应用层爆发的里程碑事件,创业者的机会来了
  • 新一代短剧人,涌向郑州「淘金」
  • 社交媒体的黄金时代,结束了
  • U-Bench:U-Net十年“大乱斗”终结者,100个变体、28个数据集的终极对决
  • 东京大学、牛津大学等联合发布VLA万字综述:机器人迈向通用智能的全栈指南
  • 北京/上海内推 | 阶跃星辰招聘RL for AIGC方向算法研究员/实习生
  • EMNLP 2025 | 拨云见日:知识电路分析揭示大语言模型“知识遮蔽”幻觉之源
  • DeepSeek苦练1T,清华只用5B?InfLLM-V2把稀疏注意力玩明白了
  • Sora 下载量破 100 万次;国庆中秋假期国内游总花费超过 8000 亿元;智驾多位核心高管离职,蔚来回应|极客早知道
  • 谷歌杀入诺奖神殿,两年三冠五得主!世界TOP3重现贝尔实验室神话
  • OpenAI×英伟达,可能创造了人类史上最大万亿级泡沫
  • H-1B正在筛掉「下一个英伟达」?
  • 全球AI视频大战升级!「中国版Sora」Vidu Q2参考生月底发布,能力对标Sora 2
  • 第二代InfLLM开源,同尺寸快三倍!零参数,可训练稀疏注意力
  • 腾讯推出TRM:让大模型像人类一样批判性思考,从文本依赖到事实正确
  • 马毅团队重磅发布新书:从MCR²到白盒Transformer,重构深度学习的第一性原理
  • 稳住训练、跑出泛化:STAGE重写「自回归图像生成」的强化学习范式
  • Diffusion²来袭:威斯康星大学&华盛顿大学等提出双扩散模型,“回溯历史-预测未来”,破解自动驾驶“鬼探头”难题
  • 北大等提出TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%
  • 把我的第一次日本旅行,完全交给 AI 是什么体验?
  • 英伟达将投资马斯克的 xAI;低价版Model 3/Y 「阉割」智驾功能;微信推出批量撤回信息功能
  • 刚刚,清华物理传奇Yao Shunyu,跳槽谷歌DeepMind!
  • 赚100亿,烧1万亿!OpenAI算力神话:英伟达撒钱、AMD送股、全硅谷陪跑
  • 英伟达垄断AI算力局面或将被颠覆!AMD赌上身家发起决斗,奥特曼窃喜
  • 刚刚,2025年诺贝尔化学奖揭晓!偷溜进图书馆的少年,改变了世界
  • 小心,AI依赖会让你变笨!吴恩达等专家教你如何正确使用AI
  • 无RLHF,7M小模型反超DeepSeek-R1:三星团队用递归思考取代规模堆叠
  • IROS 2025 | Waymo与谷歌DeepMind联手提出Drive&Gen:用生成视频评估自动驾驶,虚拟测试更逼真
  • 告别深度传感器!慕尼黑工业大学提出DropD-SLAM:仅用单目RGB即可实现RGB-D级的SLAM精度
  • 陶哲轩联手ChatGPT!10分钟击碎30年「无理」难题,数学圈炸裂
  • 刚刚,奥特曼官宣ChatGPT「终极OS入口」!8分钟速搭智能体,8亿人狂欢
  • 顿悟不是玄学!港科大清华等联手:撕开推理黑箱,RL让AI像人思考
  • 4万亿帝国接班人浮出水面!苹果不需要另一个库克
  • 刚刚,2025年诺贝尔物理学奖揭晓!量子计算成最大赢家
  • 告别梯度!Evolution Strategies全参微调挑战PPO/GRPO:更稳、更省、更好复现
  • NeurIPS 2025 | 北邮用“图+文”把人物检索拉满:自动合成数据 × 细粒度特征对齐
  • TPAMI 2025 | 电子科大等提出EEMFlow:从事件相机学习高效Meshflow与光流,速度提升30倍
  • MICCAI 2025 | 莱斯大学提出MetaSeg:参数减少90%,元学习隐式网络重塑医学图像分割
  • OpenAI 与 AMD 签百亿美元协议,后者股价暴涨;特斯拉廉价 Model Y 将于 7 日发布;知名旅行、听歌应用入住 ChatGPT

剑桥揭开大模型翻车黑箱!别再怪它不懂推理,是行动出错了



  新智元报道  

编辑:元宇
【新智元导读】为什么大模型,在执行长时任务时容易翻车?这让一些专家,开始质疑大模型的推理能力,认为它们是否只是提供了「思考的幻觉」。近日,剑桥大学等机构的一项研究证明:问题不是出现在推理上,而是出在大模型的执行能力上。

一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发

大模型也有「EMO」时刻。

比如,Gemini在Cursor里调试编译错误后,打开了自责「循环模式」,把「I am a disgrace(我很丢脸)」重复了86次。

尽管大模型在复杂推理能力上已有了巨大进步,但上述现象仍使一部分专家认为:

思考模型,只提供了「思考的幻觉」,因为当任务被拉长时它们最终会失败。


近日,剑桥大学等机构的一项研究对这些「翻车」现象作出解释,研究者认为:

问题不在于大模型的推理能力,而在于其执行计划的能力。


边际收益递减的错觉:衡量大语言模型的长时程任务执行能力https://arxiv.org/pdf/2509.09677 

也就是说,大模型出现问题未必是源于「思考的幻觉」,而更可能是执行阶段「打滑」了。

研究人员发现,单步准确率的小幅提升,会复利式地放大你能完成的总步骤数,使任务「里程」指数级变长。

随着步骤数量增加,模型的每步准确率会下降——不仅仅是「上下文太长」,还有一个更「诡异」的现象:自条件化效应(self-conditioning)。

所谓「自条件化」,当上下文里包含模型先前犯过的错,将导致它在后续过程中会更容易再犯错。


任务变长就失败
只因模型不会推理?

业界正竞相打造能够处理整个项目而非孤立问题的智能体,随之而来的一个根本问题是:

如何度量大模型能可靠执行的步骤数量?


任务一变长,就失败。是因为大模型「不会推理」吗?

研究人员认为,大模型在早期多步中能正确遵循指令,说明其具备按计划执行的能力。

这也证明,大模型不是失败在了推理上,而是在执行上:

随着任务变长,模型在执行计划时更可能出错。


目前,大量研究聚焦于大模型的推理能力,而对执行稳定性关注不足

这一点,随着大模型被用于长推理与智能体任务,重要性也正日益上升。


单步稳一点,长跑多一截

长视界任务需要大量步骤,其中任务长度,即为完成任务所需的步骤数。

研究人员通过下面几个指标来评估性能:

  • 步骤准确率(Step Accuracy):度量在第i-1步到第i步的状态更新是否正确的样本占比,而不考虑模型在第i-1步的状态是否正确;

  • 轮次准确率(Turn Accuracy):一轮是与模型的一次交互,可能需要执行多个步骤。轮次准确率度量在第t-1轮到第t轮的状态更新是否正确的样本占比,而不考虑模型在第t-1轮的状态是否正确;

  • 轮次复杂度(K)(Turn Complexity):定义为模型每轮必须执行的步骤数;

  • 任务准确率(Task Accuracy):度量模型在执行i个步骤的过程中不犯任何错误、从而完成任务的样本占比;

  • 视界长度(Hs)(Horizon Length):给定成功率阈值0 ≤ s ≤ 1。将模型的视界长度定义为模型在第i个步骤处的平均任务准确率降到低于概率s的位置。

如图2所示,模型在超过50%准确率下可执行的任务长度,在单步准确率超过70%后,随单步准确率增加,而呈现快于指数的增长。

图3显示了如何把「长视界任务」,抽象为一串可控的小步骤,以及如何只测「执行力」,而不掺杂「规划力」。

左图中,该框架将长视界任务建模为一系列「先检索、再合成」的步骤。

右图中,研究人员设计了一个简单任务,用以将规划与执行解耦:

每一轮以键(key)给出计划,要求模型检索对应值(value),并计算累计和。

该推导表明,即便在问答类任务上准确率的提升似乎在放缓,仍然可以在更长的任务上预期得到巨大的收益。

例如,在软件工程任务上,前沿模型在s=0.5时的视界长度呈指数增长,每7个月翻一番。

研究人员认为,单轮或短任务基准,在评估进一步投资LLM算力收益时,可能制造出「进展放缓」的错觉,而模型可完成的任务长度,是更能指示经济价值的指标,它们却可能在快速增长。


只考「执行力」
把规划和知识先拿掉

研究人员把「要做什么」(规划)和「知道什么」(知识)都喂给模型,只考它能不能稳定地把步骤一口气做完。

这样就能纯粹度量LLM的长视界执行能力。

以订机票为例。

现实中,订机票不是一句「帮我订」就完了,它是一串流程:

  • 打开某个航班详情;

  • 核对起降时间、行李额度、转机时长、准点率、口碑;

  • 套用里程、会员、优惠券;

  • 在「价格×时长×偏好」的权衡里做选择。

其中的每一步,都要先「检索」信息/调用工具,再把新信息与当前判断融合。

评完一个航班是一次执行;评完多条备选航班直到下单,是一段长视界执行。

经常会有人将执行失败归因到「不会推理/不会规划」。

研究人员则认为,就算推理、规划和世界知识都完美,LLM在长链条上仍可能因为「执行不稳」而失误。

因此,他们将执行单独拎出来测——把计划和知识都显式提供,只让模型照做。

研究人员首先验证这样的假设:

即便在不需要世界知识与规划的任务上,长视界执行也会很难。随后,再研究扩大模型规模对长视界执行的益处。


研究人员评估了Qwen3、Gemma3模型家族。

在实验中,研究人员将轮次复杂度设置为最简单形式(K=1),每轮仅提供一个键,并改变轮次数量。

结果1:长视界执行仍然很具挑战性。

如图4所示,除了Gemma3-4B与Qwen3-4B外,所有模型在第一步的准确率均达到了100%,表明它们具备完成我们任务单步所需的知识与推理能力。

然而,任务准确率在后续轮次迅速下滑。

即便是表现最好的Qwen3-32B,其准确率也会在15轮内跌到50%以下。

这证实了研究人员的假设:

即便移除了规划和知识需求,长视界执行依然很难。


如图4,研究人员改变模型规模,并研究随着轮次数增加的完整任务准确率(a)与逐轮准确率(b)。

粗体线是5轮的滑动平均。

虚线(b)中的逐轮准确率显示除了最小的模型外,任务的单步准确率都是100%。

然而,随着轮次数增加,小模型与大模型的性能差距拉大(a),后者拥有显著更长的视界长度(c)。

结果2:扩大模型规模的收益并不递减。

如图4(a)所示,更大的模型能在更多轮次上保持更高的任务准确率,从而带来清晰的视界长度缩放趋势(图4(c))。

这验证了两点重要结论:

长视界执行是困难的;


扩大模型规模,能显著增加模型可正确执行的轮次数。



自条件化效应
为什么轮次准确率会退化?

人们可能会期望,模型会在逐轮中保持恒定。

然而,图4(b)显示,随着轮次数增加,各轮的准确率稳步下降。

研究人员考察两个相互竞争的假设:

无论上下文内容如何,模型的性能仅仅由于上下文变长而退化。


模型会基于其过去的错误自条件化:看到前几轮的错误之后,它更可能在后续轮中犯错。


为解开这两个因素,研究人员通过操控模型的聊天历史,进行反事实实验。

他们用所选错误率注入人工输出历史,来控制错误率,格式保持一致。

如果完全「治愈」历史(诱导错误率为0%),那么模型在第1轮,与较后某一轮之间的准确率退化,就可归因于长上下文问题。

如果在保持「较后某一轮」固定的情况下,随着先前轮次错误率的上升,模型的准确率持续变差,这将表明模型会基于自己的过往错误进行条件化,从而提高未来错误的可能性。

结果3:自条件化,会在长上下文之外进一步导致逐轮准确率退化。

图5(a)中的结果显示,长上下文与自条件化都会导致退化。

研究人员发现,当基于无错历史进行条件化(诱导错误率=0.00)时,第100轮的逐轮准确率低于初始值,与先前关于长上下文退化的观察一致。

更有意思的是,当研究人员提高注入到上下文中的错误率时,第100轮的准确率会持续下降。

这表明了自条件化效应:当模型犯错时,它更可能继续犯错,导致如图5(b)所示的逐轮准确率在输出轨迹中持续退化。

结果4:与长上下文不同,扩大模型规模不能缓解自条件化。

注意在诱导错误率为0的情况下,第100轮的准确率会随着模型变大而稳定提升。

如图5(c)所示,把规模扩展到前沿(200B+参数)的模型,如Kimi-K2、DeepSeek-V3以及Qwen3-235B-Instruct-2507,基本解决了在100轮以内的长上下文退化问题,在「治愈」历史下实现了近乎完美的准确率。

然而,即便这样,这些大模型仍然容易受到自条件化的影响,当其历史中的诱导错误率上升时,性能仍会持续退化。

这或许与近期结果相似:

更大的模型在多轮对话中会出现人格漂移。在该项研究中,漂移的方向是「更容易犯错」的人格。


此外,模型会基于其过去的错误进行自条件化,导致每步准确率的退化。仅扩大模型规模不足以缓解这一点。

结果5:思考修复了自条件化。

图6中,研究人员清楚看到Qwen3的思考模型不会自条件化。

无论上下文中的错误率如何,模型在第100轮的准确率都保持稳定。

研究人员将之归结为两个原因:

其一,RL训练可能降低了语言模型「续写最可能下一个Token」的行为,使其更面向任务成功而非延续上下文。


其二,去除先前轮的思考轨迹,可能降低先前轮对模型输出的影响,因为模型会独立地思考新的这一轮。


启用思考的Qwen3模型不再发生自条件化,即便整个先前历史都是错误答案;这与非思考设置的结果形成对比。

研究人员以单轮可执行的任务长度为指标,对近期的「思考/Thinking」类模型,进行了基准评测,发现它们「抗翻车能力」更强:

它们不太会被先前错误带偏(自条件化被显著修复);


在单轮里就能把更长的任务跑完。


这证实了「先推理,后行动」的重要性,比如:

DeepSeek-V3不加思维链跑2步都难,但其思考版R1却能跑到200步;  


GPT-5 Thinking单轮可执行1000+步,Claude-4-Sonnet约432步。



作者简介

Akshit Sinha,剑桥大学机器学习与机器智能MPhil(MLMI)研究生。研究方向为大模型能力评估与提升、图神经网络(GNN)解释性与「遗忘/反学习」、多智能体等。

在此之前,Akshit Sinha在IIIT Hyderabad计算机科学与工程学院获得荣誉学士学位。他在Ponnurangam Kumaraguru的指导下,在Precog实验室从事基于图的机器学习研究。

参考资料:
https://x.com/arvindh__a/status/1966526369463951424


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652634011&amp;idx=3&amp;sn=67bb260998a2a4af7ac970dbf3fe4d62&amp;chksm=f02f3549beb1f9109114fa4bc5c86cbcd7523cba524746de872d84e6e353e4690ee8a553596b&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/2Jwq4KpR4j&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们