动态列表

  • 210亿美元的幻觉?奥特曼投了一家核能初创
  • LeCun出局,Meta变天!Llama 4翻车大清洗,「学院派」大败退
  • 大模型上天、马斯克发射GPU?中国团队直接建「太空超算」
  • 图像模型今夜变天?谷歌刚刚泄露了「Nano Banana Pro」这张王牌
  • AI顶会ICLR最严新规:滥用AI的作者和审稿人,论文一律拒稿!
  • 谷歌Nano Banana Pro上线,深度结合Gemini 3,这下生成世界了
  • DeepSeek悄悄开源LPLB:用线性规划解决MoE负载不均
  • AAAI 2025 Oral | 火山引擎多媒体实验室提出VQ-Insight,AIGC视频画质理解大模型
  • 最大游戏up主也玩本地AI?让笔记本都能跑大模型的Parallax来了
  • 并行扩散架构突破极限,实现5分钟AI视频生成,「叫板」OpenAI与谷歌?
  • NEX:下一代能动性模型体系与开源生态
  • 发布即产品!SAM 3D横空出世:Meta再次颠覆3D视觉,单图即可实现高精度三维重建
  • 很强很惊艳!Meta重磅开源SAM 3:可概念提示,统一检测、分割与追踪,性能提升2倍
  • 本周六,围观学习NeurIPS 2025论文分享会,最后报名了
  • AI终于学会「读懂人心」,带飞DeepSeek R1,OpenAI o3等模型
  • 让移动不再成为噪声:搭载AI的新一代可穿戴传感实现高动态条件下的精准识别
  • SOTA集体掉线?美团AMO-Bench揭露大模型数学推理的真实段位
  • 星动纪元获近10亿元A+轮融资!吉利资本领投,总订单额破5亿
  • 刚刚,Yann LeCun官宣离职创业,瞄准高级机器智能AMI
  • 分割一切并不够,还要3D重建一切,SAM 3D来了
  • 首个AI神作!一人分饰全角,万人围观外星人嘲讽人类灭绝
  • 申研「全拒得」的「差生」,终成PyTorch之父、Meta副总裁!今天跳槽TML
  • 图灵奖得主竟「忘了提及」中国学者成果?马库斯重锤Yann LeCun
  • 永别了,Tokenizer!何恺明师徒新作,颠覆AI生图技术
  • 年度最强AI实锤!谷歌Gemini 3全网首测震撼,一句话编码封王
  • 亚马逊云科技发布Kiro正式版:核心功能升级
  • 对话斑马口语:如何用 AI Agent 造出「超人类外教」?
  • 点击下载!中国科研人员AI使用率全面领跑:Wiley发布全新调研报告
  • 清华团队“密度法则”登上Nature子刊,揭示大模型高效化发展新规律
  • 风口浪尖中的小米汽车,创下国产新势力最快盈利速度
  • CMU新作Co-Me:无需重训,VGGT长序列迎11.3倍加速!
  • 何恺明团队再出手!将ARC视为视觉问题,ViT从零训练60.4%准确率,达到人类平均水平
  • 资深技术专家胡成文出任鼎犀智创CTO,共赴新材料智创未来
  • 如视发布空间大模型Argus1.0,支持全景图等多元输入,行业首创!
  • 登顶开源SOTA!上交大&小红书LoopTool实现工具调用任务的「数据进化」
  • NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法
  • NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测
  • 刚刚,PyTorch之父光速入职TML!离职Meta刚过一天,投身500亿估值独角兽
  • 何恺明重磅新作:Just image Transformers让去噪模型回归基本功
  • ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式
  • Gemini 3深夜来袭:力压GPT 5.1,大模型谷歌时代来了
  • 「30 秒造应用」——蚂蚁灵光点燃「所想即所得」的魔法时刻
  • 视频模型真在推理,还是「表演」推理?港中文等质疑:Chain-of-Frame是真的吗?
  • Gemini 3 正式发布,多榜单断崖式领先;美安全服务商网络中断,ChatGPT、X 受牵连;苹果承认酒精擦拭可能导致手机掉色|极客早知道
  • 4万亿刀,仅3.6万人!英伟达揭残酷真相:劳动正与财富大脱钩
  • 医疗AI智能体全面综述:行业爆发,年增长130%!
  • AI「看见」实验,哈佛颠覆性突破!一副AR眼镜,新手秒变资深专家
  • 震惊电影圈!好莱坞混了10年没出头,他把AI「烂片」做成23万粉爆款
  • Anthropic CEO:最快明年,一半初级白领下岗!失业率将达10%-20%
  • 谷歌 Gemini 3.0 深夜炸场:没有悬念的最强 AI
  • 夸克全面接入千问对话助手,将发布全新AI浏览器
  • Yann LeCun团队新作LeJEPA:仅一个超参数、50行代码,实现可证明、可扩展的自监督学习
  • MIT何恺明团队新作:让扩散模型回归“去噪”本质,简单Transformer即可实现SOTA性能
  • 美团多篇论文入选NeurIPS 2025:从大模型到多模态的全线突破 | 直播预告
  • JSON刚死24小时,TOON又被网友玩坏:LLM数据格式彻底乱套了
  • 阿里千问公测,挑战 ChaGPT;京东上线独立外卖 App;贝佐斯出任 AI 初创公司 CEO
  • 抱歉了GPT-5,这次是中国AI「上岸」了
  • 你急它不急:GPT-5先判断,再决定「速答」还是「深想」
  • Meta开始用KPI考核,强迫所有员工尽可能多使用AI
  • 接招吧,GPT-5.1!
  • 「前三代定律」下,百年吸尘器如何做出新意?
  • 两个月破 300 万用户,Agnes AI 刷新 Instagram 与 Snapchat 增长纪录
  • 每天给白领发 1000 万,他成了硅谷最年轻亿万富翁
  • 2025,中国科技圈进入全面「大乱斗」时代
  • 当 AI 开始分「左右」
  • 阿里云,用全栈 AI 刷新第十七个双十一
  • AAAI 2026 Oral MiniShift+Simple3D:面向高分辨率3D异常检测的可扩展数据集与实时检测新范式
  • AAAI 2026 山大提出DiveSeg:为DINO注入“水下感知力”,实例分割性能提升显著
  • 让千问APP当一周科研打工人:它比我想的能干,也比我想的累
  • 双重隐式记忆来了!JanusVLN让视觉语言导航真正理解3D空间
  • 雷军连发多条微博回应质疑;iPhone 发布方式将在明年重大变革;年度最令人不安的研究:AI 刷多社媒会变蠢|极客早知道
  • 图灵奖得主LeCun最后警告Meta!我搞了40年AI,大模型是死路
  • AI又封神了!华人新作直出憨豆+《猫和老鼠》,平行宇宙对上戏了
  • AI「逼宫」库克?苹果秘密计划曝光,接班人竟是M芯片之父!
  • 年度最强AI压轴!谷歌Gemini 3.0下周决战OpenAI,前端要下岗了
  • 安谋科技发了一枚 NPU,要把 AIGC 算力提升 10 倍
  • 无人工标注、可持续扩展:AcademicEval推动长文本评测进入“自更新”阶段
  • ICLR 2026吃瓜现场:有人用LLM连投4版论文,竟然拿到两个8分?
  • 宇树完成上市辅导,拟境内IPO;传索尼开发Labubu电影;2699元!原道X小岛秀夫耳机限量发售
  • AAAI 2026 Oral | 清华大学等提出SpatialActor:解耦空间感知,重度噪声下机器人操作鲁棒性暴涨19.4%
  • AI不懂痛苦,却成了你的深夜知己!170位医生教ChatGPT安慰人
  • 一条短信,7年恩怨!奥特曼与马斯克决裂曝出新隐情
  • 不会说英语的母亲,教出了5万亿英伟达CEO!
  • AI「牛顿」来了!北大团队新突破,看一眼数据就能推出物理定律
  • AAAI 2026 Oral | 中科院联合港大提出ARRA:外部视觉表征对齐重塑全局一致性,让自回归大模型充分释放图像生成潜能
  • 1899 元「iPhone 袜子」上架秒光;传华为 Mate80 上 20GB 内存;微信点赞苹果小程序政策
  • 全球最大开源具身大模型!中国机器人跑完马拉松后开始学思考
  • OpenAI拆开AI「黑箱」,终于可以看懂GPT在想什么了
  • LeCun在Meta的「最后一作」
  • 视觉压缩称王?谷歌死守AI黑科技,DeepSeek一夜开源
  • 大疆 OSMO Action 6 体验:完美进化,不止运动
  • iOS 为微信小程序「正名」,腾讯移动生态的新转机
  • “全模态”3D视觉基础模型OmniVGGT出炉!即插即用任意几何模态,刷新3D视觉任务SOTA,赋能VLA模型
  • WACV 2026 | PALMS+:融合深度基础模型,手机室内导航的技术再突破
  • GPT 5.1 发布了,但西方媒体准备「讲好中国故事」
  • AI、游戏双驱动,腾讯「赚麻了」
  • 对话李彦宏:Chatbot 不是一切,我在 AI 上看到了更让人兴奋的未来
  • 杭州/北京内推 | 阿里淘天算法团队招聘多模态理解方向算法实习生
  • ACL 2025 | 用图结构让RAG学会「记忆与总结」,重塑长上下文理解
  • OpenAI把Transformer训练成「几乎全零」,黑箱首次被彻底揭开
  • 传苹果从微信小程序抽成 15%,腾讯回应;特斯拉考虑支持 CarPlay;iPhone Air 成功支持实体卡 |极客早知道

百万步0失误!LLM首次跑通1,048,575步长任务,不崩、不偏、不掉链

原创 让你更懂AI的 2025-11-20 13:14 北京

把长任务拆开,LLM才第一次走到了终点

过去的大模型,再强也扛不住长链路:几十步稳、几百步飘、几万步基本要翻车。而这次,一个系统把 1,048,575 步跑到最后、零失误。这是在重写 LLM 的能力边界。

在大模型的世界里,“一步错,全盘崩”几乎是铁律。只要错误率不是零,只要任务够长,它终究会在某一刻偏离正确轨迹,然后越来越难纠正。

这篇论文的作者选择了一个可以把这个问题放大到极致的试验台:20 盘汉诺塔。它的最优解长度超过一百万步,一旦有一步错了,整个任务就宣告失败。

听上去像是故意找大模型的麻烦,但他们真的让一个 LLM 系统完整跑完了全部步骤,而且一次没错。

更意外的是,实现这个突破的方法不是更强的推理模型,而是相反的思路:把任务拆成无数个“只能走一步”的小 agent。每一步都单独生成、单独验证、单独投票、单独纠错。模型能力没有提升,但系统稳定性却被结构性地强化了。

论文把这种理念称为 MAD——最大化任务分解。靠着这个框架,“长任务能否稳定执行”第一次变成可以推导、可以算账的工程问题。

论文标题:

Solving a Million-Step LLM Task with Zero Errors

论文链接:

https://arxiv.org/abs/2511.09030

研究背景:为什么长任务天然危险?

大模型在推理类任务上的表现已经很强,但一旦涉及成百上千、甚至几十万步的链式执行,模型的输出会不可避免地积累误差。

只要单步成功率 p 小于 1,多步执行的全局正确率就会呈指数衰减:

只要任务足够长,哪怕模型每一步成功率非常高,最终也几乎必然会在某一处崩溃。

▲ 图1.模型能力与可连续零错步数的关系

方法

2.1 将执行划分为最小可控步骤

论文先从一个通用的多步 agent 框架(MDAP)讲起。在 MDAP 中,模型每次生成是多步的,有 m 步连续动作:

如果 m 越大,每次生成的内容越长,出现连续错误的风险就越高。论文直接选择 m=1,也就是 MAD:每一步都重新调用、重新解析。

这让每一步都可以从零开始,错误不会跨步传播。

▲ 图2. MDAP 和 MAD 的结构示意

2.2 基于多次采样的稳健投票机制

由于单步调用仍可能出错,论文为每一步引入多次采样,并通过 first-to-ahead-by-k 投票选出最可靠的动作。投票后的正确率为:

当 k 提高时,这个概率会迅速逼近 1。

如果一次输出包含 m 个连续动作,论文还给出了:

最终的子任务正确率依旧为:

而完整任务的全局正确率是:

▲ 图3. 投票后整体成功率随 p 和 k 变化

这提供了一个明确结论:只要单步正确率略高于随机,投票就能把稳定性拉到一个完全不同的量级。

2.3 整体成本呈 s log s 级别增长

想要达到整体成功率 t,需要的最小投票次数为:

一次模型调用的成本定义为:

在 MAD(m=1)情况下,整个任务的期望总成本:

▲ 图4. k 与成本的增长关系

也就是说百万步任务不会指数性失控,只是线性增长再乘一个对数因子。

2.3 整体成本呈 s log s 级别增长

随着 m 增大, 会让成本增长得非常快。论文用实验展示,当 m 从 1 增长到更大的值时,成本直接跳至不可接受的数量级。

▲ 图5. m 增长导致的成本上升趋势

MAD 的“每步只做一步”,在这个意义上是最优选择。

实验:LLM 第一次完整跑完百万步任务

3.1 评估单步准确率并推算整体成本

在正式执行百万步前,作者先从任务的整体轨迹里抽取了一万个不同状态,对每个状态进行多次调用,估计不同模型的单步正确率 p,并计算它们对应的执行成本。

这些数据被放入下式中,就能大致预测整条任务的资源消耗与预计成功率:

▲ 图6. 不同模型的单步错误率与成本预测

这里有一个非常重要的发现:在 MAD 的执行模式下,部分小模型的单步稳定性并不比大型推理模型差多少,但计算开销却低得多。

最终系统采用了 gpt-4.1-mini 并在低温设定下运行,正是基于这一系列测算结果作出的决策。

3.2 red-flagging 让采样之间互不干扰

多次采样如果倾向于输出相似的错误动作,即使采用投票,最终仍可能无法纠偏。

论文在这一点上做了专门处理,加入了 red-flagging。核心是让模型的异常输出无法参与投票,例如输出过长或格式偏离预期时直接丢弃,只保留结构正确的结果进行比对。

这一步的目的不是提高 p,而是降低采样之间的错误相关性,使得投票更接近“独立试验”。

▲ 图7. 输出异常与错误分布的统计

实验显示,red-flagging 大幅减少了“连续数次犯同类错误”的碰撞现象,使得投票的理论效果可以真正落地。

3.3 百万步任务首次实现全程零误差

在最终配置中,系统采用 gpt-4.1-mini、MAD 逐步执行、first-to-3 投票,以及严格 red-flagging。整个任务长度 1,048,575 步,每一步都生成、验证、投票、再提交给环境执行,最终动作序列和理论最优解完全一致。

▲ 图8. 百万步汉诺塔执行的结构展示

这是迄今为止首次在纯语言接口下实现的百万步零失误执行,为长任务 agent 的构建提供了一个可复现、可推导、可扩展的基线。

论文还提供了这一结构化执行过程的动画演示,便于观察百万步任务的完整动态运行。

图片

结语

这篇论文的意义并不只是在百万步上“跑对了”。真正的突破,是把长任务的稳定性从一种碰运气的事情,变成了一个能靠结构设计出来的结果。

MAD 把任务拆到不能再细、把错误困在每一步里,再用投票把不确定性压到最低。模型没有变得更强,但执行链路第一次变得可控。

更有意思的是,小模型在这种框架下反而更有优势,只要单步够稳,就能承担起长任务的主力角色。长任务的边界因此被重新定义:它取决于你的执行结构,而不是模型体积。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们