原创 让你更懂AI的 2025-11-20 13:14 北京
把长任务拆开,LLM才第一次走到了终点
过去的大模型,再强也扛不住长链路:几十步稳、几百步飘、几万步基本要翻车。而这次,一个系统把 1,048,575 步跑到最后、零失误。这是在重写 LLM 的能力边界。
过去的大模型,再强也扛不住长链路:几十步稳、几百步飘、几万步基本要翻车。而这次,一个系统把 1,048,575 步跑到最后、零失误。这是在重写 LLM 的能力边界。
在大模型的世界里,“一步错,全盘崩”几乎是铁律。只要错误率不是零,只要任务够长,它终究会在某一刻偏离正确轨迹,然后越来越难纠正。
这篇论文的作者选择了一个可以把这个问题放大到极致的试验台:20 盘汉诺塔。它的最优解长度超过一百万步,一旦有一步错了,整个任务就宣告失败。
听上去像是故意找大模型的麻烦,但他们真的让一个 LLM 系统完整跑完了全部步骤,而且一次没错。
更意外的是,实现这个突破的方法不是更强的推理模型,而是相反的思路:把任务拆成无数个“只能走一步”的小 agent。每一步都单独生成、单独验证、单独投票、单独纠错。模型能力没有提升,但系统稳定性却被结构性地强化了。
论文把这种理念称为 MAD——最大化任务分解。靠着这个框架,“长任务能否稳定执行”第一次变成可以推导、可以算账的工程问题。
论文标题:
Solving a Million-Step LLM Task with Zero Errors
论文链接:
https://arxiv.org/abs/2511.09030
研究背景:为什么长任务天然危险?
大模型在推理类任务上的表现已经很强,但一旦涉及成百上千、甚至几十万步的链式执行,模型的输出会不可避免地积累误差。
只要单步成功率 p 小于 1,多步执行的全局正确率就会呈指数衰减:
只要任务足够长,哪怕模型每一步成功率非常高,最终也几乎必然会在某一处崩溃。
▲ 图1.模型能力与可连续零错步数的关系
方法
2.1 将执行划分为最小可控步骤
论文先从一个通用的多步 agent 框架(MDAP)讲起。在 MDAP 中,模型每次生成是多步的,有 m 步连续动作:
如果 m 越大,每次生成的内容越长,出现连续错误的风险就越高。论文直接选择 m=1,也就是 MAD:每一步都重新调用、重新解析。
这让每一步都可以从零开始,错误不会跨步传播。
▲ 图2. MDAP 和 MAD 的结构示意
2.2 基于多次采样的稳健投票机制
由于单步调用仍可能出错,论文为每一步引入多次采样,并通过 first-to-ahead-by-k 投票选出最可靠的动作。投票后的正确率为:
当 k 提高时,这个概率会迅速逼近 1。
如果一次输出包含 m 个连续动作,论文还给出了:
最终的子任务正确率依旧为:
而完整任务的全局正确率是:
▲ 图3. 投票后整体成功率随 p 和 k 变化
这提供了一个明确结论:只要单步正确率略高于随机,投票就能把稳定性拉到一个完全不同的量级。
2.3 整体成本呈 s log s 级别增长
想要达到整体成功率 t,需要的最小投票次数为:
一次模型调用的成本定义为:
在 MAD(m=1)情况下,整个任务的期望总成本:
▲ 图4. k 与成本的增长关系
也就是说百万步任务不会指数性失控,只是线性增长再乘一个对数因子。
2.3 整体成本呈 s log s 级别增长
随着 m 增大, 会让成本增长得非常快。论文用实验展示,当 m 从 1 增长到更大的值时,成本直接跳至不可接受的数量级。
▲ 图5. m 增长导致的成本上升趋势
MAD 的“每步只做一步”,在这个意义上是最优选择。
实验:LLM 第一次完整跑完百万步任务
3.1 评估单步准确率并推算整体成本
在正式执行百万步前,作者先从任务的整体轨迹里抽取了一万个不同状态,对每个状态进行多次调用,估计不同模型的单步正确率 p,并计算它们对应的执行成本。
这些数据被放入下式中,就能大致预测整条任务的资源消耗与预计成功率:
▲ 图6. 不同模型的单步错误率与成本预测
这里有一个非常重要的发现:在 MAD 的执行模式下,部分小模型的单步稳定性并不比大型推理模型差多少,但计算开销却低得多。
最终系统采用了 gpt-4.1-mini 并在低温设定下运行,正是基于这一系列测算结果作出的决策。
3.2 red-flagging 让采样之间互不干扰
多次采样如果倾向于输出相似的错误动作,即使采用投票,最终仍可能无法纠偏。
论文在这一点上做了专门处理,加入了 red-flagging。核心是让模型的异常输出无法参与投票,例如输出过长或格式偏离预期时直接丢弃,只保留结构正确的结果进行比对。
这一步的目的不是提高 p,而是降低采样之间的错误相关性,使得投票更接近“独立试验”。
▲ 图7. 输出异常与错误分布的统计
实验显示,red-flagging 大幅减少了“连续数次犯同类错误”的碰撞现象,使得投票的理论效果可以真正落地。
3.3 百万步任务首次实现全程零误差
在最终配置中,系统采用 gpt-4.1-mini、MAD 逐步执行、first-to-3 投票,以及严格 red-flagging。整个任务长度 1,048,575 步,每一步都生成、验证、投票、再提交给环境执行,最终动作序列和理论最优解完全一致。
▲ 图8. 百万步汉诺塔执行的结构展示
这是迄今为止首次在纯语言接口下实现的百万步零失误执行,为长任务 agent 的构建提供了一个可复现、可推导、可扩展的基线。
论文还提供了这一结构化执行过程的动画演示,便于观察百万步任务的完整动态运行。
结语
这篇论文的意义并不只是在百万步上“跑对了”。真正的突破,是把长任务的稳定性从一种碰运气的事情,变成了一个能靠结构设计出来的结果。
MAD 把任务拆到不能再细、把错误困在每一步里,再用投票把不确定性压到最低。模型没有变得更强,但执行链路第一次变得可控。
更有意思的是,小模型在这种框架下反而更有优势,只要单步够稳,就能承担起长任务的主力角色。长任务的边界因此被重新定义:它取决于你的执行结构,而不是模型体积。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·