动态列表

  • ACL最佳论文幕后的北大人!北大张铭带出顶会常胜军和百亿CEO天团|新智元十周年峰会
  • 刚刚,这款Agent浏览器力压OpenAI,72%成功率全球第一!还能免费用
  • =COPILOT()函数横空出世!AI自动写公式效率起飞,网友:让Excel再次伟大
  • 当智能醒于物理世界,英伟达副总裁: 下一个十年属于物理AI!|新智元十周年峰会
  • 刚刚,英伟达祭出下一代GPU!狂飙百万token巨兽,投1亿爆赚50亿
  • 00后挑大梁!近20国选手激战外滩大会,AI科创赛三赛道冠军诞生
  • CoRL 2025 | 港大InfoBodied AI团队首发具身表征新范式,构建任务自适应的感知框架
  • 英伟达下一代GPU登场,Rubin CPX一次推理数百万Token,网友:这是头野兽
  • 谷歌AI新里程碑:一个能「做研究」的系统诞生了,用LLM+树搜索编写专家级软件
  • 爱诗科技完成6000万美元B轮融资,阿里巴巴领投,达晨财智、深创投、北京市AI基金、巨人网络、Antler等跟投
  • 当人工智能「看见」量子世界:AI如何改变对复杂量子系统的认知,南洋理工、上交等发布量子系统学习综述
  • 院士领衔!从智能算网到司法AI:顶尖学者直播解读AI与工程前沿趋势
  • 北京内推 | AMD北京AI算法团队招聘模型量化/剪枝算法实习生(可远程)
  • SFT真不如RL?MIT团队抛出“RL的剃刀”,砍掉遗忘直通终身学习
  • AI应用元年,这场标杆赛事见证了中国创新速度与野心
  • AI胡说八道这事,终于有人管了?
  • 人人都能炼专属Agent,上海交大开源端侧Agent全栈工具链,真实场景性能超GPT-5!
  • TPAMI 2025 | H2OT:分层沙漏型Tokenizer,重塑高效视频姿态Transformer
  • 苹果发布会:耳机测心率、手表听音乐、iPhone Air超级薄
  • 不到10天,国产「香蕉」突袭!一次7图逼真还原,合成大法惊呆歪果仁
  • 再也不怕面瘫脸!YouTube黑科技:AI帮你「永久微笑」,连僵尸都咧嘴笑
  • OpenAI真正王牌,不是Ilya!刚刚,奥特曼罕见致谢这两人
  • 缔造OpenAI的秘密,竟只有一个词!新智元十年峰会圆桌,七位大咖激辩
  • Hinton预言失灵?掌握AI技能涨薪23%,比读硕士更赚钱
  • 文心新出的推理大模型,给了我们信心
  • SFT远不如RL?永不过时的剃刀原则打开「终身学习」大模型训练的大门
  • 从第一性原理出发的RAG推理新范式来了,蚂蚁DIVER登顶权威基准
  • 击败多个行业巨头,优必选自研人形机器人最强大脑 Thinker 斩获全球四项第一
  • 字节跳动发布 Seedream 4.0 图像创作模型,豆包、即梦可免费体验
  • 从科幻到产业元年 | 「脑机接口」系统综述发布:全景解析理论、技术、挑战、趋势
  • 硅谷也996实锤了?AI的火,烧掉了硅谷的周末
  • DPad: 扩散大语言模型的中庸之道,杜克大学陈怡然团队免训推理加速61倍
  • Altman亲自发博客点赞,这两大杰出人才是谁?
  • 自变量机器人完成近 10 亿元 A+ 轮融资,多元资本押注共同布局具身智能未来
  • 不止综述!多模态大模型持续学习全链路:Benchmark、方法与Codebase一网打尽
  • 科研实习 | 北京大学计算机学院潘亮铭老师课题组招收NLP/大模型方向科研实习生
  • ICML 2025 | 别再只拼CoT了!不完备信息下的主动推理,LLM普遍掉线
  • 报名启动!西湖大学云谷青年学者论坛·人工智能分论坛诚邀全球英才
  • 时空壶发布 W4:用「硬核」技术,打赢一场 AI 翻译的「标准」之战
  • Science | 西奈山伊坎医学院新AI算法为1600种变异定量「风险」,解析疾病外显率难题
  • TPAMI 2025 | IGEV++:迭代多范围几何编码,刷新立体匹配技术新高度
  • 原来你是这样的外滩大会!
  • 小米通报王腾因泄密被辞退,本人发微博回应;传 IPO 估值 500 亿,宇树回应 ;辛顿自曝被女友用 AI 分手 | 极客早知道
  • Hinton自曝:前女友提分手,用ChatGPT列出自己「七宗罪」
  • 从「会说」迈向「会做」,LLM下半场:Agentic强化学习范式综述
  • 字节Seedream 4.0将全量开放!抢先评测来了,我们摸索出AI生图20种「邪修」玩法
  • 全球图生视频榜单第一,爱诗科技PixVerse V5如何改变一亿用户的视频创作
  • 扎克伯格的豪赌初见成效?Meta新方法让LLM长上下文处理提速30倍
  • 具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法
  • 上海AI Lab重磅综述:AI实现自主科学发现时代已经到来
  • 6 个月估值暴涨 5 倍突破 100 亿美元,三个「00后」逼急 Scale AI
  • Focal Loss也能无监督?北大×港中文团队用“双重不确定性优化”提升鲁棒3D感知
  • 给RL装上“防抖器”!GRPO稳化版来了:更高熵、更低KL、更稳更新
  • 深圳内推 | 腾讯音乐天琴实验室招聘音乐生成算法研究员(社招/校招)
  • 导师放养真的会毁掉一个人……
  • 上汽通用五菱与华为深化合作,推出首款车型宝骏华境S
  • IEEE TPAMI | M²Diffuser: 让机器人学会“脑补”,在复杂3D场景中实现精准移动操作
  • 国行版苹果 AI 推迟至年底上线;视频平台广告被曝「偷时间」;美国计划限制进口中国无人机和重型载具 | 极客早知道|极客早知道
  • 16岁创业,22岁做成百亿独角兽!3位高中同学帮大厂训AI年入1亿美金
  • 《2025新智元ASI前沿趋势报告》全文
  • 一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发
  • 苹果端侧AI两连发!模型体积减半、首字延迟降85倍,iPhone离线秒用
  • Claude不让我们用!国产平替能顶上吗?
  • SceneSplat: 基于3DGS的场景理解和视觉语言预训练,让3D高斯「听懂人话」的一跃
  • 慕尼黑车展 2025前瞻:中国队组团出海,BBA 走向「新」时代
  • 国内外AI大厂重押,初创梭哈,谁能凭「记忆」成为下一个「DeepSeek」?
  • 斯坦福:优化器「诸神之战」?AdamW 凭「稳定」胜出
  • 字节跳动Seed推出「机器人大脑」Robix:让机器人学会思考、规划与灵活互动
  • 浙大提出SSGaussian:注入语义与结构灵魂的3D风格迁移,让高斯溅射场景化身艺术品
  • 苹果 iPhone 17 系列规格已全被曝光;Anthropic 全面封杀中国公司接入;今夜将迎来「血月」月全食|极客早知道
  • OpenAI重组GPT-5「灵魂」团队!亚裔女负责人遭调离,罕见自曝AI幻觉祸首
  • 设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25
  • 谁不用谁亏!Karpathy吹爆GPT-5:10分钟编码完胜Claude一小时,奥特曼秒回感谢
  • 震撼实锤!清华姚班校友揭「1.4×加速」陷阱:AI优化器为何名不符实?
  • Anthropic被作家告了,违规下载700万本书,15亿美元和解了
  • 英伟达的局:狂撒15亿美元,从Lambda那租到了搭载自家AI芯片的GPU服务器
  • OpenAI罕见发论文:我们找到了AI幻觉的罪魁祸首
  • 00后以1.1亿美金「掀桌」,硅谷AI将书写影视新传奇 终结制片旧时代
  • 任意骨骼系统的模型都能驱动?AnimaX提出基于世界模型的3D动画生成新范式
  • IEEE TPAMI 2025| PointGST:参数量仅0.67%,精度首破99%,三维点云处理迎来谱域新范式!
  • ICCV 2025 | MOSEv2 全新亮相,第七届 LSVOS 挑战赛正式开启!
  • 华为新问界 M7,6 小时订单破 13 万;等 eSIM,iPhone17 Air 首发无国行;特斯拉拟给马斯克 1 万亿薪酬
  • 力压哈佛MIT!北交大、清华勇夺2025国际大学生程序设计竞赛金牌
  • 长视频生成可以回头看了!牛津提出「记忆增稳」,速度提升12倍
  • 0.01%参数定生死!苹果揭秘LLM「超级权重」,删掉就会胡说八道
  • 今天,特朗普闭门宴请了大半个硅谷的CEO,马斯克老黄没来
  • 追觅给洗地机,加了一双「灵巧手」
  • 被网友逼着改名的谷歌Nano Banana,正在抢99%时尚博主的饭碗
  • 不止会动嘴,还会「思考」!字节跳动发布OmniHuman-1.5,让虚拟人拥有逻辑灵魂
  • 外滩大会主论坛阵容揭幕!顶级学者、产业领袖和青年创新力量共话未来
  • 第一家 AI 浏览器公司,卖了 43 亿!
  • Nano Banana爆火之后,一个神秘的「胡萝卜」代码模型又上线了
  • 透明度罕见!百川公开M2完整技术报告,强化学习新范式引发行业关注
  • 博士申请 | 香港中文大学(深圳)游宇宁老师招收人工智能+生物医药全奖博士/实习生
  • 推理加持的排序SOTA!把“召回+相似度”写进RL,文档排序更稳更准
  • KDD 2025 | 图异常基础模型来了:跨域零样本、少样本微调,原型残差全拿下
  • 沉寂一个月,openPangu性能飙升8%!华为1B开源模型来了
  • 多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!
  • TPAMI重磅综述:一文读懂人类动作视频生成的五大阶段与三大多模态技术
  • 拓展天文学认知边界,Google DeepMind用AI助力LIGO,填补宇宙演化史缺失环节
  • 拍我AI限时免费6天!手办、宠物、奇幻创意随你生成不限次!
  • 传 DeepSeek AI 代理新模型年底发布;马斯克「金色擎天柱」首曝;比亚迪不回应销量下调传闻
  • 通用LLM压缩算法,居然藏视频编码里!2.5bit实现4bit性能,硬件无缝支持
  • 83岁用DeepSeek抢单,96岁凭AI挣养老钱!这群80+老人比你还会玩AI
  • 「纳米香蕉」LMArena两周500万投票,引爆10倍流量!谷歌、OpenAI扎堆打擂台
  • DeepSeek大招曝光?梁文峰督战超级智能体:能自主学习,或年底发布
  • 24999 元!华为推了一个「最大」的 Mate!
  • 刚刚,李飞飞主讲的斯坦福经典CV课「2025 CS231n」免费可看了
  • 又多了一个哄孩子AI神器,一张破涂鸦竟能秒变迪士尼动画
  • PosterGen:告别学术海报制作烦恼,从PDF一键生成「演示级」可编辑PPTX学术海报
  • 「一句话生成爆款视频」,这款 AI 流量神器有点东西|AI 上新
  • Claude Code凭什么牛?大模型团队天天用自家产品,发现bug直接就改了
  • 刚刚,OpenAI发布白皮书:如何在AI时代保持领先
  • 科研AI的进化论!系统梳理600+数据集与模型,上海AI Lab等发布科学大语言模型全景式综述
  • 腾讯 ARC Lab 开源 IC-Custom :一个强大且灵活的图像定制化工具!
  • 长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型InfinityHuman
  • 全奖读AI!人工智能专业排名全球前10的MBZUAI启动本硕博项目招生
  • SIGCOMM 2025|重新定义个性化视频体验,快手与清华联合提出灵犀系统
  • 拜读了某大佬发表的N篇顶会,原来论文“灌水”是这么玩的
  • 北京内推 | 阿里夸克教育团队招聘推荐大模型数据算法实习生
  • 听见空间!ASAudio全景综述:空间音频表示→理解→生成全链路
  • 多模态大模型,真的“懂”世界吗?ICML 2025高分论文实锤核心认知盲区
  • 特斯拉下一代金色Optimus原型现身?一双「假手」成为最大槽点
  • 让具身智能体拥有「空间感」!清华、北航联合提出类脑空间认知框架,导航、推理、做早餐样样精通
  • 传特斯拉 Model Y L 日均订单过万;苹果联手谷歌,Siri 整合 Gemini;优必选获 2.5 亿,全球最大人形机器人订单

DeepSeek、Gemini都不行?AgenTracer锁定多智能体“背锅侠”,8B小模型反超闭源巨模

原创 让你更懂AI的 2025-09-10 13:41 北京

多智能体失效归因的“逆袭大戏”

在大模型的持续进化过程中,我们见证了单体模型(monolithic LLM/agents)逐渐让位于更复杂、更灵活的多智能体(multi-agent)系统。后者往往通过多个大模型协同运作,再配合工具调用、外部知识库与精细的编排协议,实现远超单一模型的能力。

这类系统在科研探索、数据工程、软件开发乃至科学发现中展现了惊人的潜力。

然而,越是复杂的系统,也越容易出现脆弱性。多智能体的执行链路往往长达数十甚至上百步,任何一个智能体的偏差都可能像骨牌一样,引发全局性的失败。

2025 年 2 月伯克利团队的最新实证 [1] 研究更是警示我们:流行的多智能体框架,如 MetaGPT、OpenHands,失败率最高可达 86.7%。在这种背景下,一个尖锐的问题浮现出来——系统失败时,到底是哪个环节、哪个智能体,真正引发了“崩塌”?

来自新加坡国立大学团队提出的 AgenTracer 框架首次为这个问题给出了答案。AgenTracer 首次实现了多智能体系统的自动化失效归因,以 8B 的参数量在多智能体错误故障判断领域反超 GPT-4.1,Gemeni-2.5-Pro 等巨头模型,为多智能体研究补上了至关重要的一环。

论文标题:

AgenTracer: Who Is Inducing Failure in the LLM Agentic Systems?

论文地址:

https://arxiv.org/abs/2509.03312

GitHub链接:

https://github.com/bingreeky/AgenTracer

失败归因:多智能体可靠的前提条件

在AI系统研究中,我们习惯关注“做得对”的部分:推理是否准确、规划是否高效、执行是否流畅。但在多智能体场景里,失败才是常态,归因(attribution)才是系统走向成熟的必修课。

所谓失效归因,指的是在系统给出错误答案后,能够精确锁定“哪个智能体在第几步”引入了致命错误。只有这样,我们才能谈得上:

  • 高效调试:让系统具备自我排错与迭代改进的能力;

  • 数据利用:将失败轨迹转化为高价值的训练样本,而不是废弃日志;

  • 责任分配:在多智能体协作中,明确“谁该背锅”,避免模糊的集体错误。

但问题在于,哪怕是最强的推理大模型,如 GPT-4.1、Claude-4-Sonnet、DeepSeek-R1,面对失效归因任务时也力不从心。实验证据显示,它们的准确率常常低于 10%,甚至比随机猜测好不了多少。

更棘手的是,有些错误并非显而易见,而是埋藏在早期的步骤中,只有在几十步之后才显现。这使得传统的“逐步检查”方法几乎失效。

这也解释了为什么“失效归因”长期以来被忽视:它不仅需要深度理解整个轨迹,还要有能力穿透表象,找到真正的决定性错误(decisive error)——那个一旦被纠正,整个系统就能从失败转向成功的关键节点。

AgenTracer:自动化失效归因的大规模数据管线

针对这一难题,作者提出了 AgenTracer,这是首个针对多智能体系统的全自动失效归因框架。它包含两个互补的创新点:

第一,自动化数据生成管线。

过去,失效轨迹的标注需要专家手工分析,大量时间消耗在“逐行审计”上。AgenTracer 引入了两种核心机制:

  • 反事实回放(Counterfactual Replay):逐步替换失败轨迹中的动作,用“理想解”校正,直到找到能让系统转败为胜的那一步。这样,我们就能自动确定“致命错误”的准确位置。

  • 程序化故障注入(Programmatic Fault Injection):在成功的轨迹中,人为地插入一个“错误操作”,生成合成的失败样本。这样一来,我们不仅有真实失败案例,还能构建出覆盖性更强的数据集。

基于这套流程,AgenTracer 构建了 TracerTraj-2.5K 数据集,涵盖 2000+ 高保真失败轨迹,规模超越了现有的 MAST 和 Who&When 等手工标注集。

第二,轻量级追踪器 AgenTracer-8B。

在数据集基础上,作者使用 Qwen3-8B 作为基座,结合多粒度强化学习(Multi-granular RL)进行训练。它能在长时序轨迹中同时实现:

  • 步骤级归因(step-level attribution):精准定位到哪一步出错;

  • 智能体级归因(agent-level attribution):识别是哪个 Agent 导致问题。

最终得到的 AgenTracer-8B 不仅准确率高,而且推理速度快,真正具备落地价值。

实验结果:轻量模型击败巨型闭源大模型

本文采用两类主要度量:agent-level accuracy(能否定位到致命错误的智能体)与 step-level accuracy(能否定位到致命的执行步骤)。评测分为两种场景:

  • w/ G(鉴错 agent 可见 ground-truth)- w/o G(鉴错 agent 不可见 ground-truth,现实中更有代表性)。

评测集包括 Who&When(分 handcrafted 与 automated 两个子集)以及 TracerTraj 从 TracerTraj-2.5K 中抽取的三个领域子集:Code / MATH / Agentic。

Who&When 基准上,AgenTracer-8B 展现了“小模型逆袭”的亮眼表现。尽管参数量仅为 8B,它在 agent-level 归因上显著领先 GPT-4.1 与 Claude-4-Sonnet,并在 step-level 定位上同样稳居第一。

在某些场景下,AgenTracer-8B 相比闭源巨模的优势达到 18.18%,这说明其针对性优化比单纯依赖规模更有效。

研究者还进一步在自构建的 TracerTraj 数据集上进行评测,涵盖数学(MATH)、代码(Code)和复杂多智能体(Agentic)三类任务。

结果显示:在数学推理轨迹鉴错中,AgenTracer-8B 在 step-level 的准确率远超 DeepSeek-R1 与 GPT-4.1,优势尤为显著;在代码轨迹鉴错中,它比专门的 Qwen3-Coder 还要更准确地定位关键错误;而在复杂多智能体场景下,AgenTracer-8B 虽在 agent-level 上与 Claude 接近,但在 step-level 上明显更稳健。

综合来看,不同领域展现了不同的规律:在数学类任务中,清晰的逻辑链让 AgenTracer 充分发挥因果追踪能力;在代码任务中,尽管错误常被执行日志掩盖,它依旧保持领先;而在异质性更高的多智能体场景下,step-level 的优势表明其善于发现早期隐藏的致命错误。

这背后揭示出一个重要事实:在关键任务上,算法设计与数据构造的针对性优化,往往比一味追求更大规模更具价值。AgenTracer 用实验结果证明:通过更聪明的数据和训练方法,小模型也能在复杂系统诊断中展现出超越巨型模型的实力。

赋能系统:从诊断走向自我进化

定位错误只是第一步,更关键的问题是——能不能利用这些归因信息,让系统自己变得更好?

作者设计了一系列实验,将 AgenTracer-8B 生成的反馈注入现有多智能体系统,包括 MetaGPT、MaAS、OWL Workforce。结果表明,这些系统在迭代运行中性能显著提升:

  • 在 GAIA 基准上,MaAS 的准确率获得大幅提升;

  • 在 MATH-500 上,MaAS 在三轮迭代中累计增益达到 +14.2%

  • 即便是性能更优异的 OWL Workforce,仍然在 AgenTracer 的帮助下获得 +4.8% 的额外提升。

相比之下,传统的反思式方法(如 Self-Refine、CRITIC),即便搭配 GPT-4.1,效果反而可能是负的——因为它们往往停留在表面修正,而缺乏对真正根因的把握。

因此,AgenTracer 不仅仅是“诊断师”,更是一个可靠的“改造教练”,推动智能体系统走向自适应与自演化。

案例剖析:隐形的真正元凶

论文还展示了一个典型案例,生动体现了归因的难度与价值:

在一项公司销售数据分析任务中,多个智能体协同完成查询。最终答案错误地指向 “North” 为销售冠军。Qwen3-8B 把问题归因于第 6 步的代码执行错误;Claude-4-Sonnet 则认为是管理 Agent 在第 7 步未做深入检查。

而 AgenTracer-8B 通过深入分析,发现真正的根因在第 2 步:Web Surfer 下载了一个过期文件。这一错误并没有立即显现,而是在第 11 步才被隐性放大,导致最终答案彻底偏离。

这一案例说明,真正的致命错误往往并不在“出问题的地方”,而在更早、更隐蔽的环节。而这,恰恰是AgenTracer展现价值的地方。

结语:迈向自进化的智能体社会

AgenTracer 的贡献,不仅是提出了一个新方法,更是在方法论层面填补了一个长期空白:

  • 数据层,实现了规模化、自动化的失败轨迹标注;

  • 方法层,引入了多粒度强化学习,解决了传统方法无法兼顾粒度与准确度的问题;

  • 应用层,证明了失效归因不仅能诊断问题,还能反哺系统,推动性能持续进化。

随着多智能体系统不断走向真实应用,如何保证它们“跑得稳”,将比“跑得快”更为关键。AgenTracer 提供了一条切实可行的路径,向着更可靠、更具韧性的群体智能迈出了关键一步。

参考文献

[1] Why Do Multi-Agent LLM Systems Fail?

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们