动态列表

ACL最佳论文幕后的北大人！北大张铭带出顶会常胜军和百亿CEO天团｜新智元十周年峰会
刚刚，这款Agent浏览器力压OpenAI，72%成功率全球第一！还能免费用
=COPILOT()函数横空出世！AI自动写公式效率起飞，网友：让Excel再次伟大
当智能醒于物理世界，英伟达副总裁: 下一个十年属于物理AI！｜新智元十周年峰会
刚刚，英伟达祭出下一代GPU！狂飙百万token巨兽，投1亿爆赚50亿
00后挑大梁！近20国选手激战外滩大会，AI科创赛三赛道冠军诞生
CoRL 2025 | 港大InfoBodied AI团队首发具身表征新范式，构建任务自适应的感知框架
英伟达下一代GPU登场，Rubin CPX一次推理数百万Token，网友：这是头野兽
谷歌AI新里程碑：一个能「做研究」的系统诞生了，用LLM+树搜索编写专家级软件
爱诗科技完成6000万美元B轮融资，阿里巴巴领投，达晨财智、深创投、北京市AI基金、巨人网络、Antler等跟投
当人工智能「看见」量子世界：AI如何改变对复杂量子系统的认知，南洋理工、上交等发布量子系统学习综述
院士领衔！从智能算网到司法AI：顶尖学者直播解读AI与工程前沿趋势
北京内推 | AMD北京AI算法团队招聘模型量化/剪枝算法实习生（可远程）
SFT真不如RL？MIT团队抛出“RL的剃刀”，砍掉遗忘直通终身学习
AI应用元年，这场标杆赛事见证了中国创新速度与野心
AI胡说八道这事，终于有人管了？
人人都能炼专属Agent，上海交大开源端侧Agent全栈工具链，真实场景性能超GPT-5！
TPAMI 2025 | H2OT：分层沙漏型Tokenizer，重塑高效视频姿态Transformer
苹果发布会：耳机测心率、手表听音乐、iPhone Air超级薄
不到10天，国产「香蕉」突袭！一次7图逼真还原，合成大法惊呆歪果仁
再也不怕面瘫脸！YouTube黑科技：AI帮你「永久微笑」，连僵尸都咧嘴笑
OpenAI真正王牌，不是Ilya！刚刚，奥特曼罕见致谢这两人
缔造OpenAI的秘密，竟只有一个词！新智元十年峰会圆桌，七位大咖激辩
Hinton预言失灵？掌握AI技能涨薪23%，比读硕士更赚钱
文心新出的推理大模型，给了我们信心
SFT远不如RL？永不过时的剃刀原则打开「终身学习」大模型训练的大门
从第一性原理出发的RAG推理新范式来了，蚂蚁DIVER登顶权威基准
击败多个行业巨头，优必选自研人形机器人最强大脑 Thinker 斩获全球四项第一
字节跳动发布 Seedream 4.0 图像创作模型，豆包、即梦可免费体验
从科幻到产业元年 | 「脑机接口」系统综述发布：全景解析理论、技术、挑战、趋势
硅谷也996实锤了？AI的火，烧掉了硅谷的周末
DPad: 扩散大语言模型的中庸之道，杜克大学陈怡然团队免训推理加速61倍
Altman亲自发博客点赞，这两大杰出人才是谁？
自变量机器人完成近 10 亿元 A+ 轮融资，多元资本押注共同布局具身智能未来
不止综述！多模态大模型持续学习全链路：Benchmark、方法与Codebase一网打尽
科研实习 | 北京大学计算机学院潘亮铭老师课题组招收NLP/大模型方向科研实习生
ICML 2025 | 别再只拼CoT了！不完备信息下的主动推理，LLM普遍掉线
报名启动！西湖大学云谷青年学者论坛·人工智能分论坛诚邀全球英才
时空壶发布 W4：用「硬核」技术，打赢一场 AI 翻译的「标准」之战
Science | 西奈山伊坎医学院新AI算法为1600种变异定量「风险」，解析疾病外显率难题
TPAMI 2025 | IGEV++：迭代多范围几何编码，刷新立体匹配技术新高度
原来你是这样的外滩大会！
小米通报王腾因泄密被辞退，本人发微博回应；传 IPO 估值 500 亿，宇树回应；辛顿自曝被女友用 AI 分手 | 极客早知道
Hinton自曝：前女友提分手，用ChatGPT列出自己「七宗罪」
从「会说」迈向「会做」，LLM下半场：Agentic强化学习范式综述
字节Seedream 4.0将全量开放！抢先评测来了，我们摸索出AI生图20种「邪修」玩法
全球图生视频榜单第一，爱诗科技PixVerse V5如何改变一亿用户的视频创作
扎克伯格的豪赌初见成效？Meta新方法让LLM长上下文处理提速30倍
具身VLA后训练：TeleAI提出潜空间引导的VLA跨本体泛化方法
上海AI Lab重磅综述：AI实现自主科学发现时代已经到来
6 个月估值暴涨 5 倍突破 100 亿美元，三个「00后」逼急 Scale AI
Focal Loss也能无监督？北大×港中文团队用“双重不确定性优化”提升鲁棒3D感知
给RL装上“防抖器”！GRPO稳化版来了：更高熵、更低KL、更稳更新
深圳内推 | 腾讯音乐天琴实验室招聘音乐生成算法研究员（社招/校招）
导师放养真的会毁掉一个人……
上汽通用五菱与华为深化合作，推出首款车型宝骏华境S
IEEE TPAMI | M²Diffuser: 让机器人学会“脑补”，在复杂3D场景中实现精准移动操作
国行版苹果 AI 推迟至年底上线；视频平台广告被曝「偷时间」；美国计划限制进口中国无人机和重型载具 | 极客早知道｜极客早知道
16岁创业，22岁做成百亿独角兽！3位高中同学帮大厂训AI年入1亿美金
《2025新智元ASI前沿趋势报告》全文
一图看透全球大模型！新智元十周年钜献，2025 ASI前沿趋势报告37页首发
苹果端侧AI两连发！模型体积减半、首字延迟降85倍，iPhone离线秒用
Claude不让我们用！国产平替能顶上吗？
SceneSplat: 基于3DGS的场景理解和视觉语言预训练，让3D高斯「听懂人话」的一跃
慕尼黑车展 2025前瞻：中国队组团出海，BBA 走向「新」时代
国内外AI大厂重押，初创梭哈，谁能凭「记忆」成为下一个「DeepSeek」？
斯坦福：优化器「诸神之战」？AdamW 凭「稳定」胜出
字节跳动Seed推出「机器人大脑」Robix：让机器人学会思考、规划与灵活互动
浙大提出SSGaussian：注入语义与结构灵魂的3D风格迁移，让高斯溅射场景化身艺术品
苹果 iPhone 17 系列规格已全被曝光；Anthropic 全面封杀中国公司接入；今夜将迎来「血月」月全食｜极客早知道
OpenAI重组GPT-5「灵魂」团队！亚裔女负责人遭调离，罕见自曝AI幻觉祸首
设计师大解放！清华发布「建筑平面图」自动生成模型 | ACL'25
谁不用谁亏！Karpathy吹爆GPT-5：10分钟编码完胜Claude一小时，奥特曼秒回感谢
震撼实锤！清华姚班校友揭「1.4×加速」陷阱：AI优化器为何名不符实？
Anthropic被作家告了，违规下载700万本书，15亿美元和解了
英伟达的局：狂撒15亿美元，从Lambda那租到了搭载自家AI芯片的GPU服务器
OpenAI罕见发论文：我们找到了AI幻觉的罪魁祸首
00后以1.1亿美金「掀桌」，硅谷AI将书写影视新传奇终结制片旧时代
任意骨骼系统的模型都能驱动？AnimaX提出基于世界模型的3D动画生成新范式
IEEE TPAMI 2025｜ PointGST：参数量仅0.67%，精度首破99%，三维点云处理迎来谱域新范式！
ICCV 2025 | MOSEv2 全新亮相，第七届 LSVOS 挑战赛正式开启！
华为新问界 M7，6 小时订单破 13 万；等 eSIM，iPhone17 Air 首发无国行；特斯拉拟给马斯克 1 万亿薪酬
力压哈佛MIT！北交大、清华勇夺2025国际大学生程序设计竞赛金牌
长视频生成可以回头看了！牛津提出「记忆增稳」，速度提升12倍
0.01%参数定生死！苹果揭秘LLM「超级权重」，删掉就会胡说八道
今天，特朗普闭门宴请了大半个硅谷的CEO，马斯克老黄没来
追觅给洗地机，加了一双「灵巧手」
被网友逼着改名的谷歌Nano Banana，正在抢99%时尚博主的饭碗
不止会动嘴，还会「思考」！字节跳动发布OmniHuman-1.5，让虚拟人拥有逻辑灵魂
外滩大会主论坛阵容揭幕！顶级学者、产业领袖和青年创新力量共话未来
第一家 AI 浏览器公司，卖了 43 亿！
Nano Banana爆火之后，一个神秘的「胡萝卜」代码模型又上线了
透明度罕见！百川公开M2完整技术报告，强化学习新范式引发行业关注
博士申请 | 香港中文大学（深圳）游宇宁老师招收人工智能+生物医药全奖博士/实习生
推理加持的排序SOTA！把“召回+相似度”写进RL，文档排序更稳更准
KDD 2025 | 图异常基础模型来了：跨域零样本、少样本微调，原型残差全拿下
沉寂一个月，openPangu性能飙升8%！华为1B开源模型来了
多模态大模型持续学习系列研究，综述+Benchmark+方法+Codebase一网打尽！
TPAMI重磅综述：一文读懂人类动作视频生成的五大阶段与三大多模态技术
拓展天文学认知边界，Google DeepMind用AI助力LIGO，填补宇宙演化史缺失环节
拍我AI限时免费6天！手办、宠物、奇幻创意随你生成不限次！
传 DeepSeek AI 代理新模型年底发布；马斯克「金色擎天柱」首曝；比亚迪不回应销量下调传闻
通用LLM压缩算法，居然藏视频编码里！2.5bit实现4bit性能，硬件无缝支持
83岁用DeepSeek抢单，96岁凭AI挣养老钱！这群80+老人比你还会玩AI
「纳米香蕉」LMArena两周500万投票，引爆10倍流量！谷歌、OpenAI扎堆打擂台
DeepSeek大招曝光？梁文峰督战超级智能体：能自主学习，或年底发布
24999 元！华为推了一个「最大」的 Mate！
刚刚，李飞飞主讲的斯坦福经典CV课「2025 CS231n」免费可看了
又多了一个哄孩子AI神器，一张破涂鸦竟能秒变迪士尼动画
PosterGen：告别学术海报制作烦恼，从PDF一键生成「演示级」可编辑PPTX学术海报
「一句话生成爆款视频」，这款 AI 流量神器有点东西｜AI 上新
Claude Code凭什么牛？大模型团队天天用自家产品，发现bug直接就改了
刚刚，OpenAI发布白皮书：如何在AI时代保持领先
科研AI的进化论！系统梳理600+数据集与模型，上海AI Lab等发布科学大语言模型全景式综述
腾讯 ARC Lab 开源 IC-Custom ：一个强大且灵活的图像定制化工具！
长视频AI数字人来了！字节×浙大推出商用级音频驱动数字人模型InfinityHuman
全奖读AI！人工智能专业排名全球前10的MBZUAI启动本硕博项目招生
SIGCOMM 2025｜重新定义个性化视频体验，快手与清华联合提出灵犀系统
拜读了某大佬发表的N篇顶会，原来论文“灌水”是这么玩的
北京内推 | 阿里夸克教育团队招聘推荐大模型数据算法实习生
听见空间！ASAudio全景综述：空间音频表示→理解→生成全链路
多模态大模型，真的“懂”世界吗？ICML 2025高分论文实锤核心认知盲区
特斯拉下一代金色Optimus原型现身？一双「假手」成为最大槽点
让具身智能体拥有「空间感」！清华、北航联合提出类脑空间认知框架，导航、推理、做早餐样样精通
传特斯拉 Model Y L 日均订单过万；苹果联手谷歌，Siri 整合 Gemini；优必选获 2.5 亿，全球最大人形机器人订单

DeepSeek、Gemini都不行？AgenTracer锁定多智能体“背锅侠”，8B小模型反超闭源巨模

2025-09-10未知作者来源

原创让你更懂AI的 2025-09-10 13:41 北京

多智能体失效归因的“逆袭大戏”

在大模型的持续进化过程中，我们见证了单体模型（monolithic LLM/agents）逐渐让位于更复杂、更灵活的多智能体（multi-agent）系统。后者往往通过多个大模型协同运作，再配合工具调用、外部知识库与精细的编排协议，实现远超单一模型的能力。

这类系统在科研探索、数据工程、软件开发乃至科学发现中展现了惊人的潜力。

然而，越是复杂的系统，也越容易出现脆弱性。多智能体的执行链路往往长达数十甚至上百步，任何一个智能体的偏差都可能像骨牌一样，引发全局性的失败。

2025 年 2 月伯克利团队的最新实证 [1] 研究更是警示我们：流行的多智能体框架，如 MetaGPT、OpenHands，失败率最高可达 86.7%。在这种背景下，一个尖锐的问题浮现出来——系统失败时，到底是哪个环节、哪个智能体，真正引发了“崩塌”？

来自新加坡国立大学团队提出的 AgenTracer 框架首次为这个问题给出了答案。AgenTracer 首次实现了多智能体系统的自动化失效归因，以 8B 的参数量在多智能体错误故障判断领域反超 GPT-4.1，Gemeni-2.5-Pro 等巨头模型，为多智能体研究补上了至关重要的一环。

论文标题：

AgenTracer: Who Is Inducing Failure in the LLM Agentic Systems?

论文地址：

https://arxiv.org/abs/2509.03312

GitHub链接：

https://github.com/bingreeky/AgenTracer

失败归因：多智能体可靠的前提条件

在AI系统研究中，我们习惯关注“做得对”的部分：推理是否准确、规划是否高效、执行是否流畅。但在多智能体场景里，失败才是常态，归因（attribution）才是系统走向成熟的必修课。

所谓失效归因，指的是在系统给出错误答案后，能够精确锁定“哪个智能体在第几步”引入了致命错误。只有这样，我们才能谈得上：

高效调试：让系统具备自我排错与迭代改进的能力；
数据利用：将失败轨迹转化为高价值的训练样本，而不是废弃日志；
责任分配：在多智能体协作中，明确“谁该背锅”，避免模糊的集体错误。

但问题在于，哪怕是最强的推理大模型，如 GPT-4.1、Claude-4-Sonnet、DeepSeek-R1，面对失效归因任务时也力不从心。实验证据显示，它们的准确率常常低于 10%，甚至比随机猜测好不了多少。

更棘手的是，有些错误并非显而易见，而是埋藏在早期的步骤中，只有在几十步之后才显现。这使得传统的“逐步检查”方法几乎失效。

这也解释了为什么“失效归因”长期以来被忽视：它不仅需要深度理解整个轨迹，还要有能力穿透表象，找到真正的决定性错误（decisive error）——那个一旦被纠正，整个系统就能从失败转向成功的关键节点。

AgenTracer：自动化失效归因的大规模数据管线

针对这一难题，作者提出了 AgenTracer，这是首个针对多智能体系统的全自动失效归因框架。它包含两个互补的创新点：

第一，自动化数据生成管线。

过去，失效轨迹的标注需要专家手工分析，大量时间消耗在“逐行审计”上。AgenTracer 引入了两种核心机制：

反事实回放（Counterfactual Replay）：逐步替换失败轨迹中的动作，用“理想解”校正，直到找到能让系统转败为胜的那一步。这样，我们就能自动确定“致命错误”的准确位置。
程序化故障注入（Programmatic Fault Injection）：在成功的轨迹中，人为地插入一个“错误操作”，生成合成的失败样本。这样一来，我们不仅有真实失败案例，还能构建出覆盖性更强的数据集。

基于这套流程，AgenTracer 构建了 TracerTraj-2.5K 数据集，涵盖 2000+ 高保真失败轨迹，规模超越了现有的 MAST 和 Who&When 等手工标注集。

第二，轻量级追踪器 AgenTracer-8B。

在数据集基础上，作者使用 Qwen3-8B 作为基座，结合多粒度强化学习（Multi-granular RL）进行训练。它能在长时序轨迹中同时实现：

步骤级归因（step-level attribution）：精准定位到哪一步出错；
智能体级归因（agent-level attribution）：识别是哪个 Agent 导致问题。

最终得到的 AgenTracer-8B 不仅准确率高，而且推理速度快，真正具备落地价值。

实验结果：轻量模型击败巨型闭源大模型

本文采用两类主要度量：agent-level accuracy（能否定位到致命错误的智能体）与 step-level accuracy（能否定位到致命的执行步骤）。评测分为两种场景：

w/ G（鉴错 agent 可见 ground-truth）- w/o G（鉴错 agent 不可见 ground-truth，现实中更有代表性）。

评测集包括 Who&When（分 handcrafted 与 automated 两个子集）以及 TracerTraj 从 TracerTraj-2.5K 中抽取的三个领域子集：Code / MATH / Agentic。

在 Who&When 基准上，AgenTracer-8B 展现了“小模型逆袭”的亮眼表现。尽管参数量仅为 8B，它在 agent-level 归因上显著领先 GPT-4.1 与 Claude-4-Sonnet，并在 step-level 定位上同样稳居第一。

在某些场景下，AgenTracer-8B 相比闭源巨模的优势达到 18.18%，这说明其针对性优化比单纯依赖规模更有效。

研究者还进一步在自构建的 TracerTraj 数据集上进行评测，涵盖数学（MATH）、代码（Code）和复杂多智能体（Agentic）三类任务。

结果显示：在数学推理轨迹鉴错中，AgenTracer-8B 在 step-level 的准确率远超 DeepSeek-R1 与 GPT-4.1，优势尤为显著；在代码轨迹鉴错中，它比专门的 Qwen3-Coder 还要更准确地定位关键错误；而在复杂多智能体场景下，AgenTracer-8B 虽在 agent-level 上与 Claude 接近，但在 step-level 上明显更稳健。