动态列表

  • 比GPT-5还准?AIME25飙到99.9%刷屏,开源模型首次!
  • 苹果AI秘密武器曝光!代号「AKI」团队浮出水面,乔布斯遗愿Siri终要翻身?
  • AI浪潮重塑一切,图形学路在何方?北大陈宝权入主SIGGRAPH执委会,肩负新使命
  • OpenAI用GPT-4b攻克诺奖难题!人体细胞「返老还童」,逆转效率飙升50倍
  • 「只参与,不参赛」奖牌数却仅次于宇树,这个幕后玩家如何做到的?
  • OpenAI重大发现:GPT-4b micro改造诺奖研究,山中因子重编程效率提高50倍
  • 第一名方案公开,代码智能体安全竞赛,普渡大学拿下90%攻击成功率
  • Coinbase强制全员上手AI工具,拒绝者直接开除
  • 马斯克沉迷的「刷刷刷」游戏,要来中国了
  • Anthropic 寻求 100 亿美元新融资;《恋与深空》获科隆展最佳移动游戏奖;脑瘫司机靠特斯拉 FSD 开车养家
  • 全球95%企业AI惨败?MIT报告引硅谷恐慌!90%员工偷用ChatGPT续命
  • 全球第一!西湖大学成功登顶Science,卷赢同行背后黑科技揭秘
  • 马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?
  • 刚刚,大模型棋王诞生!40轮血战,OpenAI o3豪夺第一,人类大师地位不保?
  • 可灵AI单季营收超2.5亿,快手财报里的「AI含金量」有多高?
  • NASA、IBM打造日地物理学首个开放式 AI 基础模型,用九年观测训练提升约16%耀斑预测准确率
  • 1 个月,2 场胜仗,李斌从「斌子」变成「斌神」
  • 球首款AI原生游戏引擎再进化:GTA6再不来,我们就AI一个
  • KDD 2025 Best Paper Runner-Up | EI-BERT:超紧凑语言模型压缩框架
  • 即梦推出“智能多帧”功能 突破AI视频长镜头创作瓶颈
  • 从实验室到餐桌:Robert Langer团队杨昕博士用新材料破解全球「隐性饥饿」
  • 北京内推 | 快手商业化算法部内循环电商模型组招聘推荐大语言模型算法实习生
  • 考场高分≠临床可靠!全球首个医疗动态红队测试框架,破解医疗AI落地危机
  • ICCV 2025 | 换脸迈入“电影级”!小红书发布DynamicFace,统一图像视频换脸基线
  • 别再分开训!SFT+RL融合范式全解析:统一视角下的六大方法
  • 那些让你「活人微死」的工作日,终于有救了
  • Cursor为Blackwell从零构建MXFP8内核,MoE层提速3.5倍,端到端训练提速1.5倍
  • 谷歌Gemini一次提示能耗≈看9秒电视,专家:别太信,有误导性
  • 从繁杂技巧到极简方案:ROLL团队带来RL4LLM新实践
  • 究竟会花落谁家?DeepSeek最新大模型瞄准了下一代国产AI芯片
  • ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式
  • 对话小米 AI 眼镜负责人:20 天卖光库存,但属于产品的「长跑」才刚开始
  • DeepSeek V3.1 发布:更强的 Agent ,更贵的 API;多家网约车平台集体降抽成;影石发布 4K 画质「口袋相机」|极客早知道
  • 谷歌手机十年最狠升级,全家桶AI宣战苹果!一句话P图,100倍变焦
  • GPT-5点赞!八大顶尖机构发布「自进化智能体」全面综述
  • 打工半年后,Atlas觉醒!「大行为模型」零代码上新技能,AI工业革命来了?
  • DeepSeek-V3.1震撼发布,全球开源编程登顶!R1/V3首度合体,训练量暴增10倍
  • 刚刚,好莱坞特效师展示AI生成的中文科幻大片,成本只有330元
  • 摆脱遥控器,波士顿动力人形机器人,开始「长脑子」干活了
  • 微软AI CEO警告:我们需要警惕「看似有意识的AI」
  • ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力
  • 汽车业务还没盈利,小米却已找到「第三曲线」
  • 通义APP上线官方知识库,首批覆盖教育、法律、金融等五大领域
  • AI Scientist生成的论文被指「剽窃」,回应称「未引用相关研究」,AI自动化科研还靠谱吗?
  • 训练减半反超GRPO!Shuffle-R1引入动态洗牌术,突破多模态RL效率瓶颈
  • 提分不提参!遥感图像四大SOTA trick:多模态融合、统一框架、轻量化与新范式
  • ICLR 2025 | 大模型为何会“举一反三”?揭开「上下文学习」的小样本学习密码
  • 博士申请 | 香港理工大学Ajay Kumar教授(IEEE Fellow)招收计算机视觉全奖博士生
  • 击败Meta登榜首:推理增强的文档排序模型ReasonRank来了
  • 千寻位置护航无人机表演,开启品牌多城联动新篇章
  • 刚刚,字节开源Seed-OSS-36B模型,512k上下文
  • 上下文记忆力媲美Genie3,且问世更早:港大和可灵提出场景一致的交互式视频世界模型
  • OpenAI 单月营收已经破 10 亿美元;马斯克的 Grok,超 37 万条用户聊天记录「裸奔」;谷歌发布 AI 手机
  • 成为「流量黑马」的老品牌,如何借拼多多秒懂 00 后?
  • AI 的终点不是对话框,这家公司想让真实世界成为 AI 的提示词
  • 网易有道发布子曰教育大模型多款AI新品,定义教育AI应用能力L1-L5分级
  • 二十余名英国青年科学家在沪参与好望角科学沙龙活动
  • 为长视频生成减负!浙大与华为提出Compact Attention,挖掘结构化稀疏加速2.5倍
  • TPAMI 2025 | 骨架动作理解大一统:东南大学等提出USDRL,一个面向密集表征学习的基础模型
  • 报名开启|中关村国际青年论坛:诚邀全球青年学者共探AI前沿
  • Sora没做到的,LongVie框架给解决了,超长视频生成SOTA
  • 「价格战」打了半年,吉利如何做到核心利润暴增102%?
  • 小鹏Q2财报「炸裂」:营收暴涨125%,毛利率反超特斯拉
  • Nature子刊 | 上智院统一框架RXNGraphormer,实现化学反应多任务精准预测,自发掌握分类规律
  • 首个面向肽分子设计的大模型平台:直接「读序列」出结合子,无需结构输入即可生成
  • 北京内推 | 清华×生数科技联合招聘音视频生成方向研究型实习生
  • 类PPO强化学习三部曲:GRPO简化→DAPO修正→GSPO全面进化
  • ICCV 2025满分论文!空间理解与主动探索大统一,MTU3D重塑AI具身导航范式
  • 90.5%准确率登顶8B模型榜首,快手Klear-Reasoner破解RL训练裁剪难题
  • 智谱推出AutoGLM 2.0:手机 Agent 的「Manus 时刻」?
  • 论坛报名已启动,速来锁定席位!解码具身智能的落地挑战与产业爆点
  • DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学
  • dLLM的「Free Lunch」!浙大&蚂蚁利用中间结果显著提升扩散语言模型
  • DeepSeek开源新基础模型,但不是V4,而是V3.1-Base
  • Meta超级智能实验室重组为四个部门,某些高管将离开
  • ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测
  • 黑神话系列第二作,《黑神话:钟馗》先导宣传片公布;小米卢伟冰:2027 年进军欧洲汽车市场;宇树预告新机器人
  • GPT-5暴写「屎山代码」!14个Prompt,看穿GPT-1到GPT-5七年智商进化史
  • 微软最新揭秘:「话痨实习生」AI助手,到底能帮人类做什么?
  • 陶哲轩「断粮」后,25年首次绝望怒吼:美国科学命脉被砍断!
  • 16岁天才少年炒掉马斯克,空降华尔街巨头!9岁上大学,14岁进SpaceX
  • 中科慧远发布CASIVIBOT,以九年积累开启AOI与机器人协同的品质检测新时代
  • 英伟达ViPE:任意视频一键转为3D几何数据,开源引擎与亿级帧数据集重磅发布!
  • CVPR 2025 | DeCLIP:解耦CLIP注意力,哈工大(深圳)、港大提出通用开放词汇密集感知新框架
  • 强化学习之父Richard Sutton最新演讲揭示OaK架构:通向超级智能的八步愿景
  • ICCV 2025 | RobustSplat: 解耦致密化与动态的抗瞬态3DGS三维重建
  • 医疗AI安全革命:全球首个医疗动态红队测试框架DAS,破解临床落地信任危机
  • 谷歌在上海办了场 AI 嘉年华,开发者们却说像逛「AI 基地」
  • 7年了,OpenAI官方给出五代GPT对比,网友却怀念起「狂野」初代
  • X-SAM:从「分割一切」到「任意分割」:统一图像分割多模态大模型,在20+个图像分割数据集上均达SoTA
  • 博后招募 | 清华大学信息国家研究中心招收大模型/多模态/CV等方向博后/实习生
  • 重温经典!十年前的视觉MoE雏形:HD-CNN用分层路由预演大模型逻辑
  • CVPR 2025 | 打破壁垒!多模态统一学习新范式来了,数据、模型、代码全开源
  • FlashCommunication V2登场!突破「任意比特」通信瓶颈,加速大模型分布式训练与部署
  • 开源版Genie 3世界模型来了:实时+长时间交互,单卡可跑,国内公司出品
  • 图生视频新玩法刷爆外网:图上画两笔就能动起来,终于告别文本提示
  • 妙笔生维:线稿驱动的三维场景视频自由编辑
  • 一句话,性能暴涨49%!马里兰MIT等力作:Prompt才是大模型终极武器
  • Z世代生存、学习与未来宣言!伯克利学霸预言课堂,用AI设计人生
  • AI来了!记者、UP主、写手,谁能逃过这场「灭绝浪潮」?
  • Hinton预言成真!AI接管美国一半白领,牛津哈佛扎堆转行做技工
  • 为什么「游戏」是 AI 陪伴落地的好场景?
  • 新加坡 AI 办公系统 Agnes:200 个 Agent 并行研究,让 AI 主动「找茬」打磨设计
  • 机器人也会「摸鱼」了?宇树G1赛后葛优瘫刷美女视频,网友:比人还懂享受生活
  • LLM为什么能看懂图?秘密不在Projector,残差结构才是跨模态理解的关键
  • 从GPT-2到gpt-oss,深度详解OpenAI开放模型的进化之路
  • NextStep-1:一次在图像生成上自回归范式的探索
  • KDD 2025 | UoMo来了,首个无线网络流量预测模型,一个框架搞定三类任务
  • ICCV 2025 | MobileViCLIP:快55倍!南大等提出首个高效“视频-文本模型,让多模态AI在手机可运行!
  • 突破长视频生成瓶颈:南大 × TeleAI 联合推出全新 AI 生成范式 MMPL,让创意“一镜到底”
  • 开源扩散大模型首次跑赢自回归!上交大联手UCSD推出D2F,吞吐量达LLaMA3的2.5倍
  • 一张图,开启四维时空:4DNeX让动态世界 「活」起来
  • AI发现新物理定律:纠正等离子体理论多年错误假设
  • 多模态大模型在化学与材料学的「体检表」——哪些能力靠谱,哪些还差很远?
  • Altman:希望 AGI 能提高生育率;与辉同行否认董宇辉年收入二三十亿元;今年国内智能眼镜市场同比增长121.1%
  • 刚刚!谷歌内部揭秘Genie 3:Sora后最强AI爆款,开启世界模型新时代
  • 硬核拆解!从GPT-2到gpt-oss,揭秘大模型进化关键密码
  • 黄仁勋子女逆袭上位!4万亿「皇储」成长史首曝:一个学烘培,一个开酒吧
  • GPT-5首次会推理,OpenAI联创曝AGI秘诀!超临界学习吞噬算力,2045金钱无用?
  • 400万人围观的分层推理模型,「分层架构」竟不起作用?性能提升另有隐情?
  • CoRL 2025|隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力
  • SEAgent:开启从实战经验中自我进化的GUI智能体新纪元
  • 给DiT装上“迷你”控制舵:NanoControl实现高效精准控制,参数量仅增0.024%
  • OpenAI估值达5000亿美元;「原道」联手小岛秀夫,推《死亡搁浅》耳机;苹果手表将「大幅重新设计」

Chain-of-Agents: OPPO推出通用智能体模型新范式,多榜单SOTA,模型代码数据全开源

图片

本文通讯作者周王春澍,OPPO个性化AI实验室负责人,主要研究方向是AI个性化、智能体的自主进化和强化学习、以及大模型和智能体的记忆系统等。本文核心贡献者均来自OPPO个性化AI实验室的AI智能体团队。

近年来,以多智能体系统(MAS)为代表的研究取得了显著进展,在深度研究、编程辅助等复杂问题求解任务中展现出强大的能力。现有的多智能体框架通过多个角色明确、工具多样的智能体协作完成复杂任务,展现出明显的优势。然而,现阶段的 MAS 依然面临一些关键限制:

  • 计算开销高:智能体之间频繁冗余的通信和复杂的工作流设计导致效率不高。

  • 泛化能力有限:面对新领域或新任务时,需要大量的 prompt 设计与工作流配置。

  • 缺乏数据驱动的学习能力:难以通过智能体任务数据实现持续提升性能。

  • 底层的大语言模型(LLMs)未原生支持多轮、多智能体、多工具交互,仍依赖 prompt 工程实现。

同时,近期兴起的工具融合推理(TIR)模型,通过显式地将工具使用融入推理过程,显著提升了单智能体框架(如 ReAct)在信息检索任务中的表现。然而,传统的 TIR 模型,无法直接支持多智能体系统的原生训练与协作。

针对上述瓶颈,本文提出了一种全新的智能体推理范式——Chain-of-Agents(CoA)。与传统的 TIR 模型仅支持单一智能体的「思考-行动-观察」模式不同,CoA 框架能够灵活定义多个角色和工具的智能体,在单一模型内动态激活,实现端到端的多智能体协作。

图片
  • 论文:https://www.arxiv.org/abs/2508.13167

  • 主页:https://chain-of-agents-afm.github.io/

  • 代码:https://github.com/OPPO-PersonalAI/Agent_Foundation_Models

  • 模型:https://huggingface.co/collections/PersonalAILab/afm-models-689200e11d0b21a67c015ba8

  • 数据:https://huggingface.co/collections/PersonalAILab/afm-datasets-6892140eaad360ea5ccdcde1

与传统的 MAS 相比,CoA 无需复杂的 prompt 和工作流设计,降低了智能体间的通信开销,并支持端到端训练,显著提升了系统的效率和泛化能力。经过训练后,具备原生 CoA 问题求解能力的模型称为 Agent Foundation Model(AFM)

在实验上,AFM 展示了卓越的性能和高效的推理能力,在近 20 项复杂任务和基准测试中全面刷新记录:在 Agentic 任务中,其在 GAIA 基准上以 32B 模型实现了 55.4% 的 Pass@1 成功率;在代码推理方面,AFM 在 LiveCodeBench v5 上的 47.9% 准确率和在 CodeContests 上的 32.7% 成绩均显著超越现有 TIR 方法。同时,它将推理成本(token 消耗)减少高达 85.5%,在保持领先性能的同时大幅提升效率。

图片

CoA 的架构范式

图片

CoA 采用了一种层次化的智能体架构,包括两个核心组成部分:

  • 角色型智能体(Role-playing Agents):进行推理和协调的智能体,包括:思考智能体(Thinking Agent)、计划智能体(Plan Agent)、反思智能体(Reflection Agent)和验证智能体(Verification Agent)。

  • 工具型智能体(Tool Agents):执行特定任务的智能体,包括:搜索智能体(Search Agent)、爬取智能体(Crawl Agent)和代码智能体(Code Agent)。

在 CoA 范式下,模型可以支持更多类型的智能体的推理和调用。

为了实现 LLMs 的原生多智能体协作推理能力,本文开发了一套专门的 CoA 微调框架,用于构建 AFM,该方法具体包括以下流程:

图片
  • 任务数据采集,生成与筛选:从公开数据集中采集不同类型的任务数据,以及采用自动化的方式(如 TaskCraft)自动生成高质量智能体任务,并进行有效过滤。

  • 多智能体能力蒸馏:利用先进的多智能体框架(如 OAgents)完成任务,将成功轨迹转换为 CoA 兼容的形式。

  • 监督微调与强化学习:利用生成的 CoA 轨迹进行模型微调,并通过可验证的智能体任务进行强化学习,进一步提升性能。

数据的构建

任务采集

为了构建丰富且多样的训练数据,本文首先从网页任务、数学和代码推理两大方面采样任务数据,并用于后续轨迹生成:

  • 网页:利用开源 QA 数据集包括:NQ、TQ、HotpotQA、popqa、musique、2wiki、webdancer 以及利用 TaskCraft 自动化生成轨迹。

  • 数学和代码:使用包括 LiveCodeBench v1-v3、CodeForces、ReTool SFT 和 SkyworkOR1 在内的编程和数学推理数据集。

SFT 轨迹生成

为了采集 CoA 适配的数据用于 SFT,本方法基于先进的多智能体系统 OAgents,建立了一套统一的轨迹采集框架,生成结构化的任务求解轨迹。具体来讲,本方法利用 OAgents 执行采集到的任务,并通过设定的规则产生反思和验证等行为,例如:按执行成功率对数据进行难度分级,对于难题引入反思机制,对于更难的题目基于答案引入规划生成的引导等。执行轨迹中有效的内容将通过规则转换的方式,以 CoA 要求的轨迹格式保存。最终产生约 87k 条 SFT 轨迹数据。

RL 数据筛选

为了进一步提升智能体的多工具协作策略,在强化学习(RL)阶段,本方法进一步利用约 85k 条高质量的 Agentic 任务、数学问题和代码任务数据,通过严格的数据质量筛选与策略抽样,确保强化学习专注于最具挑战的任务,防止过拟合。

实验

为了验证 CoA 范式与微调框架的有效性,本方法在多跳问答、智能体任务以及代码生成和数学推理等多个智能体基准上开展了全面的实验评估。

多跳问答(MHQA)任务评估

本文训练的 AFM 模型在 MHQA 基准任务的单跳与多跳问答测试集中展现出稳健且优异的性能,相较于同规模模型保持一致的有效性,且整体表现更为突出。具体而言,AFM-SFT 在多个数据集上接近或者超越了先前的 SOTA 方法,有效验证了多智能体蒸馏技术在协同智能迁移方面的优势。经过策略优化后的 AFM-RL,在七个数据集上达成了平均性能的新高,树立了当前任务中的新标杆。

在同类型且同规模的模型对比中,AFM 在不同的模型设置下都取得了领先成绩(例如以 Qwen-2.5-7B-instruct 为基准模型,平均准确率达到了 45.5%,相较 ZeroSearch 提升 6.4%)。

AFM 在多跳问答任务中的提升尤为显著,说明其在任务分解与工具使用方面具有更强的能力。并且在处理跨领域数据集时,AFM 的性能增益更加明显,表明通过该框架训练的模型具备更强的泛化能力与适应性。

图片

复杂网页搜索任务评估

AFM 在多个复杂知识密集型任务中刷新性能纪录:

  • GAIA 基准:AFM(Qwen-2.5-32B-Instruct)得分 55.4%,领先 WebSailor(+2.2%)与 WebDancer(+3.9%)。

  • BrowseComp:成功率 11.1%,居 32B 模型首位。

  • WebWalker:准确率达 63.0%,超过 WebThinker-RL(+16.5%)、WebDancer(+24.6%)与 WebShaper(+11.6%)。

  • HLE 基准:得分 18.0%,优于 GPT-4.1 支持的 OWL(+11.6%)及 Deepseek-R1-671B(+9.4%)等多款主流推理模型。

即使使用更小的 Qwen-2.5-7B-Instruct 主干,AFM 仍在 HLE 任务中取得 15.6% 的成绩,仅略低于采用更大主干的 WebThinker-RL(15.8%),同时在多个基准任务中超越其他集成工具的 32B 模型。进一步验证了 AFM 在智能体问题求解中的高效性,以及多智能体蒸馏策略在跨模型尺度中稳定迁移协作智能的能力。

除此以外,本文还发现,单独 SFT 的模型也能取得优异的结果:

  • GAIA:AFM-SFT 得分 50.5%,优于 WebSailor-SFT(46.6%)。

  • WebWalker:AFM-SFT 达 61.5%,领先 WebShape-SFT(44.6%)。

  • BrowseComp:AFM-SFT 得 10.0%,高于 WebSailor-SFT(7.2%)。

这些结果均验证了 AFM 在工具协同、推理迁移和跨模型尺度上的卓越表现。

图片

数学能力

AFM 在数学推理任务中展现出显著优势:

  • 7B 模型:AFM-RL-7B 在五个数学基准上均表现最佳,平均准确率达到 64.3%,较次优模型 SimpleTIR-7B-Multi 提高 3.6%

  • 32B 模型:AFM-RL-32B 平均准确率为 78.0%,领先现有最优模型 ReTool-32B 同样 3.6%。在 AIME25 和 OlympiadBench 数据集上,AFM 分别取得 10.5% 5.7% 的绝对提升,体现了在复杂数学场景下更强的泛化与解题能力。

进一步分析训练过程中的阶段贡献:

  • 对于 7B 模型,SFT 带来 22.0% 的准确率提升,RL 在此基础上再增益 20.8%

  • 对于 32B 模型,SFT 和 RL 分别带来 23.4%18.0% 的性能增幅。

综合来看,AFM 通过多智能体蒸馏过程在 SFT 阶段获得了链式推理能力,如规划、反思和工具调用;RL 阶段进一步强化了这些能力,造就了其在数学推理任务中的全面优势。

图片

代码基准

AFM 在代码生成任务中同样表现优异,显著超越多个基线模型:

  • 在三项高难度编程任务中(LiveCodeBench v5、LiveCodeBench v4 和 CodeContests),与基础模型相比,AFM 通过强化学习优化后在 7B 与 32B 模型上平均准确率分别提升 8.5% 13.2%,验证了其在代码生成能力上的增强效果。

  • 面对使用代码解释器的主流 TIR 模型,包括基于数学训练的 ReTool-32B 与专注代码任务的 Reveal-32B,AFM 全面领先。即便仅采用 SFT 训练,AFM 在 LiveCodeBench V5 数据集上的表现亦优于上述模型,证明本文方法能有效提升复杂编程能力。

  • 在 SFT 的基础上,经 RL 精调后,AFM 在 7B 与 32B 模型上进一步获得 1.8% 3.2% 的提升,体现了智能体强化学习对编程能力的持续增强效果。

图片

效率分析

图片

AFM 在工具调用效率和推理成本方面展现出显著优势,基于 GAIA 数据集的 10 个实例,对比 AFM 与三个主流框架(OAgents、WebThinker 和 AFM)在工具调用和 token 消耗上的表现。结果显示:

  • 在工具效率维度上(单位任务成功所需调用次数),AFM 使用的工具调用次数最少。

  • 在 token 效率方面(每个成功任务所需的提示工程成本),AFM 的 token 消耗最低,包括整体和工具相关 token。

Test-Time Scaling 分析

此外,AFM 在 Test-Time Scaling 方面表现卓越,并在多项智能体基准中展现稳健性能。通过对 GAIA、WebWalker、BrowseComp 和 HLE 四个任务的深入分析,AFM 及其变体:AFM-Bo3 与 AFM-Pass@3,在测试阶段进一步验证了模型的泛化与推理效能。AFM-Bo3 采用三选一优化策略,通过 Qwen-2.5-72B-Instruct 模型评估三个候选答案以选出最优路径;AFM-Pass@3 则采用三次尝试中至少一次正确的机制以提升任务完成率。

图片

在与其他主流智能体模型对比中,这三种方式均在多项任务中展现出领先优势,证明了 AFM 具备优越的策略组合能力与稳健的跨任务适应性,也体现出该方法在训练后仍可通过推理策略扩展进一步提升表现。

结束语

CoA 范式与 AFM 模型的突破,本质上是通过层次化智能体架构与端到端训练,解决了传统多智能体系统(MAS)在通信效率、泛化能力与 LLM 原生协作支持上的核心矛盾。其技术价值不仅体现在近 20 项基准测试的性能跃升,更在于构建了一套可扩展的智能体推理框架——角色型智能体(思考、计划、反思、验证)与工具型智能体(搜索、爬取、代码)的动态激活机制,使 LLM 首次具备无需外部工作流配置即可完成复杂协作的能力。

从技术细节看,AFM 的优势源于两点:一是多智能体能力蒸馏过程中,将 OAgents 的成功轨迹转化为 CoA 兼容格式,实现了协作策略的高效迁移;二是 RL 阶段针对高难度任务的策略优化,显著增强了工具调用的精准性(如数学推理中 7B 模型经 RL 后准确率提升 20.8%)。这种「蒸馏-微调-强化」的技术路径,为其他智能体框架提供了可复用的训练范式。

然而,作为一项突破性工作,CoA 与 AFM 仍存在待探索的技术方向:

  • 动态角色生成能力:当前角色型智能体的类型与分工需预先定义,未来可探索基于任务特性自主生成新角色的机制,进一步提升对未知任务的适应性。

  • 跨模态工具融合:现有工具型智能体以文本(搜索、代码)为主,如何将图像、语音等模态工具纳入 CoA 框架,是扩展应用场景的关键。

  • 长周期任务记忆机制:对于持续数天甚至数月的复杂任务(如长期科研跟踪),需设计更高效的智能体状态记忆与历史轨迹复用策略,避免重复推理开销。

这些待解问题,既是 CoA 范式向更通用智能体系统进化的必经之路,也为研究者提供了明确的技术探索方向。随着开源模型、数据集与代码的开放,AFM 有望成为智能体协作领域的重要基线,推动多智能体技术从「任务适配」走向「通用协作」。

]]>

联系我们