动态列表

  • 首个AI神作!一人分饰全角,万人围观外星人嘲讽人类灭绝
  • 申研「全拒得」的「差生」,终成PyTorch之父、Meta副总裁!今天跳槽TML
  • 图灵奖得主竟「忘了提及」中国学者成果?马库斯重锤Yann LeCun
  • 永别了,Tokenizer!何恺明师徒新作,颠覆AI生图技术
  • 年度最强AI实锤!谷歌Gemini 3全网首测震撼,一句话编码封王
  • 亚马逊云科技发布Kiro正式版:核心功能升级
  • 对话斑马口语:如何用 AI Agent 造出「超人类外教」?
  • 清华团队“密度法则”登上Nature子刊,揭示大模型高效化发展新规律
  • 点击下载!中国科研人员AI使用率全面领跑:Wiley发布全新调研报告
  • 风口浪尖中的小米汽车,创下国产新势力最快盈利速度
  • CMU新作Co-Me:无需重训,VGGT长序列迎11.3倍加速!
  • 何恺明团队再出手!将ARC视为视觉问题,ViT从零训练60.4%准确率,达到人类平均水平
  • 资深技术专家胡成文出任鼎犀智创CTO,共赴新材料智创未来
  • 如视发布空间大模型Argus1.0,支持全景图等多元输入,行业首创!
  • NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法
  • NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测
  • 刚刚,PyTorch之父光速入职TML!离职Meta刚过一天,投身500亿估值独角兽
  • 何恺明重磅新作:Just image Transformers让去噪模型回归基本功
  • ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式
  • Gemini 3深夜来袭:力压GPT 5.1,大模型谷歌时代来了
  • 「30 秒造应用」——蚂蚁灵光点燃「所想即所得」的魔法时刻
  • 视频模型真在推理,还是「表演」推理?港中文等质疑:Chain-of-Frame是真的吗?
  • Gemini 3 正式发布,多榜单断崖式领先;美安全服务商网络中断,ChatGPT、X 受牵连;苹果承认酒精擦拭可能导致手机掉色|极客早知道
  • 4万亿刀,仅3.6万人!英伟达揭残酷真相:劳动正与财富大脱钩
  • 医疗AI智能体全面综述:行业爆发,年增长130%!
  • AI「看见」实验,哈佛颠覆性突破!一副AR眼镜,新手秒变资深专家
  • 震惊电影圈!好莱坞混了10年没出头,他把AI「烂片」做成23万粉爆款
  • Anthropic CEO:最快明年,一半初级白领下岗!失业率将达10%-20%
  • 谷歌 Gemini 3.0 深夜炸场:没有悬念的最强 AI
  • 夸克全面接入千问对话助手,将发布全新AI浏览器
  • Yann LeCun团队新作LeJEPA:仅一个超参数、50行代码,实现可证明、可扩展的自监督学习
  • MIT何恺明团队新作:让扩散模型回归“去噪”本质,简单Transformer即可实现SOTA性能
  • JSON刚死24小时,TOON又被网友玩坏:LLM数据格式彻底乱套了
  • 美团多篇论文入选NeurIPS 2025:从大模型到多模态的全线突破 | 直播预告
  • 阿里千问公测,挑战 ChaGPT;京东上线独立外卖 App;贝佐斯出任 AI 初创公司 CEO
  • 抱歉了GPT-5,这次是中国AI「上岸」了
  • 你急它不急:GPT-5先判断,再决定「速答」还是「深想」
  • Meta开始用KPI考核,强迫所有员工尽可能多使用AI
  • 接招吧,GPT-5.1!
  • 「前三代定律」下,百年吸尘器如何做出新意?
  • 两个月破 300 万用户,Agnes AI 刷新 Instagram 与 Snapchat 增长纪录
  • 每天给白领发 1000 万,他成了硅谷最年轻亿万富翁
  • 2025,中国科技圈进入全面「大乱斗」时代
  • 当 AI 开始分「左右」
  • 阿里云,用全栈 AI 刷新第十七个双十一
  • AAAI 2026 Oral MiniShift+Simple3D:面向高分辨率3D异常检测的可扩展数据集与实时检测新范式
  • AAAI 2026 山大提出DiveSeg:为DINO注入“水下感知力”,实例分割性能提升显著
  • 双重隐式记忆来了!JanusVLN让视觉语言导航真正理解3D空间
  • 让千问APP当一周科研打工人:它比我想的能干,也比我想的累
  • 雷军连发多条微博回应质疑;iPhone 发布方式将在明年重大变革;年度最令人不安的研究:AI 刷多社媒会变蠢|极客早知道
  • 图灵奖得主LeCun最后警告Meta!我搞了40年AI,大模型是死路
  • AI又封神了!华人新作直出憨豆+《猫和老鼠》,平行宇宙对上戏了
  • AI「逼宫」库克?苹果秘密计划曝光,接班人竟是M芯片之父!
  • 年度最强AI压轴!谷歌Gemini 3.0下周决战OpenAI,前端要下岗了
  • 安谋科技发了一枚 NPU,要把 AIGC 算力提升 10 倍
  • ICLR 2026吃瓜现场:有人用LLM连投4版论文,竟然拿到两个8分?
  • 无人工标注、可持续扩展:AcademicEval推动长文本评测进入“自更新”阶段
  • 宇树完成上市辅导,拟境内IPO;传索尼开发Labubu电影;2699元!原道X小岛秀夫耳机限量发售
  • AAAI 2026 Oral | 清华大学等提出SpatialActor:解耦空间感知,重度噪声下机器人操作鲁棒性暴涨19.4%
  • AI不懂痛苦,却成了你的深夜知己!170位医生教ChatGPT安慰人
  • 一条短信,7年恩怨!奥特曼与马斯克决裂曝出新隐情
  • 不会说英语的母亲,教出了5万亿英伟达CEO!
  • AI「牛顿」来了!北大团队新突破,看一眼数据就能推出物理定律
  • AAAI 2026 Oral | 中科院联合港大提出ARRA:外部视觉表征对齐重塑全局一致性,让自回归大模型充分释放图像生成潜能
  • 1899 元「iPhone 袜子」上架秒光;传华为 Mate80 上 20GB 内存;微信点赞苹果小程序政策
  • 全球最大开源具身大模型!中国机器人跑完马拉松后开始学思考
  • OpenAI拆开AI「黑箱」,终于可以看懂GPT在想什么了
  • LeCun在Meta的「最后一作」
  • 视觉压缩称王?谷歌死守AI黑科技,DeepSeek一夜开源
  • 大疆 OSMO Action 6 体验:完美进化,不止运动
  • iOS 为微信小程序「正名」,腾讯移动生态的新转机
  • WACV 2026 | PALMS+:融合深度基础模型,手机室内导航的技术再突破
  • “全模态”3D视觉基础模型OmniVGGT出炉!即插即用任意几何模态,刷新3D视觉任务SOTA,赋能VLA模型
  • GPT 5.1 发布了,但西方媒体准备「讲好中国故事」
  • AI、游戏双驱动,腾讯「赚麻了」
  • 对话李彦宏:Chatbot 不是一切,我在 AI 上看到了更让人兴奋的未来
  • 杭州/北京内推 | 阿里淘天算法团队招聘多模态理解方向算法实习生
  • ACL 2025 | 用图结构让RAG学会「记忆与总结」,重塑长上下文理解
  • OpenAI把Transformer训练成「几乎全零」,黑箱首次被彻底揭开
  • 传苹果从微信小程序抽成 15%,腾讯回应;特斯拉考虑支持 CarPlay;iPhone Air 成功支持实体卡 |极客早知道
  • 谷歌DeepMind最新论文,刚刚登上了Nature!揭秘IMO最强数学模型
  • ICLR 2026出分,审稿员怒喷「精神病」!DeepMind研究员教你绝地求生
  • GPT-5.1发布当天,文心5.0杀回来了
  • 一句「你还好吗」值40亿?斯坦福博士出走xAI,押注AGI共情力
  • 营收狂飙的「暗面」:Meta成「全球欺诈大本营」?
  • 小鹏科技日「太魔幻」:机器人走猫步,飞行汽车接近量产
  • AAAI 2026 Oral 中科大联合西工大提出RSKT-Seg:专为遥感打造的高效开放词汇分割框架,推理提速2倍
  • Roboflow&CMU论文披露RF-DETR细节:首个COCO数据集突破60 AP实时目标检测,速度飙升20倍!
  • 博士申请 | 佛罗里达大学计算机系招收NLP/LLM方向全奖博士/实习生
  • 深度研究智能体真的“懂你”吗?OPPO × 浙大首发个性化深度研究评测基准
  • DeepSeek罗福莉正式亮相小米AI;「周杰伦概念股」联手宇树造 IP 机器人;乘用车百公里加速不少于5秒

登顶开源SOTA!上交大&小红书LoopTool实现工具调用任务的「数据进化」

在过去两年,大语言模型 (LLM) + 外部工具的能力,已成为推动 AI 从 “会说” 走向 “会做” 的关键机制 —— 尤其在 API 调用、多轮任务规划、知识检索、代码执行等场景中,大模型要想精准调用工具,不仅要求模型本身具备推理能力,还需要借助海量高质量、针对性强的函数调用训练数据。

然而,现有数据生成与训练流程多数是 “静态” 的 —— 数据在训练前一次性生成,无法感知到模型能力的改变。模型在微调或强化学习过程中也无法为数据生成提供正向反馈。这不仅可能导致模型对已掌握的简单任务重复学习、浪费算力,同时留下一些难点样本长期缺乏优化;此外,很多现有流程依赖昂贵的闭源 API 生成与评估数据,开源替代往往带入大量噪声标签,降低训练效果。

为解决这一系列问题,上海交通大学与小红书团队提出了 LoopTool:一个自动的(autonomous)、模型感知(model-aware)、迭代式(iterative)的数据进化框架,首次实现了工具调用任务的数据–模型闭环优化。团队仅依靠开源模型 Qwen3-32B 作为数据生成器与判别器,在无闭源 API 依赖的情况下,让一个 8B 规模的 LoopTool 模型在工具调用表现上显著超越其 32B 数据生成器,并在 BFCL-v3ACEBench 公开榜单上取得同规模模型的最佳成绩。与此同时,训练后的 LoopTool-32B 模型也在这两个榜单上登顶,达到了目前开源模型的最佳成绩,进一步验证了闭环迭代优化在不同模型规模上的通用性与有效性。

图片
  • 论文地址:https://arxiv.org/pdf/2511.09148

  • 代码地址:https://github.com/Rednote-DeepExperience/LoopTool

背景:工具调用的瓶颈

论文指出,工具增强型 LLM 已经在多领域证明了其巨大价值,例如:API 调用,知识库查询、搜索引擎交互, 面向代码和多模态的任务执行, 复杂知识问答与数学问题。 但要让模型稳健地使用工具则应持续提供与其当前水平匹配,高质量且多样化的训练数据。目前主流方法(如 ToolLLM、APIGen 系列)采用 “先生成全量数据,再训练模型” 的静态流程,缺乏对模型学习状态与短板的实时反馈,且现阶段对模型工具调用能力的学习也多采用监督式微调的方法,使模型难以泛化到更多的工具类别上。

进一步地如果使用闭源生成 / 评估模型(如 GPT 系列),API 成本高且难以大规模迭代;改用开源模型则往往引入标签错误(参数不全、函数调用不符合任务要求等),会造成训练信号噪声累积甚至误导。

方法:LoopTool 的闭环数据进化

LoopTool 的核心思想是:让数据生成、标签修正与模型训练形成一个自动化的闭环,并由模型性能反馈驱动下一轮数据优化。它包括种子数据构建迭代优化闭环两大阶段,后者又细分为四个核心模块。

图片

自动化工具增强数据构建(Seed Generation)

在迭代开始前,需要构建一个高质量、多样化的种子数据集。研究团队同时收集开源的各领域的 API 文献,同时也设计了两个分层树结构来辅助合成部分 API。 合成过程基于语义树 (Context Tree) 约束树 (Constraint Tree),语义树描述领域主题与细化功能层级;约束树给出 API 结构限制,如命名规则、参数类型数量、返回格式等,通过在每棵树中独立抽取路径并合并,生成符合功能意图和结构规范的 API 定义,辅以规则验证确保生成 API 的一致性与语义完整性。

随后,这些 API 被置入多智能体工具调用对话生成 (Multi-Agent Tool-Use Dialogue Simulation) 流程线中。Planner Agent 基于抽样的工具子集规划整体任务流程与对话轮次;User Agent 根据规划在每一轮中发起请求、澄清条件、补充参数;Assistant Agent 结合当前上下文选择合适的工具,准备并执行具体的工具调用;Tool Agent 依据 API 规范模拟执行结果或者通过真实工具后端返回有效响应。所有生成的对话经 规则验证(API 语法、参数类型、schema 匹配)以及 LLM 验证(Qwen3-32B 判断逻辑一致性与语境相关性)两阶段筛选,确保了首轮训练的种子集数据的质量和多样性。

基于闭环迭代的模型训练与数据演化

1. GRPO 强化学习训练 (GRPO Training for Tool Calling)

  • 样本构造:对于每一个多轮对话样本,可以切分出多个工具调用的监督样本 图片, 其中 图片 为工具集,图片 为上下文,图片 为目标调用。模型输出 图片 包含推理轨迹 <think>...</think> 与 工具调用的 JSON 结构 <tool_call>...</tool_call>。

  • 奖励函数:二值奖励 图片图片指的是模型输出的工具名和参数与真实的数据标签完全匹配。

  • 优化目标图片。在训练过程中,为了鼓励模型的探索,这里设置 β 为 0。

2. 贪婪能力探测 (Greedy Capability Probing, GCP)

GRPO 在极易或极难样本上的更新幅度有限。为识别真正有学习价值的样本,GCP 直接用当前策略贪婪解码全数据集,判定出哪些样本:(1)已掌握(预测与标签匹配);(2)失败(预测不匹配);(3)边界(高困惑度 PPL,模型信心低),高 PPL 样本 图片 被保留到下轮训练中,这些样本尽管预测正确,但接近决策边界,具有高学习价值。 

3. 判别引导标签校验 (Judgement-Guided Label Verification, JGLV)

对于预测和标签不匹配的样本,使用开源模型 Qwen3-32B 作为评判者,比较模型预测与原标签孰优孰劣,分类为:(1)PRED_WRONG:模型预测错 ;(2)LABEL_WRONG:标签错,用模型预测替换标签;(3)BOTH_CORRECT:标签与预测均对,择高 PPL 保留;(4)BOTH_WRONG:全部丢弃。

不同于直接让 LLM 生成新标签,JGLV 以比较判别模式运行,减少生成噪声的风险,并随着模型水平的迭代提升,逐渐用更优预测反向优化训练集。

4.  错误驱动数据扩展 (Error-Driven Data Expansion, EDDE)

针对通过 JGLV 验证的错误种子样本,EDDE 模块进行结构保持与情境多样化生成,具体而言分析原始错误案例的结构模式与潜在误区,构造出保持任务难度但在情境和参数上经过多样化改造的新样本,这些合成数据经过与种子阶段相同的双重验证后,被并入下一轮训练集。

闭环迭代更新

新一轮训练的数据集因此由四部分组成:高困惑度样本、经过判别修正的错误种子样本、错误驱动生成的新数据以及原始种子集中未使用的子样本。这样的设计保证每一轮训练都在最新的模型能力诊断结果与高价值样本的驱动下进行,形成训练–测评–修正–扩展的完整闭环,不断推动模型将 “薄弱环节” 转化为新能力点。

实验结果

实验设置

研究团队选用了开源的 Qwen3-8B 模型 以及 Qwen3-32B 模型作为迭代训练的基础模型,对于 8B 模型进行了 4 次迭代训练, 对于 32B 模型进行了单次的迭代训练。为了系统性评测模型在工具调用方面的能力,选用了 BFCL-v3 和 ACEBench 作为主要的评测框架,同时也测试了训练后模型在编程,数学等问题上的通用能力以及在下游应用任务下的能力。

总体性能对比

BFCL-v3 涵盖了单轮、多轮调用场景,对模型的工具调用能力进行多维评估。在该榜单上,LoopTool-8B 总体准确率达到 74.93%,在所有 8B 规模开源模型中排名第一,较原始 Qwen3-8B 提升了 +8.59 个百分点,单轮调用准确率和 Live 执行准确率均为最高。更具代表性的是,该模型在总体性能上超越了用作数据生成与评判的 Qwen3-32B。LoopTool-32B 则在榜单上以 79.32% 的总体准确率位列第一,在单轮调用上达到最优成绩,且多轮场景表现也优异。

图片

ACEBench 细分为 Normal, Sepcial, Agent 三类场景。评测结果显示,LoopTool-8B 以 73.4% 总体分数夺得同规模第一,比原始 Qwen3-8B 高出 6.3 分,在多类评测中均保持相对均衡优势。LoopTool-32B 达到了开源模型榜单中的第一,仅次于 GPT-4o 模型的表现。

图片

迭代训练对比分析:持续挖掘弱点,避免停滞

为了进一步对比 LoopTool 迭代优化和静态训练的差别,研究团队设置了对照实验,对比 LoopTool-8B 与静态数据训练的结果。结果显示,在 BFCL-v3 中,LoopTool 的性能随迭代逐步提升,从初始模型到第 4 轮迭代持续增长,而静态训练在第二轮后即出现平稳,甚至因数据分布与模型能力越来越不匹配而下滑。

图片

消融实验解析

为了评估 LoopTool 每个核心模块的贡献,论文在 BFCL-v3 基准上进行了多组消融对比,分别针对高困惑度样本筛选 (High-PPL)、判决引导标签校正 (JGLV)、以及错误驱动数据扩展 (EDDE) 模块。

  • 高困惑度样本的重要性:移除高 PPL 样本 (w/o High-PPL) 会导致整体精度显著下降,尤其是多轮任务 (Multi-Turn)。即使用高 PPL 样本替代 EDDE 样本 (HighPPL-Replace) 也能维持接近完整配置的效果,验证了高 PPL 案例 —— 即模型低置信度、接近决策边界的样本 —— 在推动能力提升方面的重要作用。

  • 标签校正的必要性:跳过 JGLV 校正 (w/o JGLV) 会显著降低精度,噪声或错误标签不仅无法被纠正,还会在被 EDDE 扩展成新样本后进一步污染训练数据,造成性能劣化。

  • 错误驱动扩展的有效性:移除 EDDE (Remove EDDE) 同样导致准确率下滑。进一步测试发现,仅重复原始错误种子无法让模型有效掌握这类难点,而 EDDE 生成的结构相似但具备情境多样性的挑战样本,则能显著提升模型在这些 “困难样本” 上的表现。

图片

模型规模扩展研究

作者还测试了 LoopTool 在不同规模模型上的表现,范围涵盖 0.6B 到 8B 参数量,并在 BFCL-v3 上进行两轮迭代训练。

结果清晰显示:模型规模越大,初始迭代 (Iteration 1) 和优化迭代 (Iteration 2) 阶段的准确率都更高。大模型在迭代中获得的绝对性能提升也更明显 —— 0.6B 模型仅提升 +0.70 个百分点,而 8B 模型则提升了 +1.80 个百分点。这种趋势源于 GRPO 强化学习依赖模型在探索中识别正确工具调用轨迹的能力。更大规模的模型往往能更早发现有效解法,从而更大化迭代式数据精炼的优势。

图片

通用能力和下游任务:不仅是工具调用的高手

为了确保闭环优化不会让模型在非工具领域上的性能退化,作者在六个不同通用任务上测试并比较了 LoopTool 模型与原始模型:包括 MMLU-redux(综合常识)、IFEval(指令跟随)、LiveCodeBench(代码生成)、Math-500、AIME24、AIME25(数学竞赛题)。结果表明,LoopTool-8B 在全部任务上匹配或超越原模型,尤其在指令跟随 (+1.40) 与代码生成 (+3.84) 上提升显著,说明闭环数据演化不仅增强了工具调用,还提升了泛化推理与复杂任务处理能力。LoopTool-32B 则在数学任务上超越原始模型,在其他任务上与原始模型持平。

图片

进一步地,团队借助了 DeepAgent 框架来评测模型在下游工具使用场景下解决现实问题的能力,包括以下评测基准:

  • API-Bank: 评估 LLM 在规划、检索和调用 API 方面的能力。涉及 73 个 API 工具,领域涉及账号管理、健康管理、智能家居、日程管理、金融管理等。

  • Spotify: RestBench 的一个子场景模拟了 Spotify 音乐播放器,包含 57 个问题和 40 个本地工具,平均需要 2.6 次连续 API 调用才能完成任务。

  • GAIA: 针对通用人工智能助手的复杂基准测试。要求 LLM 灵活运用广泛的通用工具集,包括网页浏览、代码执行、多模态处理和文件处理。

评测结果表明,LoopTool 工具使用能力的提升,有效地增强了对实际问题的解决能力。

图片

结语

LoopTool 呈现了一个完全自动化、模型感知的闭环管道,将数据合成、标签校正以及基于 GRPO 的模型训练紧密结合,形成迭代优化循环,用于增强大型语言模型的工具使用能力。整个过程完全依赖开源模型完成数据生成与评估,不仅降低了成本,还确保了数据的高质量与多样性。在多轮迭代中,LoopTool 不断针对模型的薄弱点合成更具挑战性的样本,同时校正噪声标签,让训练数据随着模型能力的提升而动态进化。经过 LoopTool 迭代训练的 8B 与 32B 模型在公开的测评榜单中达到了新的 SOTA 成绩。LoopTool 不仅证明了模型闭环进化的有效性,也验证了开源框架在无依赖闭源 API 的条件下仍能达到乃至超越更大规模模型的表现。

相关招聘岗位信息

【团队介绍】

小红书中台算法组致力于打造业界领先的 AI 创新应用。团队专注文本和多模态的后训练及强化学习技术,深入探索类人交互、情感陪伴、智能体系统等前沿应用领域,持续推动 AI 与人文社会深度融合,构建长远用户价值。团队成员在 ICLR/ICML/CVPR/ACL 等顶会发表论文 60 + 篇,依托丰富的计算资源和良好的人文氛围,面向在校优秀硕博生提供日常和 ACE 实习机会,并开放校招与社招全职岗位。

【岗位】

  • 大模型应用算法专家

  • ACE 顶尖实习生

  • 大模型算法实习生

【任职资格】

  1. 自然语言处理、人工智能等专业的硕士或博士生;

  2. 代码能力突出,同时具备 DeepSpeed/Megatron 等分布式训练框架、vLLM/SGLang 等高性能推理框架的实际使用经验;

  3. 具备良好的责任心、自驱力和技术前瞻性,擅长产研协作,能主动攻坚技术难点,通过算法迭代推动业务增长;

  4. (加分项)有顶会或开源项目落地经验优先。

简历投递至:luyuan2@xiaohongshu.com, daituoni@xiaohongshu.com

]]>

联系我们