动态列表

  • 刚刚,谷歌发布71页AI科研报告!6大领域全面超越专家,几小时顶几个月
  • 一夜刷屏!27岁姚顺雨离职OpenAI,清华姚班天才转型做产品经理?
  • 王小川押注下个十年:为人类造医生,为生命建模型|新智元十周年峰会
  • 一刀砍掉90%训练成本!Qwen3-Next用1/10算力练成「长文推理利器」
  • AI意识「觉醒」!图灵得主Bengio重磅发声:AI正接近人类意识临界点
  • 扩散语言模型也有MoE版本了!蚂蚁&人大从头训练LLaDA-MoE,即将完全开源
  • 腾讯优图重磅开源Youtu-GraphRAG,实现图检索增强技术新突破
  • Adam的Update RMS为何总是0.2?噪声模拟到理论近似全讲透
  • 北京/上海内推 | 小红书智能审核算法团队招聘NLP/多模态内容理解算法工程师/实习生
  • 「做笔记」的RAG来了!告别噪声与骨牌效应,EviNote-RAG稳住长链推理
  • KDD 2025最佳论文亚军:参数不同还能共训?异构知识迁移框架HtFLlib全面开源
  • 我苦寻的「库乐队」,叫 MiniMax Music 1.5
  • Science Advances | AI for Earth:聆听海洋的「脉搏」,新一代AI大模型精准预测十年气候脉动
  • 外滩大会嘉宾锐评AGI即将“撞墙”,正在向数字与物理世界进化
  • 港科大 X MiniMax:高质量数据、小模型挑战复杂网络搜索难题
  • 为了网罗 AI 创新者,上海搞了场万人科创大赛
  • 蚂蚁集团数字蚂力首批专家级“AI数字员工团队”亮相外滩大会
  • “IIFAA数字卡包”上线支付宝:目前已支持多类身份申领
  • 蚂蚁集团加码AGI等青年人才培育,2025蚂蚁InTech奖在外滩大会揭晓
  • 重塑药物研发,哈佛医学院等开源全新AI模型,用「图神经网络」破解疾病驱动因素多元难题
  • 全球最懂智能体的创业者齐聚外滩大会,未来三年怎么做聊透了
  • 马上上岛|云栖大会「新世代 AI 创想岛」即将揭幕
  • ICRA 2025 | TANGO:机器人告别3D地图,仅靠RGB摄像头实现零样本长距离导航
  • 挑战主流认知!蚂蚁、人大在2025外滩大会发布行业首个原生MoE扩散语言模型
  • 姚顺雨离职OpenAI,「亿元入职腾讯」传闻引爆AI圈,鹅厂辟谣了
  • 全新MoE架构!阿里开源Qwen3-Next,训练成本直降9成
  • 告别错误累计与噪声干扰,EviNote-RAG 开启 RAG 新范式
  • 西贝贾国龙称一定起诉罗永浩;支付宝推出「AI 付」服务;iPhone 17 京东、天猫预订量比上代大增|极客早知道
  • 刚刚,ChatGPT支持MCP了!一句Prompt即可全自动化
  • 百度CTO王海峰:AGI曙光已现,Scaling Law仍有效|新智元十周年峰会
  • 通用Agent是伪命题?昆仑万维方汉现场拆解:垂直推理才是胜负手|新智元十年峰会
  • 文心X1.1三大能力狂飙,海内外实测还挺惊艳!
  • 超越90%城市规划师!清华、MIT等提出人机协作新范式 | Nature子刊
  • 慕尼黑车展,当冷静遇上冷静
  • 博士申请 | 新加坡国立大学计算机系卞亚涛老师招收2026 Fall人工智能全奖博士/博后
  • 别再狂刷CoT了!港科广DIGAI Lab发布隐式推理全景综述,静默思考开启新范式
  • 继首创“AI打赏”服务之后,支付宝再推国内首个“AI付”
  • 蚂蚁百宝箱新品Tbox超级智能体亮相外滩大会,5分钟即可完成专业教学素材
  • 量子宇宙模拟竞赛开启:量子计算机可以模拟并阐明复杂物理现象
  • 3000亿美元OpenAI大单,让世界首富位置换人了
  • 攻克大模型「表格盲区」!ST-Raptor框架发布,实现复杂半结构化表格的精准理解与信息抽取
  • 港大马毅外滩大会演讲:人工智能应从“黑箱”走向“白箱”
  • 兼顾准确率与可解释性,DeepSEA实现抗生素耐药蛋白注释范式转变
  • 交互扩展时代来临:创智复旦字节重磅发布AgentGym-RL,昇腾加持,开创智能体训练新范式
  • RewardDance:字节跳动提出视觉生成奖励扩展新范式,破解“奖励劫持”难题
  • 刚刚,Thinking Machines Lab首次发长文,揭开LLM推理不确定性真相
  • 英伟达的AI已经开始接管整个项目了?SATLUTION自主进化代码库登顶SAT竞赛
  • 大模型智能体不止能写代码,还能被训练成白帽黑客
  • 高德扫街榜,能不能做成中国的「Google Map」?
  • 开启MPV家庭新时代,魏牌高山7正式启动预售
  • ACL最佳论文幕后的北大人!北大张铭带出顶会常胜军和百亿CEO天团|新智元十周年峰会
  • 刚刚,这款Agent浏览器力压OpenAI,72%成功率全球第一!还能免费用
  • =COPILOT()函数横空出世!AI自动写公式效率起飞,网友:让Excel再次伟大
  • 当智能醒于物理世界,英伟达副总裁: 下一个十年属于物理AI!|新智元十周年峰会
  • 刚刚,英伟达祭出下一代GPU!狂飙百万token巨兽,投1亿爆赚50亿
  • 00后挑大梁!近20国选手激战外滩大会,AI科创赛三赛道冠军诞生
  • CoRL 2025 | 港大InfoBodied AI团队首发具身表征新范式,构建任务自适应的感知框架
  • 英伟达下一代GPU登场,Rubin CPX一次推理数百万Token,网友:这是头野兽
  • 谷歌AI新里程碑:一个能「做研究」的系统诞生了,用LLM+树搜索编写专家级软件
  • 爱诗科技完成6000万美元B轮融资,阿里巴巴领投,达晨财智、深创投、北京市AI基金、巨人网络、Antler等跟投
  • 当人工智能「看见」量子世界:AI如何改变对复杂量子系统的认知,南洋理工、上交等发布量子系统学习综述
  • DeepSeek、Gemini都不行?AgenTracer锁定多智能体“背锅侠”,8B小模型反超闭源巨模
  • 北京内推 | AMD北京AI算法团队招聘模型量化/剪枝算法实习生(可远程)
  • SFT真不如RL?MIT团队抛出“RL的剃刀”,砍掉遗忘直通终身学习
  • 院士领衔!从智能算网到司法AI:顶尖学者直播解读AI与工程前沿趋势
  • AI应用元年,这场标杆赛事见证了中国创新速度与野心
  • AI胡说八道这事,终于有人管了?
  • 人人都能炼专属Agent,上海交大开源端侧Agent全栈工具链,真实场景性能超GPT-5!
  • TPAMI 2025 | H2OT:分层沙漏型Tokenizer,重塑高效视频姿态Transformer
  • 史上最贵「打工皇帝」!马斯克解锁1万亿美金工资,拢共分几步?
  • 500 块的「电子宠物」,治好了我的「路怒症」|New Things
  • 苹果发布会:耳机测心率、手表听音乐、iPhone Air超级薄
  • 5999 元起,苹果发布eSIM、超薄 iPhone;王腾再辟谣离职原因谣言;反恶性补贴,主要外卖平台被约谈|极客早知道
  • 不到10天,国产「香蕉」突袭!一次7图逼真还原,合成大法惊呆歪果仁
  • 再也不怕面瘫脸!YouTube黑科技:AI帮你「永久微笑」,连僵尸都咧嘴笑
  • OpenAI真正王牌,不是Ilya!刚刚,奥特曼罕见致谢这两人
  • 缔造OpenAI的秘密,竟只有一个词!新智元十年峰会圆桌,七位大咖激辩
  • Hinton预言失灵?掌握AI技能涨薪23%,比读硕士更赚钱
  • 最薄 iPhone 登场,eSIM 正式落地|苹果秋季发布会新品回顾
  • 文心新出的推理大模型,给了我们信心
  • SFT远不如RL?永不过时的剃刀原则打开「终身学习」大模型训练的大门
  • 从第一性原理出发的RAG推理新范式来了,蚂蚁DIVER登顶权威基准
  • 击败多个行业巨头,优必选自研人形机器人最强大脑 Thinker 斩获全球四项第一
  • 字节跳动发布 Seedream 4.0 图像创作模型,豆包、即梦可免费体验
  • 从科幻到产业元年 | 「脑机接口」系统综述发布:全景解析理论、技术、挑战、趋势
  • 硅谷也996实锤了?AI的火,烧掉了硅谷的周末
  • DPad: 扩散大语言模型的中庸之道,杜克大学陈怡然团队免训推理加速61倍
  • Altman亲自发博客点赞,这两大杰出人才是谁?
  • 自变量机器人完成近 10 亿元 A+ 轮融资,多元资本押注共同布局具身智能未来
  • 报名启动!西湖大学云谷青年学者论坛·人工智能分论坛诚邀全球英才
  • 不止综述!多模态大模型持续学习全链路:Benchmark、方法与Codebase一网打尽
  • ICML 2025 | 别再只拼CoT了!不完备信息下的主动推理,LLM普遍掉线
  • 科研实习 | 北京大学计算机学院潘亮铭老师课题组招收NLP/大模型方向科研实习生
  • 时空壶发布 W4:用「硬核」技术,打赢一场 AI 翻译的「标准」之战
  • Science | 西奈山伊坎医学院新AI算法为1600种变异定量「风险」,解析疾病外显率难题
  • TPAMI 2025 | IGEV++:迭代多范围几何编码,刷新立体匹配技术新高度
  • 原来你是这样的外滩大会!
  • 小米通报王腾因泄密被辞退,本人发微博回应;传 IPO 估值 500 亿,宇树回应 ;辛顿自曝被女友用 AI 分手 | 极客早知道
  • Hinton自曝:前女友提分手,用ChatGPT列出自己「七宗罪」
  • 从「会说」迈向「会做」,LLM下半场:Agentic强化学习范式综述
  • 字节Seedream 4.0将全量开放!抢先评测来了,我们摸索出AI生图20种「邪修」玩法
  • 全球图生视频榜单第一,爱诗科技PixVerse V5如何改变一亿用户的视频创作
  • 扎克伯格的豪赌初见成效?Meta新方法让LLM长上下文处理提速30倍
  • 具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法
  • 上海AI Lab重磅综述:AI实现自主科学发现时代已经到来
  • 6 个月估值暴涨 5 倍突破 100 亿美元,三个「00后」逼急 Scale AI
  • 深圳内推 | 腾讯音乐天琴实验室招聘音乐生成算法研究员(社招/校招)
  • 给RL装上“防抖器”!GRPO稳化版来了:更高熵、更低KL、更稳更新
  • 导师放养真的会毁掉一个人……
  • Focal Loss也能无监督?北大×港中文团队用“双重不确定性优化”提升鲁棒3D感知
  • 上汽通用五菱与华为深化合作,推出首款车型宝骏华境S
  • IEEE TPAMI | M²Diffuser: 让机器人学会“脑补”,在复杂3D场景中实现精准移动操作
  • 国行版苹果 AI 推迟至年底上线;视频平台广告被曝「偷时间」;美国计划限制进口中国无人机和重型载具 | 极客早知道|极客早知道
  • 16岁创业,22岁做成百亿独角兽!3位高中同学帮大厂训AI年入1亿美金
  • 《2025新智元ASI前沿趋势报告》全文
  • 一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发
  • 苹果端侧AI两连发!模型体积减半、首字延迟降85倍,iPhone离线秒用
  • Claude不让我们用!国产平替能顶上吗?
  • SceneSplat: 基于3DGS的场景理解和视觉语言预训练,让3D高斯「听懂人话」的一跃
  • 慕尼黑车展 2025前瞻:中国队组团出海,BBA 走向「新」时代
  • 国内外AI大厂重押,初创梭哈,谁能凭「记忆」成为下一个「DeepSeek」?
  • 斯坦福:优化器「诸神之战」?AdamW 凭「稳定」胜出
  • 字节跳动Seed推出「机器人大脑」Robix:让机器人学会思考、规划与灵活互动
  • 浙大提出SSGaussian:注入语义与结构灵魂的3D风格迁移,让高斯溅射场景化身艺术品
  • 苹果 iPhone 17 系列规格已全被曝光;Anthropic 全面封杀中国公司接入;今夜将迎来「血月」月全食|极客早知道
  • OpenAI重组GPT-5「灵魂」团队!亚裔女负责人遭调离,罕见自曝AI幻觉祸首
  • 设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25
  • 谁不用谁亏!Karpathy吹爆GPT-5:10分钟编码完胜Claude一小时,奥特曼秒回感谢
  • 震撼实锤!清华姚班校友揭「1.4×加速」陷阱:AI优化器为何名不符实?
  • Anthropic被作家告了,违规下载700万本书,15亿美元和解了
  • 英伟达的局:狂撒15亿美元,从Lambda那租到了搭载自家AI芯片的GPU服务器
  • OpenAI罕见发论文:我们找到了AI幻觉的罪魁祸首
  • 00后以1.1亿美金「掀桌」,硅谷AI将书写影视新传奇 终结制片旧时代
  • 任意骨骼系统的模型都能驱动?AnimaX提出基于世界模型的3D动画生成新范式
  • ICCV 2025 | MOSEv2 全新亮相,第七届 LSVOS 挑战赛正式开启!
  • IEEE TPAMI 2025| PointGST:参数量仅0.67%,精度首破99%,三维点云处理迎来谱域新范式!
  • 华为新问界 M7,6 小时订单破 13 万;等 eSIM,iPhone17 Air 首发无国行;特斯拉拟给马斯克 1 万亿薪酬

如何为LLM智能体编写工具?Anthropic官方教程来了

好工具,才有好智能体。

智能体(Agent)时代,工具已不再只是传统 API 或函数接口的简单封装,而是决定智能体能否高效完成任务的关键。

为了让智能体真正释放潜力,我们需要重新思考工具开发的方式。传统软件开发依赖确定性逻辑,而智能体是非确定性的,它们在相同输入下可能产生不同输出,这意味着为智能体设计工具需要新的范式。

而新的范式不仅仅是如何开发工具,更在于如何让工具真正发挥最大效能。毕竟,AI 智能体的强大程度取决于我们为其提供的工具,但问题是:如何让这些工具发挥最大效能?

来自 Anthropic 的一篇文章为大家指出了一条可行路径。

图片

原文链接:https://www.anthropic.com/engineering/writing-tools-for-agents

以下是博客内容:

在这篇文章中,Anthropic 介绍了一些在多种 agentic AI 系统中被证明最有效的性能提升技巧。

阅读本文后,你可以做到:

  • 构建并测试工具原型;

  • 如何创建并运行全面的评估;

  • 与智能体协作(如 Claude Code),自动提升模型性能。

图片

工具的定义

在计算机中,确定性系统在给定相同输入时,每次都会产生相同的输出;而非确定性系统,比如智能体,即便在相同的初始条件下,也可能生成不同的响应。

在传统的软件开发中,我们是在确定性系统之间建立契约。例如,一个关于天气的函数调用 getWeather ("NYC"),无论调用多少次,都将以完全相同的方式返回纽约的天气。

而基于大模型的工具是一种全新的软件形式,它体现的是确定性系统与非确定性智能体之间的契约。

举个例子:当用户问「我今天要带伞吗?」时,智能体可能会调用天气工具、也可能直接基于常识回答,甚至先提出一个澄清性问题(比如确认具体地点)。有时,智能体还可能出现幻觉,或者根本没弄明白该如何使用工具。

这意味着,我们在为智能体编写软件时,必须从根本上重新思考方法:不能再把工具和 MCP 服务器当作普通函数或 API 来写,而是需要专门为智能体设计。

那如何设计工具呢?

如何编写工具?

首先,快速搭建工具原型并在本地进行测试。

接着,进行全面评估来衡量后续改动带来的影响。

在与智能体协作的过程中,你可以不断重复评估与改进这一循环,直到智能体能够在现实任务中表现出强劲的性能。

构建原型

在该教程中,我们以基于 Claude 的智能体构建为例。

如果你使用 Claude Code 来编写工具,最好向 Claude 提供相关的文档,例如工具依赖的软件库、API 或 SDK(包括可能用到的 MCP SDK)。

另外,适合 LLM 阅读的文档通常可以在官方文档网站上以 llms.txt 文件的形式找到,大家可以自行下载。

你也可以将工具封装在本地 MCP 服务器或桌面扩展程序 (DXT) 中,即可在 Claude Code 或 Claude Desktop 应用中连接并测试这些工具。

值得一提的是,如果你要将本地 MCP 服务器连接到 Claude Code,请运行 claude mcp add <name> <command> [args...]。

此外,要将本地 MCP 服务器或 DXT 连接到 Claude Desktop 应用,请分别前往「设置”>“开发者” 或 “设置”>“扩展程序”」。你也可以将工具直接传入 Anthropic API 调用进行编程测试。

这些做完之后,还要自行测试以发现不足之处。

运行评估

接下来,你需要通过评估来衡量工具的效果。

图片

评估可以分为几个部分进行,首先是生成评估任务

在你完成早期原型后,Claude Code 可以检验你的工具,并生成数十组提示与响应对。

这些提示应当源自真实的使用场景,并基于真实的数据源和服务(例如内部知识库和微服务)。

  • 本文建议避免使用过于简单或太过于表面的沙盒环境,因为那样无法在足够复杂的条件下对工具进行压力测试。

  • 那些高质量的评估任务往往需要多次工具调用,甚至可能多达数十次。

那什么是好的任务评估呢?大家可以参考如下示例:

  • 安排下周与 Jane 会面,讨论我们最新的 Acme Corp 项目。附上我们上次项目规划会议的记录,并预订会议室。

  • 客户 ID 9182 报告称,他们单次购买被扣款三次。查找所有相关日志条目,并确定是否有其他客户受到同一问题的影响。

  • 客户 Sarah Chen 刚刚提交了取消订单的申请。准备一份留任方案。确定:(1) 他们离开的原因;(2) 哪种留任方案最具吸引力;以及 (3) 在提出方案之前我们应该注意的风险因素。

还有一些较弱的任务:

  • 安排下周与 jane@acme.corp 的会议。

  • 在付款日志中搜索 purchase_complete 和 customer_id=9182。

  • 查找客户 ID 为 45892 的取消请求。

每个评估 prompt 都应与可验证的响应或结果配对。你设置的验证器可以简单到只是在基本事实和采样响应之间进行精确的字符串比较,也可以高级到请大模型来判断响应。避免使用过于严格的验证器,因为这些验证器会因为格式、标点符号或有效的替代措辞等虚假差异而拒绝正确的响应。

对于每个提示 - 响应对,你还可以选择指定智能体在解决任务时调用的工具,以衡量智能体在评估过程中是否成功掌握了每个工具的用途。但是,由于正确解决任务可能存在多种有效途径,因此请尽量避免过度指定或过度拟合策略。

接着是运行评估。

本文建议通过直接调用 LLM API 以编程方式运行评估。

还可以采用简单的智能体循环(例如用 while 循环交替包装 LLM API 与工具调用):每个评估任务对应一个循环。每个评估智能体应被分配一个任务提示和相关工具。

如果你使用 Claude 运行评估,可以直接启用 interleaved thinking(交错思维)。这样一来你就能探究智能体为何调用或不调用某些工具。

在评估过程中,除了准确率,本文还建议收集智能体的其他指标,例如:

  • 单次工具调用和任务的总运行时间;

  • 工具调用总次数;

  • 总 token 消耗;

  • 工具错误情况。

图片

接下来是结果分析。

通常来讲,有时智能体在反馈和回答中遗漏的内容,往往比它们提到的内容更重要。LLM 并不总是准确表达出它们的真实含义。

你需要观察智能体在什么地方会卡住或感到困惑。我们需要根据反馈,定位工具的薄弱环节。

与此同时,我们需要回顾原始对话记录(包括工具调用和工具响应),以捕捉那些没有明确出现在智能体 CoT 中的行为。记住评估智能体并不一定真正知道正确答案或最佳策略。

另外,还需要分析你的工具调用指标:

  • 冗余调用过多 → 可能说明需要重新设计分页或 token 限制参数;

  • 无效参数导致的错误过多 → 可能说明工具需要更清晰的描述或更好的使用示例。

用户还可以与智能体协作。

你甚至可以让智能体直接帮你分析结果并改进工具。

只需将评估智能体的对话记录拼接起来,然后粘贴到 Claude Code 中即可。Claude 擅长分析对话记录,并能一次性重构大量工具。

如何编写高效工具?有哪些原则

选择合适的工具

并不是说工具越多,结果就越好。我们观察到一个现象:工具只是简单封装了现有软件功能或 API 接口,而很多时候调用这些工具是否真正适合智能体还未知。

原因在于,智能体与传统软件有着不同的可供性(affordances),也就是说,它们感知并使用工具的方式与传统软件截然不同

  • 举个例子:LLM 智能体的上下文有限(即一次能处理的信息量有限),而计算机内存廉价且几乎无限。

  • 在地址簿中查找联系人这个任务上,传统软件可以高效地逐个存储并处理联系人,检查完一个再检查下一个。

然而,如果一个 LLM 智能体使用的工具返回了所有联系人,并且必须逐个 token 地读完,那么它就会把有限的上下文空间浪费在无关信息上。(想象一下,在地址簿里找联系人时,你得从头到尾一页一页翻阅,这其实就是一种暴力搜索。)

更好、更自然的方式(无论对智能体还是对人类而言)都是直接跳到相关页面(比如按字母顺序定位)。

因此,本文建议先构建少量经过深思熟虑的工具,针对高价值的工作流,并与评估任务保持一致,然后再逐步扩展。在地址簿的例子中,你可以实现一个 search_contacts 或 message_contact 工具,而不是简单地提供一个 list_contacts 工具。

此外,工具还有整合能力,能在底层同时处理多个离散操作(或 API 调用)。

 例如,工具可以:

  • 在返回结果时附加相关元数据;

  • 或者在一次调用中完成经常需要串联的多步任务。

以下是整合功能的一些示例:

  • 与其分别实现 list_users、list_events 和 create_event 工具,不如实现一个 schedule_event 工具,它可以查找空闲时间并能直接安排其他任务。

  • 与其实现一个 read_logs 工具,不如实现一个 search_logs 工具,它只返回相关的日志行以及必要的上下文。

  • 与其实现 get_customer_by_id、list_transactions 和 list_notes 工具,不如实现一个 get_customer_context 工具,它能一次性汇总某个客户的所有近期且相关的信息。

所以说,你构建的每个工具都应当具有清晰且独立的目标。工具应当使智能体能够像人类一样,在获取相同底层资源的情况下,去分解并解决任务,同时还能减少原本会被中间结果消耗掉的上下文空间。

过多的工具或功能重叠的工具,反而会分散智能体的注意力,阻碍其选择高效的策略。

因此,谨慎且有选择性地规划哪些工具需要构建(或不需要构建),往往会带来更大的回报。

为工具设置命名空间

AI 智能体可能会接入数十个 MCP 服务器和数百个不同的工具,其中还包括其他开发者编写的工具。

当工具在功能上出现重叠,或者用途模糊不清时,智能体就可能会混淆该用哪个工具。

命名空间(即给相关工具加上统一前缀分组)可以划清不同工具之间的边界;有些 MCP 客户端会默认采用这种方式。

例如,可以按服务进行命名空间划分(如 asana_search、jira_search),也可以按资源划分(如 asana_projects_search、asana_users_search),这样能够帮助智能体在合适的时机选择正确的工具。

本文发现,前缀式命名和后缀式命名在工具使用评估中的效果并不相同。本文建议根据你的评估结果来选择合适的命名方式。

假如不这样做的话,智能体可能会:

  • 调用错误的工具;

  • 或者用错误的参数调用正确的工具;

  • 又或者调用的工具太少;

  • 甚至错误地处理了工具响应。

从工具中返回有意义的上下文

同样,工具实现应注意仅向智能体返回高信号信息。它们应优先考虑上下文相关性而非灵活性,并避免使用低级技术标识符(例如:uuid、256px_image_url、mime_type)。诸如 name、image_url 和 file_type 之类的字段更有可能直接影响智能体的下游操作和响应。

智能体处理自然语言名称、术语或标识符的能力也显著优于处理隐晦的标识符。实践发现,仅仅将任意字母数字 UUID 解析为语义上更有意义且更易于解释的语言(甚至是 0 索引的 ID 方案)就能显著提高 Claude 在检索任务中的准确率,从而减少幻觉。

在某些情况下,智能体可能需要灵活地与自然语言和技术标识符输出进行交互,哪怕只是为了触发下游工具调用(例如,search_user (name=’jane’) → send_message (id=12345))。你可以通过在工具中公开一个简单的 response_format 枚举参数来启用这两种功能,从而允许智能体控制工具返回「简洁」还是「详细」的响应(如下图所示)。

你可以添加更多格式以获得更大的灵活性,类似于 GraphQL,也可以精确选择要接收的信息。以下是一个用于控制工具响应详细程度的 ResponseFormat 枚举示例:

enum ResponseFormat {  DETAILED = "detailed",  CONCISE = "concise" }

以下是详细工具响应的示例(206 个 token):

图片

以下是一个简洁工具响应(72 个 token)的示例:

Slack 线程和线程回复由唯一的 thread_ts 标识,这些 thread_ts 是获取线程回复所必需的。thread_ts 和其他 ID(channel_id、user_id)可以从「详细」工具响应中检索,以便后续需要这些 ID 的工具调用。「简洁」工具响应仅返回线程内容,不包含 ID。本例中使用约 1/3 个 token 作为「简洁」工具响应。

你的工具响应结构(例如 XML、JSON 或 Markdown)也会对评估性能产生影响:没有一刀切的解决方案。这是因为 LLM 是基于下一个 token 预测进行训练的,并且往往在使用与其训练数据匹配的格式时表现更佳。最佳响应结构会因任务和智能体而异,建议根据自身的评估选择最佳响应结构。

优化工具响应以提高 token 效率

优化上下文质量至关重要。但优化工具响应中返回给智能体的上下文数量也同样重要。

Anthropic 建议,对于任何可能消耗大量上下文的工具响应,结合分页、范围选择、过滤和 / 或截断功能,并设置合理的默认参数值。对于 Claude Code 来说,工具响应限制默认是 25000 个 token。未来智能体的有效上下文长度会随着时间的推移而增长,但对上下文高效工具的需求会始终存在。

如果你选择截断响应,请务必为智能体提供实用的指导。你可以直接鼓励智能体采用更高效的 token 策略,例如,在知识检索任务中进行多次小规模、有针对性的搜索,而不是进行单一、广泛的搜索。同样,如果工具调用引发错误(例如,在输入验证期间),你可以对错误响应进行提示式设计,以清晰地传达具体且可操作的改进措施,而不是使用晦涩难懂的错误代码或回溯。

以下是截断工具响应的示例:

图片

以下是一个无用的错误响应示例:

图片

以下是一个有用的错误响应示例:

图片

快速构建工具描述

现在来谈谈改进工具的最有效方法之一:快速构建工具描述和规范。由于这些内容会加载到智能体的上下文中,因此它们可以共同引导智能体实现有效的工具调用行为。

在编写工具描述和规范时,请思考如何向团队中的新成员描述你的工具。考虑到可能隐式引入的上下文 —— 专用查询格式、专业术语的定义、底层资源之间的关系 —— 并将其明确化。通过清晰描述(并使用严格的数据模型强制执行)预期的输入和输出,避免歧义。特别是,输入参数的命名应清晰明确:不要使用名为 user 的参数,而应尝试使用名为 user_id 的参数。

通过评估,你可以更有信心地衡量快速构建的影响。即使对工具描述进行微小的改进,也能带来显著的提升。在对工具描述进行精准改进后,Claude Sonnet 3.5 在 SWE-bench Verified 评估中取得了最佳性能,大幅降低了错误率,并提高了任务完成率。

展望未来

为了构建高效的智能体工具,我们需要重新调整软件开发实践,从可预测的确定性模式转向非确定性模式。

通过本文中描述的迭代式、评估驱动的流程,现在已经出现了使工具成功的一致模式:高效的工具应具有清晰明确的定义,能够合理地利用智能体上下文,能够在不同的工作流程中组合使用,并支持智能体直观地解决现实世界中的任务。

Anthropic 预计,智能体与世界交互的具体机制将不断演变 —— 从 MCP 协议的更新到底层 LLM 本身的升级。通过系统化的、评估驱动的方法来改进智能体工具,我们可以确保随着智能体能力的提升,它们所使用的工具也能随之发展。

]]>

联系我们