原创 让你更懂AI的 2025-09-25 22:21 北京
只用78条数据,模型一脚碾压大规模对手!
在大模型圈,有一个几乎铁律般的直觉:更多数据,就意味着更强的能力。无论是预训练还是指令微调,大家的共识都是“量就是一切”。但这次,来自上海交大等机构的一篇论文却把这条规律颠覆了。
研究团队提出了一个名为 LIMI (Less Is More for Intelligent Agency) 的方法:他们只用 78 条人工挑选和合成的“高密度智能体轨迹”,就让一个基础大模型的智能体能力在 AgencyBench 上一举飙升,超过了靠上万条样本训练出来的对照模型。
最关键的是,这不是靠什么隐秘的“黑魔法”,而是一个朴素到近乎直觉的发现:智能体要学会“干活”,靠的是每条数据里有多少“策略密度”,而不是简单的规模堆砌。
论文标题:
LIMI: Less is More for Agency
论文地址:
https://arxiv.org/pdf/2509.17567
GitHub地址:
https://github.com/GAIR-NLP/LIMI
为什么“多”不一定“强”?
在过去两年,智能体(Agent)的发展几乎成了大模型最火的赛道。从最初的 ReAct、Toolformer 到后来的多代理协作、Agent Foundation Models,大家都在追求一个目标:让 AI 不只是回答问题,而是能闭环执行任务。
但现实却是:大多数智能体在复杂场景里依旧不堪一击。我们习惯了用“语言建模的逻辑”来训练智能体:靠规模取胜——合成成千上万条任务数据,记录成千上万条执行轨迹,然后直接喂给模型。
问题在于,这类数据大多数是低密度的。它们往往覆盖的是一些模式化的、机械重复的任务:比如改写文本、生成摘要、修复简单代码。模型确实会变“听话”,但当面对复杂的、多步骤的任务时,它们显得手足无措。因为这些低密度样本里,缺少真正能迁移的“策略信号”。
换句话说:数据量再大,如果每条数据都“信息稀薄”,那堆出来的还是个只会模板化执行的助手,而不是能主动完成工作的“同事”。
于是,这篇论文抛出了一个关键问题:与其问“我们需要多少数据”,不如问“每条数据里能装下多少策略”。
从“量”到“密度”的范式转变
第一步:重新定义训练单元。
传统的 SFT(监督微调)样本,就是一个「指令 → 答案」。但 LIMI 的思路是:把一个完整任务的全过程都纳入训练单元。
形式化地说,每个任务由一个查询 触发,配套的执行轨迹为:
其中每个动作 可能是:
思考(model thought) ,
工具调用(tool invocation) ,
环境观察(observation) 。
于是监督微调目标函数变成了:
其中 表示轨迹中到第 步的上下文与环境状态。换句话说,模型学到的不是“答案”,而是在复杂环境中一步步推进的能力。
▲ 图1. 以“五子棋开发”为例,一条任务轨迹被拆解为规划—执行—反馈的长链,模型学习的是如何逐步推进而不是直接给答案。
第二步:构建高密度任务池。
研究团队聚焦两个天然“信号密度高”的场景:
协作式软件开发(Vibe Coding):代码能写、能跑、能调试,反馈即时且明确;
科研工作流(Research Workflow):任务长链、工具多样、结果可验证,天然适合学习策略。
他们人工采集了 60 条真实任务,并从 GitHub PR 中精选出 18 条合成任务(排除掉文档更新等无效改动)。最终形成了 78 条黄金样本。
这些轨迹的平均长度高达 42k tokens,最长甚至 152k tokens。每一条都像一本“实验日记”,承载了从起步到完成的完整决策链。
▲ 图2. 数据构建流水线,左侧是真实任务采集,右侧是GitHub PR合成,最后都在CLI环境下生成可复现轨迹。
▲ 图3. 轨迹长度分布与任务覆盖,展示了样本内部的“策略密度”。
第三步:固化环境,形成闭环。
所有数据都在 SII CLI 环境下采集。这个环境允许:
真实调用工具
观察执行反馈
记录失败与修复
最终走到“可复现的完成”
这就避免了“纸上谈兵”的伪轨迹,让模型直接暴露在真实的决策链中。
78条样本,碾压1万条?
真正让人震撼的,是实验环节。研究团队在 AgencyBench 上做了系统对比,本意可能只是想验证一下“小规模精炼数据”能不能跑得起来,结果却直接跑出了“惊天反转”。
在基线 GLM-4.5 上,不做任何智能体训练时平均分是 45.1%;如果再拿 1 万条合成的代码代理数据来做监督微调,分数也只是略微提升到了 47.8%。然而,当作者只用那 78 条精心设计的黄金样本时,分数直接飙升到 73.5%。
▲ 表1. 不同模型在AgencyBench上的对比,LIMI(78条样本)显著超越1万条数据的微调模型。
这个结果意味着什么?意味着当数据质量足够高、每条都能传递“策略密度”时,规模反而成了次要因素。128 倍更少的数据,却换来了超过 25 个百分点的性能提升。
而且,作者并没有满足于“平均分高”这一点。他们进一步考察了一个更关键的指标:第一轮任务完成率(FTFC)。
在传统智能体中,常见的情况是模型会反复试错——先胡乱调用工具,再根据报错信息修修补补,最后可能凑出一个能跑的答案。但这种“试错式成功”,在真实生产环境里几乎毫无价值。真正有价值的,是模型能不能在第一步就走在正确轨道上。
结果显示:LIMI 在 FTFC 上达到了 71.7%,而基线模型只有 37.8%。换句话说,LIMI 学到的不是“多试几次蒙对”,而是“开局就踩准关键点”。
▲ 图4. Less-is-More效应曲线,78条高密度样本在性能曲线上远超大规模低密度数据。
这张曲线非常直观:在横轴样本量不断增加的过程中,大规模低密度数据的收益曲线几乎是平的,甚至在加入更多样本时反而出现了性能下滑;而 LIMI 的曲线像是直接跳了一个台阶,表明它学到的信号完全不同。
更妙的是,这种优势并不局限于 AgencyBench。作者还在 TAU2-bench、EvalPlus、DS-1000、SciCode 等外部基准上做了测试。即使离开 CLI 环境,LIMI 依旧显著优于基线。
尤其是在代码和科研任务里,LIMI 展现出了更强的泛化能力,这说明它学到的并不是环境特化的“技巧”,而是真正可迁移的策略模式。
实验部分带给我们的感受很清晰:这不是“以小博大”的运气,而是一种新的训练逻辑在发挥作用。于是问题变成了:为什么短短 78 条轨迹,能产生超过 1 万条数据都达不到的效果?
为什么78条能打穿1万条?
如果要给这个结果找一个核心逻辑,那就是:LIMI 重新定义了“什么叫有用的数据”。
在传统训练里,我们习惯把一条样本看成“问题—答案”的对映关系,模型最终学到的,只是如何在语料的空间里找到一个看似合理的补全。但 LIMI 里的每一条样本,是从问题到完成的全过程,包含了思考、工具调用、反馈、修复、再尝试。也就是说,模型不再是模仿一个“结果”,而是在跟随一段“经验”。
更关键的是,作者选取的场景并不是随便的,而是天然带强反馈的环境:写代码和科研工作流。这些任务会不断给出明确的信号——代码能不能跑通,实验能不能复现——于是每一次失败与修复,都会变成一条可迁移的经验路径。正是在这些路径中,模型学会了如何纠错、如何调整、如何走到终点。
再加上 CLI 环境的闭环设计,这些轨迹就不再是纸上谈兵的脚本,而是一步步真实的“操作日志”。这样的数据密度,远非那些成千上万条机械合成的样本能比。于是我们看到,在 AgencyBench 上,LIMI 只凭 78 条轨迹就拉开了超过 25 个百分点的差距。
这个现象并不是“偶然爆冷”,而是一个极其自然的结果:当你喂给模型的是经验而不是答案,它自然会变得更像一个“能干活的人”。
从“量”到“密度”的新范式
这篇论文真正有意思的地方,不是证明了“78 条胜过 1 万条”,而是让我们重新思考了一个长期被忽略的问题:智能体的训练,本质上是在教它如何工作,而不是让它背更多的答案。
当我们一味追求数据规模时,得到的是一个更“顺从”的助手,它能模仿更多的表面模式;而当我们转向数据密度,得到的却是一个更“聪明”的同事,它能把有限的经验提炼成可迁移的策略。
图 1–3 展示了什么叫“高密度样本”的构建逻辑,表 1 和图 4 给出了直观的数值与曲线,而公式里的 与 FTFC 指标,则把这种直觉抽象成了可优化的训练目标。它们共同指向一个事实:智能体的瓶颈不是“缺少数据”,而是“缺少真正有用的数据”。
所以,当我们再谈“Less is More”时,它已不再是一句漂亮的口号,而是一个经过实验和理论双重验证的工程真理。未来谁能最先在自己领域里凑齐那几十条“黄金样本”,谁就可能最早把“会干活的 AI”送上生产线。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·