动态列表

  • 77岁「AI教父」Hinton:AI早有意识!我们打造的智能,可能终结人类文明
  • 全球首款1.8nm芯片亮相!华人CEO打响关键一战,英特尔杀回来了
  • 清华万引教授:万倍加速催化剂设计,AI突破DFT瓶颈!
  • 陶哲轩亲测!GPT-5 Pro 40分钟破解3年难题,登顶最难数学考试
  • Attention is NOT All You Need:让“深度”重新流入时间,而非堆叠在参数之上
  • NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!
  • OpenAI 卖货做视频,Anthropic 专心写代码,谁能赢?
  • 一颗 1.8 纳米芯片,成了英特尔「最后的救赎」
  • 这款 AI 调研神器,让我一键产生 1000 个「种子用户」|AI 上新
  • 都用 GPT,为什么你没法中「百万大奖」?
  • ChatGPT 变身 App Store,「对话即应用」时代到了
  • IROS 2025 Oral | RAG-6Dpose:三大创新模块,利用 CAD 作为知识库进行检索增强 6D 姿态估计
  • IROS 2025 | 速度飙升24倍!巴黎萨克雷大学等提出HARP-NeXt:实时3D激光雷达分割新标杆
  • 「丐中丐」版特斯拉来了,Model 3/Y降价超3.5万元
  • 高德扫街榜的 23 天奇袭
  • 张一鸣近年来首次公开亮相;微软上海开始新一轮裁员,补偿N+4;罗永浩锐评 iPhone 17
  • GPT-5王者归来?奥特曼称AI已跨科学门槛,三大学科正迎来实质性突破
  • 老黄押宝「美版DeepSeek」!谷歌天才叛将创业,一夜吸金20亿美元
  • 任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码
  • 13万被引!ImageNet作者苏昊或将加盟复旦
  • 250份文档投毒,一举攻陷万亿LLM!Anthropic新作紧急预警
  • 和两位 CEO 聊 Sora: 应用层爆发的里程碑事件,创业者的机会来了
  • 新一代短剧人,涌向郑州「淘金」
  • 社交媒体的黄金时代,结束了
  • U-Bench:U-Net十年“大乱斗”终结者,100个变体、28个数据集的终极对决
  • 东京大学、牛津大学等联合发布VLA万字综述:机器人迈向通用智能的全栈指南
  • DeepSeek苦练1T,清华只用5B?InfLLM-V2把稀疏注意力玩明白了
  • EMNLP 2025 | 拨云见日:知识电路分析揭示大语言模型“知识遮蔽”幻觉之源
  • 北京/上海内推 | 阶跃星辰招聘RL for AIGC方向算法研究员/实习生
  • Sora 下载量破 100 万次;国庆中秋假期国内游总花费超过 8000 亿元;智驾多位核心高管离职,蔚来回应|极客早知道
  • 谷歌杀入诺奖神殿,两年三冠五得主!世界TOP3重现贝尔实验室神话
  • OpenAI×英伟达,可能创造了人类史上最大万亿级泡沫
  • H-1B正在筛掉「下一个英伟达」?
  • 全球AI视频大战升级!「中国版Sora」Vidu Q2参考生月底发布,能力对标Sora 2
  • 第二代InfLLM开源,同尺寸快三倍!零参数,可训练稀疏注意力
  • 稳住训练、跑出泛化:STAGE重写「自回归图像生成」的强化学习范式
  • 腾讯推出TRM:让大模型像人类一样批判性思考,从文本依赖到事实正确
  • 马毅团队重磅发布新书:从MCR²到白盒Transformer,重构深度学习的第一性原理
  • 北大等提出TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%
  • Diffusion²来袭:威斯康星大学&华盛顿大学等提出双扩散模型,“回溯历史-预测未来”,破解自动驾驶“鬼探头”难题
  • 把我的第一次日本旅行,完全交给 AI 是什么体验?
  • 英伟达将投资马斯克的 xAI;低价版Model 3/Y 「阉割」智驾功能;微信推出批量撤回信息功能
  • 刚刚,清华物理传奇Yao Shunyu,跳槽谷歌DeepMind!
  • 赚100亿,烧1万亿!OpenAI算力神话:英伟达撒钱、AMD送股、全硅谷陪跑
  • 英伟达垄断AI算力局面或将被颠覆!AMD赌上身家发起决斗,奥特曼窃喜
  • 刚刚,2025年诺贝尔化学奖揭晓!偷溜进图书馆的少年,改变了世界
  • 小心,AI依赖会让你变笨!吴恩达等专家教你如何正确使用AI
  • 无RLHF,7M小模型反超DeepSeek-R1:三星团队用递归思考取代规模堆叠
  • 告别深度传感器!慕尼黑工业大学提出DropD-SLAM:仅用单目RGB即可实现RGB-D级的SLAM精度
  • IROS 2025 | Waymo与谷歌DeepMind联手提出Drive&Gen:用生成视频评估自动驾驶,虚拟测试更逼真
  • 陶哲轩联手ChatGPT!10分钟击碎30年「无理」难题,数学圈炸裂
  • 刚刚,奥特曼官宣ChatGPT「终极OS入口」!8分钟速搭智能体,8亿人狂欢
  • 顿悟不是玄学!港科大清华等联手:撕开推理黑箱,RL让AI像人思考
  • 4万亿帝国接班人浮出水面!苹果不需要另一个库克
  • 刚刚,2025年诺贝尔物理学奖揭晓!量子计算成最大赢家
  • 告别梯度!Evolution Strategies全参微调挑战PPO/GRPO:更稳、更省、更好复现
  • NeurIPS 2025 | 北邮用“图+文”把人物检索拉满:自动合成数据 × 细粒度特征对齐
  • MICCAI 2025 | 莱斯大学提出MetaSeg:参数减少90%,元学习隐式网络重塑医学图像分割
  • TPAMI 2025 | 电子科大等提出EEMFlow:从事件相机学习高效Meshflow与光流,速度提升30倍
  • OpenAI 与 AMD 签百亿美元协议,后者股价暴涨;特斯拉廉价 Model Y 将于 7 日发布;知名旅行、听歌应用入住 ChatGPT
  • 乔纳森下一个iPhone神话,要黄了?OpenAI秘密AI硬件深陷三重困境
  • 3年手搓ChatGPT!剑桥天才少年在Minecraft游戏中爆火回归
  • 一举击败Claude Code!微软提出代码生成黑科技:一键直出36K行代码
  • 刚刚,2025年诺贝尔生理学或医学奖揭晓!三位得主点燃器官移植希望
  • OpenAI入股AMD,股价暴涨35%!奥特曼左手黄仁勋,右手苏姿丰,通吃全球算力
  • 自进化Agent的第三种可能:隐式记忆,不动模型参数,胜过GRPO
  • 真实数据、全链路、可复核:GenoMAS打造更可信的基因分析智能体
  • NeurIPS 2025 | 高通提出GCL:无需额外数据,通用多模态检索迎来“一统江湖”新范式
  • NeurIPS 2025 | 慕尼黑工业大学提出SIM(3)等变网络:让3D形状补全告别“姿态偏见”,实现跨域泛化
  • 今日迎本世纪「最晚中秋月圆」;雷军:小米17 五天销量破百万;ChatGPT 或添私信聊天功能
  • 腾讯王者归来:混元图像3.0登顶LMArena!一手实测全球最强图像AI
  • AI「学不会」竟成相变探针!UCSD华人联手谷歌等,曝光量子纠缠秘密
  • 最新,2025诺奖预测出炉!中国科学家有望拿下化学奖?
  • 奥特曼:感受不到GPT-5变强,是因为你还不够「专业」
  • GPT-6或将比GPT-5强10倍!奥特曼揭秘ChatGPT如何诞生
  • 宾大提出F³:事件相机迎来“预测性”表征新范式,光流、分割、深度全SOTA!
  • LSTM之父再出手!xLSTM挑战Transformer:一场关于Scaling Laws的正面交锋
  • NeurIPS 2025 | AI也能做数学建模?本科生携手MM-Agent勇夺美赛全球前2%
  • “移步换景”一试,大模型全乱了:OST-Bench揭示MLLM时空推理短板
  • 微软下架「炉石」等多款游戏;华为云:华为算力效能超英伟达芯片 3 倍;马斯克回应特斯拉机器人打拳:并非遥控

刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人



  新智元报道  

编辑:艾伦
【新智元导读】风雨飘摇中的Meta,于昨天发布了一篇重量级论文,提出了一种被称作「早期经验」(Early Experience)的全新范式,让AI智能体「无师自通」,为突破强化学习瓶颈提供了一种新思路。

一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发

Meta自从Alexandr Wang加入后混乱不堪,人心惶惶,Yann LeCun也公开表达出走意愿。

扩展阅读:

143亿美元买来一场空!小扎向谷歌OpenAI低头,史上最大AI赌注失速

LeCun考虑辞职!Meta AI百亿豪赌引爆「内战」,逼走首席科学家

但就在昨天,他们发了一篇大论文《Agent Learning via Early Experience》,提出了一种被称作「早期经验」(Early Experience)的全新范式,让AI智能体「无师自通」,为突破强化学习瓶颈提供了一种新思路。

https://arxiv.org/abs/2510.08558

论文作者绝大多数都是华人。默默做事的,永远是华人。

研究背景与问题

在现实场景中训练语言智能体常常面临一个两难困境:

强化学习需要明确的环境奖励信号,但许多真实环境缺乏可验证的奖励反馈,或者任务跨度很长导致信用分配(credit assignment)困难;

而模仿学习(通常采取监督微调)则依赖昂贵且有限的专家演示数据,模型在训练中无法与环境交互,因而难以从失败中学习,遇到新情况时泛化能力差。

要么没有奖励信号指导学习,要么只有少量人类示范可供模仿,智能体的自主成长因此受限。

目前大多数语言智能体采取监督微调的范式:在静态的专家轨迹数据上训练策略,将环境状态映射到人类给定的动作序列。

这种方法虽然训练方便,却存在明显局限:智能体训练时不与环境互动,看不到自己动作导致的结果,无法「知错就改」,也很难推广到训练数据覆盖不到的新情境。

此外,高质量专家示范数据获取成本高昂,难以大规模扩充。

另一方面,理想情况下我们希望让智能体像人一样通过自身经验不断成长,但是传统强化学习在缺少奖励的环境中难以奏效。

面对缺乏奖励信号且示范数据有限的困境,我们亟需新的训练范式来让智能体完成自主学习。

方法框架:早期经验范式

针对上述难题,该论文提出了一种折中的新范式,称为「早期经验」(Early Experience)。

这一范式定位于模仿学习和强化学习之间的中间地带:智能体在训练过程中不再仅依赖人类示范数据,还引入自身动作所产生的后续状态作为训练信号。

该范式是让智能体在没有外部奖励的情况下,通过尝试动作->观察结果->将结果转化为监督,来直接从自己行为的后果中获取经验教训。

这一过程无需环境提供奖励,利用的完全是智能体探索所产生的数据,可视作在人工演示(无奖励但数据有限)和强化学习(有奖励但探索困难)之间架起的一座桥梁。

论文具体探讨了在「早期经验」范式下的两种核心训练策略:

  • 隐式世界建模(Implicit World Modeling, IWM):该策略让智能体利用收集到的环境状态序列来建立内部的环境动态模型。

    做法是让智能体在一些决策点尝试由其策略自主提出的替代动作,然后记录执行这些动作后环境的状态变化,将这些「未来状态」作为额外训练信号。

    通过学习预测动作将带来怎样的状态转变,智能体逐渐内化环境的因果规律,提升对环境动态的理解和决策的稳健性。

    这种隐式建模有点类似于人类在脑海中模拟「如果我这么做,会发生什么」,从而让策略对行动后果有所预见。

  • 自我反思(Self-Reflection, SR):该策略旨在让智能体从自身不理想的决策中总结经验教训。

    智能体会将自己的动作与专家示范进行对比,识别哪些决策是次优的或错误的,并为此生成一段反思性的思维链说明,即一个自我分析的内在独白。

    这些由智能体生成的反思性解释将作为训练数据的一部分,指导模型在相似情境下做出更优选择。

    例如,在购物网站任务中,如果智能体原本选择了一个超出预算的商品,一个可能的自我反思是:

    「这个红色衬衫虽然符合颜色偏好,但价格超出预算,上述选择不合理,应该考虑价格更低的蓝衬衫。」

    这样,智能体通过反思约束条件,理解了自己决策的不足。

    在训练中,研究者将这些反思解说与正确动作一起加入训练,使模型学会根据上下文进行推理并修正决策。

    自我反思策略相当于给予智能体一个自我导师:让它自己说明哪里做错了,以及正确的思路是什么,从而内化细粒度的经验教训。

这两种策略都遵循同一原则:即使没有外部奖励,智能体「自我探索」所产生的动作-结果数据本身就能提供高质量的监督信号。

通过将自身行为引起的未来状态转换成学习信号,语言智能体无需额外的人类奖励标注也可以不断改进。

早期经验范式可以无缝集成到现有训练流程中:先用少量专家数据进行基本模仿学习初始化策略,然后让智能体展开受控的探索(产生「早期经验」数据),再用上述隐式世界建模和自我反思策略提取的监督信号对策略进行强化训练。

这一过程实现了从「人教模型」向「模型自学」的转变。

实验验证:八大环境的评估表现

作者在八个多样化环境中对早期经验范式进行了全面评估,涵盖实体导航、网页浏览、多轮工具使用、长序列规划以及多领域API调用等任务类型。

这些环境包括例如:文本版的室内导航和操作(如ALFWorld)、在线购物网页(WebShop)、科学实验模拟环境(ScienceWorld)、旅行规划对话任务(TravelPlanner)等等,既有需要在虚拟空间中行动的执行型任务,也有需要多步推理规划的认知型任务。

同时,模型基座涵盖了不同规模和架构的大语言模型(如不同参数规模的Llama系模型等),以测试方法对模型尺寸的适应性。

实验结果显示,引入「早期经验」后的智能体表现显著优于纯模仿学习基线。

在所有测试环境中,无论采用隐式世界建模还是自我反思,两种方法都取得了一致的提升:任务成功率平均提升了约9.6个百分点,迁移到域外新情境的泛化成功率提升约9.4个百分点。

这表明早期经验范式不仅提高了智能体在已知任务上的效率,还大幅增强了其应对未知场景的泛化能力。

例如,在要求满足多重约束的长链推理任务中(如旅行规划需要兼顾时间与预算),自我反思策略带来了超过10个百分点的成功率跃升,体现出对复杂推理任务的特别优势。

而在需要与环境反复交互尝试的任务中(如网页购物需要点击不同页面),隐式世界建模有效让智能体掌握了环境状态转移规律,也取得了两位数的成功率提升。

此外,作者还考察了该范式的数据效率和模型可扩展性:令人惊喜的是,即使将专家演示数据量减少一半,引入早期经验训练后模型仍能达到甚至超过使用全部专家数据时的性能。

这说明早期经验提供了额外且多样的训练信号,可以在一定程度上替代昂贵的人工示范数据,提高数据利用效率。

同时,将这一方法应用到更大规模的模型上,同样取得了稳定增益——早期经验范式在不同模型大小上效果保持一致,不存在随模型变大而效果递减的问题。

这表明该方法具有良好的横向与纵向可扩展性:既能拓展到更广的任务领域,又能适用于更强大的模型。

另一个关键实验是验证早期经验作为强化学习的预热(warm-start)是否能够进一步提升最终表现。

作者在其中3个具有明确奖励的环境中先用模仿学习、隐式世界建模、自我反思分别训练初始策略,然后再在相同条件下继续进行强化学习微调。

结果发现:以早期经验(隐式世界建模或自我反思)初始化的策略经过强化学习优化后达到了最高的最终成功率,相比直接用模仿学习初始化的策略最终成功率最高提升了约6.4个百分点。

这说明,早期经验阶段带来的性能增益可以持续到最终的强化学习训练成果中。

一些环境中,早期经验组与普通组的差距在强化学习过程中甚至进一步拉大(例如ALFWorld环境),证明早期经验为后续强化学习提供了更高的上限起点。

在有奖励和无奖励场景下,早期经验训练都展示出优异表现,架起了一座从模仿学习通向完全自主强化学习的实践之桥。

分析与亮点

通读论文后,我们认为该论文有一些显著的亮点。

无奖励下的高质量监督信号

早期经验范式的最大亮点在于即便没有环境奖励,也能为智能体提供有效的学习信号。

传统强化学习需要奖励来评价行为好坏,而早期经验通过「自身行为的后果」来指导策略改进。

智能体探索产生的未来状态本身就是监督——成功也好,失误也罢,这些经验片段都成为训练素材。

例如,隐式世界建模让模型直接预测环境响应,自我反思让模型检讨错误决策的原因,两者都为智能体提供了稠密而丰富的反馈(哪怕这种反馈不以数值奖励呈现)。

实验已经证明,这种没有显式奖励的监督信号依然可以将模型性能推向新的高度。

相比之下,单纯依赖专家示范的监督信号是静态且狭窄的,而早期经验信号来自智能体主动探索,覆盖了更广的状态-动作空间,这正是其泛化能力大幅提升的原因之一。

泛化能力与可扩展性

由于引入了智能体自己探索得到的大量多样化轨迹,模型不再局限于人类示范所涵盖的有限情景,从而在未知环境下表现更稳健。

作者的域外测试显示,早期经验训练的智能体在任务变种或新场景中的成功率远超仅有模仿学习的基线,证明了其跨域迁移能力。

此外,从可扩展性看,早期经验范式具有良好的数据与模型扩展效果:

它可以利用相同环境,让智能体反复生成海量的训练数据(因为不需要人工标注奖励),大幅降低了对人工数据的依赖;

同时无论模型参数规模增加还是减小,方法的收益都基本保持,展示出跨模型规模的一致性。

这一点非常关键,因为很多方法在小模型上有效但扩展到大模型时效果不明显,而早期经验方法在不同规模的模型上都取得了显著而稳定的提升。

早期经验不仅拓宽了智能体「见过」的世界,也为大模型时代的持续改进提供了一种数据可伸缩的方案。

对比其他方法(STaR、长链推理等)

早期经验范式与现有一些让模型自我提升的思路有所不同,提供了更具「现实检验」的学习信号。

例如,Zelikman等人提出的STaR(Self-Taught Reasoner,自学推理器)方法让模型为已有示范生成推理过程并自我过滤。

但这种方法面对复杂环境时遇到两个问题:

  • 模型产生的解说未经过环境验证,可能并不正确;

  • 为保证动作正确性常需要丢弃大量不匹配专家的解说数据,导致可用训练样本很少。

作者在文中复现了STaR风格的数据生成,发现模型为专家动作生成的推理链中,只有极少比例能匹配专家决策,筛选后几乎没剩下多少有用数据,而且这些推理因为从未真正与环境交互,往往是假想的、不可靠的。

相比之下,早期经验方法中智能体每一次生成的动作和反思都直接基于实际环境反馈:不论是隐式建模获取的状态转移,还是自我反思产生的教训,都源自真实行动的结果,因而信息含量更高、指导性更强。

针对需要长链推理的任务,简单地让模型生成更长的思考链(例如调优提示词或控制思考步数)只能带来有限的改善,而早期经验中的自我反思相当于让模型亲身实践再反思,其对于复杂推理任务的提升要显著得多。

在作者的实验中,自我反思策略在需要多步规划和约束满足的任务上取得了最大的增益(如旅行规划任务成功率提高十多个百分点),这也从侧面证明了相比静态的CoT方法,让模型「做过再想」效果更加突出。

方法适用范围

早期经验范式的一大优点在于其通用性。

论文结果表明,无论是具身环境(如机器人操作)还是数字环境(如网页、API交互),无论任务需要感知行动还是逻辑推理,该方法都能带来一致收益。

这说明将「自己探索」融入训练的思路具有很强的普适性,不局限于某一类任务。

同时,隐式世界建模和自我反思两种策略各有侧重又能相辅相成:

隐式世界建模更侧重环境动力学,适用于需要试错探索的场景;

自我反思侧重策略优化和约束满足,对多步骤推理任务帮助更大。

两者共享早期经验的框架,可以根据任务特点选择使用,从而灵活地提高智能体性能。

总结

《Agent Learning via Early Experience》提出了一种创新的语言智能体训练范式,成功弥合了模仿学习和强化学习之间的鸿沟。

主要贡献
  • 早期经验范式的提出:

    正式提出并定义了「早期经验」这一训练新范式,为在无外部奖励信号的条件下让智能体从自身经验中学习提供了可行方案。

    这一范式可被视为从依赖人类数据的模仿学习迈向完全自主强化学习的实用且可扩展的桥梁。

  • 两大训练策略(隐式世界建模和自我反思):

    设计并系统研究了在早期经验范式下的两种具体策略:

    一是通过隐式世界建模让智能体学会预测环境变化,从而增强决策的环境扎根性;

    二是通过自我反思促使智能体从自身行动中提炼细粒度教训,提升推理和决策能力。

    这两种策略证明了即使没有奖励,智能体也能将「探索-反馈」循环转化为有效学习信号。

  • 实验与效果:

    在八个多样环境和多种模型架构上进行了综合评测,结果显示早期经验方法在任务成功率、跨域泛化以及后续强化学习表现等方面均有显著提升。

    在若干基准上,该方法取得了SOTA,并通过消融和分析实验提供了有益的洞察。

    例如,早期经验模型以更少的数据达到甚至超过基线效果,且能提升最终的强化学习训练上限。

当前方法的局限与未来方向
  • 目前的隐式建模和自我反思主要着眼于短跨度的经验片段,对于那些超长序列规划任务中的信用分配问题,如果没有显式奖励仍然是一个挑战。

    未来的研究可以探索如何让早期经验范式也能处理更长链条的决策优化。

  • 结合自监督目标是一个有前景的方向——可以考虑引入丰富的自监督学习信号(如预测下一个子目标等),进一步提升无奖励环境下的训练效果。

  • 将早期经验与强化学习在持续学习框架下结合,也是作者设想的方向之一。

    例如,在有了环境奖励后,让模型接着用RL微调,或在训练过程中逐步引入奖励信号,检验两者的协同作用。

  • 还可以探索更多形式的早期经验(不限于论文提出的两种),比如不同的自我监督策略,乃至让智能体自己生成新的训练目标等。

  • 作者也提到希望将该范式拓展到更大规模的真实应用中,在真实线上环境中持续收集智能体的交互数据,进行有机的持续优化。

    这将是真正迈向「经验时代」的一步——让智能体在真实世界中边运行边成长。

Early Experience为训练更自主、更智能的语言代理打开了一扇新的大门。

在奖励稀缺甚至缺失的广阔应用场景下,它提供了一种高效利用自身经验的学习机制。

随着这一范式与强化学习、自监督等方法的融合,以及在长期规划任务上的突破,我们有理由期待下一代智能体将能够更充分地自我进化,朝着真正的通用智能体迈进。

显然,属于AI智能体的「早期经验」时代或许才刚刚开始。

目前的这些成果可能是几个月甚至更久之前就在进行的,而Meta的新时代能否保持住这种学术产出质量,仍有待观察。

参考资料:
https://arxiv.org/abs/2510.08558

<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652633647&amp;idx=1&amp;sn=4e16fedd2212ba3d4c2c9ec9232f1e4b&amp;chksm=f0f208101323ec6d2962d6b00944d73045937be58c9797c565a66f21eff17eea99c09a500038&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/33iNyO1ALs&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们