动态列表

  • 光场显微飞跃AI时代!清华等首提SeReNet:毫秒级高分辨光场三维重建
  • 苏妈联手OpenAI,AMD发布3nm怪兽MI355X,性能碾压英伟达B200!
  • 何恺明评审,谢赛宁获奖!牛津华人博士生拿下CVPR 2025最佳论文
  • 刚刚,CVPR 2025奖项出炉:牛津&Meta博士生王建元获最佳论文,谢赛宁摘年轻研究者奖
  • ICML 2025 | 千倍长度泛化!蚂蚁新注意力机制GCA实现16M长上下文精准理解
  • 字节跳动技术副总裁洪定坤:TRAE 想做 AI Development
  • 「倒计时3天」2025 WAIC云帆奖全球征集|共青年之智,铸AGI未来
  • 2025谷歌研究学者计划名单:吴佳俊、Mamba作者Albert Gu、Tri Dao等获奖
  • 一粒「扣子」,开启了Agent的全生命周期进化
  • 聊透 Agent,它是「同事」还是「工具」,创业机会和价值究竟是什么?
  • 零训练即可实现自我演化!首个基于科学智能体架构的AI疾病生物学家发布
  • 腾讯2026青云计划启动,百余项技术课题支持青年人才挑大梁
  • AI研究人员如何节约能源?通过反向计算
  • 提前15天预测50种可能情景,谷歌DeepMind凭借新模型彻底改变了台风预报
  • 腾讯打出「AI岗位薪酬不限」的底气来自哪?
  • 1200行代码逆袭!DeepSeek工程师开源轻量级vLLM,吞吐量逼近原版
  • 刚刚,Scale AI CEO Alexandr Wang正式官宣:Meta重金投资并挖走了我
  • 统一20+多智能体方法,MASLab震撼发布
  • 科大讯飞最新发布!打造下一代智能交互新范式
  • AGI真方向?谷歌证明:智能体在自研世界模型,世界模型is all You Need
  • CVPR 2025 Highlight|北大联手智元发布首个基于说明书的家电操作评测基准
  • 波音 787 在印度发生首次坠毁事故;哪吒汽车通知员工居家办公;阿里发布高考志愿大模型|极客早知道
  • DeepMind首个猜想库开源,获陶哲轩力挺!
  • 1万块GPU砸向欧洲!老黄怒怼AI末日论:全球首个工业AI云来了
  • 何恺明改进了谢赛宁的REPA:极大简化但性能依旧强悍
  • CVPR 2025 多模态大一统:斯坦福 x 复旦提出符号主义建模生成式任务
  • 精度达原子级,基于深度学习的动态蛋白质设计,登Science
  • 英伟达打造全球首个工业AI云,配万块GPU,物理AI机器人集群已启动
  • 字节自研AI IDE “TRAE”,月活用户已超百万
  • 从高考到实战,豆包大模型交卷了
  • 256块NPU训成8B视频模型、超越Sora等一众闭源!抖音内容技术团队开源ContentV
  • 拆解火山引擎后,我看到了字节跳动的「变奏」
  • ACL 2025 | 让大模型听懂育种的语言,科学家提出首个种子科学多任务评测基准SeedBench
  • SIGGRAPH 2025奖项出炉:上科大、厦大最佳论文
  • 2D图像作中介,零训练实现3D场景生成SOTA:英伟达&康奈尔提出文本驱动新流程
  • 刚刚,LeCun亲自出镜,Meta推出新世界模型!
  • 银河通用X清华大学发布业内首款开源人形机器人全身遥操系统OpenWBT,支持多机型、跨虚实,小时内可轻松部署
  • CVPR 2025 | 多模态统一学习新范式来了,数据、模型、代码全部开源
  • 马斯克道歉,特朗普回应;阿里离职员工发万字长文,马云回应;华为发布 Pura 80 系列,余承东称对得起那四个字
  • 这届机器人太会了!百事蓝宝出道,人形机器人也开始卷情绪价值了
  • 全球首个历史基准!普林复旦打造AI历史助手,AI破圈人文学科
  • 500 万下载、ARR 400 万美元,这只「外星 AI」为何让年轻人上头?
  • 开盘暴涨 3 倍,全球化的影石给中国硬件创新立了新榜样
  • 这家日本企业,有张能跑「百万行」的飞书多维表格!
  • AutoMat:让「看见原子」成为「理解材料」的科学直通车
  • 浙大开发的荧光纳米传感器,超96.67%的准确率识别植物信号
  • 1000 亿天价,扎克伯格买下「半个天才」和 Meta AI 的未来
  • 「Next-Token」范式改变!刚刚,强化学习预训练来了
  • Mistral的首个强推理模型:开源开源,推理速度快10倍
  • 103K「硬核」题,让大模型突破数学推理瓶颈
  • 10%训练数据超越100%表现,机器人学习领域迎来重要突破
  • 建议所有博士都去学一遍,赢麻了!
  • ACL 2025 | 多维阅卷,智识觉醒:打开多模态大模型看图写作评估的认知之门
  • 20 万一台的「人脑计算机」,可能是人类战胜 AI 的唯一方式?
  • 刚刚,OpenAI正式发布o3-pro!奥特曼激动更新博客:温和的奇点
  • 时空压缩!剑桥大学提出注意力机制MTLA:推理加速5倍,显存减至1/8
  • 高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺冠,豆包DeepSeek并列第二
  • iOS 26 丑上热搜;多家车企宣布将账期统一至 60 天内;OpenAI 推出最强推理模型 o3-pro | 极客早知道
  • Ilya回归,获授「第四学位」!AI将完成人类能做的一切,毕业演讲实录
  • OpenAI新模型,被曝秘密训练中!万字硬核长文直指o4核心秘密
  • 20人团队提前实现DeepSeek构想,AI算力变天?直击大模型算力成本痛点
  • PrefixGrouper:加速GRPO训练,即插即用,长上下文场景计算效率跃升!
  • 李飞飞团队新作:DiT不训练直接改架构,模型深度减半,质量还提高了
  • 扩散语言模型真的会比自回归好?理论分析结果可能恰恰相反
  • 一个md文件收获超400 star,这份综述分四大范式全面解析了3D场景生成
  • 淘宝获2025年度苹果设计大奖 国内互联网平台首个
  • 不懂编程也可使用,能生成协同自驱动实验室的简易操作界面,开源协调器IvoryOS
  • ICML 2025 | 抗体、多肽、小分子,一网打尽:UniMoMo基于隐空间扩散模型统一生成靶向药物分子
  • 端侧模型卷王诞生!MiniCPM4长文本推理提速5倍,0.5B模型屠榜同级
  • ICML 2025 | 不靠复杂架构,经典GNN再证图级任务强基线地位
  • 地铁换乘都搞不定?ReasonMap基准揭示多模态大模型细粒度视觉推理短板
  • 博士申请 | 纽约大学(上海)计算机系谭桥宇老师招收LLM/MLLM方向全奖博士生
  • 大模型是「躲在洞穴里」观察世界? 强化学习大佬「吹哨」提醒LLM致命缺点
  • 一块4090搞定实时视频生成!Adobe黑科技来了
  • 视频生成1.3B碾压14B、图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式
  • 增速超比亚迪后,新能源狂飙 135%,这家公司做对了什么?
  • 从「互掐」到「牵手」,小鹏华为只为这块「屏」?​
  • 刚刚,苹果WWDC掀AI风暴!端侧模型全面开放、AI版Siri却成最大「鸽子」王
  • 比自回归更灵活、比离散扩散更通用,首个纯Discrete Flow Matching多模态巨兽降临
  • 苹果 iOS26 正式发布;余承东晒华为 Pura 80 Pro 真机;泡泡玛特否认进军 AI 玩具
  • 史上最大AI投资?小扎百亿重金押注Scale AI!华裔最强打工皇帝赢麻了
  • 苹果炮轰AI推理遭打脸,GitHub大佬神怒怼!复杂任务≠推理能力
  • 数学圈地震!o3靠直觉刷爆人类顶尖难题,14位专家集体破防
  • 时隔十三年的全新 UI,以及更低调但随处可见的 AI| 苹果 WWDC2025 亮点汇总
  • 我谈不过AI,但AI能替我谈1000次恋爱
  • 深度剖析 Google AI 眼镜战略:「百镜大战」没来,但谷歌想用 Gemini「再次伟大」
  • 遥感数据任务统一!国内学者提出首个“时间-光谱-空间”维度统一的遥感密集预测模型TSSUN
  • 苹果 WWDC25 终极前瞻:打不过 AI,我还打不过「UI」吗?!
  • 开启端侧长文本时代!面壁全新架构,让小钢炮最快提升220倍
  • 无需SFT也不用RL,样本级推理优化神器SLOT来了,准确率轻松+10%
  • 打破黑盒,构建信任:具身智能基础模型安全落地的系统挑战
  • 中南大学开发DeepDTAGen:用于药物靶标亲和力预测和靶标感知药物生成的多任务深度学习框架
  • 训练仅8分钟,诊断仅需47毫秒,超轻量级肺癌诊断 AI 模型,无需GPU,个人笔记本可运行
  • ICML 2025 | 抛弃全量微调!北大提出VGP范式,语义低秩分解解锁ViG高效迁移
  • 推理能力飙升,指令遵循暴跌?MathIF基准揭示大模型“服从性漏洞”
  • CogMAEC@ACM MM 2025火热征稿中!探索多模态共情智能的认知密码
  • 华为昇腾万卡集群揭秘:如何驯服AI算力「巨兽」?
  • 质疑DeepSeek-R1、Claude Thinking根本不会推理!苹果争议论文翻车了?
  • CVPR 2025 Highlight|AdaCM2:首个面向超长视频理解的跨模态自适应记忆压缩框架
  • 最新!Ilya现身多大毕业演讲:AI会完成我们能做的一切
  • ICML Spotlight 2025丨追求概率质量的帕累托最优:基于广义α-β散度引导的知识蒸馏框架ABKD
  • DrugCLIP:AI驱动超高通量虚拟筛选引擎,开启后AlphaFold时代创新药物发现新篇章
  • 离开格力后,王自如首开直播回应;比亚迪回应「车圈恒大」风波;传 Meta 百亿美元投资 Scale AI
  • 算力终结者来了!华人天团「降维打击」注意力瓶颈,AI狂飙进对数时代
  • Hinton梦想的AI医生要来了!斯坦福哈佛实测:o1以78%正确率超人类
  • 乔布斯挚友去世!胰腺癌再夺硅谷天才,曾写下苹果「创世代码」
  • 美IT业裁员狂飙35%,「硅谷梦」彻底崩塌!打工人怒喷PIP
  • CVPR 2025 赞助商列表启示:主要来自中美,初创公司一言难尽!
  • 大模型强化学习新突破——SPO新范式助力大模型推理能力提升!
  • ICML 2025 | 全局池化+局部保留,CCA-Attention为LLM长文本建模带来突破性进展
  • 数学宇宙二维破壁成功!四人组230页证明阿贝尔曲面镜像通道,大一统要实现了?
  • 为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维
  • 告别「失忆」AI!首个大模型记忆操作系统开源框架来了!
  • 6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟惨败垫底
  • 硅谷的 AR 梦想,被华为实现了,但不是在眼镜上
  • 抖音整治高考「AI 押题」视频;小米 SU7 Ultra 登陆《GT 赛车 7》;全球首个,满级 QQ 收获「金企鹅」
  • 你永远叫不醒装睡的大模型!多轮对话全军覆没,性能暴跌39%
  • 全球30名顶尖数学家秘密集会围剿AI,当场破防!惊呼已接近数学天才
  • CS专业爆冷,失业率飙至全美第七!毕业生狂卷4年,投1000份简历换0 offer
  • SFT+RL双阶训练突破LLM自我监督!人大DeepCritic实现AI批判自主进化
  • 既ZeroSearch之后,通义最新力作MaskSearch提出推理搜索预训练新框架
  • 35%准确率蒸发!字节&华科WildDoc揭示多模态文档理解鲁棒性短板
  • 博士申请 | 香港教育大学徐贯东教授招收LLM Agent/多模态大模型方向博士/博后/RA
  • 全球圈粉6000万,被国内粉丝催着上线,PixVerse「国内版」一手实测来了!
  • 没想到,最Open的开源新模型,来自小红书
  • 扩散语言模型扛把子LLaDA迎来新版本,数学、代码、对齐能力均提升
  • ACL 2025 | 大语言模型正在偷改你的代码?
  • 小红书Hi Lab联合西安交大提出 DeepEyes,探索 O3「Thinking with Images」能力
  • 王自如解释投身 AI:确实来钱快;雷军:给1万车主免费培训智驾;身家缩水股价暴跌,马斯克向美总统低头|极客早知道

通义实验室最新成果WebDancer:开启自主智能Deep Research的新时代

图片

作者介绍: 本文作者来自通义实验室 RAG 团队,致力于面向下一代 RAG 技术进行基础研究。该团队 WebWalker 工作近期也被 ACL 2025 main conference 录用。

图片
  • 论文:https://arxiv.org/pdf/2505.22648

  • 代码:https://github.com/Alibaba-NLP/WebAgent

一、背景:信息检索的新需求与挑战

在当今信息爆炸的时代,解决复杂问题不再仅仅是简单的知识检索,而是需要深入的信息挖掘和多步推理。从医学研究到科技创新,从商业决策到学术探索,每一个领域都呼唤着能够自主思考、自主决策的智能体。Deep Research 等系统已经为我们展示了自主多步研究的巨大潜力,但构建这样的智能体并非易事。它们需要在复杂的网络环境中感知、决策、行动,还要面对任务复杂度高、泛化能力弱等诸多挑战。

但打造这样一个 Deep Research 类智能体智能体,并不简单!

  • 它得能看懂网页,能做多步决策;

  • 它得能适应开放动态环境;

  • 它得能自主提问、自主行动、自主修正……

在这种背景下,WebDancer 的出现,走出了一条复现 Deep Research 类智能体的可行路径。

自主信息检索智能体的构建,或者如何复现 Deep Research 类的模型一直面临着两大棘手难题:高质量训练数据的稀缺与开放环境训练的复杂性。这两大难题如同两座大山,阻挡了众多研究者和开发者前进的步伐。然而,WebDancer 的出现,就像一把锋利的宝剑,成功地劈开了这两座大山,为自主智能的发展开辟了一条全新的道路。

以下是一些运行的 case:

我们可以看到 WebDancer 可以完成多步的信息检索,包含多步思考和 action 执行,在运行过程中进行完成自主的任务拆解、知识回溯和反复验证。

二、训练数据难获得:WebDancer 的创新突破

(一)数据稀缺的困境

在自主信息检索领域,高质量的训练数据至关重要,OpenAI 的 Deep Research 积累了大量的 browsing data。然而,现实情况是,现有的问答数据集大多浅薄且单一,往往只能解决一两步的简单问题。这些数据集不仅数量有限,而且难以反映真实世界中的复杂信息需求。例如,GAIA 数据集仅有 466 个样本,WebWalkerQA 也只有 680 个样本,远远不足以支持有效的训练。此外,许多数据集只有测试集或验证集,缺乏足够的训练数据,这使得智能体的训练面临巨大的挑战。

(二)WebDancer 的数据合成策略

面对数据稀缺的困境,WebDancer 采取了创新的数据合成策略,成功地解决了这一难题。WebDancer 通过两种主要方式构建了高质量的深度信息检索问答数据集:CRAWLQA 和 E2HQA。

  • CRAWLQA:通过爬取网页信息,模拟人类浏览行为,从权威网站中提取有价值的知识,生成复杂的问答对。这种方法不仅能够获取大量数据,还能确保数据的多样性和真实性。

  • E2HQA:通过逐步增强简单问题的复杂度,从易到难构建问答对,激励智能体从弱到强逐步进化。这种方法不仅能够生成复杂的多步问题,还能确保问题的逻辑性和连贯性。

通过这两种方法,WebDancer 成功地构建了海量的样本,极大地丰富了训练数据。这些数据不仅数量庞大,而且质量上乘,为智能体的训练提供了坚实的基础。

(三)ReAct 大道至简,模型内化 agentic 能力

获得 QA 对之后,我们使用广泛使用的 ReAct 框架,用闭源的 GPT-4o 和开源的 QwQ 模型进行长短思维链蒸馏,获得高质量的 agentic 数据。

为什么使用 ReAct,是因为这种方式足够大道至简,满足我们对 Agentic Model 的需求,即只需要给其工具,就可以自主思考、执行、研究。

(四)数据过滤与质量提升

有了大量的数据,如何确保数据的质量呢?WebDancer 采用了多阶段的数据过滤策略,确保了数据的高质量。具体来说,WebDancer 通过以下三个阶段进行数据过滤:

  • 有效性控制 :直接丢弃不符合指令的数据。

  • 正确性验证 :只保留正确结果的数据。

  • 质量评估 :通过规则过滤掉重复或冗余的数据点,确保数据的多样性和逻辑性。

通过这些严格的过滤策略,WebDancer 确保了训练数据的高质量,为智能体的高效学习提供了保障。

图片

二、开放网络环境难训练:WebDancer 的高效解决方案

(一)开放环境训练的挑战

在开放环境中训练智能体是一项极具挑战性的任务。开放环境不仅动态变化,而且部分可观测,这使得智能体的训练变得极其复杂。例如,网络环境中的信息不断更新,智能体需要不断适应新的信息和新的任务需求。此外,开放环境中的任务往往需要多步推理和复杂的决策,这对智能体的泛化能力和适应能力提出了更高的要求。

(二)WebDancer 的两阶段训练策略

为了应对开放环境训练的挑战,WebDancer 采用了两阶段训练策略:监督微调(SFT)和强化学习(RL)。

监督微调(SFT):SFT 阶段是智能体的 “冷启动” 阶段。通过在高质量轨迹数据上进行微调,智能体能够快速适应任务需求,掌握如何在复杂的环境中进行推理和决策。SFT 阶段不仅提升了智能体的初始性能,还为后续的强化学习打下了坚实的基础。

强化学习(RL):RL 阶段是智能体性能的 “优化器”。通过与环境的交互,智能体不断试错,学习如何在复杂多变的环境中做出最优决策。WebDancer 采用了先进的 DAPO 算法,这种算法能够动态采样,充分利用未被充分利用的数据对,从而提高数据效率和策略的鲁棒性。

(三)高效的数据利用与动态采样

在开放环境中,数据的高效利用至关重要。WebDancer 通过动态采样机制,确保了数据的高效利用。具体来说,DAPO 算法能够动态调整采样策略,优先采样那些未被充分利用的数据对。这种方法不仅提高了数据的利用率,还增强了智能体的泛化能力。

(四)降低强化学习成本

强化学习阶段的高计算成本和时间开销一直是开放环境训练的一大难题。WebDancer 通过优化算法和硬件资源的高效利用,显著降低了强化学习的成本。具体来说,WebDancer 采用了高效的 rollout 机制和并行计算技术,将每次回滚的时间和成本降低到了最低。

图片

三、实验与结果:WebDancer 的卓越表现

WebDancer 的创新策略在 GAIA 和 WebWalkerQA 这两个极具挑战性的信息检索基准测试中得到了充分验证。

(一)GAIA 数据集

GAIA 数据集旨在评估通用人工智能助手在复杂信息检索任务上的表现。WebDancer 在 GAIA 数据集上的表现尤为突出,不仅在 Level 1、Level 2 和 Level 3 的任务中均取得了高分,还在平均分上遥遥领先。这表明 WebDancer 能够在不同难度的任务中保持稳定的高性能,展现了其强大的泛化能力。

(二)WebWalkerQA 数据集

WebWalkerQA 数据集专注于深度网络信息检索。WebDancer 在 WebWalkerQA 数据集上的表现同样出色,尤其是在中等难度和高难度任务中,其性能提升更为明显。这表明 WebDancer 不仅能够处理简单的问题,更能应对复杂的挑战,真正实现了从简单到复杂的跨越。

主实验结果

图片

我们分别用短思维链数据训练了 Qwen-2.5-7B 和 Qwen-2.5-32B 模型,长思维链数据训练了 QwQ 模型。实验结果显示,WebDancer 在这些基准测试中取得了显著的成绩,超越了 GPT-4o 等强大的基线模型。

在更具有挑战的信息检索任务上的性能

图片

WebDancer 还在 BrowseComp(En.)和 BrowseComp-zh(Zh.)这两个更具挑战性的基准测试中进行了评估。在这些测试中,WebDancer 同样展现出了强大的性能,进一步证明了其在处理复杂信息检索任务方面的鲁棒性和有效性。

实验分析

我们也做了细致的分析实验为后续研究者提供方向。

图片
  • 分析实验 1: RL 能对普通的 Instruction model 有显著的提升,并且能显著提高 Pass@1 的正确采样效率,使之接近 Pass@3,但对 QwQ 这类 Reasoning 模型提升不是很显著,只能提升采样的稳定性,这可能和整个 agentic 轨迹长有关。

    图片
  • 分析实验 2: Agentic 数据在于精而不在于多。我们最后仅适用 6k 条长思维链的数据在 QwQ 模型上就能在 GAIA 上获得很好的效果。

    图片
  • 分析实验 3: 长短思维链 pattern 在不同模型上不好轻易转化学习。虽然长思维链在 instruction model 和 reasoning model 都能得到很好的效果,但是会带来很高的非法率,通常是由重复导致的,在小一点的模型上该现象更明显。

四、未来展望:WebDancer 的新征程

尽管 WebDancer 已经取得了令人瞩目的成就,但它的发展之路还远未结束。未来,WebDancer 将在多个方向上继续探索和创新。

(一)更多工具的集成

目前,WebDancer 仅集成了两种基本的信息检索工具,未来计划引入更多复杂的工具,如浏览器建模和 Python 沙盒环境。这些工具将使智能体能够执行更复杂的任务,如网页浏览、数据抓取、API 调用等,从而拓展智能体的能力边界,使其能够应对更广泛的挑战。

(二)任务泛化与基准扩展

目前的实验主要集中在短答案信息检索任务上,未来 WebDancer 将扩展到开放域的长文本写作任务。这将对智能体的推理能力和生成能力提出更高的要求,需要设计更可靠和更有效的奖励信号。同时,WebDancer 也将参与更多基准测试,以验证其在不同任务类型和领域中的泛化能力。

五、讨论:Post-train Agentic Models

相比于一些驱动于强大的具有很强的 agentic 能力的闭源模型,例如 gpt-o4,claude 的 promtpting 工程框架,本研究的侧重点在从头训练一个具有强大 agent 能力的模型,这对于实现 agent model 的开源以及推进我们对 agent 在开放系统中如何产生和 scale 的基本理解至关重要。我们使用的的原生 ReAct 框架秉持着简洁性,体现了大道至简的原则。

Agentic models 是指那些在交互式环境中,天生支持推理、决策以及多步骤工具使用的 foundation models。这些模型仅通过任务描述的提示,就能展现出诸如规划、自我反思以及行动执行等突发性能力(emergent capabilities)。

近期的 DeepSearch 和 Deep Research 等系统,展示了强大的底层模型如何作为智能体的核心,通过其对工具调用和迭代推理的天然支持,实现自主的网络交互。然而,由于网络环境本质上是动态的且部分可观察的,强化学习在提升智能体的适应性和鲁棒性方面发挥了关键作用。在本研究中,我们的目标是通过有针对性的后训练(post-training),在开源模型中激发自主智能体的能力。

六、结语:WebDancer,开启自主智能的新时代

WebDancer 的出现,不仅是信息检索领域的一个重大突破,更是自主智能发展的一个重要里程碑。它通过系统化的训练范式,从数据构建到算法设计,为构建长期信息检索智能体,开源模型复现 Deep Research 提供了清晰的指导。WebDancer 的成功,让我们看到了自主智能体在未来科学研究、教育和生产力提升中的巨大潜力。

]]>

联系我们