动态列表

  • GPT-5攻入数学圈,证明定理快过博士生?网友热议AI新角色
  • ChatGPT负责人深度复盘,爆4o复活内幕!过快下线是失误,将迭代模型人格
  • 全球首个AI基因组诞生,35亿年生命代码重编程!生物学迎「ChatGPT时刻」
  • 芯片大地震,黄仁勋355亿入股!英特尔要为老黄造CPU,股价狂飙30%
  • 科大讯飞发布面向东盟的多语言大模型及系列产品,布局中国—东盟AI生态大未来
  • Nature | 20年后你会患上哪些疾病?AI准确预测超1000种疾病患病风险,助力预防
  • 我们还是低估了英伟达
  • 谁在拖慢你的RL?别怪显卡,错的可能是你的PG-loss
  • ICCV 2025 | Gap即力量!挖掘模态间隔潜力,MG-CLIP实现持续学习SOTA
  • 少样本不够看?给LLM装上“学习引擎”,上下文学习迈入千样本时代
  • 北京内推 | 字节跳动国际电商团队招聘大模型方向算法实习生
  • OneSearch,揭开快手电商搜索「一步到位」的秘技
  • 17.38 万的大六座 SUV,吉利用银河 M9 敲碎了友商的心
  • 刚刚,OpenAI在ICPC 2025编程赛上满分登顶,Gemini也达到金牌水平
  • 从一个公众号智能体说起:好用的Agent,究竟需要什么?
  • B站出海的强有力支柱:最新开源文本转语音模型IndexTTS-2.0标志零样本TTS进入双维度时代
  • 腾讯企点营销云发布Magic Agent,营销工具全面AI化
  • 带屏 AI 眼镜登场!Meta「眼镜全家桶」炸街了
  • 通义DeepResearch震撼发布!性能比肩OpenAI,模型、框架、方案完全开源
  • 让机器人「不只是走路」,Nav-R1引领带推理的导航新时代
  • 刚刚,DeepSeek-R1论文登上Nature封面,通讯作者梁文锋
  • 腾讯 AI 的新叙事
  • 传小米 YU7 新车型曝光纽北;李飞飞放出 3D AI 新成果; 49.2%,火山引擎大模型调用份额占半壁江山
  • 小扎豪掷143亿,却换不来AI燃料!数据之争下半场,中国冲出一匹黑马
  • 终结数据荒!智源开源首个Deep Research数据合成框架InfoSeek
  • 我用一张照片,生成了一个能走进去的世界
  • 奥特曼爆料:GPT-5重构彻底一切!一人顶五个团队
  • 最新实测GPT-5-Codex:前端能力碾压,复杂项目轻松搞定,Claude可以扔了!
  • TPAMI 2025 | 弱监督与自监督引领自动驾驶运动预测新范式,用场景分割“脑补”运动,仅需0.01%标注,性能媲美监督方法
  • 南开大学等提出RAM++:从关注“降质”到关注“内容”,实现鲁棒的全能图像恢复
  • 不改参数不重训!CARVE一招纠偏,对比注意力让视觉模型精准聚焦
  • ICML 2025 | AI福尔摩斯来了!LLaVA-ReID多轮发问,行人重识别一步步锁定
  • 博士申请 | 新加坡国立大学CoSTA Lab招收人工智能全奖博士/RA/实习生
  • 清华新作颠覆CoT!ParaThinker并行思考,终结单链推理天花板
  • 没想到,音频大模型开源最彻底的,居然是小红书
  • 6.1B打平40B Dense模型,蚂蚁开源最新MoE模型Ling-flash-2.0
  • 「AI助手」真来了?谷歌牵头推进Agent支付协议AP2
  • 腾讯AI Lab首创RL框架Parallel-R1,教大模型学会「并行思维」
  • 阿里开源通义DeepResearch,性能超OpenAI、DeepSeek旗舰模型
  • 华为发布4+10+N中小企业智能化方案,打通迈向智能世界「最后一公里」
  • LLM开源2.0大洗牌:60个出局,39个上桌,AI Coding疯魔,TensorFlow已死
  • Cell丨谷歌AI co-scientist联合帝国理工揭开谜团:提出并验证细菌基因转移机制假说
  • 华为首款旅行车 1 小时订单破 5000,余承东再次「封神」?
  • 腾讯、复旦、上海创智学院提出SwiftVideo:首个Continuous-time视频蒸馏加速框架,实现业界最快最高清视频生成
  • 刚刚,李飞飞空间智能新成果震撼问世!3D世界生成进入「无限探索」时代
  • 突破单链思考上限,清华团队提出原生「并行思考」scale范式
  • 刘强东喊话王兴:尊重兴哥,不应是仇人;美机器人公司估值暴涨至390亿美元;iOS 微信支持聊天发实况图|极客早知道
  • 7亿人每周狂发180亿条消息!OpenAI首次揭秘ChatGPT最火用途
  • LLM会梦到AI智能体吗?不,是睡着了也要加班
  • 一周休4天!老黄、盖茨站台,网友炸锅:是AI福利,还是裁员信号?
  • AI精神病爆发!沉迷ChatGPT把人「宠」出病,KCL心理学家实锤
  • 谷歌DeepMind「粪坑淘金」全新方法,暗网毒数据也能训出善良模型
  • 北京内推 | 微软Copilot算法团队招聘大模型推理方向研究型实习生
  • EMNLP 2025 | 跨风格不误判!MoSEs用职业写作风格建模,检测AI文本更稳更准
  • 一招打破瓶颈!HyperTree超树规划:AI掌握层级化推理,复杂任务全面突破
  • 高阶程序,让AI从技术可行到商业可信的最后一公里
  • 网络顶会获奖!华为提出端网协同RDMA传输架构,解决大规模AI集群网络可扩展性问题
  • 具身智能能力狂飙,安全却严重滞后?首个安全可信EAI框架与路线图出炉!
  • 在端侧 AI 时代正式到来之前,联想想先做好硬件「杀手锏」
  • 火山引擎发布PromptPilot,推动大模型应用高效落地
  • 在「外滩大会·具身智能:从泛化到行动,重塑产业未来」上,这些大牛都说了什么?
  • 国内首个!夸克公开覆盖全阶段医师考试的健康大模型测试集
  • 蚂蚁百灵开源轻量级MoE语言模型Ling-mini-2.0,1.4B激活性能比肩大规模模型
  • 浙大侯廷军团队联合IIT等发布系统综述:全景解析机器学习加持下的「增强采样」方法
  • BMVC 2025 | 无需源数据,Grad-CL如何利用梯度引导实现精准的眼底图像分割?
  • 斯坦福大学提出PSI:一种通过概率结构集成,从数据中学习可控、可灵活提示的世界模型的新系统
  • 谁说Scaling Law到头了?新研究:每一步的微小提升会带来指数级增长
  • 从少样本到千样本!MachineLearningLM给大模型上下文学习装上「机器学习引擎」
  • 最新披露,骑手收入真实情况揭晓
  • 刚刚,OpenAI发布GPT-5-Codex:可独立工作超7小时,还能审查、重构大型项目
  • 多模态BUG修复新SOTA:慕尼黑工大GUIRepair登上SWE-bench Multimodal榜单第一
  • 15年大佬深夜痛哭半小时!氛围编程巨坑曝光,95%程序员沦为「AI保姆」
  • 面试不是考试,是表演!新晋OpenAI员工:重磅揭秘顶级AI岗通关密码
  • GPT-5惨遭零分打脸,顶级AI全军覆没!奥特曼AI博士级能力神话破灭
  • 反转!LeCun刚转发「全球最快开源推理模型」,ETH苏黎世就直接打假
  • 新世界首富:斥巨资求永生,TikTok收购案最可能买家,得OpenAI千亿订单
  • 北京/杭州/西雅图内推 | 阿里通义实验室LLM Research团队招聘大模型研究科学家
  • 从Muon到AdaMuon:下一代优化器能否真正取代Adam?
  • EMNLP 2025 | LLM也会“装成人”?对比重写CoPA挑战AI文本检测可信度
  • 博士申请 | 南京大学范琦老师课题组招收26级/27级视频生成/世界模型方向博士生
  • 法天使与零一万物发布法务智能体平台,让AI成为法务部的超级员工
  • 从「对口型」到「会表演」,刚进化的可灵AI数字人,技术公开了
  • 数字生活的原生入口:蚂蚁集团发布AI眼镜全新技术框架gPass
  • OpenVision 2:大道至简的生成式预训练视觉编码器
  • 旗舰手机、AI 拍摄眼镜、Flyme ,魅族 22 「归航」终极生态
  • DeepMind与牛津大学提出LayerLock:用渐进式层冻结实现高效、无崩溃的自监督视觉表征学习
  • 超越GPT-4o,蚂蚁集团与南洋理工大学提出LaV-CoT:首个语言感知的视觉思维链
  • 为什么说现在所有的 AI Agent,都像 3D 打印机?|AI 上新
  • 召回率达99%,牛津大学等开发AI工具助天文学家快准识别超新星,从亿万星海中秒抓宇宙烟火
  • 用光学生成图像,几乎0耗电,浙大校友一作研究登Nature
  • 告别ROS的繁琐, 易用易学的机器人学习系统: 华为诺亚面向机器人学习的开源Python框架
  • 现货来了!火出圈!钉钉首款AI硬件DingTalk A1正式开售
  • 苹果 iOS 26 今日发布,8 大更新;华为小米宇树入选 MIT「聪明公司 50」;中国核电催更《流浪地球 3》
  • 2027万亿视频市场将爆发!AI十年如何重塑内容产业?|新智元十周年峰会
  • GPT-5是口袋博士?诺奖得主哈萨比斯怒怼奥特曼:博士级AI纯属扯淡!
  • 微软用「光」跑AI登上Nature!100倍能效颠覆GPU,华人首席研究员扛鼎
  • 缺钱但不缺洞见:刚刚,陶哲轩揭秘AI如何吞噬数学项目的灵魂!
  • 马斯克深夜挥刀,Grok幕后员工1/3失业!谷歌AI靠人肉堆起,血汗工厂曝光
  • 全景呈现大模型开源技术路线和生态,蚂蚁开源在2025外滩大会发布全新报告
  • 抢先实测美团首个AI Agent,让我体验一把「懒人点餐」的快乐
  • 将KV Cache预算降至1.5%!他们用进化算法把大模型内存占用砍下来了
  • LLaSO 横空出世:逻辑智能推出全球首个完全开源语音大模型框架,定义 LSLM 研究新基准
  • 为这一个Tab键,我愿意单独付费:Cursor用在线强化学习优化代码建议,护城河有了?
  • 小红书智创音频技术团队:SOTA对话生成模型FireRedTTS-2来了,轻松做出AI播客!
  • 大模型碰到真难题了,测了500道,o3 Pro仅通过15%
  • 耗资15000个A100 GPU日!港中文、阿里等发布600万规模T2I推理数据集与基准
  • INFFUS 25 | FS-Diff:一步到位,用扩散模型同时实现多模态图像融合与超分辨率
  • 神经细胞自动机实现目标导向的形态生成,AI在「生命游戏」里玩出反向规则
  • iPhone 17 全系上线拼多多,5099 起;「罗西大战」后续,传「预制菜国标」过审;小米蔚来小鹏抵制「车圈黑公关」
  • 突发!苹果AI大失血:Siri前掌门离职,核心团队被挖角,新功能延期到2026
  • 对Transformer说不!清华刘嘉:2045数字永生降临|新智元十年峰会
  • 急诊室生死逆转!酒后呕吐,GPT-5一眼锁定食管穿孔
  • 周周996,顿顿预制餐!美国AI界00后卷疯了: 住「棺材房」一周工作92小时
  • 学历越高,越怕熬夜!2.3万人10年研究实锤:睡得越晚,智力下降越快
  • Arm拥抱AI:五倍性能,三倍能效
  • Meta开源MobileLLM-R1模型,不到1B参数,用1/10的训练就超越了Qwen3
  • 清华、上海AI Lab等顶级团队发布推理模型RL超全综述,探索通往超级智能之路
  • 快手可灵团队提出MIDAS:压缩比64倍、延迟低于500ms,多模态互动数字人框架实现交互生成新突破
  • 成本不足60美元!开源U-ARM:让机器人模仿学习更亲民的通用遥操作界面
  • 让机器人“大脑”更轻更快:SQAP-VLA首次实现VLA模型量化与剪枝协同加速
  • 数据与AI双引擎驱动智能未来,2025外滩大会论数据进化之道
  • iPhone 17 Air 在华发售延期;罗永浩直播回应西贝;《流浪地球》第三部剧本完稿,共计十五万字|极客早知道
  • 刚刚,谷歌发布71页AI科研报告!6大领域全面超越专家,几小时顶几个月
  • 一夜刷屏!27岁姚顺雨离职OpenAI,清华姚班天才转型做产品经理?
  • 王小川押注下个十年:为人类造医生,为生命建模型|新智元十周年峰会
  • 一刀砍掉90%训练成本!Qwen3-Next用1/10算力练成「长文推理利器」
  • AI意识「觉醒」!图灵得主Bengio重磅发声:AI正接近人类意识临界点
  • 扩散语言模型也有MoE版本了!蚂蚁&人大从头训练LLaDA-MoE,即将完全开源
  • 如何为LLM智能体编写工具?Anthropic官方教程来了
  • 腾讯优图重磅开源Youtu-GraphRAG,实现图检索增强技术新突破
  • 「做笔记」的RAG来了!告别噪声与骨牌效应,EviNote-RAG稳住长链推理
  • KDD 2025最佳论文亚军:参数不同还能共训?异构知识迁移框架HtFLlib全面开源
  • Adam的Update RMS为何总是0.2?噪声模拟到理论近似全讲透
  • 北京/上海内推 | 小红书智能审核算法团队招聘NLP/多模态内容理解算法工程师/实习生
  • 我苦寻的「库乐队」,叫 MiniMax Music 1.5
  • Science Advances | AI for Earth:聆听海洋的「脉搏」,新一代AI大模型精准预测十年气候脉动
  • 外滩大会嘉宾锐评AGI即将“撞墙”,正在向数字与物理世界进化
  • 港科大 X MiniMax:高质量数据、小模型挑战复杂网络搜索难题
  • 为了网罗 AI 创新者,上海搞了场万人科创大赛
  • 蚂蚁集团数字蚂力首批专家级“AI数字员工团队”亮相外滩大会
  • “IIFAA数字卡包”上线支付宝:目前已支持多类身份申领
  • 蚂蚁集团加码AGI等青年人才培育,2025蚂蚁InTech奖在外滩大会揭晓
  • 重塑药物研发,哈佛医学院等开源全新AI模型,用「图神经网络」破解疾病驱动因素多元难题
  • 全球最懂智能体的创业者齐聚外滩大会,未来三年怎么做聊透了
  • 马上上岛|云栖大会「新世代 AI 创想岛」即将揭幕
  • ICRA 2025 | TANGO:机器人告别3D地图,仅靠RGB摄像头实现零样本长距离导航
  • 挑战主流认知!蚂蚁、人大在2025外滩大会发布行业首个原生MoE扩散语言模型
  • 姚顺雨离职OpenAI,「亿元入职腾讯」传闻引爆AI圈,鹅厂辟谣了
  • 全新MoE架构!阿里开源Qwen3-Next,训练成本直降9成
  • 告别错误累计与噪声干扰,EviNote-RAG 开启 RAG 新范式
  • 西贝贾国龙称一定起诉罗永浩;支付宝推出「AI 付」服务;iPhone 17 京东、天猫预订量比上代大增|极客早知道

阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定



  新智元报道  

编辑:桃子 好困
【新智元导读】阿里昨晚放大招,正式开源通义DeepResearch,一举登顶碾压OpenAI、DeepSeek。模型、框架、方案全部开源,背后核心技术报告一同公开了。


阿里又双叒叕上大分了!

就在昨天,阿里旗下首个深度研究Agent模型——通义DeepResearch正式开源。

在多项权威基准上,通义DeepResearch狂飙SOTA,仅依靠30B参数(激活3B)就能大杀四方!

在号称人类最后的考试榜单HLE(Humanity's Last Exam)中,通义DeepResearch更是拿下了32.9%的最高分,超越DeepSeek-V3.1(29.8%)和OpenAI DeepResearch(26.6%),霸榜全球第一!

在OpenAI提出的超高难度BrowseComp榜单上,通义DeepResearch以43.4%的准确率领跑开源榜单。

值得一提的是,模型、框架、方案全面开源,开发者即可在Hugging Face、GitHub下载。

目前,GitHub项目已狂揽7.2k星。

项目地址:https://github.com/Alibaba-NLP/DeepResearch 


Hugging Face模型地址:https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B 


ModelScope模型地址: https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B 


技术博客: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/


这波充满了诚意的开源操作和出色性能,直接点燃了AI圈!

不仅引来广大网友们纷纷致谢,甚至Hugging Face联合创始人兼CEO Clem Delangue和斯坦福NLP实验室等科技大V在第一时间进行转发关注。


不止于问答:AI的「研究员」时代


我们已经习惯了AI的有问必答,但如果问题本身就无比复杂呢?

AI Deep Research 给出了答案。它彻底告别了「一问一答」的模式,进化为一位真正的「研究员」。面对一个棘手的问题,它会自主规划一条完整的研究路径,像人类专家一样工作:

深度搜寻—多源交叉—结构化归纳—报告生成


你得到的,将是一份真正能解决问题的方案:论据有源可溯,过程清晰可复现,结论掷地有声。

通义DeepResearch既可以是你的资深研究员,也能是你的高效私人助手,其首要任务便是将宏大问题精巧地拆解为一系列逻辑清晰的子任务。

随后,它为每个环节自主调用代码分析论文检索网页访问等工具,以层层递进、自主循环的方式完成整个研究链路。

说多无用,不如看一些直观的演示。

假设你正在考虑出售房子,想要了解所在地区最近楼盘的销售情况,直接找通义DeepResearch——

我住在夏威夷的珍珠城,位于瓦胡岛上。 


我知道附近有两处房产于2022年售出,分别是Akaikai Loop 2072号和Komo Mai Drive 2017号。


请找出这两处房产中2022年售价更高的那套,并告诉我其成交金额。


通义DeepResearch分了四步思考:

想要完成任务,第一步就是拆解指令,然后「联网」抓取数据,查询2022年房产销售记录,并提取相应的销售价格。

搜索之后,并非一下得出结果,而是在多个来源中,反复核查确认。

在生活规划和日常决策过程中,通义DeepResearch主要调用「联网搜索」工具,准确完成了任务。

过程

(上下滑动查看)

回答

(上下滑动查看)

再来看一个比较专的领域——法律,通义DeepResearch的表现又如何?

举个栗子,生活中的法律纠纷经常见,自己又不懂法,想要解决难题扔给AI就好了。

假设一个人恰好遇到了「原告要求退还出资,但自己又欠了一屁股债,还有很多债权人」的难题,那么原告是否违反资本维持原则?

在行动之前,通义DeepResearch大脑已经有了完整的构思,从问题拆解到工具使用。

接下来,就会看到通义用上了各种工具,获取法条、案例,并查找学术观点,最终收集所有可靠信息。

可以看到,通义执行任务的整个过程非常缜密,方便后期回溯。

过程

(上下滑动查看)

回答

(上下滑动查看)

再比如,有一个博士级跨学科的难题,自己拿不准,可以请教通义。

考虑这样一个「星座」的数学模型:在一小片天区内,每颗亮于某一特定星等的恒星,都与其最近的邻居(按二维欧几里得距离计算)连接一条边。


假设恒星在天空中均匀分布,那么平均每个星座(即连通子图)包含多少颗恒星?


此处,思考过程省略亿字......

但从通义的表现中,看得出每一步的计算和思考,都是建立在深度搜索、查询,反复验证的过程之上。

除了常用的搜索、浏览工具,它还借用「Python解释器」、「谷歌学术」等工具帮自己理解,最后给出详细的报告。

那么,通义DeepResearch团队是如何炼成「超级研究大脑」?深入技术细节,让我们一一拆解。


从零开始的数据炼金术

高质量数据,是大模型的核心,也仍然是智能体的生命之源。

通义DeepResearch团队在反复试错和探索下,构建出一套完备的「智能体合成数据」体系,贯穿预训练与后训练的完整训练链路。

这个策略的终极目标,是摆脱对昂贵且稀缺的人工标注数据的依赖,用「机器生产」的方式,源源不断地创造出比人类标注质量更高、规模更庞大的训练「教材」。

第一步:智能体增量预训练数据合成


在预训练过程中,传统模型更像是一次性填鸭式教学,仍然是「记住知识」。

团队首次引入了「Agentic CPT」(增量预训练) 的概念,教会模型「使用知识」,并且构造了一个能够持续进化和扩展的智能体预训练数据合成方法AgentFounder。

  • 构建开放世界记忆

团队首先将海量知识文档、网页爬虫数据、知识图谱,以及模型后训练产生的思考轨迹和工具使用记录,全部汇集起来,构建了一个庞大的、以实体为核心的「开放世界知识记忆库」。

接着,从这个记忆库中抽取知识点,模拟真实世界中千奇百怪的场景,自动生成无数「问题-答案」对。

  • 动作合成

更近一步,他们构建了三种类型的「动作数据」,具体包含规划、推理和决策动作。

这种方法让模型在离线状态下,就能探索海量的推理路径,而无需昂贵的在线API调用,大大提升了训练效率和深度。

尤其是,对于「决策动作」合成,会将轨迹重构为多步骤决策过程,充分探索有效的问题解决路径,让模型决策能力大幅提升。

第二步:全自动高质量数据合成


基础打好后,如何让模型「百尺竿头,更进一步」?

在后训练阶段,团队又开发了一套全自动的合成数据生成方案,直接产出比人工标注质量还高的数据集。

从最早的WebWalker,到后来更系统的WebSailor,WebShaper,最后的WebSailor V2这一方案不断迭代。

每一步,都Scaling了数据的质量和规模。

为了生成复杂的问答对数据,他们开创了一个全新流程:

  • 确保数据真实

从真实网站数据中提取信息,用上随机游走构建知识图谱、表格数据融合等方式,保证了问题的「原汁原味」。

  • 人为制造「迷雾」

接着,策略性地隐藏或模糊问题中的关键信息,或以其他方式增加问题的不确定性,来提升问题的难度。

团队甚至将回答难度,建模为一系列可控的「原子操作」,由此一来,可以精准控制问题的复杂度。

  • 杜绝「抄近道」

为了防止模型「偷懒」找捷径,团队还基于集合论把信息搜索问题形式化建模。

这不仅能生成更高质量的问题,还解决了合成数据难以验证答案正确性的行业难题。

  • 打造「博士级」难题

此外,还开发了一个专用于生成跨科学知识、多步推理的「博士级」研究难题的自动化数据流程。

它让一个配备网络搜索、学术检索等工具的Agent,在一个循环中不断深化和扩展问题,像滚雪球一样让任务难度可控升级。


两种推理模式,征服长任务

拥有了顶级的「教材」,还需要高效的学习和思考方式。

通义DeepResearch模型同时支持两种推理模式:一个是原生的ReAct Mode,另一个是基于上下文管理的Heavy Mode。

经典模式:ReAct Mode


在标准任务中,模型采用经典的ReAct(思考-行动-观察)模式,性能超乎想象。

它就像一个直觉敏锐的行动派,凭借128K的超长上下文,可以进行多轮次的快速交互,高效解决问题。

这种通用、可拓展的推理模式,尽管简单,但其是原生模型Agentic能力的直接体现。

深度模式:Heavy Mode


放眼全世界,谷歌、OpenAI、xAI等大厂都在「深度研究」上展开布局,紧追当前Agent热点。

但是,他们大都采用了「单窗口、线性累加」信息处理模式,弊端就是信息一多,「AI大脑」就不够用了。

因为,所有中间思路和检索到的信息,都堆积在了单一的上下文中。

在处理长程任务中,这种模式下的Agent就会面临「认知空间窒息」和「不可逆的噪声污染」挑战。

最终,AI推理能力下降,难以完成长程、复杂的研究任务。

当面对极端复杂、需要长远规划的研究任务时,「深度模式」(Heavy Mode)便会启动。

具体来说,模型会将一个庞大任务分解为一系列「研究轮次」:

  • 在每一轮开始,Agent仅从上一轮的信息中提取最精华的结论,构建一个全新的、精简的工作空间。

  • 在这个专注的工作空间里,Agent分析问题,将关键发现整合进一个不断演变的核心报告中。

  • 最后,它决定下一步是继续收集信息,还是给出最终答案。

这种「综合-重构」的迭代过程,让Agent在执行超长期任务时,始终能保持清晰的「认知焦点」和高质量的推理能力。

更进一步,团队还提出了Research-Synthesis框架:

让多个IterResearch Agent并行研究同一问题,最后将其报告和结论整合,从而获得更全面、更准确的答案。

这一模式下,通义30B-A3B模型在HLE、BrowseComp、BrowseComp-ZH基准上,性能再破纪录。


AI智能体自我进化
端到端训练技术革新

如果说数据和推理模式是「招式」,那么训练流程就是「心法」。

团队打通了「Agentic CPT→ SFT→ Agentic RL」端到端全链路,首次提出了两阶段的智能体增量预训练,引领了智能体训练的新范式。

此外,其基于ReAct框架的强化学习环节,最能体现其深厚的系统工程能力。

团队坦言,通过强化学习构建高质量Agent,是一项复杂的系统工程挑战。

如果将开发过程视为一个「强化学习」循环,其组件中任何不稳定,或是鲁棒性不足之处,都可能导致错误的「奖励」信号。

那么,在强化学习过程中,团队如何在算法和基础设施上取得突破?

  • 算法是核心

针对算法,基于GRPO定制优化,严格遵循on-policy训练范式,确保信号匹配模型能力。

与此同时,采取一个token级策略梯度损失函数,以优化训练目标。结合留一法 (leave-one-out) 策略,降低优势估计方差。

为了避免「格式崩溃」现象,团队还进行多种策略的负样本筛选,比如排除过长未能生成答案的样本。

此外,通过增大批次(batch size)和组规模(group size),维持较小方差,提供充足监督信号。

如上图动态指标显示,奖励持续震荡上升。同时,策略熵(policy entropy)保持较高水平,说明模型在持续探索进化,避免了过早收敛。

这得益于Web环境的非平稳性,形成了鲁棒自适应策略,无需额外正则化。

算法稳定搞定了,就一切万事大吉了吗?显然不是。

  • 基础设施更关键

团队分享了一个至关重要的洞见:

算法固然重要,但并非成功的唯一决定因素。数据质量和训练环境的稳定性,可能是决定强化学习项目成败的更关键一环。


一个极具说服力的现象是,团队曾尝试直接在人工标注的BrowseComp测试集上训练模型来验证算法,结果其表现远不如使用自研合成数据训练的效果。

由此,他们推测,这是因为合成数据提供了一致性更高的潜在分布,使模型能进行更有效的学习和拟合。

相较之下,规模有限、含有更多噪声的人工数据,反而让模型难以提炼和泛化。

为了实现稳定、高效的强化学习,他们构建了一套全栈式的基础设施「护城河」:

  • 仿真训练环境:利用离线维基百科和自定义工具套件,创建了一个经济高效、快速可控的模拟训练平台,摆脱了对昂贵且不稳定的实时Web API的依赖。

  • 工具沙盒:通过缓存结果、失败重试、饱和式响应等机制,为智能体提供了快速鲁棒的交互环境,防止工具的偶然错误破坏其学习轨迹。

  • 自动数据管理:在训练动态的指导下实时优化数据集,通过全自动数据合成和数据漏斗,形成「数据生成」与「模型训练」之间的正向循环。

  • On-policy的异步框架:基于rLLM实现,让多个智能体实例并行与环境交互,独立生成轨迹,极大提升了训练效率。

通过这一系列措施,阿里团队实现了智能体强化训练的「闭环」,让模型从一个基座模型开始,通过预训练、微调,最终在强化学习中实现自我进化。

这套全栈方案,恰恰为解决复杂任务的AI智能体训练树立了全新范式。

「高德行程规划」
和「律师小助理」双开花


过去半年,通义DeepResearch团队在Deep Research研发中不断深耕,每月一篇新作,全部斩获SOTA。

通义DeepResearch团队技术报告矩阵

除了技术报告诚意满满,通义DeepResearch团队一口气连发六篇技术报告,除了延续Web系列的WebResearcher、WebWeaver、WebResummer、WebSailor V2的四篇工作之外,更是全新推出Agent系列的AgentFounder和AgentScaler!

这些重磅研究,并非是实验室的「花瓶」,它们早已走向落地,赋能阿里旗下多个产品。

比如,每个人都能感知的案例——高德「小高老师」。可能你还不知道的是,其背后就是通义DeepResearch提供的加持。

前段时间,高德暑期大版本V16,重点全面推出「地图导航+本地生活」场景。

通义团队和高德深度合作,在上述导航和本地生活场景中构建集成Deep Research能力的垂类智能体。

在规划决策中,通义团队基于Qwen模型微调构建精通地图领域的复杂「POI推理Agent」,一个超懂地图的智能助手。

它能一键get各种复杂需求,比如地理区域、参与者约束、交通约束、时间约束、POI属性等多维度信息。

举个例子,当你输入一长串要求——

我想在西湖边上找家评分4.5以上的浙菜馆,得有儿童餐,而且从地铁站走过去不能超过1公里。


AI能够立即挑出最合适的点,连怎么走都可以安排得明明白白。

再比如,假设想去奥森Citywalk,高德AI瞬间就能制定出三种攻略。

打开每一种攻略,可以看到,它会帮你做出详细的时间规划,贴心地推荐餐饮、游玩景点等。

通义出模型,高德出工具和Agent链路,由此打造出了「小德助手」惊艳的体验。

在法律领域,通义DeepResearch能力也深度融合到了「通义法睿」中,一个原生法律智能体。

它集问答、案例检索、合同审查、文书起草于一身,可以满足法律用户的需求。

升级后,基于创新性Agentic架构和迭代式规划(Iterative Planning),「通义法睿」DeepResearch大幅升级。

如今,它能够执行多步查询,依托真实判例、法规和解读,提供可追溯分析。

通过PK,「通义法睿」在三大核心维度——答案要点质量、案例引用质量、法条引用质量上,超越了OpenAI、Claude家的Deep Research。


总结

总而言之,通义DeepResearch的开源,无疑是AI社区的一大福音,人人可构建专属的深度研究智能体。

它证明了,轻量模型在「深度研究」领域中也能称霸。

它很慷慨,大方分享其背后技术秘方——合成数据+强化学习是训练模型的未来。

下一个爆款APP,或许有天,正是通义DeepResearch打造的。


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652628774&amp;idx=1&amp;sn=6cb179336a74dd7532ca13d401dd1801&amp;chksm=f077e72314f2acc7aa27c06b0887f79ee2a7321f15a6b375fb1baf1dc678fdc8f8e0f34f2da5&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/83671/UZSegrKMtD&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们