动态列表

  • CVPR史上首次!中国车厂主讲AI大模型,自动驾驶也玩Scaling Law?
  • Nature警告:AI「数据饥渴症」引爆学术宕机潮!90%知识库濒临崩盘
  • 刚刚,谷歌AI路线图曝光:竟要抛弃注意力机制?Transformer有致命缺陷!
  • 亚马逊码农噩梦来袭!沦落「仓库工人」,每天流水线分拣「AI代码」
  • 特朗普「全政府AI计划」竟在GitHub泄密!或于7月4日「独立日」上线
  • 「人类飞机上吵架看呆袋鼠」刷屏全网,7000万人被AI耍了
  • SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?
  • Nature子刊,北大团队使用多视图GNN进行基于生态位的细胞间通信研究
  • 九章云极发布九章智算云Alaya NeW Cloud 2.0, 开创Serverless+RL技术趋势
  • AI进化三年,产业落地真拐点可能就在这场全球顶尖金融智能赛事里
  • 初赛报名截止倒计时!75万奖池+心动Offer,启元实验室重磅赛事等你来战!
  • 高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3
  • 如何选择最佳多模态大模型压缩方案?哈工大、度小满开源EFFIVLM-BENCH基准测试框架
  • Nature子刊,中国科大团队提出迁移学习指导的圆偏振磷光材料设计
  • 复旦团队让线粒体自噬「可视化」,AI-FM揪出抗阿尔茨海默病潜力药
  • 通过对话即可执行DNA、RNA和蛋白质任务,InstaDeep提出多模态智能体ChatNT
  • 大模型能否读懂真实病历?哈佛医学院发布BRIDGE大规模多语言评测基准
  • Muon作者仅用一篇博客,就被OpenAI看中了
  • ACL 2025|为什么你设计的 Prompt 会成功?新理论揭示大模型 Prompt 设计的奥秘与效能
  • 罗永浩数字人开播,GMV超 5500 万;泡泡玛特首家珠宝店正式开门;特斯拉 Robotaxi 真车曝光
  • 刚刚!陶哲轩3小时对话流出:AI抢攻菲尔兹奖倒计时
  • 《人类简史》作者怒怼硅谷:智能≠真理,AI正在走偏!
  • 12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈
  • 硅谷精英集体参军!代号「201分队」,Meta、OpenAI首席技术官入伍
  • 刚获得一亿美元融资的地瓜机器人,挑战让智能机器人变得更便宜
  • 放弃博士学位加入OpenAI,他要为ChatGPT和AGI引入记忆与人格
  • 机器人也能边想边做!清华团队OneTwoVLA让机器人煮火锅、炒菜、调酒样样精通
  • 复旦大学/上海创智学院邱锡鹏:Context Scaling,通往AGI的下一幕
  • 谢赛宁敲响学界警钟!AI研究可能陷入一场注定失败的有限游戏
  • AI记忆伪装被戳穿!GPT、DeepSeek等17款主流大模型根本记不住数字
  • CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶
  • 首个统一的图像与视频AIGC可解释性检测框架,多榜单SOTA性能
  • 特朗普或推出以其名字命名的手机品牌;百度启动最大规模 AI 人才招聘;《鱿鱼游戏》第三季预告发布|极客早知道
  • 小扎豪掷143亿美元赌新「王」!28岁华人亿万富翁入职Meta,与谷歌决裂
  • 模型遗忘不代表记忆抹除!首次系统发现「可逆性遗忘」背后规律
  • 谢赛宁开炮,现场打脸CVPR评审!Sora开山之作DiT被拒,怒斥AI学术圈畸形
  • 和AI聊太深?他们离婚、跳楼、自杀了!ChatGPT精神病正在爆发
  • LLM已能自我更新权重,自适应、知识整合能力大幅提升,AI醒了?
  • 多智能体在「燃烧」Token!Anthropic公开发现的一切
  • 苹果《思考的错觉》再挨批,Claude与人类共著论文指出其三大关键缺陷
  • 单卡4090也能高质量视频编辑!西湖AGI Lab无训练框架FlowDirector来了
  • ICCV 2025 MARS2 Workshop 多模态推理竞赛启动
  • 消息称腾讯未考虑收购 Nexon;追觅否认「断指计划」;李国庆与俞渝就财产分割达成最终和解
  • 光场显微飞跃AI时代!清华等首提SeReNet:毫秒级高分辨光场三维重建
  • 苏妈联手OpenAI,AMD发布3nm怪兽MI355X,性能碾压英伟达B200!
  • 何恺明评审,谢赛宁获奖!牛津华人博士生拿下CVPR 2025最佳论文
  • 刚刚,CVPR 2025奖项出炉:牛津&Meta博士生王建元获最佳论文,谢赛宁摘年轻研究者奖
  • ICML 2025 | 千倍长度泛化!蚂蚁新注意力机制GCA实现16M长上下文精准理解
  • 字节跳动技术副总裁洪定坤:TRAE 想做 AI Development
  • 「倒计时3天」2025 WAIC云帆奖全球征集|共青年之智,铸AGI未来
  • 2025谷歌研究学者计划名单:吴佳俊、Mamba作者Albert Gu、Tri Dao等获奖
  • 一粒「扣子」,开启了Agent的全生命周期进化
  • 聊透 Agent,它是「同事」还是「工具」,创业机会和价值究竟是什么?
  • 零训练即可实现自我演化!首个基于科学智能体架构的AI疾病生物学家发布
  • 腾讯2026青云计划启动,百余项技术课题支持青年人才挑大梁
  • AI研究人员如何节约能源?通过反向计算
  • 提前15天预测50种可能情景,谷歌DeepMind凭借新模型彻底改变了台风预报
  • 腾讯打出「AI岗位薪酬不限」的底气来自哪?
  • 1200行代码逆袭!DeepSeek工程师开源轻量级vLLM,吞吐量逼近原版
  • 刚刚,Scale AI CEO Alexandr Wang正式官宣:Meta重金投资并挖走了我
  • 统一20+多智能体方法,MASLab震撼发布
  • CVPR 2025 论文推荐 :VGGT,快速 3D 重建新范式
  • 科大讯飞最新发布!打造下一代智能交互新范式
  • AGI真方向?谷歌证明:智能体在自研世界模型,世界模型is all You Need
  • CVPR 2025 Highlight|北大联手智元发布首个基于说明书的家电操作评测基准
  • 波音 787 在印度发生首次坠毁事故;哪吒汽车通知员工居家办公;阿里发布高考志愿大模型|极客早知道
  • DeepMind首个猜想库开源,获陶哲轩力挺!
  • 1万块GPU砸向欧洲!老黄怒怼AI末日论:全球首个工业AI云来了
  • 何恺明改进了谢赛宁的REPA:极大简化但性能依旧强悍
  • CVPR 2025 多模态大一统:斯坦福 x 复旦提出符号主义建模生成式任务
  • 精度达原子级,基于深度学习的动态蛋白质设计,登Science
  • 英伟达打造全球首个工业AI云,配万块GPU,物理AI机器人集群已启动
  • 字节自研AI IDE “TRAE”,月活用户已超百万
  • 从高考到实战,豆包大模型交卷了
  • 通义实验室最新成果WebDancer:开启自主智能Deep Research的新时代
  • 256块NPU训成8B视频模型、超越Sora等一众闭源!抖音内容技术团队开源ContentV
  • 拆解火山引擎后,我看到了字节跳动的「变奏」
  • ACL 2025 | 让大模型听懂育种的语言,科学家提出首个种子科学多任务评测基准SeedBench
  • Image Caption复兴宣言!南大港大CapArena重塑「详细图像描述」评测体系
  • 视频理解“隐秘的角落”:多任务视频文本理解评测新基准VidText发布
  • 博士申请 | 上海交通大学人工智能学院刘松桦老师招收视觉生成方向博士/硕士/实习生
  • SIGGRAPH 2025奖项出炉:上科大、厦大最佳论文
  • 2D图像作中介,零训练实现3D场景生成SOTA:英伟达&康奈尔提出文本驱动新流程
  • 刚刚,LeCun亲自出镜,Meta推出新世界模型!
  • 银河通用X清华大学发布业内首款开源人形机器人全身遥操系统OpenWBT,支持多机型、跨虚实,小时内可轻松部署
  • CVPR 2025 | 多模态统一学习新范式来了,数据、模型、代码全部开源
  • 马斯克道歉,特朗普回应;阿里离职员工发万字长文,马云回应;华为发布 Pura 80 系列,余承东称对得起那四个字
  • 这届机器人太会了!百事蓝宝出道,人形机器人也开始卷情绪价值了
  • 全球首个历史基准!普林复旦打造AI历史助手,AI破圈人文学科
  • 无需上下文,MCP新机制让大模型主动“提需”:节约 98% token 开销,并保持准确率基本不变!
  • 500 万下载、ARR 400 万美元,这只「外星 AI」为何让年轻人上头?
  • 开盘暴涨 3 倍,全球化的影石给中国硬件创新立了新榜样
  • 这家日本企业,有张能跑「百万行」的飞书多维表格!
  • AutoMat:让「看见原子」成为「理解材料」的科学直通车
  • 浙大开发的荧光纳米传感器,超96.67%的准确率识别植物信号
  • 1000 亿天价,扎克伯格买下「半个天才」和 Meta AI 的未来
  • 「Next-Token」范式改变!刚刚,强化学习预训练来了
  • Mistral的首个强推理模型:开源开源,推理速度快10倍
  • 103K「硬核」题,让大模型突破数学推理瓶颈
  • 10%训练数据超越100%表现,机器人学习领域迎来重要突破
  • 建议所有博士都去学一遍,赢麻了!
  • ACL 2025 | 多维阅卷,智识觉醒:打开多模态大模型看图写作评估的认知之门
  • 20 万一台的「人脑计算机」,可能是人类战胜 AI 的唯一方式?
  • 刚刚,OpenAI正式发布o3-pro!奥特曼激动更新博客:温和的奇点
  • 时空压缩!剑桥大学提出注意力机制MTLA:推理加速5倍,显存减至1/8
  • 高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺冠,豆包DeepSeek并列第二
  • iOS 26 丑上热搜;多家车企宣布将账期统一至 60 天内;OpenAI 推出最强推理模型 o3-pro | 极客早知道
  • Ilya回归,获授「第四学位」!AI将完成人类能做的一切,毕业演讲实录
  • OpenAI新模型,被曝秘密训练中!万字硬核长文直指o4核心秘密
  • 20人团队提前实现DeepSeek构想,AI算力变天?直击大模型算力成本痛点
  • PrefixGrouper:加速GRPO训练,即插即用,长上下文场景计算效率跃升!
  • 李飞飞团队新作:DiT不训练直接改架构,模型深度减半,质量还提高了
  • 扩散语言模型真的会比自回归好?理论分析结果可能恰恰相反
  • 一个md文件收获超400 star,这份综述分四大范式全面解析了3D场景生成
  • 淘宝获2025年度苹果设计大奖 国内互联网平台首个
  • 不懂编程也可使用,能生成协同自驱动实验室的简易操作界面,开源协调器IvoryOS
  • ICML 2025 | 抗体、多肽、小分子,一网打尽:UniMoMo基于隐空间扩散模型统一生成靶向药物分子
  • 端侧模型卷王诞生!MiniCPM4长文本推理提速5倍,0.5B模型屠榜同级
  • ICML 2025 | 不靠复杂架构,经典GNN再证图级任务强基线地位
  • 地铁换乘都搞不定?ReasonMap基准揭示多模态大模型细粒度视觉推理短板
  • 博士申请 | 纽约大学(上海)计算机系谭桥宇老师招收LLM/MLLM方向全奖博士生
  • 大模型是「躲在洞穴里」观察世界? 强化学习大佬「吹哨」提醒LLM致命缺点
  • 一块4090搞定实时视频生成!Adobe黑科技来了
  • 视频生成1.3B碾压14B、图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式
  • 增速超比亚迪后,新能源狂飙 135%,这家公司做对了什么?
  • 从「互掐」到「牵手」,小鹏华为只为这块「屏」?​
  • 刚刚,苹果WWDC掀AI风暴!端侧模型全面开放、AI版Siri却成最大「鸽子」王
  • 比自回归更灵活、比离散扩散更通用,首个纯Discrete Flow Matching多模态巨兽降临
  • 苹果 iOS26 正式发布;余承东晒华为 Pura 80 Pro 真机;泡泡玛特否认进军 AI 玩具

ICML 2025 | Agentic时代唤醒NAS"第二春"!智能体超网动态组队,推理成本暴降55%

原创 让你更懂AI的 2025-06-12 12:34 北京

用超网为每个任务“量体裁衣”

在 AI 的浪潮之巅,大语言模型(LLM)驱动的多智能体系统,正以其强大的协同能力,不断刷新我们对智能的想象。但一个痛点始终存在:构建这些复杂的系统,往往依赖于“炼丹师”们大量的手动设计和调试,这就像在用手工作坊的方式打造星际飞船,效率低下且难以规模化。


今天,这一瓶颈被彻底打破!来自新加坡国立大学、中国科学技术大学、同济大学和上海人工智能实验室的研究团队,联手推出 MaAS(Multi-agent Architecture Search),一个革命性的自动化框架


它为古老的 NAS(神经架构搜索)技术注入了智能体时代的灵魂,实现了真正的“按需定制”智能体服务——为不同的任务,动态匹配最合适的智能体架构!论文目前已经被 ICML 2025 录用为 Oral Presentation

论文标题:

Multi-agent Architecture Search via Agentic Supernet

论文地址:

https://arxiv.org/abs/2502.04180

Github链接:

https://github.com/bingreeky/MaAS



困境:“一刀切”的智能体,是才华的浪费

当前的智能体系统设计,普遍陷入一个“一刀切”的窘境:无论是自动化搜索还是手动搭建,目标都是构建一个“大而全”的静态系统,妄图用一套固定的“万金油”流程解决所有问题。这会带来什么问题?


  • 简单任务,高射炮打蚊子:当用户只是问 “1+2*3-2=?”,系统却启动了一套包含多轮反思、辩论的复杂流程,造成巨大的资源浪费。

  • 复杂任务,捉襟见肘:当面对“设计一个电商网站后台”这样的艰巨挑战,固定的简单流程又显得力不从心,无法有效完成任务。

我们坚信,未来的智能体系统应当是弹性的、动态的。为此,MaAS 提出了一个全新的范式——智能体超网(Agentic Supernet)

▲ 图1: 多智能体超网示意图:为不同复杂度的任务,动态采样出最合适的智能体架构。



核心方法:智能体超网,NAS“老树开新花”

MaAS 的核心思想,是将智能体架构的设计问题,从寻找一个“最优单点解”,转变为优化一个概率性的、连续的架构分布——即“智能体超网”。


这个超网,就像一个巨大的智能体“乐高池”,包含了诸如链式思考(CoT)、多智能体辩论(Debate)、ReAct 等各式各样的能力“积木”(Agentic Operators)。MaAS 能从中为每个任务“量体裁衣”。

▲ 图2: MaAS 方法示意图:控制器根据查询,从超网中采样,经环境反馈,通过文本梯度进行优化。](supernet.png)

2.1 按需采样:你的问题,决定了你的智能体系统

当一个查询(Query)到来,MaAS 的控制器(Controller)会立刻对其进行分析,然后像一位智慧的指挥家,从超网中动态采样出一个最适合当前任务的多智能体架构。


  • 简单算术题?也许一层简单的 I/O 后,系统就选择了 Early-Exit ,秒速给出答案,干净利落。

  • 复杂代码挑战?控制器可能会组建一个包含 ReAct (工具调用)、 Self-Refine (自我修正)和 Debate (多方辩论)的多层深度网络,通过“群策群力”攻克难关。

具体来说,MaAS 的采样过程可以用以下公式表示:

其中, 表示在第 层选择的操作符, 是查询, 是超网络的参数化分布, 是所有可用的操作符集合。通过这种方式,MaAS 能够根据查询的复杂度动态调整采样深度,实现资源的高效利用。

2.2 成本优化:不仅要效果好,更要花钱少

MaAS 的聪明之处不止于此。在优化过程中,它引入了成本约束。通过蒙特卡洛采样和文本梯度(Textual Gradient)技术,MaAS 能够同时优化“性能”与“成本”(如 Token 消耗、API 调用费),在保证高质量输出的同时,把每一分钱都花在刀刃上。优化目标可以表示为:

其中,(C(G; q))是智能体系统(G)对于查询(q)的成本,(lambda)是权衡参数。通过这种方式,MaAS 能够在性能和成本之间取得最佳平衡。



实验验证:性能与成本的“双重胜利”

在实验部分,MaAS 在 GSM8K、MATH、HumanEval、GAIA 等六大主流基准测试中,与 14 个现有顶尖的单智能体、多智能体方法进行了比较。

性能上,MaAS 的平均得分高达 83.59%,相较于现有 SOTA 方法,实现了 0.54%~11.82% 的性能提升,展现了惊人的通用性和有效性。


成本上,更是降维打击!

▲ 图5:成本对比表,MaAS 在训练成本、推理成本和时间上均有巨大优势。



  • 推理成本暴降:MaAS 完成任务所需的平均推理成本(Token 消耗等)仅为其他自动化或手动系统的 45%

  • 训练成本悬殊:在 MATH 基准上,MaAS 的训练成本仅为 3.38 美元,而性能相近的 AFlow 则需 22.50 美元,成本相差近 7 倍

  • 优化效率飞跃:MaAS 的优化过程仅需 53 分钟,而其他方法动辄数小时。

▲ 图6:成本分析图



案例展示:杀鸡焉用牛刀,智能体“按需分配”

MaAS 是如何做到“千人千面”的?下图生动地展示了它面对不同难度任务时的“思考路径”。

▲ 图7:案例展示:面对简单问题(上),MaAS浅尝辄止;面对复杂问题(下),则构建深度、并行的智能体网络


可以看到,MaAS 完美地实现了任务难度的动态感知。它“杀鸡绝不用牛刀”,对于简单的任务,在极浅的层数就提前退出;而对于复杂的任务,则毫不犹豫地深入 3-4 层网络,并在每一层激活多个智能体算子并行处理,真正实现了智能资源的最佳配置。



展望:开启智能体架构搜索新纪元

MaAS 的提出,不仅是 NAS 技术在 Agentic 时代的华丽回归,更重要的是,它改变了游戏规则。它将多智能体系统的设计范式从“静态、僵化”推向了“动态、自适应”的新范式。


我们相信,MaAS 为构建下一代高效、经济、可规模化的 AI 应用铺平了道路。未来,无论是教育、科研还是工业界,都可以利用这一框架,为特定场景快速定制出高性价比的智能解决方案。


更多阅读



#投 稿 通 道#

让你的文字被更多人看到



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·


阅读原文

跳转微信打开

联系我们