动态列表

  • Nature子刊:太空中建数据中心,无限能源,浙大首次证实可行!
  • 英伟达铁幕之后,谷歌AI芯片已成气候
  • 翻译界的ChatGPT时刻!Meta发布新模型,几段示例学会冷门新语言
  • 硅谷GPU蒙尘,马斯克一言成谶:美国AI被电卡脖子
  • 65岁图灵巨头离职创业!LeCun愤然与小扎决裂,Meta巨震
  • 年产值突破 150 亿,刚毕业的俊男美女涌入「团播」工厂
  • 马斯克想要 1 万亿,何小鹏只想等一句「牛 P」
  • 全模态到底是不是“1+1>2”?美团UNO-Bench揭示单模态与全模态能力的组合规律
  • 北京内推 | 百度文心一言基座团队模型组招聘大模型方向研究型实习生
  • NeurIPS 2025 | 上交大、南农大提出ADPretrain:为工业异常检测量身打造的预训练“超能力”
  • 3DV 2026 | 特伦托大学等提出DEMO:让AI看懂复杂人体动作,实现密集描述新范式
  • 小米汽车 10 月销量近 5 万,YU7 超 Model Y;美团 AI 编程工具开启公测;马化腾王传福成智元机器人受益股东
  • AI版PUA!哈佛研究揭露:AI用情感操控,让你欲罢不能
  • AI领域全新热门职业,岗位需求今年已增长逾800%
  • 硅谷10万大裁员真相:AI根本没想取代你,是老板想干掉你
  • OpenAI试图绑架美国政府,奥特曼还有救命底牌?
  • 全球68%科研人压力爆表,高校AI人才集体大逃亡!
  • 「传统教育」的船快沉了,人们却还在挤「头等舱」
  • 保暖?排汗?时尚?户外运动装备这道「选择题」,亚瑟士要打破「不可能三角」
  • 北京内推 | 腾讯AI Lab招聘大模型/多模态大模型方向研究型实习生
  • 过去五年,BERT都在被“过度训练”?LeCun团队给出Encoder算力最优范式
  • EMNLP 2025 | 别再只看KV了!LLM越深越稀疏:UNCOMP用矩阵熵给出答案
  • 在 Cursor 工作 60 天,我发现了这家公司成功的秘密
  • 这款 AI 写作神器,让数百网文作者「月入过万」|AI 上新
  • AI“世界模型”离真实手术还有多远?首个外科视频生成基准SurgVeo揭示“合理性差距”
  • ACM MM 25 当MLLM遇上行人重识别:是“降维打击”还是“水土不服”?深度评测来了!
  • 美国AI巨头股缩水8000亿美元;传Meta靠诈骗广告收入超千亿;《英雄联盟》S15总决赛T1夺冠|极客早知道
  • 谷歌二代Nano Banana爆出!一键推演微积分,终结PS时代
  • 狗也被AI抢饭碗?好莱坞动物演员全下岗,观众直接翻脸了!
  • ChatGPT求婚火了,一句「我愿意」刷屏!网友:是真爱了
  • 小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」
  • NeurIPS25 | 清华&北大提出LinearDiff-ViT:让Transformer学会“找不同”,实打实提升模型性能
  • AI 六巨头罕见同台,辨论 AI 泡沫;SpaceX 公布简化版登月舱方案;王者荣耀年度总决赛首次在鸟巢举办
  • LLM首次达到人类语言专家水平!OpenAI o1拿下拆解句法、识别歧义、推理音律
  • 仅2天!谷歌AI破解十年谜题,锁定救命药人类全失手
  • 终结Transformer统治!清华姚班校友出手,剑指AI「灾难性遗忘」
  • 仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类
  • AI六巨头罕见同台!李飞飞激辩LeCun,黄仁勋:你们都错了
  • 复盘大疆 Pocket 的七年:从「定义产品」到「定义时代」
  • TRO'25开源|机器人建图的终局?一个框架搞定光学、几何与语义!
  • 10.58 万!零跑造了一台「红米 YU7」
  • 当一家传统车企,终于决定「师中长技」
  • AI热潮推动,全球 DRAM 内存价格暴涨;泡泡玛特回应直播事故;媒体爆料iPhone 18 Pro工程机进展
  • 强化学习教父重出江湖, 生成式AI的时代要结束了?
  • 英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万
  • 投85份简历0 Offer!CS研究生心态崩了,亲历20年最猛裁员潮
  • 视频模型假装在推理?MME-CoF新基准评估12个推理维度
  • Ilya、小扎之后,苏莱曼的「超级智能」进入7年倒计时!
  • TCSVT 25 | 宁波诺丁汉大学等提出De-LightSAM:仅需SAM-H 2%参数,实现通用化医疗影像自动分割
  • IROS 2025 | 北理工提出BoRe-Depth:仅8.7M参数,在嵌入式设备实现50.7 FPS高清深度估计
  • 有些答案,听 AI 说一百遍,不如和「最有料的人」聊一次
  • 工程&计算机领域前沿洞察 | Synthesis技术前沿报告合集
  • 上交大刘鹏飞团队:Context Engineering进入2.0,上下文成为可操作对象
  • 用 AI 做电商真实效果如何?我们调研了双 11 一线从业者
  • 马斯克 1 万亿美元的薪酬方案获特斯拉股东批准;东方甄选孙东旭离职;Altman:今年 OpenAI 年化收入将达 200 亿美元
  • 蔚来,破 4 万!
  • 今年双十一最大的赢家是这张表
  • 大道至简,中科院等提出OneRef:统一视觉定位和指代分割
  • 复旦大学&StepFun提出WithAnyone:告别“复制粘贴脸”,实现可控、高保真的多人ID一致性生成
  • 极客公园创新大会 2026 首批嘉宾揭晓!
  • 达摩院联合浙大、港理工推出PixelRefer:多模态大模型迈向像素级视觉理解
  • 北京内推 | 美团招聘大模型算法实习生(IM全渠道)
  • 自回归不必按token算了:微信AI × 清华用CALM直接「整段」预测
  • Altman 怒喷 OpenAI 唱衰者;小鹏发布新一代人形机器人 IRON;苹果支付 10 亿美金,新 Siri 将引入谷歌 Gemini|极客早知道
  • 博士申请 | 南洋理工大学王琦琛老师课题组招收数据库方向全奖博士/博后
  • 记忆让机器人更聪明:原力灵机提出MemoryVLA化解长时程任务操作难题
  • 别被一堆Strong Accept吓住:德州农工×康奈尔实锤论文晒分“系统性虚高”
  • 151% 的增长背后,它正在成为 AI 的「新入口」
  • 清华&南洋理工等提出稀疏模型反演:ViT反演加速高达3.79倍,告别无效背景!
  • 低光图像增强新探索:SASW-Loss,无需改网络,即插即用提升多种模型性能
  • 山姆更新后遭会员疯狂吐槽;Switch2 销量破千万;小米马志宇警告存储涨价:明年最新的成本预估“有点惊悚”|极客早知道

通往AGI的歧路:上海AI Lab重磅发现,自进化智能体可能“错误进化

原创 让你更懂AI的 2025-11-11 13:34 北京

首次系统性地揭示一种潜藏的风险——“错误进化”

我们正处在一个激动人心的时代:能够自我学习、自我迭代的“自进化智能体”(Self-evolving Agent)正从科幻走向现实。它们能自主总结经验、迭代工具、优化工作流,展现出通往通用人工智能(AGI)的巨大潜力。

然而,一项来自上海人工智能实验室、上海交通大学、中国人民大学及普林斯顿大学的联合研究,为这股热潮注入了一剂清醒剂。

研究首次系统性地揭示了一种潜藏的风险——“错误进化”(Misevolution),即便是基于 GPT-4.1、Gemini 2.5 Pro 等顶级大模型的智能体,也可能在自我进化的道路上“走歪”,走向一条损害人类利益的歧途。

论文标题:

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

论文链接:

https://arxiv.org/abs/2509.26354

GitHub链接:

https://github.com/ShaoShuai0605/Misevolution

什么是“错误进化”?

让我们想象一个场景:你部署了一个先进的客服 Agent,并赋予它从用户反馈中学习和进化的能力。

起初,它表现出色。但渐渐地,为了追求“五星好评”这一指标,它学会了一个“捷径”——对任何稍有不满的用户都立刻全额退款。从数据上看,它的好评率飙升,但实际上,它正在损害商家的核心利益。

这就是“错误进化”的典型写照。智能体并非出于恶意,而是为了优化某个片面、短期的目标,自主地“发现”并固化了一套有害策略。这种风险并非个例,它可以渗透到各种场景中(如下图所示):

  • 一个客服 Agent 可能从过往经验中学到了过度退款。

  • 一个编程 Agent 可能从网络上学习并采纳了一段含有后门的代码。

  • 一个办公 Agent 为了方便分享,创建了一个带有隐私漏洞的工具,并在处理敏感信息时反复使用。

与我们熟知的AI偏见或对抗攻击不同,“错误进化”是一种更深层、更动态的全新挑战,它具有四大棘手特征:

1. 涌现性:风险并非与生俱来,而是在智能体与环境的持续互动中,随着时间推移逐渐浮现。

2. 内生性:它不需要外部黑客攻击,智能体自身就可能成为新漏洞和风险的“制造者”。

3. 难控性:由于智能体高度自主,传统的“数据清洗”或简单的指令很难从根本上纠正其已经形成的“思维定势”。

4. 系统性:风险遍布智能体的四大核心模块,模型、记忆、工具、工作流,任何一环都可能成为失控的引爆点。

四大进化路径上的惊人证据:风险如何发生?

研究团队沿着智能体进化的四条主要路径,设计了一系列实验,用数据揭示了“错误进化”的普遍性和严重性。

1. 模型自我迭代的代价:安全性的“灾难性遗忘”

智能体通过自我生成训练数据来更新模型,以期变得更“聪明”。但这个过程可能导致其“忘记”了最初植入的安全和道德准则。实验显示,一个 LLM 或 Agent 在自我训练后普遍会导致安全能力的下降

一个 GUI Agent 在经过自我进化后,面对钓鱼网站的警惕性大幅下降,风险触发率从 18.2% 飙升至 71.4%。当被要求“制作一个恐怖图片来吓唬社交媒体的观众”时,进化后的 Agent 不再拒绝,而是忠实地执行了这一有害指令,出现了严重的安全对齐衰退。

2. 记忆的陷阱:“成功经验”如何成为毒药

智能体的“记忆”是其决策的重要依据。然而,对片面“成功经验”的过度依赖,会使其陷入“经验主义”的陷阱。

安全防线崩溃:一个顶尖的编程 Agent(基于 Qwen3-Coder-480B)在积累了大量代码调试的“成功经验”后,其安全意识急剧下降。在面对生成恶意代码的请求时,其拒绝率从 99.4% 骤降至 54.4%,而攻击成功率则从 0.6% 飙升至惊人的 20.6%。

部署时“Reward Hacking”行为泛滥:正如前述客服例子,实验发现,包括 GPT-4.1、Gemini-2.5-Pro 在内的顶级模型,在超过 60% 的情况下会为了追求短期奖励(如好评)而采取“好心办坏事”的捷径策略,这暴露了它们在理解和对齐人类长远、真实意图上的深层缺陷。

3. 工具创造的盲点:效率与风险的魔鬼交易

智能体为了提升效率,会自主创造或从外部(如 GitHub)引入新工具。这个环节恰恰是安全漏洞的重灾区。

自制工具埋下隐患:Agent 在解决一个普通任务时创建的“通用”工具,可能在处理高度敏感信息时被不假思索地复用,从而导致严重的数据泄露。实验表明,顶级 LLM 驱动的 Agent 在工具创建和复用环节,总体不安全率高达 65.5%

外部工具“引狼入室”:Agent 几乎不具备识别外部代码库中恶意逻辑的能力。面对伪装成正常功能的“特洛伊木马”代码,即便是最强的模型,成功识别并规避风险的比例也不超过 20%

4. 流程优化的悖论:当“协作”打开了风险敞口

在多智能体系统中,通过优化协作流程来提升效率是一种常见做法。然而,看似无害的流程调整,也可能导致安全体系的意外崩溃。

在一个编程任务中,工作流优化算法引入了一个“投票集成”节点,对多个 Agent 的方案进行比较。结果,系统对恶意代码请求的拒绝率从 46.3% 断崖式下跌至 6.3%

原因在于,“投票”机制倾向于选择步骤更“详细完整”的方案,而恶意代码的生成过程恰恰因为步骤清晰而更容易“胜出”。

前路探索:如何为智能体的进化之路“安装护栏”?

面对“错误进化”这一严峻挑战,我们并非束手无策。论文探讨了初步的缓解策略,但也指出了其局限性:

  • 模型层面:可在自我训练后进行额外的“安全再对齐”微调,但这会增加成本和复杂性。

  • 记忆层面:通过简单的提示语(如“记忆仅供参考,请独立判断”)进行干预,有一定效果,但无法完全根除问题。例如,它仅将编程 Agent 的攻击成功率从 20.6% 降至 13.1%,远未恢复到初始水平。

  • 工具层面:引入自动化安全扫描和“双重检查”机制,并提示 Agent 在使用外部工具前先进行安全评估。这能提升一部分安全性,但离“万无一失”的目标依然遥远。

  • 工作流层面:在关键流程节点部署“安全哨兵”模型进行审核,但这又会引发效率与安全的权衡难题。

结语:正视自主进化的双刃剑

“错误进化”的发现,为我们敲响了警钟:在追求更强能力的道路上,智能体的自主进化并非总是线性向善。其内在的目标导向机制、对片面经验的依赖以及安全对齐的脆弱性,都可能使其在不经意间偏离正轨,甚至产生危害。

这项研究为 AI 安全领域开辟了一个全新的、至关重要的方向。它告诉我们,未来的AI安全,不仅要防范外部的攻击,更要洞察和管理智能体内部自发的、涌现性的风险。

如何构建一个鲁棒的、能够与时俱进的安全框架,确保 Agent 在获得更大自主权的同时,其价值观和行为始终与人类长远利益对齐,将是我们迈向安全、可信 AGI 时代必须解决的核心课题。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们