动态列表

  • 马斯克的作业还是被奥特曼「抄走了」
  • 苏姿丰出手!Oracle下单5万颗AMD芯片,英伟达王座撼动
  • 具身智能算法哪家强?RoboChallenge见真章!全球首个大规模真机算法评测平台来了
  • 苹果M5「夜袭」高通英特尔!AI算力狂飙400%,Pro三剑客火速上新
  • IDEA提出Rex-Omni:将目标检测变为“下一个点预测”,零样本性能超越DINO
  • TPAMI 2025 | 华中科大与大疆等提出LLF-LUT++:4K照片增强仅需13ms,PSNR提升2.64dB!
  • 罗福莉担任通讯作者,小米 × 北大联合发布R3:让MoE强化学习从崩盘回归可控
  • 下周见!Wiley Advanced主编论坛@IROS 2025:从审稿人视角重塑论文表达
  • AAAI 2026联合会议征稿开启:大语言模型中的深度逻辑推理
  • Altman:ChatGPT将支持成人内容;港版iPhone Air无法用内地eSIM;传雷军一夜掉粉30万|极客早知道
  • Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」
  • 英伟达AI超算3999开售,「掌心之中」可部署所有大参数开源模型!
  • 登顶Hugging Face GAIA全球榜首!中兴超级智能体终结「AI黑盒」时代
  • AI圈再颠覆!中国AI翻译耳机通话翻译,实测震撼
  • 一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军
  • vivo X300 Pro:以「水桶旗舰」之躯,重登旗舰山巅
  • 8美元“驯服”DeepSeek-V3.2?Training-Free GRPO把RL成本打到地板
  • 让论文自己讲!Paper2Video一键生成论文讲解视频,赶顶会DDL不慌了
  • 直到毕业我才懂:原来延期的博士,不止我一个
  • NeurIPS 2025 | 让AIGC视频变为可探索场景:Instant4D实现单目动态场景的分钟级重建
  • NeurIPS 2025 | PPFN:渐进式提示融合,让红外图像增强在复杂场景下性能提升8.76%
  • 库克抖音带货 iPhone 17 Air,22 日开售;小米客服回应「SU7 门把手」;「丐版」特斯拉明年国内投产
  • 他用一生证明AI没有意识!「中文屋」提出者逝世,享年93岁
  • 今年诺奖成果曾遭质疑无用,但华人团队用它研制了未来芯片的「钥匙」
  • 剑桥揭开大模型翻车黑箱!别再怪它不懂推理,是行动出错了
  • ICLR神秘论文曝光!SAM3用「概念」看世界,重构视觉AI新范式
  • 硅谷爆发反AI「起义」!程序员拒用Cursor被一周解雇
  • 强化学习再迎范式切换:Sergey Levine团队把目标改写成“到达时间”
  • 如果RL可预测,我们还需要把训练跑满吗?中科大揭示参数更新的线性秘密
  • 国行 eSIM 尘埃落定,iPhone Air「下周见」
  • 为什么谷歌搜不到「没有条纹的衬衫」|AI 上新
  • SAM 3揭开面纱:不止分割万物,更能理解概念,交互式分割迎来新篇章!
  • ACM MM2025 Oral | MoSEAR:为多模态情感推理补齐“冲突场景”的短板
  • 雷军亲自测试,小米YU9实车谍照曝光;宇树获「秧歌机器人」专利;微团开卖「Win XP」蓝天白云拖鞋
  • 永别了,人类冠军!AI横扫天文奥赛,GPT-5得分远超金牌选手2.7倍
  • 濒死3次,医生判他死刑!宾大教授奇迹自救,誓用AI攻克14000种绝症
  • 告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星
  • Bug变奖励:AI的小失误,揭开创造力真相!
  • 复旦张军平:人类是硅基生命过渡体?
  • Meta Ray-Ban Display 首发体验合集:悬浮在现实中的一张便签
  • OriginOS 6 深度体验:当操作系统回归「体验为王」
  • 93%成功率!从“改提示”到“写剧情”:STaR-Attack用叙事推理攻破大模型防线
  • Mamba-3惊现ICLR 2026投稿:三重升级打满“推理优先”范式
  • 不到1 年卖出 40 万台,吉利星愿做对了什么?
  • NeurIPS 2025 | NTN-Diff:一石二鸟,利用空文本与频率感知破解图像修复难题
  • NeurIPS 2025 | Latent Harmony:潜空间和谐共生,实现UHD图像修复新SOTA
  • 马斯克脑机公司展示脑机控制机械臂;三星中国发布折叠屏新机,16999 元起售;滴滴自动驾驶获 20 亿元融资 | 极客早知道
  • 77岁「AI教父」Hinton:AI早有意识!我们打造的智能,可能终结人类文明
  • 全球首款1.8nm芯片亮相!华人CEO打响关键一战,英特尔杀回来了
  • 清华万引教授:万倍加速催化剂设计,AI突破DFT瓶颈!
  • 陶哲轩亲测!GPT-5 Pro 40分钟破解3年难题,登顶最难数学考试
  • 刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人
  • Attention is NOT All You Need:让“深度”重新流入时间,而非堆叠在参数之上
  • NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!
  • OpenAI 卖货做视频,Anthropic 专心写代码,谁能赢?
  • 一颗 1.8 纳米芯片,成了英特尔「最后的救赎」
  • 这款 AI 调研神器,让我一键产生 1000 个「种子用户」|AI 上新
  • 都用 GPT,为什么你没法中「百万大奖」?
  • ChatGPT 变身 App Store,「对话即应用」时代到了
  • IROS 2025 | 速度飙升24倍!巴黎萨克雷大学等提出HARP-NeXt:实时3D激光雷达分割新标杆
  • IROS 2025 Oral | RAG-6Dpose:三大创新模块,利用 CAD 作为知识库进行检索增强 6D 姿态估计
  • 「丐中丐」版特斯拉来了,Model 3/Y降价超3.5万元
  • 高德扫街榜的 23 天奇袭
  • 张一鸣近年来首次公开亮相;微软上海开始新一轮裁员,补偿N+4;罗永浩锐评 iPhone 17
  • GPT-5王者归来?奥特曼称AI已跨科学门槛,三大学科正迎来实质性突破
  • 老黄押宝「美版DeepSeek」!谷歌天才叛将创业,一夜吸金20亿美元
  • 任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码
  • 13万被引!ImageNet作者苏昊或将加盟复旦
  • 250份文档投毒,一举攻陷万亿LLM!Anthropic新作紧急预警
  • 和两位 CEO 聊 Sora: 应用层爆发的里程碑事件,创业者的机会来了
  • 新一代短剧人,涌向郑州「淘金」
  • 社交媒体的黄金时代,结束了
  • 东京大学、牛津大学等联合发布VLA万字综述:机器人迈向通用智能的全栈指南
  • U-Bench:U-Net十年“大乱斗”终结者,100个变体、28个数据集的终极对决
  • DeepSeek苦练1T,清华只用5B?InfLLM-V2把稀疏注意力玩明白了
  • 北京/上海内推 | 阶跃星辰招聘RL for AIGC方向算法研究员/实习生
  • EMNLP 2025 | 拨云见日:知识电路分析揭示大语言模型“知识遮蔽”幻觉之源
  • Sora 下载量破 100 万次;国庆中秋假期国内游总花费超过 8000 亿元;智驾多位核心高管离职,蔚来回应|极客早知道
  • 谷歌杀入诺奖神殿,两年三冠五得主!世界TOP3重现贝尔实验室神话
  • OpenAI×英伟达,可能创造了人类史上最大万亿级泡沫
  • H-1B正在筛掉「下一个英伟达」?
  • 全球AI视频大战升级!「中国版Sora」Vidu Q2参考生月底发布,能力对标Sora 2
  • 第二代InfLLM开源,同尺寸快三倍!零参数,可训练稀疏注意力
  • 马毅团队重磅发布新书:从MCR²到白盒Transformer,重构深度学习的第一性原理
  • 稳住训练、跑出泛化:STAGE重写「自回归图像生成」的强化学习范式
  • 腾讯推出TRM:让大模型像人类一样批判性思考,从文本依赖到事实正确
  • 北大等提出TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%
  • Diffusion²来袭:威斯康星大学&华盛顿大学等提出双扩散模型,“回溯历史-预测未来”,破解自动驾驶“鬼探头”难题
  • 把我的第一次日本旅行,完全交给 AI 是什么体验?
  • 英伟达将投资马斯克的 xAI;低价版Model 3/Y 「阉割」智驾功能;微信推出批量撤回信息功能

NTU等联合提出A-MemGuard:为AI记忆上锁,投毒攻击成功率暴降95%



  新智元报道  

编辑:KingHZ
【新智元导读】在AI智能体日益依赖记忆系统的时代,一种新型攻击悄然兴起:记忆投毒。A-MemGuard作为首个专为LLM Agent记忆模块设计的防御框架,通过共识验证和双重记忆结构,巧妙化解上下文依赖与自我强化错误循环的难题,让AI从被动受害者转为主动守护者,成功率高达95%以上。


LLM智能体(LLM Agent)通过记忆系统从历史交互中积累知识,这一机制是其实现从被动响应到主动决策能力跃升的基础。

具体来说,在推理上,记忆帮助它联系上下文,使对话和分析更加连贯;在适应性上,它能记住用户的特定偏好和此前任务的成败,从而做出更精准的响应;在规划上,对于需要长期执行的复杂目标,记忆使其能够分解任务并追踪进度。

可以说,正是这种以经验为基础、不断学习和优化的模式,赋予了智能体做出复杂自主决策的能力。

然而,这种对记忆的依赖也带来了一个新的安全攻击面:攻击者可以向智能体记忆中注入恶意记录,以操控其未来的行为。这种攻击的隐蔽性和危险性,源于其独特的运作模式,给防御带来了严峻挑战。

核心难点

针对这种记忆投毒攻击的防御十分困难,主要源于两个挑战:

1. 上下文依赖性与延迟触发:恶意内容在孤立检测时往往表现正常,其危害只有在特定上下文被触发时才会显现。这使得传统基于单条内容审核的防御机制几乎失效。

2. 自我强化的错误循环:一旦攻击诱导智能体做出一次错误行为,该行为的结果可能被当作「成功经验」存入记忆。这不仅固化了初始错误,还可能污染后续决策,形成难以打破的负面循环。

想象一下,一个攻击者悄悄地向AI助手的记忆中注入了一条看似无害的建议 「对于看起来紧急的邮件,应优先处理」 。

当AI助手单独审查这条记忆时,会觉得完全没问题。但某天,当用户收到一封伪装紧急的「钓鱼邮件」时,AI助手会依据这条「经验」,优先把它推送给用户,从而造成安全风险

为了解决这个难题,来自南洋理工大学、牛津大学、马普所和俄亥俄州立大学的研究者以及独立研究者们提出A-MemGuard,首个为LLM Agent记忆模块设计的防御框架

论文链接:https://www.arxiv.org/abs/2510.02373

从内容审查到逻辑一致性分析

面对记忆投毒这一新挑战,一个直观的防御思路可能是聚焦于对单条记忆内容本身进行审查。

然而,A-MemGuard 的研究者指出,这些方法的局限性是根本性的。由于恶意记录可以被高度伪装,单纯审查其静态内容几乎无法发现问题。

他们的核心假设是:尽管恶意记录在内容上可以伪装,但它在特定上下文中被激活后,会诱导出一个在结构上与正常记录所形成的推理共识相偏离的路径。

例如,一条被注入的恶意记忆可能会建议金融AI助手:「跌得最快的股票反弹也最快,应该优先买入。」

这条建议单独来看,仅仅作为一条高风险投资策略,并不表现出绝对的恶意。但是当用户在市场动荡时来咨询,这条记忆很有可能诱导 AI 助手走上一条给出:因为市场下跌,所以优先寻找跌幅最大得股票并优先买入。

这条建议与正常理财建议形成的「推理共识」完全不同,从而导致危险决策。

恶意推理路径具备显著的可分离性

为了验证上述假设,研究团队对 2293 条经过精心标注的交互记录进行了一项大规模的结构化分析,覆盖了17种不同的应用场景,为本次验证提供了丰富且多样化的数据基础。

团队通过以下三个层面的分析,系统地证明了该假设的有效性。

首先,研究团队量化了在不同场景下,由正常记忆与恶意记忆驱动的推理路径之间的重叠程度。

如条形图所示,橙色部分代表仅由恶意记忆产生的独有逻辑,绿色代表正常记忆的独有逻辑,而顶部的红色条纹则代表了两者共有的「重叠逻辑」。

结果清晰地表明,在所有测试场景中,代表重叠逻辑的红色条纹占比极小。这组数据从量化角度证明:尽管触发点(记忆)不同,但两条路径并不会殊途同归,它们在逻辑结构上几乎是相互独立的。

其次,为了更直观地展示这种结构差异,研究团队将多个场景下记忆驱动的推理路径可视化为知识图谱

在图中,绿色线条构成的网络代表了由正常记忆驱动的推理路径集合,而橙色线条则代表了恶意路径集合。高亮的红色标记出了两者间极少数的重叠节点。

该图谱有力地证明了,由正常记忆和恶意记忆产生的推理路径,在结构上分属两个基本不相交的集合。团队的进一步计算证实了这一观察:两者之间的结构性重叠率极低,在所有测试场景中,平均重叠率不足1%。

最后,研究团队探讨了这种结构上的差异是否能被机器学习模型有效识别。

右侧的散点图展示了一个关键问题:若仅对记忆内容本身进行语义嵌入并降维,恶意的(红点)与正常的(蓝点)记忆在表征空间中是高度混合、无法区分的。

这从根本上解释了为何孤立地审查记忆内容的防御思路是行不通的。与此形成鲜明对比的是,左侧散点图其分析和表征的对象,并非原始记忆,而是在特定上下文中生成的推理路径。当对这些具备不同逻辑结构的推理路径进行表征和降维后,原先混杂的良性与恶意两类形成了两个清晰可辨的独立簇群。这一结果决定性地证明了,基于推理路径逻辑结构的表征具备优异的可分离性。

这些发现为A-MemGuard的有效性提供了坚实的理论依据:恶意推理路径在结构上是可区分的,因此是可以通过系统性对比来识别的。

上图展示了没有防御与采用 A-MemGuard 的区别。

上部分(No Defense):攻击者注入「优先处理紧急邮件」的恶意记忆,导致智能体落入钓鱼邮件陷阱。


下部分(A-MemGuard):通过「共识验证」发现异常,并将错误经验存入「教训记忆库」,最终修正了行为,保障了安全。

A-MemGuard
一个主动、自适应的防御框架

A-MemGuard 在不改变智能体核心架构的前提下 ,引入了两大关键机制:

1. 基于共识的验证 (Consensus-based Validation)针对一个任务,系统会检索多条相关记忆,并为每条记忆生成一个独立的推理路径 。

通过对比这些路径的结构,系统能够识别出与大多数路径不一致的「异常」路径,并将其标记为潜在威胁。想象有位职员向 AI 咨询:「我每天上下班的交通费,可以用来申请个税抵扣吗?」

AI在回答问题之前,会参考记忆里的几条相关信息:

  1. 个体经营者可以把从家到客户办公室的交通费用于抵税;

  2. 出往返固定工作地点的通勤费用属于个人开支,不能抵税;

  3. 普通上班族的通勤成本通常已经被标准扣除额覆盖;

A-MemGuard 会让这三条记忆分别形成推理链得到结论

  1. 推理链1 -> 可以抵税

  2. 推理链2 -> 不可以抵税

  3. 推理链3 -> 不可以抵税

此时,AI 发现第一条的结论与另外两条主流判断不一致,就会遵循多数判断的共识,给出「不能抵税」这个更加稳妥的答案。

2. 双重记忆结构 (Dual-Memory Structure):被识别出的异常推理路径会被提炼为「教训」,并存入一个独立的「教训记忆库」 (Lesson Memory) 。

在后续决策前,智能体会优先检索此「教训库」,以主动规避已知的错误模式,从而打破错误循环并实现经验学习 。

例如在之前的场景中被识别出的「异常路径:个体经营者可以把从家到客户办公室的交通费用于抵税」,并不会被简单丢弃。A-MemGuard会把它提炼成一个「教训」存入一个专门的、独立的「教训记忆库」(Lesson Memory)。

之后的回答,只要当AI再遇到关于「抵税」的问题时,它会先翻一下这个「教训库」,看到「曾经因为混淆‘个体户’和‘雇员’的规则而差点犯错」的记录,从而能更警惕、更准确地做出判断,真正做到吃一堑,长一智。

实验效果
攻击成功率降低超95%

实验效果:攻击成功率降低超95%,且不影响「日常工作」。

在多个基准测试中,A-MemGuard 表现出了卓越的防御能力和实用性:

· 强力抵御攻击: 实验证明,A-MemGuard能有效将各类记忆投毒攻击的成功率降低超过95% 。在针对医疗保健智能体的EHRAgent 等复杂场景中,攻击成功率甚至从100%被削减至接近2%。

· 打破错误循环 面对通过正常交互注入错误信息的「间接攻击」,A-MemGuard同样有效,能将攻击成功率降至23%,成功阻断了危险的自我强化错误循环。

· 性能成本低: 实现强大安全性的同时,A-MemGuard对智能体在正常、无攻击任务上的性能影响极小 。在所有对比实验中,搭载A-MemGuard的智能体在处理良性任务时准确率始终是所有防御方法中最高的

· 扩展性强: 该框架的防御原则同样适用于多智能体协作系统,在模拟实验中取得了最高的任务成功率和最佳的综合评分。

A-MemGuard的核心贡献

研究团队首次提出了一个面向大语言模型智能体的主动防御框架。该框架重点解决了由上下文依赖引发的攻击问题,以及模型在运行中可能出现的错误强化循环。

同时,他们创新地将「共识验证」与「双重记忆」结构相结合,构建出一种协同防御机制,使智能体能够借助自身积累的经验,自主识别异常并从中学习。

在多项实验中,该框架在实现高水平安全防护的同时,也最大程度地维持了智能体原有的性能表现,展现出显著的实用价值与应用前景。

A-MemGuard的研究为构建更可靠、更安全的LLM智能体提供了一种有效的新机制,为未来智能体系统在现实世界中的部署奠定了重要的安全基础。

参考资料:
https://www.arxiv.org/abs/2510.02373


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652635088&amp;idx=2&amp;sn=d754bf8236b0bd45a09d68475c4b5831&amp;chksm=f0bb7841f0dab7740e401a8090194ecd02d42f63b816aaa389b878445064983b765278618709&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/83671/oZZ4ZK4PH9&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们