动态列表

  • 永别了,人类冠军!AI横扫天文奥赛,GPT-5得分远超金牌选手2.7倍
  • 濒死3次,医生判他死刑!宾大教授奇迹自救,誓用AI攻克14000种绝症
  • 告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星
  • Bug变奖励:AI的小失误,揭开创造力真相!
  • 复旦张军平:人类是硅基生命过渡体?
  • Meta Ray-Ban Display 首发体验合集:悬浮在现实中的一张便签
  • OriginOS 6 深度体验:当操作系统回归「体验为王」
  • Mamba-3惊现ICLR 2026投稿:三重升级打满“推理优先”范式
  • NeurIPS 2025 | Latent Harmony:潜空间和谐共生,实现UHD图像修复新SOTA
  • NeurIPS 2025 | NTN-Diff:一石二鸟,利用空文本与频率感知破解图像修复难题
  • 马斯克脑机公司展示脑机控制机械臂;三星中国发布折叠屏新机,16999 元起售;滴滴自动驾驶获 20 亿元融资 | 极客早知道
  • 77岁「AI教父」Hinton:AI早有意识!我们打造的智能,可能终结人类文明
  • 全球首款1.8nm芯片亮相!华人CEO打响关键一战,英特尔杀回来了
  • 清华万引教授:万倍加速催化剂设计,AI突破DFT瓶颈!
  • 陶哲轩亲测!GPT-5 Pro 40分钟破解3年难题,登顶最难数学考试
  • 刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人
  • Attention is NOT All You Need:让“深度”重新流入时间,而非堆叠在参数之上
  • NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!
  • OpenAI 卖货做视频,Anthropic 专心写代码,谁能赢?
  • 一颗 1.8 纳米芯片,成了英特尔「最后的救赎」
  • 这款 AI 调研神器,让我一键产生 1000 个「种子用户」|AI 上新
  • 都用 GPT,为什么你没法中「百万大奖」?
  • ChatGPT 变身 App Store,「对话即应用」时代到了
  • IROS 2025 Oral | RAG-6Dpose:三大创新模块,利用 CAD 作为知识库进行检索增强 6D 姿态估计
  • IROS 2025 | 速度飙升24倍!巴黎萨克雷大学等提出HARP-NeXt:实时3D激光雷达分割新标杆
  • 「丐中丐」版特斯拉来了,Model 3/Y降价超3.5万元
  • 高德扫街榜的 23 天奇袭
  • 张一鸣近年来首次公开亮相;微软上海开始新一轮裁员,补偿N+4;罗永浩锐评 iPhone 17
  • GPT-5王者归来?奥特曼称AI已跨科学门槛,三大学科正迎来实质性突破
  • 老黄押宝「美版DeepSeek」!谷歌天才叛将创业,一夜吸金20亿美元
  • 任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码
  • 13万被引!ImageNet作者苏昊或将加盟复旦
  • 250份文档投毒,一举攻陷万亿LLM!Anthropic新作紧急预警
  • 和两位 CEO 聊 Sora: 应用层爆发的里程碑事件,创业者的机会来了
  • 新一代短剧人,涌向郑州「淘金」
  • 社交媒体的黄金时代,结束了
  • U-Bench:U-Net十年“大乱斗”终结者,100个变体、28个数据集的终极对决
  • 东京大学、牛津大学等联合发布VLA万字综述:机器人迈向通用智能的全栈指南
  • DeepSeek苦练1T,清华只用5B?InfLLM-V2把稀疏注意力玩明白了
  • EMNLP 2025 | 拨云见日:知识电路分析揭示大语言模型“知识遮蔽”幻觉之源
  • 北京/上海内推 | 阶跃星辰招聘RL for AIGC方向算法研究员/实习生
  • Sora 下载量破 100 万次;国庆中秋假期国内游总花费超过 8000 亿元;智驾多位核心高管离职,蔚来回应|极客早知道
  • 谷歌杀入诺奖神殿,两年三冠五得主!世界TOP3重现贝尔实验室神话
  • OpenAI×英伟达,可能创造了人类史上最大万亿级泡沫
  • H-1B正在筛掉「下一个英伟达」?
  • 全球AI视频大战升级!「中国版Sora」Vidu Q2参考生月底发布,能力对标Sora 2
  • 第二代InfLLM开源,同尺寸快三倍!零参数,可训练稀疏注意力
  • 腾讯推出TRM:让大模型像人类一样批判性思考,从文本依赖到事实正确
  • 马毅团队重磅发布新书:从MCR²到白盒Transformer,重构深度学习的第一性原理
  • 稳住训练、跑出泛化:STAGE重写「自回归图像生成」的强化学习范式
  • Diffusion²来袭:威斯康星大学&华盛顿大学等提出双扩散模型,“回溯历史-预测未来”,破解自动驾驶“鬼探头”难题
  • 北大等提出TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%
  • 把我的第一次日本旅行,完全交给 AI 是什么体验?
  • 英伟达将投资马斯克的 xAI;低价版Model 3/Y 「阉割」智驾功能;微信推出批量撤回信息功能
  • 刚刚,清华物理传奇Yao Shunyu,跳槽谷歌DeepMind!
  • 赚100亿,烧1万亿!OpenAI算力神话:英伟达撒钱、AMD送股、全硅谷陪跑
  • 英伟达垄断AI算力局面或将被颠覆!AMD赌上身家发起决斗,奥特曼窃喜
  • 刚刚,2025年诺贝尔化学奖揭晓!偷溜进图书馆的少年,改变了世界
  • 小心,AI依赖会让你变笨!吴恩达等专家教你如何正确使用AI
  • 无RLHF,7M小模型反超DeepSeek-R1:三星团队用递归思考取代规模堆叠
  • IROS 2025 | Waymo与谷歌DeepMind联手提出Drive&Gen:用生成视频评估自动驾驶,虚拟测试更逼真
  • 告别深度传感器!慕尼黑工业大学提出DropD-SLAM:仅用单目RGB即可实现RGB-D级的SLAM精度
  • 陶哲轩联手ChatGPT!10分钟击碎30年「无理」难题,数学圈炸裂
  • 刚刚,奥特曼官宣ChatGPT「终极OS入口」!8分钟速搭智能体,8亿人狂欢
  • 顿悟不是玄学!港科大清华等联手:撕开推理黑箱,RL让AI像人思考
  • 4万亿帝国接班人浮出水面!苹果不需要另一个库克
  • 刚刚,2025年诺贝尔物理学奖揭晓!量子计算成最大赢家
  • 告别梯度!Evolution Strategies全参微调挑战PPO/GRPO:更稳、更省、更好复现
  • NeurIPS 2025 | 北邮用“图+文”把人物检索拉满:自动合成数据 × 细粒度特征对齐
  • TPAMI 2025 | 电子科大等提出EEMFlow:从事件相机学习高效Meshflow与光流,速度提升30倍
  • MICCAI 2025 | 莱斯大学提出MetaSeg:参数减少90%,元学习隐式网络重塑医学图像分割
  • OpenAI 与 AMD 签百亿美元协议,后者股价暴涨;特斯拉廉价 Model Y 将于 7 日发布;知名旅行、听歌应用入住 ChatGPT
  • 乔纳森下一个iPhone神话,要黄了?OpenAI秘密AI硬件深陷三重困境
  • 3年手搓ChatGPT!剑桥天才少年在Minecraft游戏中爆火回归
  • 一举击败Claude Code!微软提出代码生成黑科技:一键直出36K行代码
  • 刚刚,2025年诺贝尔生理学或医学奖揭晓!三位得主点燃器官移植希望
  • OpenAI入股AMD,股价暴涨35%!奥特曼左手黄仁勋,右手苏姿丰,通吃全球算力
  • 自进化Agent的第三种可能:隐式记忆,不动模型参数,胜过GRPO
  • 真实数据、全链路、可复核:GenoMAS打造更可信的基因分析智能体
  • NeurIPS 2025 | 慕尼黑工业大学提出SIM(3)等变网络:让3D形状补全告别“姿态偏见”,实现跨域泛化
  • NeurIPS 2025 | 高通提出GCL:无需额外数据,通用多模态检索迎来“一统江湖”新范式
  • 今日迎本世纪「最晚中秋月圆」;雷军:小米17 五天销量破百万;ChatGPT 或添私信聊天功能

93%成功率!从“改提示”到“写剧情”:STaR-Attack用叙事推理攻破大模型防线

原创 让你更懂AI的 2025-10-12 17:11 北京

能力越强越好骗?

引言

近两年,统一多模态大模型(UMMs)的发展让人惊叹。它们不只会理解图文,还能在对话中生成图像、视频,甚至跨模态推理。一个模型“多面手”,似乎无所不能。

但能力越强,风险也随之而来。我们的研究首次发现,这类模型存在一个被忽视的安全隐患——生成与理解能力的“耦合漏洞”

简单来说,攻击者可以先让模型生成一一些“暗藏玄机”的图片,再利用模型的理解功能吸收这些信息密度很大的图片,从而绕过安全机制以注入大量的对抗性信息。这一机制被我们命名为跨模态生成注入(CMGI)漏洞

目前已有的攻击大多聚焦在文本大模型(LLMs)或多模态大模型(MLLMs),常见手段是通过改写提示词来绕过安全限制

然而这种做法往往带来严重的语义偏移:改写后的提示不再完全等同于原始的恶意意图,导致攻击失真。而且,这些方法的攻击指令大多局限在单一模态上,忽略了 UMMs 独特的“生成–理解”耦合特性,因此难以触及我们揭示的这一全新漏洞。

为了揭示这一漏洞对于统一多模态大模型的影响,我们首次提出了时空驱动的因果上下文攻击方法 STaR-Attack(Spatio-Temporal and Narrative Reasoning Attack),它由三条设计线索构成:时空语义关联(spatio-temporal causality)叙事结构(three-act narrative)生成—理解耦合利用(CMGI exploitation

直观上,STaR-Attack 不是简单改写一句话去绕过检测,而是把一个“恶意事件”放到一个看似无害的故事框架中,借助模型自身的生成与理解能力把隐含的核心信息“诱导”出来,从而绕开传统基于文本的防线。

论文标题:

STaR-Attack: A Spatio-Temporal and Narrative Reasoning Attack Framework for Unified Multimodal Understanding and Generation Models

论文链接:

https://arxiv.org/abs/2509.26473

方法

2.1 形式化CMGI漏洞

我们把攻击目标抽象为一个恶意事件 E,以及与之相关的恶意查询 Q,即攻击者想让模型回答或执行的“危险指令”。

关键观察是:统一多模态模型同时具备生成(把文本变成图像/场景)和理解(把图像与文本综合推理)的能力——当这两种能力耦合在一起时,模型能够在一次多轮交互中把大量隐含信息从生成端“注入”到理解端。我们称这种通过生成丰富视觉上下文然后由模型自我吸收的攻击路径为跨模态生成注入(CMGI)

2.2 叙事化场景构造

为了把E隐藏在“故事”里,我们借用经典的三幕式叙事结构:铺垫(setup),高潮(climax,隐藏的恶意事件 E),结局(resolution)。STaR-Attack 的核心思想是:只向模型展示铺垫和结局,让模型在“读图 + 阅读历史对话”的过程中把中间的高潮推断出来。这样做有两个好处:

  • 隐蔽性:直接描述事件往往会令安全机制直接拒绝,而前后两段场景可以设计得无害或含蓄,不容易触发检测。

  • 诱导推理:UMMs 在跨模态推理时会结合时间与空间线索补全因果链,恰好利于把隐藏的事件恢复出来。

在叙事构造上,我们强调两个要点:一是保持与 Q 的潜在相关性:让故事有足够线索指向恶意意图;二是降低直接毒性特征:确保单独看任一场景都不明显有害,从而避免被安全机制检测到。

2.3 “猜题-回答”游戏

在完成叙事注入后,攻击的最后阶段采用一种选择性恢复方法:将原始恶意查询 Q 混入一组看似无关的“备选问题”里,要求模型基于先前的视觉/文本上下文挑出最相关的问题并回答。

其核心理念是:在候选集合中直接放入 Q,模型的选择行为就成了恢复原意的桥梁。如果模型把 Q 选出并回答,攻击即完成。

这个机制的好处在于它避免了语义改写带来的偏移风险:攻击没有通过改变恶意指令的表述去绕开检测,而是把原始意图作为候选项“藏起来”,借由图像与叙事线索诱发模型做出选择。

2.4 自适应难度机制

为了兼顾鲁棒性与隐蔽性,STaR-Attack 采用了自适应难度调整的原则:攻击过程不是一次性“把所有东西丢给模型”,而是根据模型在最后轮次的拒绝/回答情况,动态调整该次攻击中向模型施加的“选择负担”与干扰信息量。直观来说:

  • 当模型在某轮对含糊提示仍然拒绝或给出安全回复时,攻击可以逐步改变上下文或候选集合的配置,使模型在下一轮更依赖历史视觉线索,而不是立刻触发防御。

  • 反之,如果模型已经表现出高敏感性,攻击会降低侵扰强度,避免导致明显的安全触发。

这种动态调整可以显著提升在不同模型与不同防护策略下的成功稳定性,因为它不把攻击建成一次性“硬碰硬”的试探,而是把多轮交互变成逐步施压与隐蔽引导的过程。

结果

3.1 攻击成功率和语义一致性双重领先

我们在多个开源与闭源模型上测试,包括 Janus-Pro、BAGEL 以及 Gemini 系列。结果显示,STaR-Attack 的成功率(ASR)和相关性成功率(RASR)均大幅领先现有方法,最高能达到 93%。相比之下,传统方法要么容易被防御拦截,要么会偏离原始语义。

实验揭示了三个趋势:

1. UMMs 的独特脆弱性:一旦生成与理解能力耦合,攻击面被显著放大,这是传统单模态模型所没有的。

2. 动态与多轮的力量:单轮交互往往被安全机制拦截,而通过多轮叙事化的注入,模型在不知不觉中被引导进入隐含的恶意语境。动态难度机制则进一步提升了攻击的普适性。

3. 评估方式的重要性:仅仅看“攻击是否成功”是不够的,更要看成功是否真正触及了原始意图。这提醒研究者需要使用更严谨的指标来评估模型的鲁棒性。

结论

我们的研究是从科学研究的角度,揭示了统一多模态模型在安全性上的新风险。STaR-Attack 提供了一种系统化的方法,把这种风险量化并显性化,让社区能够正视并修复

随着多模态大模型走向越来越多的应用场景,安全性问题将愈发关键。我们希望这项研究能成为一个警示:能力的突破必须伴随防御的提升,否则再强大的模型也可能因漏洞而失守。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们