原创 让你更懂AI的 2025-10-12 17:11 北京
能力越强越好骗?
引言
近两年,统一多模态大模型(UMMs)的发展让人惊叹。它们不只会理解图文,还能在对话中生成图像、视频,甚至跨模态推理。一个模型“多面手”,似乎无所不能。
但能力越强,风险也随之而来。我们的研究首次发现,这类模型存在一个被忽视的安全隐患——生成与理解能力的“耦合漏洞”。
简单来说,攻击者可以先让模型生成一一些“暗藏玄机”的图片,再利用模型的理解功能吸收这些信息密度很大的图片,从而绕过安全机制以注入大量的对抗性信息。这一机制被我们命名为跨模态生成注入(CMGI)漏洞。
目前已有的攻击大多聚焦在文本大模型(LLMs)或多模态大模型(MLLMs),常见手段是通过改写提示词来绕过安全限制。
然而这种做法往往带来严重的语义偏移:改写后的提示不再完全等同于原始的恶意意图,导致攻击失真。而且,这些方法的攻击指令大多局限在单一模态上,忽略了 UMMs 独特的“生成–理解”耦合特性,因此难以触及我们揭示的这一全新漏洞。
为了揭示这一漏洞对于统一多模态大模型的影响,我们首次提出了时空驱动的因果上下文攻击方法 STaR-Attack(Spatio-Temporal and Narrative Reasoning Attack),它由三条设计线索构成:时空语义关联(spatio-temporal causality)、叙事结构(three-act narrative)与生成—理解耦合利用(CMGI exploitation。
直观上,STaR-Attack 不是简单改写一句话去绕过检测,而是把一个“恶意事件”放到一个看似无害的故事框架中,借助模型自身的生成与理解能力把隐含的核心信息“诱导”出来,从而绕开传统基于文本的防线。
论文标题:
STaR-Attack: A Spatio-Temporal and Narrative Reasoning Attack Framework for Unified Multimodal Understanding and Generation Models
论文链接:
https://arxiv.org/abs/2509.26473
方法
2.1 形式化CMGI漏洞
我们把攻击目标抽象为一个恶意事件 E,以及与之相关的恶意查询 Q,即攻击者想让模型回答或执行的“危险指令”。
关键观察是:统一多模态模型同时具备生成(把文本变成图像/场景)和理解(把图像与文本综合推理)的能力——当这两种能力耦合在一起时,模型能够在一次多轮交互中把大量隐含信息从生成端“注入”到理解端。我们称这种通过生成丰富视觉上下文然后由模型自我吸收的攻击路径为跨模态生成注入(CMGI)。
2.2 叙事化场景构造
为了把E隐藏在“故事”里,我们借用经典的三幕式叙事结构:铺垫(setup),高潮(climax,隐藏的恶意事件 E),结局(resolution)。STaR-Attack 的核心思想是:只向模型展示铺垫和结局,让模型在“读图 + 阅读历史对话”的过程中把中间的高潮推断出来。这样做有两个好处:
隐蔽性:直接描述事件往往会令安全机制直接拒绝,而前后两段场景可以设计得无害或含蓄,不容易触发检测。
诱导推理:UMMs 在跨模态推理时会结合时间与空间线索补全因果链,恰好利于把隐藏的事件恢复出来。
在叙事构造上,我们强调两个要点:一是保持与 Q 的潜在相关性:让故事有足够线索指向恶意意图;二是降低直接毒性特征:确保单独看任一场景都不明显有害,从而避免被安全机制检测到。
2.3 “猜题-回答”游戏
在完成叙事注入后,攻击的最后阶段采用一种选择性恢复方法:将原始恶意查询 Q 混入一组看似无关的“备选问题”里,要求模型基于先前的视觉/文本上下文挑出最相关的问题并回答。
其核心理念是:在候选集合中直接放入 Q,模型的选择行为就成了恢复原意的桥梁。如果模型把 Q 选出并回答,攻击即完成。
这个机制的好处在于它避免了语义改写带来的偏移风险:攻击没有通过改变恶意指令的表述去绕开检测,而是把原始意图作为候选项“藏起来”,借由图像与叙事线索诱发模型做出选择。
2.4 自适应难度机制
为了兼顾鲁棒性与隐蔽性,STaR-Attack 采用了自适应难度调整的原则:攻击过程不是一次性“把所有东西丢给模型”,而是根据模型在最后轮次的拒绝/回答情况,动态调整该次攻击中向模型施加的“选择负担”与干扰信息量。直观来说:
当模型在某轮对含糊提示仍然拒绝或给出安全回复时,攻击可以逐步改变上下文或候选集合的配置,使模型在下一轮更依赖历史视觉线索,而不是立刻触发防御。
反之,如果模型已经表现出高敏感性,攻击会降低侵扰强度,避免导致明显的安全触发。
这种动态调整可以显著提升在不同模型与不同防护策略下的成功稳定性,因为它不把攻击建成一次性“硬碰硬”的试探,而是把多轮交互变成逐步施压与隐蔽引导的过程。
结果
3.1 攻击成功率和语义一致性双重领先
我们在多个开源与闭源模型上测试,包括 Janus-Pro、BAGEL 以及 Gemini 系列。结果显示,STaR-Attack 的成功率(ASR)和相关性成功率(RASR)均大幅领先现有方法,最高能达到 93%。相比之下,传统方法要么容易被防御拦截,要么会偏离原始语义。
实验揭示了三个趋势:
1. UMMs 的独特脆弱性:一旦生成与理解能力耦合,攻击面被显著放大,这是传统单模态模型所没有的。
2. 动态与多轮的力量:单轮交互往往被安全机制拦截,而通过多轮叙事化的注入,模型在不知不觉中被引导进入隐含的恶意语境。动态难度机制则进一步提升了攻击的普适性。
3. 评估方式的重要性:仅仅看“攻击是否成功”是不够的,更要看成功是否真正触及了原始意图。这提醒研究者需要使用更严谨的指标来评估模型的鲁棒性。
结论
我们的研究是从科学研究的角度,揭示了统一多模态模型在安全性上的新风险。STaR-Attack 提供了一种系统化的方法,把这种风险量化并显性化,让社区能够正视并修复。
随着多模态大模型走向越来越多的应用场景,安全性问题将愈发关键。我们希望这项研究能成为一个警示:能力的突破必须伴随防御的提升,否则再强大的模型也可能因漏洞而失守。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·