CV君 2025-09-27 11:14 江苏
一张图片,就能“冻结”一个机器人?
今天,来聊一个让人细思极恐的话题:当机器人的“数字大脑”被一张图片“冻结”,会发生什么?
来自复旦大学、上海人工智能实验室和Sea AI Lab的研究者们,最近就揭示了这样一个严重的安全漏洞。他们提出了一种名为 FreezeVLA 的新型对抗攻击方法,能够让最先进的机器人模型“视而不见、听而不闻”,在关键时刻拒绝执行任何指令。
论文标题: FreezeVLA: Action-Freezing Attacks against Vision-Language-Action Models
机器人“大脑”的阿喀琉斯之踵
近年来,视觉-语言-动作(Vision-Language-Action, VLA)大模型发展迅猛,它们就像机器人的“大脑”,能够理解语言指令(比如“把桌上的苹果递给我”),并结合摄像头看到的场景,控制机械臂完成各种复杂任务。从谷歌的RT-2到各种开源模型,VLA正在将机器人带入一个更智能的时代。
然而,能力越强,责任越大,安全问题也越发凸显。之前的研究大多关注如何让机器人“做错事”,比如把苹果错当成香蕉。但这项工作提出了一个更隐蔽、也可能更危险的问题:如果机器人干脆“罢工”了呢?
研究者们将这种攻击称为“动作冻结攻击”(Action-Freezing Attack)。攻击者只需要向机器人展示一张经过特殊处理的(人眼几乎看不出异常)图片,机器人的VLA模型就会陷入一种“瘫痪”状态,无论你接下来给它下达什么指令,它都毫无反应。想象一下,在自动化产线上,或者更严肃的医疗手术场景中,机器人突然“宕机”,后果不堪设想。
FreezeVLA:如何“一招制敌”?
为了系统性地研究这种漏洞,作者提出了FreezeVLA攻击框架。这个名字很直白,就是“冻结VLA模型”的意思。其核心是一种精巧的“最小-最大双层优化”(Min-Max Bi-level Optimization)策略。
这个过程可以通俗地理解为一场“左右互搏”的自我修炼:
内部“最大化”——寻找最难被“冻结”的指令:首先,攻击算法会“集思广益”,寻找最不容易让机器人“罢工”的指令。比如,原始指令是“把胡萝卜放到秤上”,算法会通过梯度分析和同义词替换,生成一堆“加强版”指令,比如“把胡萝卜放到称重机上”。这个过程的目标是找到那些语义上最鲁棒、最能抵抗“冻结”攻击的“硬核指令”(hard prompts)。
外部“最小化”——生成能攻克“硬核指令”的图像:接下来,算法会针对上面找到的这组“硬核指令”,去优化一张对抗图像。这张图像的目标,就是最大化机器人看到它之后执行“冻结”动作的概率。因为这张图连最难攻克的指令都能“冻结”,那么对于普通指令,自然更不在话下。
通过这种方式,FreezeVLA能够生成具有强大“跨指令泛化能力”的对抗图像。这意味着,一张图就能“通杀”各种不同的语言指令,稳定地让机器人陷入瘫痪。
实验结果:攻击效果惊人
研究者在三个当前最先进的VLA模型(SpatialVLA, OpenVLA, π0)和四个机器人操作基准(LIBERO)上验证了FreezeVLA的威力。
结果显示,FreezeVLA取得了平均高达 76.2% 的攻击成功率,远超之前的攻击方法。在某些模型和任务上,成功率甚至超过了 95% !
研究者还对比了不同的攻击方法,下表清晰地展示了FreezeVLA在技术上的先进性。
消融研究
为了探究不同因素对攻击成功率的影响,作者进行了一系列有趣的消融实验。
参考指令数量的影响:实验发现,用于生成对抗图像的“硬核指令”数量越多,攻击的成功率越高,但大约在10个指令之后,收益会逐渐减小。这说明一个精心设计的、小而精的指令集就能达到很好的攻击效果。
扰动大小的影响:对抗扰动越大(即图片修改的幅度越大),攻击成功率也越高。在扰动预算达到8/255时,攻击成功率已接近饱和,达到95%以上。
指令的演变:下表生动地展示了在优化过程中,一个普通的指令是如何一步步变得“刁钻”和“反直觉”的,从而增强了攻击的鲁棒性。
优化步数的影响:热力图显示,图像和指令的优化步数也对攻击效果有显著影响,需要在计算成本和攻击成功率之间找到一个平衡点。
最后,作者还对比了不同VLA模型的架构差异,这有助于理解为什么某些模型更容易受到攻击。
总结
CV君认为,这项工作具有非常重要的警示意义。它揭示了当前VLA模型在安全鲁棒性上的一个巨大盲区。当将AI赋予物理实体,让它在真实世界中行动时,其安全性就绝不仅仅是算法层面的问题,而是直接关系到物理世界安全的核心议题。FreezeVLA的发现,无疑为整个机器人和AI安全领域敲响了警钟。作者将开源代码,鼓励更多研究者关注并参与到防御这类攻击的研究中来。
你觉得未来该如何防御这类针对机器人的“认知”攻击?欢迎来评论区聊聊!