原创 让你更懂AI的 2025-09-17 23:20 北京
从“眼花缭乱”到一针见血
你是否曾经在书架前寻找一本书,却因为密密麻麻的书脊而眼花缭乱?或者在超市货架前,面对琳琅满目的商品标签而一时找不到目标?其实,视觉语言模型(VLMs)也面临着同样的困扰。
最近,来自中科院计算所的研究团队发现了一个有趣的现象:视觉复杂度会让 AI 模型的注意力“走神”,就像人类在复杂场景中会分心一样。
他们提出的 CARVE(Contrastive Attention Refinement for Visual Enhancement)方法,通过对比注意力机制,帮助模型在视觉噪声中聚焦关键信息,在开源模型上实现了大幅的性能提升。
论文标题:
Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning
论文地址:
https://arxiv.org/pdf/2509.06461
发现:视觉模型也会“眼花缭乱”?
研究团队首先探索了一个基础问题:复杂的视觉信息是否会像影响人类一样,干扰 VLMs 的注意力机制,使其难以聚焦于任务相关区域?
1.1 注意力的演化规律
通过对 Qwen2.5-VL-3B-Instruct 模型在 TextVQA 数据集上的深入分析,研究团队发现了注意力分布的层次性演化规律:
如上图所示,注意力呈现出明显的渐进式细化过程:
浅层(Shallow layers):进行广泛的全局扫描,注意力分布相对均匀
中层(Middle layers):开始区域性定位,注意力逐渐收敛
深层(Deep layers):实现聚焦收敛,理想情况下应锁定任务相关区域
1.2 复杂度带来的“注意力困境”
然而,视觉复杂度严重影响了这一收敛过程:
简单场景(第1行):目标清晰、干扰项少,高注意力区域成功收窄并对齐任务相关区域
复杂场景(第2-3行):纹理丰富、颜色繁杂,即使到深层,注意力权重仍然分散
正如图中标注的 “Confused where to look”,这种注意力分散类似于人类面对拥挤货架时的犹豫不决,最终导致推理失败。
量化:视觉复杂度对注意力有怎样的影响?
为了定量地研究这一现象,研究团队将视觉复杂度分解为两个纹理和颜色维度,并建立了量化指标。
纹理复杂度:对于输入图像 ,纹理复杂度通过 Canny 边缘检测定义:
其中 是二值边缘图。值越高表示纹理越复杂。
颜色复杂度:通过 HSV 色彩空间中色相分布的 Shannon 熵来衡量:
其中 是色相值为 的像素比例, 为色相区间数。
上图展示了两个样本的可视化复杂度分析:第一行显示高复杂度(密集边缘、多样色彩分布),第二行显示低复杂度(稀疏边缘、集中色相值)。
注意力熵:为了量化注意力分散程度,本文采用 Shannon 熵作为度量:
其中:
是层 、时间步 的注意力图
是视觉 token 数量
是考虑的层范围
实验结果显示,纹理复杂度和颜色复杂度都与注意力熵呈现强正线性关系。这种单调趋势表明:复杂的视觉特征导致 VLMs 产生分散的注意力模式。
影响:分散的注意力如何损害性能?
图(a)揭示了注意力熵与准确率之间的强负相关关系:当注意力熵从 5.1 增加到 6.8 时,性能从约 76%下降到 65%。这证实了注意力分散损害视觉推理能力。
图(b)展示了两个重要特征:
1. 熵单调递减:注意力熵随层深度单调下降,与图 1 的观察一致
2. 方差逐渐增大:95% 置信区间随深度逐渐扩大,表明样本间差异性增强
这意味着:
对于清晰目标的样本,深层实现高度集中的注意力
对于噪声样本,即使在深层也保持分散的注意力模式
初步实验:通过手动渐进式掩盖视觉噪声
在发现视觉复杂度影响注意力进而损害性能后,一个自然的问题是:如果我们能够移除视觉噪声,是否能提升模型性能?
基于这一想法,研究团队在 TextVQA 数据集上进行了初步实验:首先应用渐进式掩码遮挡背景区域,然后裁剪仅保留任务相关区域,最后自适应放大到原始图像尺寸。
图中展示了两个代表性样本,在这两个案例中,杂乱的视觉环境最初都导致了错误预测。横轴表示掩码比例,纵轴显示候选 token 的对数概率(Probability)。
观察结果显示:
在两个样本中,错误 token 的概率最初都占主导地位
随着掩码比例的增加,正确 token 的概率逐渐上升
在掩码比例分别约为 0.02 和0.65 时,正确 token 概率超过了错误 token 概率
这些结果提供了初步验证:掩盖视觉噪声能够提高正确 token 的概率。
理论基础:注意力分解与语义提取
在上一章节我们证明了使用掩盖视觉噪声能够提高 VLM 的性能,于是作者团队考虑如何将视觉噪声掩盖自动化。为此,研究团队提出了基于对比注意力的理论框架。
5.1 注意力分解
定义1(注意力分解):首先,假设 VLMs 的注意力分布受图像固有视觉噪声和任务相关语义信号的影响,可分解为:
其中:
:图像固有的视觉噪声分量
:任务相关的语义信号分量
:Hadamard 积(逐元素乘积)
当使用通用指令 (如“描述这张图片”)时,由于缺乏特定任务来引入语义信息,语义信号函数退化为均匀分布:
5.2 语义提取优化
定义2(基于注意力分解的语义提取):为了从 中提取语义信号函数,定义估计的语义注意力 为以下优化问题的解:
目标函数基于分解构造:
5.3 闭式解
定理3(语义提取的闭式解):将关系式 和 代入,得到:
求解一阶最优性条件,得到闭式解:
这个公式表明,当视觉噪声占主导时(),归一化能有效抑制 的影响,近似得到语义信号 。
CARVE:通过对比注意力降低视觉噪声
CARVE 的核心思想是通过对比注意力机制来实现视觉增强。整体上需要三次推理(inference)过程来完成整个流程。
对于前两次推理,CARVE 分别使用任务特定问题和通用指令来获取注意力图。
第一次推理使用原始图像 和具体问题 ,通过注意力提取函数 获得任务特定注意力集合:
第二次推理使用相同的图像但配以通用指令 (如 “Write a general description of the image”),获得通用注意力集合:
得到两次推理产生的注意力图之后,CARVE 进行注意力对比。对所有层 和时间步 ,应用对比公式:
这一步骤通过归一化操作有效地抑制了视觉噪声的影响,提取出任务相关的语义信号。
接下来进行注意力图融合。由于不同层和时间步捕获互补信息,CARVE 通过加权聚合进行融合:
其中时间步权重 ,赋予后期 token 更大权重,因为它们包含更丰富的上下文信息。 函数将 token 维度的注意力重塑为空间维度。
融合后的注意力图 用于生成掩码。首先计算阈值 ,保留 top-p 百分位的像素。然后通过连通区域分析,选择累积注意力分数最高的 K 个区域:
生成掩码后,通过视觉提取函数 对原始图像进行处理:
函数 执行掩码、裁剪和缩放操作,移除视觉噪声并放大任务相关区域。
最后进行第三次推理,使用增强后的图像和原始问题生成最终答案:
值得注意的是,虽然 CARVE 需要三次推理,但前两次推理只需要提取特定层(如 20-25 层)的注意力图,可以在获得所需注意力后提前终止,无需完成全部层的前向传播。
此外,通用注意力图 只依赖于图像而与具体问题无关,对于同一图像的多个问题可以缓存重用。这些优化使得 CARVE 在实际应用中的计算开销保持在可接受范围内。
结果
7.1 整体性能表现
研究团队在四个数据集上测试了 CARVE 的效果:
早期模型(如 LLaVA 系列)展现出更大的提升幅度,这表明能力有限的模型更容易受视觉复杂度干扰,因此从对比注意力引导的聚焦机制中获益更多。
7.2 时间步选择的影响
实验比较了三种时间步配置:
:使用初始生成 token 的注意力
:使用最终 token 的注意力
:所有 token 的加权融合
结果显示性能层次: 。
这是因为后期 token 通过访问完整的前序序列编码了更丰富的上下文信息,其注意力图能更准确地定位目标对象。
7.3 层选择策略分析
层选择实验揭示了清晰的性能排序:
1. [20,25] 层融合:最佳性能
2. [15,20] 层融合:次优
3. 单层 25:中等
4. 单层 20:较低
5. [10,15] 层融合:最差
以 LLaVA-1.5-7B 在 TextVQA 上的表现为例:
[20,25] 层:21.76% 提升
[15,20] 层:17.99% 提升
[10,15] 层:仅 2.93% 提升
多层融合优于单层的原因在于捕获互补信息从而具有更强的鲁棒性,而选择单层的注意力图则会有较强的随机性。
7.4 与其他方法的对比
CARVE 显著优于所有基线方法:
外部工具(SAM、YOLO、CLIP)缺乏问题-图像上下文感知
ViCrop 虽能减少视觉噪声,但缺乏像素级噪声掩码
CARVE 在保持实用计算开销的同时达到最高准确率
意义与总结
此前的研究忽略了视觉语言模型的原生能力,当前方法要么需要额外训练、依赖外部分割工具,要么只能在粗粒度层面操作。而 CARVE 证明了通过对比通用查询和任务特定查询所生成的注意力图,就能在像素层面将视觉信号分解为语义信号和视觉噪声分量,为提高视觉语言模型的能力提供了新的思路。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·