ToolsAi

CV君 2025-11-02 12:08 江苏

无需训练，即插即用，大幅提升多模态大模型推理效率！

最近，多模态大语言模型（MLLMs）的发展真是日新月异，但它们在处理图像时遇到的一个“甜蜜的烦恼”也越来越明显：输入的视觉信息太多了！大量的视觉令牌（visual tokens）不仅增加了计算负担，拖慢了推理速度，而且其中很多其实是冗余的。为了解决这个问题，来自电子科技大学和新加坡科技研究局（A*STAR）的研究者们提出了一种名为 SCOPE 的全新视觉令牌剪枝策略。

SCOPE，全称是 Saliency-Coverage Oriented token Pruning for Efficient MLLMs，意在通过一种更聪明的方式，筛选出对模型理解图像最关键、信息覆盖最全面的视觉令牌子集。不同于以往只关注“显著性”（saliency）的方法，SCOPE创新地引入了“覆盖率”（coverage）的概念，力求在剪枝的同时，最大程度地保留原始图像的语义完整性。

论文标题: SCOPE: Saliency-Coverage Oriented Token Pruning for Efficient Multimodel LLMs
作者: Jinhong Deng, Wen Li, Joey Tianyi Zhou, Yang He
机构: 电子科技大学；新加坡科技研究局 (A*STAR)
录用会议: NeurIPS 2025
论文地址: https://arxiv.org/abs/2510.24214
代码仓库: https://github.com/kinredon/SCOPE

为什么要兼顾显著性与覆盖率？

在多模态大模型中，一张图片会被编码成一系列视觉令牌。然而，并非所有令牌都同等重要。传统的剪枝方法通常只保留那些“最显眼”的令牌，比如根据注意力分数来判断哪些区域是焦点。

这种方法简单直接，但有个明显的缺陷：它可能会导致选出的令牌在语义上过于集中，丢失了背景、上下文等虽然不“显眼”但同样重要的信息。就像我们看一张合影，只盯着C位的人看，却忽略了周围的环境和朋友们，对照片的理解自然就不完整了。

上图就很好地展示了这个问题。仅基于显著性的方法（Top）选出的令牌高度集中，而SCOPE（Bottom）选出的令牌则更均匀地分布在整个场景中，语义显然更完整。此外，研究者还发现，当令牌数量较多时，很多“尾部”令牌的注意力分数会趋于扁平，很难再通过这点微小的差异来区分它们的重要性。

SCOPE：如何优雅地给视觉令牌“减负”？

为了解决上述问题，SCOPE 提出了一种迭代式的令牌选择算法，其核心思想是同时优化“显著性”和“覆盖率”。

整个流程如上图所示，在将视觉令牌送入大语言模型之前，SCOPE会先进行一次筛选，其内部的筛选逻辑是：

定义集合覆盖率 (Set-Coverage) ：首先，对于一个已经选定的令牌集合，SCOPE会计算这个集合的“覆盖范围”。这基于令牌之间的关系（比如相似性）来评估，一个好的令牌集合应该能“代表”原始图像中的大部分区域和概念。
定义令牌覆盖增益 (Token-Coverage Gain) ：对于每一个还没被选中的令牌，计算如果将它加入到已选集合中，能带来多大的“覆盖率增益”。这个指标衡量了该令牌能提供多少“新信息”。
融合显著性与覆盖率: 最关键的一步来了。SCOPE将每个候选令牌的显著性分数（saliency score）和它的覆盖率增益结合起来，形成一个最终的 SCOPE分数。这个分数可以通过一个超参数α来平衡两者之间的权重。
迭代选择: 每一轮，算法都会选择那个拥有最高SCOPE分数的令牌，并将其加入到最终的令牌子集中，直到数量达到预设的剪枝目标。

通过这种方式，SCOPE不仅会选择那些本身很重要的令牌（高显著性），也会倾向于选择那些能够填补当前已选集合语义空白的令牌（高覆盖率增益），从而实现两全其美。

从上图的θ-coverage对比中可以看出，SCOPE在覆盖率指标上明显优于其他剪枝方法。

实验效果如何？

SCOPE的性能表现非常亮眼。研究者在LLaVA-1.5和LLaVA-Next等多个主流MLLM上进行了广泛测试，并与多种现有的剪枝方法进行了对比。

在LLaVA-1.5 7B上的表现

从上表中可以看到，当仅保留192个令牌（较基线减少66.7%）时，所提出方法相对上界平均精度达99.5%，显著超越当前最优基线——FastV[7]（+10.0%）、SparseVLM[49]（+3.0%）与VisionZip[43]（+1.5%）；在极端压缩条件下（64令牌，减少88.9%），本方法仍保持原性能96.0%，远超VisionZip[43]（93.5%）和SparseVLM[49]（85.1%）。

值得关注的是，所提出方法在部分基准测试中甚至超越性能上界。例如当使用192令牌时，在POPE[22]和MMVet[45]上分别达到100.2%与104.5%的相对精度。这表明多模态大语言模型中的视觉令牌存在冗余，而本方法不仅能有效消除冗余，还可通过去除冗余信息的干扰提升性能。

在LLaVA-Next 7B上的表现

从上表中可以看到，在所有配置下均持续优于现有最优方案。具体而言，当仅保留640个令牌时，所提出方法相对性能上界的平均精度达98.9%；在极端压缩条件下（160令牌，减少94.4%），仍保持95.1%的原始性能，显著超越SparseVLM（86.9%）与VisionZip（92.5%）等基线。这些结果进一步验证了所提方法在不同多模态大语言模型架构间的通用有效性。

极端剪枝情况

在更极端的剪枝比例下（如只保留32或16个令牌），SCOPE的性能下降也比其他方法更为平缓，展现了其在极限压缩下的优越性。

效率分析

当然，剪枝的最终目的之一是为了提升效率。上表展示了所提出方法与基线剪枝方案PDrop在LLaVA-NeXT 7B模型上的效率表现。尽管将视觉令牌从2,880压缩至160（压缩比超18倍），所提出方法仍在POPE指标上保持强劲性能（81.3% vs 原模型86.4%），证明令牌选择策略能有效保留语义完整性。

相比之下，PDrop[41]出现显著性能下降（53.2%），这很可能源于其依赖基于显著性的剪枝机制，易忽略注意力较低但语义关键的区域。虽然本方法延迟略高于PDrop，但仍实现了相对全令牌基线的3.2倍加速。这表明以显著性-覆盖度为导向的剪枝策略不仅能够有效保持性能，在实际计算中也具备良好效率。