CV君 2025-10-31 16:38 江苏
显著提升弱监督学习中目标区域的覆盖度和边界准确性。
今天想跟大家聊一篇非常有意思的文章,来自谢菲尔德大学的研究者们提出了一种新的激活图生成方法——Region-CAM。对于做弱监督学习的朋友们来说,类激活图(Class Activation Mapping, CAM)肯定不陌生,它能告诉我们模型在做决策时到底“看”了图像的哪个区域。但这老方法有个痛点:它往往只关注目标最“扎眼”的一小部分,生成的激活区域既不完整,边界也对不齐,这对于需要像素级精度的下游任务,比如弱监督语义分割(WSSS),简直是“硬伤”。
Region-CAM的出现,就是为了解决这个问题。它通过一种全新的思路,让激活图既能覆盖更完整的目标区域,又能与目标的真实边界严丝合缝。听起来是不是很棒?让我们深入看看它是怎么做到的。
论文标题: Region-CAM: Towards Accurate Object Regions in Class Activation Maps for Weakly Supervised Learning Tasks
作者: Qingdong Cai, Charith Abhayaratne
机构: 谢菲尔德大学
研究背景
在弱监督学习领域,我们通常只有图像级别的标签(比如“这张图里有只猫”),却希望模型能学会更复杂的任务,比如目标定位或者语义分割(标出猫在图中的所有像素)。CAM及其变体(如Grad-CAM, Grad-CAM++)是实现这一目标的关键技术。它们通过分析模型的梯度和特征,生成热力图来高亮与特定类别相关的图像区域。
然而,正如前面提到的,传统CAM方法存在一个普遍的“视野狭窄”问题。为了分类,模型只要找到目标最独特的特征就行了(比如猫的脸),没必要去关注整只猫。这就导致生成的激活图往往只是零散的“斑块”,而不是一个完整的对象轮廓。下面这张图就非常直观地展示了不同方法生成的激活图质量差异。
可以看到,相较于CAM、Grad-CAM和LayerCAM,Region-CAM生成的激活图明显更完整,轮廓也更清晰,几乎完美地覆盖了整个目标物体,为后续的分割任务打下了坚实的基础。
Region-CAM的核心方法
那么,Region-CAM是如何实现这种“全局视野”和“精准描边”的呢?作者摒弃了传统CAM那种单纯对网络特征进行加权的思路,提出了一种两步走的新策略:语义信息图提取(Semantic Information Maps, SIMs)和语义信息传播(Semantic Information Propagation, SIP)。
整个框架如下图所示:
语义信息图 (SIMs)
作者认为,网络的不同层级包含了不同尺度的语义信息。深层网络(靠近输出端)的特征感受野大,能准确捕捉到目标的类别信息,但空间分辨率低,细节模糊。相反,浅层网络(靠近输入端)保留了丰富的空间细节和边界信息,但语义信息较弱。Region-CAM的核心思想就是要把这些不同层级的优势结合起来。
它首先从模型的多个阶段(从深到浅)提取SIMs。这些SIMs是通过网络梯度计算得出的,能够表示出每个空间位置与目标类别的相关性强度。下图展示了从不同层级提取的SIMs,红色区域表示与目标语义相关性强,蓝色则表示弱。可以发现,深层(如block_5)能定位出核心区域,而浅层则包含了更丰富的轮廓信息。
语义信息传播 (SIP)
提取出SIMs后,如何将这些信息整合成一张高质量的激活图呢?这里就轮到SIP登场了。SIP的灵感来源于一个朴素的观察:一个物体内部的像素,在颜色、纹理上通常是相似的。因此,如果一个像素点被SIMs证明属于目标,那么它周围的相似像素点也很可能属于同一个目标。
具体来说,Region-CAM会利用超像素(Superpixels)算法将图像分割成许多个小的、同质的区域。然后,它将之前融合了多层信息的SIMs作为“种子”,将强语义信息在超像素区域内进行传播和平均。这样一来,最初可能只在目标核心区域有高响应的激活值,就被“扩散”到了整个目标所在的超像素区域,从而形成了一个完整且边界清晰的激活图。
作者还通过消融实验证明了信息传播的有效性,以及融合不同层级信息的必要性。从下表中可以看到,随着融合的层级从深到浅(block_4 -> block_1),分割种子的mIoU持续提升,证明了浅层信息对于边界精确化的重要作用。
惊艳的实验结果
Region-CAM的效果到底有多好?“无图无真相”,直接上数据。
弱监督语义分割 (WSSS)
在WSSS任务中,通常先用CAM方法生成伪标签(也叫分割种子),再用这些伪标签去训练一个真正的分割模型。伪标签的质量直接决定了最终分割模型的性能上限。
在PASCAL VOC 2012数据集上,使用ResNet-38作为基础模型,Region-CAM生成的分割种子取得了 60.12% 的mIoU,相比原始CAM的46.51%,足足提升了 13.61%。在验证集上,也取得了 13.13% 的提升。在更具挑战性的MS COCO数据集上,提升幅度更是达到了惊人的 16.23%。
下表将Region-CAM与其他SOTA方法在不同基础模型上进行了对比,可以看到Region-CAM在各种设置下都表现出了优越性。
下图更直观地展示了Region-CAM生成的伪标签质量,无论是在主体完整性还是边界细节上,都远超其他方法。
弱监督目标定位 (WSOL)
在目标定位任务上,Region-CAM同样表现出色。在ILSVRC2012验证集上,Region-CAM的Top-1定位准确率(Loc1)达到了 51.7%,比专门为定位任务设计的LayerCAM还要高出 4.5%。
从下面的可视化结果可以看出,Region-CAM生成的预测框(红色)与真实框(白色)的重合度非常高。
总结
CV君认为,Region-CAM的思路非常巧妙,它没有陷入现有CAM方法“如何更好地加权特征”的怪圈,而是回归本源,思考“一张好的激活图应该具备什么要素”,并创造性地提出了“提取+传播”的范式,在多个任务上都取得了显著的成功,为弱监督学习领域提供了一个强大而通用的新工具。
你觉得这个技术未来会用在哪些场景?一起来聊聊吧!