动态列表

  • 港中文&港科大等提出FullPart:让3D部件生成达到全分辨率精度
  • 港科大(广州)等联合发布多模态空间推理综述:为大模型画下空间理解的未来蓝图
  • ReDiff:突破并行生成瓶颈,多模态扩散模型生成质量与效率双提升
  • 英伟达开源ChronoEdit,让P图学会物理常识,时序推理颠覆图像编辑!
  • 天津大学与快手联手提出GRAG:仅需4行代码,实现图像编辑的“丝滑”微调
  • IROS 2025 | 大连理工等提出STG-Avatar:25分钟训练,单目视频实时生成高保真数字人
  • 普林斯顿大学联手谷歌DeepMind,BOB让少样本细粒度分类精度飙升7.4%
  • 中科院SNELLA:视觉模型微调新范式,性能超越SOTA,内存占用降低近40%
  • 美团开源LongCat-Video:136亿参数长视频生成,分钟级推理720p
  • 看似万能的 AI,其实比你想的更脆弱和邪恶
  • 重建超越RAE,还能做编辑!北大&通义提出UniLIP: 自蒸馏训练助力CLIP大一统
  • 世界模型是否需要显式的 3D?UT Austin 新作 PE-Field 给出答案
  • Feed-Forward 3D综述:三维视觉进入“一步到位”时代
  • CUPID:单图秒速重建3D,港大提出姿态引导新范式
  • 每周100万人与ChatGPT聊自杀;美团推全国骑手社保补贴;高通发AI芯片,股价暴涨20%
  • 美国大学排名出炉:哥大断崖式下滑,MIT稳居CS榜第一!
  • 开源即登榜!登顶全球前十AI编程智能体,UCL初创团队开源Prometheus
  • 奥特曼考虑给ChatGPT加广告了!用8亿用户,救万亿债务
  • VaseVQA:考古领域实现专家级,诊断+补弱RL框架
  • 弑母分尸案震惊世界,AI伪造语音骗过警察!
  • 一把吉他卖出 10 亿后,LiberLive 选择自我革命
  • 仅仅是 AI,并不能让硬件更「智慧」,更重要的其实是这个
  • 北京/上海/杭州内推 | 蚂蚁集团保险大模型算法团队招聘大模型算法专家(P6-P7)
  • 多人物也能“认得准”!阿里开源Identity-GRPO,刷新视频生成一致性上限
  • RL记得更牢,SFT更健忘?普林斯顿陈丹琦团队改写后训练认知
  • 首个面向大模型的形式化数学竞赛正式启动:推动AI数学推理迈向可验证新高度
  • ICCV'25|开源AI3D数据集Objaverse++:更少的数据,却有更好的生成效果
  • 川大等提出LG-CD:一句话精准锁定遥感影像变化,F1分数高达91.83%
  • “压缩不减智”!EPIC让多模态大模型以更少 Token 跑得更快、更稳|NeurIPS 2025
  • ​一个对话助理,如何盘活整个「夸克宇宙」?
  • 马斯克 xAI 上新款「虚拟女友」;传小米 17 Air 明年上;996 成美国创业者美德
  • AI黑化如恶魔附体!LARGO攻心三步,潜意识种子瞬间开花 | NeurIPS 2025
  • 可攻可防,越狱成功率近90%!六大主流模型全中招 | EMNLP'25
  • 硅谷的「十万大裁员」:Meta按代码量裁员
  • 超94%类别第一!3D点云异常检测与修复新SOTA | ICCV'25
  • AI人格分裂实锤!30万道送命题,撕开OpenAI、谷歌「遮羞布」
  • 思而不学则殆:通义实验室×北大联合提出RL-PLUS,突破大模型推理边界
  • NeurIPS 2025 | 理解能否反过来教生成?VideoREPA让视频生成模型“懂物理”
  • 博士申请 | 香港中文大学陈玥老师招收人工智能/智能电网方向全奖博士生
  • NeurIPS 2025 | 港中文等提出COS3D:协同语言与分割,革新开放词汇3D分割
  • 上海交大与上海AI lab联手推出RAPO++:跨阶段提示优化,让文生视频模型“更懂你心”
  • 传OpenAI正开发新的生成式音乐工具;苹果将AirPods印度产能扩大一倍;《王者荣耀世界》官宣2026春天见

谢菲尔德大学提出Region-CAM:mIoU提升13.6%,破解弱监督学习中的目标定位难题

CV君 2025-10-31 16:38 江苏

显著提升弱监督学习中目标区域的覆盖度和边界准确性。

今天想跟大家聊一篇非常有意思的文章,来自谢菲尔德大学的研究者们提出了一种新的激活图生成方法——Region-CAM。对于做弱监督学习的朋友们来说,类激活图(Class Activation Mapping, CAM)肯定不陌生,它能告诉我们模型在做决策时到底“看”了图像的哪个区域。但这老方法有个痛点:它往往只关注目标最“扎眼”的一小部分,生成的激活区域既不完整,边界也对不齐,这对于需要像素级精度的下游任务,比如弱监督语义分割(WSSS),简直是“硬伤”。

Region-CAM的出现,就是为了解决这个问题。它通过一种全新的思路,让激活图既能覆盖更完整的目标区域,又能与目标的真实边界严丝合缝。听起来是不是很棒?让我们深入看看它是怎么做到的。

  • 论文标题: Region-CAM: Towards Accurate Object Regions in Class Activation Maps for Weakly Supervised Learning Tasks

  • 作者: Qingdong Cai, Charith Abhayaratne

  • 机构: 谢菲尔德大学

  • 论文地址: https://arxiv.org/abs/2510.25134

研究背景

在弱监督学习领域,我们通常只有图像级别的标签(比如“这张图里有只猫”),却希望模型能学会更复杂的任务,比如目标定位或者语义分割(标出猫在图中的所有像素)。CAM及其变体(如Grad-CAM, Grad-CAM++)是实现这一目标的关键技术。它们通过分析模型的梯度和特征,生成热力图来高亮与特定类别相关的图像区域。

然而,正如前面提到的,传统CAM方法存在一个普遍的“视野狭窄”问题。为了分类,模型只要找到目标最独特的特征就行了(比如猫的脸),没必要去关注整只猫。这就导致生成的激活图往往只是零散的“斑块”,而不是一个完整的对象轮廓。下面这张图就非常直观地展示了不同方法生成的激活图质量差异。

可以看到,相较于CAM、Grad-CAM和LayerCAM,Region-CAM生成的激活图明显更完整,轮廓也更清晰,几乎完美地覆盖了整个目标物体,为后续的分割任务打下了坚实的基础。

Region-CAM的核心方法

那么,Region-CAM是如何实现这种“全局视野”和“精准描边”的呢?作者摒弃了传统CAM那种单纯对网络特征进行加权的思路,提出了一种两步走的新策略:语义信息图提取(Semantic Information Maps, SIMs)和语义信息传播(Semantic Information Propagation, SIP)。

整个框架如下图所示:

语义信息图 (SIMs)

作者认为,网络的不同层级包含了不同尺度的语义信息。深层网络(靠近输出端)的特征感受野大,能准确捕捉到目标的类别信息,但空间分辨率低,细节模糊。相反,浅层网络(靠近输入端)保留了丰富的空间细节和边界信息,但语义信息较弱。Region-CAM的核心思想就是要把这些不同层级的优势结合起来。

它首先从模型的多个阶段(从深到浅)提取SIMs。这些SIMs是通过网络梯度计算得出的,能够表示出每个空间位置与目标类别的相关性强度。下图展示了从不同层级提取的SIMs,红色区域表示与目标语义相关性强,蓝色则表示弱。可以发现,深层(如block_5)能定位出核心区域,而浅层则包含了更丰富的轮廓信息。

语义信息传播 (SIP)

提取出SIMs后,如何将这些信息整合成一张高质量的激活图呢?这里就轮到SIP登场了。SIP的灵感来源于一个朴素的观察:一个物体内部的像素,在颜色、纹理上通常是相似的。因此,如果一个像素点被SIMs证明属于目标,那么它周围的相似像素点也很可能属于同一个目标。

具体来说,Region-CAM会利用超像素(Superpixels)算法将图像分割成许多个小的、同质的区域。然后,它将之前融合了多层信息的SIMs作为“种子”,将强语义信息在超像素区域内进行传播和平均。这样一来,最初可能只在目标核心区域有高响应的激活值,就被“扩散”到了整个目标所在的超像素区域,从而形成了一个完整且边界清晰的激活图。

作者还通过消融实验证明了信息传播的有效性,以及融合不同层级信息的必要性。从下表中可以看到,随着融合的层级从深到浅(block_4 -> block_1),分割种子的mIoU持续提升,证明了浅层信息对于边界精确化的重要作用。

惊艳的实验结果

Region-CAM的效果到底有多好?“无图无真相”,直接上数据。

弱监督语义分割 (WSSS)

在WSSS任务中,通常先用CAM方法生成伪标签(也叫分割种子),再用这些伪标签去训练一个真正的分割模型。伪标签的质量直接决定了最终分割模型的性能上限。

在PASCAL VOC 2012数据集上,使用ResNet-38作为基础模型,Region-CAM生成的分割种子取得了 60.12% 的mIoU,相比原始CAM的46.51%,足足提升了 13.61%。在验证集上,也取得了 13.13% 的提升。在更具挑战性的MS COCO数据集上,提升幅度更是达到了惊人的 16.23%

下表将Region-CAM与其他SOTA方法在不同基础模型上进行了对比,可以看到Region-CAM在各种设置下都表现出了优越性。

下图更直观地展示了Region-CAM生成的伪标签质量,无论是在主体完整性还是边界细节上,都远超其他方法。

弱监督目标定位 (WSOL)

在目标定位任务上,Region-CAM同样表现出色。在ILSVRC2012验证集上,Region-CAM的Top-1定位准确率(Loc1)达到了 51.7%,比专门为定位任务设计的LayerCAM还要高出 4.5%

从下面的可视化结果可以看出,Region-CAM生成的预测框(红色)与真实框(白色)的重合度非常高。

总结

CV君认为,Region-CAM的思路非常巧妙,它没有陷入现有CAM方法“如何更好地加权特征”的怪圈,而是回归本源,思考“一张好的激活图应该具备什么要素”,并创造性地提出了“提取+传播”的范式,在多个任务上都取得了显著的成功,为弱监督学习领域提供了一个强大而通用的新工具。

你觉得这个技术未来会用在哪些场景?一起来聊聊吧!

阅读原文

跳转微信打开

联系我们