CV君 2025-11-13 14:08 江苏
从零到一,构筑遥感开放分割新基石。
论文标题: Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing
作者: Bingyu Li, Haocheng Dong, Da Zhang, Zhiyuan Zhao, Junyu Gao, Xuelong Li
机构: 中国科学技术大学,西北工业大学,Institute of Artificial Intelligence (TeleAI)
录用信息: AAAI 2026 Oral
最近,将自然图像领域的开放词汇分割(Open-Vocabulary Segmentation, OVS)技术迁移到遥感(Remote Sensing, RS)领域成了一个热门方向。不过,由于缺乏统一的评测标准,加上自然图像和遥感图像之间存在巨大的领域差异,这个名为开放词汇遥感图像分割(OVRSIS)的新兴任务一直没能得到充分探索。
为了解决这些问题,来自中科大、西工大等机构的研究者们干了两件大事:首先,他们建立了一个标准化的OVRSIS评测基准,名为OVRSISBench;其次,基于对现有模型在该基准上表现不佳的观察,他们提出了一个专为遥感图像量身定制的新框架——RSKT-Seg。这个新方法不仅在精度上远超先前的基线模型,平均mIoU提升了3.8%,平均mACC提升了5.9%,而且通过高效的聚合策略,实现了推理速度翻倍的惊人效果。
上图直观展示了RSKT-Seg与经典OVS及OVRSIS模型在分割效果上的对比(a-c),以及在推理速度与精度上的双重优势(d)。
研究背景与挑战
传统的语义分割模型通常依赖大量手动标注的数据,并且只能识别预设的有限类别。当需要识别训练时未见过的“新”类别时,这些模型就无能为力了。开放词汇分割(OVS)的出现正是为了解决这个问题,它借助视觉-语言模型(如CLIP)的能力,使模型能够根据文本描述来分割任意类别的物体。
然而,将OVS直接应用于遥感图像领域却困难重重。遥感图像具有独特的“上帝视角”,导致物体存在任意旋转、尺度变化巨大等问题。此外,现有的OVS模型大多为自然场景设计,难以捕捉遥感图像特有的大尺度空间背景和光谱多样性。研究者们发现,即便是近期的OVRSIS模型,也未能充分利用遥感领域的先验知识,导致性能提升有限。
为了系统性地评估和推进这一领域,一个统一的评测基准变得至关重要。
上图展示了新基准OVRSISBench的构建思路,它基于开放词汇协议对现有遥感数据集进行划分,确保训练集和测试集之间的类别存在差异,从而真实地模拟开放词汇场景。
RSKT-Seg:为遥感而生的分割框架
针对上述挑战,研究者设计了RSKT-Seg,一个能够有效进行遥感知识迁移的开放词汇分割框架。其核心思想是融合多源知识,并针对遥感图像的特性进行专门优化。整个框架由三个关键模块组成。
上图是RSKT-Seg的整体框架图,清晰地展示了其三大核心组件:(a) RS-CMA模块、(b) RS-Fusion模块 和 (c) RS-Transfer上采样模块的工作流程。
1. 多方向代价图聚合 (RS-CMA)
遥感图像中的物体(如桥梁、飞机)可能以任何角度出现。为了解决旋转可变性问题,RS-CMA模块被设计出来。它的工作流程如下:
输入: 一张待分割的遥感图像 和一组文本类别描述 。
多方向编码: 将输入图像 进行四次旋转(0°, 90°, 180°, 270°),得到 。然后,使用CLIP的图像编码器 分别提取这四个方向的视觉特征 。
遥感知识注入: 同时,使用一个在遥感数据集上预训练过的DINO编码器 提取原图的特征 。这一步旨在引入遥感领域的专属知识。
代价图构建: 分别计算CLIP视觉特征和DINO特征与文本特征 之间的余弦相似度,生成多组代价图 和 。这些代价图反映了每个像素与每个文本类别的匹配程度。
融合: 将所有代价图融合,生成一个既具有旋转不变性又融入了领域知识的融合代价图 。
上图详细描绘了(a)多旋转特征编码、(b)RS-DINO特征编码以及(c)代价图构建的过程,这些模块的设计精妙之处在于它们不引入任何需要学习的参数,非常高效。
2. 高效代价图融合 (RS-Fusion)
得到融合代价图后,需要进一步增强其空间和类别的判别能力。为此,RS-Fusion模块设计了两个轻量级的Transformer:空间增强Transformer (SET) 和类别增强Transformer (CET)。
空间增强 (SET): 为了增强空间细节,该模块将代价图与来自CLIP和DINO的中间层特征进行拼接,并通过一个卷积层进行降维,以加速推理。然后,利用交叉注意力机制在空间维度上聚合上下文信息。
类别增强 (CET): 该模块则在类别维度上进行操作,通过自注意力机制捕捉不同类别之间的相互关系,进一步提炼特征。
这种双重增强策略,结合了为加速推理而设计的特征降维方法,使得模型在保持高精度的同时,计算效率也得到了保证。
3. 遥感知识迁移上采样 (RS-Transfer Upsample)
经过融合和增强的代价图分辨率较低,缺乏精细的纹理细节。为了生成高分辨率的分割结果,RS-Transfer上采样模块在其中发挥了关键作用。它巧妙地将来自RemoteCLIP、CLIP和DINO编码器的多层中间特征注入到上采样过程中。这些包含丰富细节的特征与代价图逐层融合,最终恢复出与原图分辨率一致的、精确的分割掩码。
实验结果与分析
RSKT-Seg在新建的OVRSISBench(包含DLRSD、iSAID等8个数据集)上进行了全面测试,并与多种经典的OVS方法和最新的OVRSIS方法进行了对比。
实验证明,不同的代价图融合策略(均值、拼接、分离)对结果影响不大,但论文最终选择的拼接(cat)策略在m-mIoU上略有优势。
消融实验清晰地展示了每个模块的贡献。从基线模型开始,逐步加入旋转不变代价图(R-I Cost Map)、DINO代价图、RS-Transfer和RS-Fusion模块后,各项指标均得到稳步提升,证明了每个组件的有效性。
遥感知识的重要性
为了验证引入遥感专属知识的有效性,研究者对比了使用在自然图像上预训练的DINO(natureDINO)和在遥感数据上预训练的DINO(rsDINO)的效果。
结果显示,rsDINO带来的性能提升明显优于natureDINO,这充分说明了领域知识迁移在OVRSIS任务中的关键作用。
速度与效率分析
除了精度,效率也是RSKT-Seg的一大亮点。
与OVRS等方法相比,RSKT-Seg的平均推理时间仅为65.11毫秒,FPS达到了15.36,实现了超过2倍的速度提升。
更有趣的是,尽管RSKT-Seg的总参数量较大,但其可训练参数量(59.89M)却远少于Cat-Seg(127.55M)和OVRS(127.57M),这使得它的训练时间(7.96 ms/iter)成为所有对比方法中最快的。这得益于其巧妙的知识迁移和轻量化设计,使得模型能够“轻装上阵”,快速收敛。
可视化效果
通过可视化对比可以看出,RSKT-Seg的分割结果(第二行)在物体边界的精细度和类别区分的准确性上,都明显优于基线模型(第三行),更接近真实标签(第四行)。
当然,模型也存在一些局限性。例如,在有阴影遮挡的情况下,模型可能会发生误分类。
总结
总而言之,这项工作不仅为遥感领域的开放词汇分割研究铺平了道路,还提供了一个性能卓越、效率惊人的新基准模型。
大家对这个方法怎么看?欢迎在评论区留下你的看法!