CV君 2025-11-17 12:36 江苏
让大模型在深海也能“看”得清
今天我们来聊一篇来自山东大学团队发表在AAAI 2026上的新工作。他们首次将强大的自监督视觉基础模型DINOv2引入了水下实例分割(Underwater Instance Segmentation, UIS)任务,并提出了一个名为DiveSeg的新框架。这个框架通过两个巧妙的设计,成功解决了DINOv2在水下场景“水土不服”的问题,在两大主流数据集上都取得了当前最佳(SOTA)的性能。
论文标题: Empowering DINO Representations for Underwater Instance Segmentation via Aligner and Prompter
作者: Zhiyang Chen, Chen Zhang, Hao Fang, Runmin Cong
机构: 山东大学
会议: AAAI 2026
“水土不服”的视觉大模型
海洋探索、生态保护、水下机器人作业,都离不开对水下环境的精准感知。水下实例分割(UIS)是其中的一项关键技术,它要求算法不仅能识别出像素属于哪个类别(比如鱼、珊瑚、潜水员),还要能区分开每一个独立的目标实例。
然而,水下世界对计算机视觉算法来说一直是个大挑战。光在水中传播时会发生吸收和散射,导致图像色彩失真、对比度低、细节模糊。这就好比给相机蒙上了一层厚厚的蓝色或绿色滤镜,让原本强大的视觉模型“看不清”。
近年来,像DINO这样在海量自然图像上预训练的视觉基础模型(Visual Foundation Models)在各种下游任务中大放异彩。但直接把它们用于水下场景,效果往往不尽人意。原因很简单:预训练数据和水下数据的视觉特征差异太大了,存在严重的“领域鸿沟”(Domain Gap)。从上图的可视化对比中,我们可以直观地看到,无论是传统的CNN方法(Watermask)还是基于SAM的方法(USIS-SAM),在处理复杂的边界和实例区分时都存在不足,而DiveSeg的效果明显更胜一筹。
为了解决这个问题,研究者们提出了DiveSeg框架,它的核心思想就是让DINOv2学会适应水下环境。
DiveSeg:为DINO注入“水下感知力”
DiveSeg框架构建在DINOv2之上,通过引入两个核心组件——AquaStyle Aligner和ObjectPrior Prompter,来分别解决“场景适应”和“对象适应”两大难题。
上图展示了DiveSeg的整体框架。简单来说,模型首先通过AquaStyle Aligner模块提取并注入水下的“色彩风格”,让DINOv2主干网络快速适应水下领域。然后,ObjectPrior Prompter模块利用二进制掩码学习对象级别的先验知识,引导网络更好地聚焦于水下目标,从而简化实例分割的难度。
AquaStyle Aligner:让模型看懂“水下风格”
水下图像和普通图像最直观的区别就是颜色。这种独特的“水下风格”主要体现在图像的低频信息中。作者巧妙地利用了这一点,通过傅里叶变换来分离图像的幅度和相位。
如上图所示,幅度谱保留了图像的整体风格(如颜色和对比度),而相位谱则包含了物体的具体结构信息。AquaStyle Aligner模块通过保留幅度谱、平均化相位谱,再进行傅里叶逆变换,就能得到一张只包含水下颜色风格的“风格图”。
然后,这个风格信息被编码成一个“风格向量”,通过一个特别设计的Style Injection模块(基于交叉注意力机制)注入到DINOv2的特征提取过程中。这个过程就像是给DINOv2戴上了一副“潜水镜”,让它能够更好地理解水下图像的特征,而不会被预训练的知识所束缚。从下面的PCA可视化可以看出,相比原始DINOv2,DiveSeg能更好地对水下图像的特征进行聚类。
ObjectPrior Prompter:给模型“提示”该看哪里
看懂了颜色还不够,模型还需要知道要分割什么。DINOv2的预训练数据里很少有珊瑚、海胆这类水下生物,直接让它去分割这些“没见过”的东西,难度很大。
于是,作者设计了ObjectPrior Prompter模块。它的作用是先进行一次“粗分割”,生成一个只区分前景(可能是任何对象)和背景的二值掩码(Binary Mask)。这个掩码就像一个“提示”(Prompt),告诉后续的网络:“嘿,注意看这些区域,目标大概就在这里面。”
这个包含对象先验信息的提示被送入DINOv2主干网络,通过交叉注意力机制与图像特征进行交互,引导模型将注意力集中在潜在的目标上。这种“先找对象,再分实例”的策略,有效降低了直接进行实例分割的难度,让模型能够更准确地定位和区分水下的各种目标。
实验效果:显著超越SOTA
为了验证DiveSeg的有效性,研究者在UIIS和USIS10K这两个主流的水下实例分割数据集上进行了大量实验。
从上表可以看到,在USIS10K数据集上,无论是类别无关(Class-Agnostic)任务还是多类别(Multi-Class)任务,DiveSeg的性能都全面超越了之前的方法,包括基于CNN的WaterMask和基于SAM的USIS-SAM。特别是在多类别任务中,DiveSeg的mAP达到了48.4%,比之前的SOTA模型USIS-SAM提升了5.3个百分点,这是一个非常显著的进步。
上图的定性比较结果也直观地展示了DiveSeg的优势。无论是在密集的小目标(如海胆)还是在与背景颜色相近的目标(如海参)上,DiveSeg都能实现更完整、更精确的分割,边界处理也更加清晰。
消融实验
为了证明两个核心组件的有效性,作者还进行了消融实验。
结果显示,无论是去掉AquaStyle Aligner还是ObjectPrior Prompter,模型性能都会出现明显下降。当两者都去掉,直接使用DINOv2+Mask2Former的基线模型时,mAP仅为30.9%。而完整的DiveSeg模型则达到了35.6%,充分证明了这两个模块的价值。
这项工作为视觉基础模型在水下等特殊领域的应用提供了一个非常好的范例。它告诉我们,简单地将大模型直接微调可能不是最优解,针对性地设计领域自适应模块,让模型“入乡随俗”,才能最大化地发挥其潜力。
大家对这个方法怎么看?欢迎在评论区留下你的看法!
更多阅读: