动态列表

  • 抱歉了GPT-5,这次是中国AI「上岸」了
  • 你急它不急:GPT-5先判断,再决定「速答」还是「深想」
  • Meta开始用KPI考核,强迫所有员工尽可能多使用AI
  • 接招吧,GPT-5.1!
  • 「前三代定律」下,百年吸尘器如何做出新意?
  • 两个月破 300 万用户,Agnes AI 刷新 Instagram 与 Snapchat 增长纪录
  • 每天给白领发 1000 万,他成了硅谷最年轻亿万富翁
  • 2025,中国科技圈进入全面「大乱斗」时代
  • 当 AI 开始分「左右」
  • 阿里云,用全栈 AI 刷新第十七个双十一
  • AAAI 2026 Oral MiniShift+Simple3D:面向高分辨率3D异常检测的可扩展数据集与实时检测新范式
  • 让千问APP当一周科研打工人:它比我想的能干,也比我想的累
  • 双重隐式记忆来了!JanusVLN让视觉语言导航真正理解3D空间
  • 雷军连发多条微博回应质疑;iPhone 发布方式将在明年重大变革;年度最令人不安的研究:AI 刷多社媒会变蠢|极客早知道
  • 图灵奖得主LeCun最后警告Meta!我搞了40年AI,大模型是死路
  • AI又封神了!华人新作直出憨豆+《猫和老鼠》,平行宇宙对上戏了
  • AI「逼宫」库克?苹果秘密计划曝光,接班人竟是M芯片之父!
  • 年度最强AI压轴!谷歌Gemini 3.0下周决战OpenAI,前端要下岗了
  • 安谋科技发了一枚 NPU,要把 AIGC 算力提升 10 倍
  • 无人工标注、可持续扩展:AcademicEval推动长文本评测进入“自更新”阶段
  • ICLR 2026吃瓜现场:有人用LLM连投4版论文,竟然拿到两个8分?
  • 宇树完成上市辅导,拟境内IPO;传索尼开发Labubu电影;2699元!原道X小岛秀夫耳机限量发售
  • AAAI 2026 Oral | 清华大学等提出SpatialActor:解耦空间感知,重度噪声下机器人操作鲁棒性暴涨19.4%
  • AI不懂痛苦,却成了你的深夜知己!170位医生教ChatGPT安慰人
  • 一条短信,7年恩怨!奥特曼与马斯克决裂曝出新隐情
  • 不会说英语的母亲,教出了5万亿英伟达CEO!
  • AI「牛顿」来了!北大团队新突破,看一眼数据就能推出物理定律
  • AAAI 2026 Oral | 中科院联合港大提出ARRA:外部视觉表征对齐重塑全局一致性,让自回归大模型充分释放图像生成潜能
  • 1899 元「iPhone 袜子」上架秒光;传华为 Mate80 上 20GB 内存;微信点赞苹果小程序政策
  • 全球最大开源具身大模型!中国机器人跑完马拉松后开始学思考
  • OpenAI拆开AI「黑箱」,终于可以看懂GPT在想什么了
  • LeCun在Meta的「最后一作」
  • 视觉压缩称王?谷歌死守AI黑科技,DeepSeek一夜开源
  • 大疆 OSMO Action 6 体验:完美进化,不止运动
  • iOS 为微信小程序「正名」,腾讯移动生态的新转机
  • “全模态”3D视觉基础模型OmniVGGT出炉!即插即用任意几何模态,刷新3D视觉任务SOTA,赋能VLA模型
  • WACV 2026 | PALMS+:融合深度基础模型,手机室内导航的技术再突破
  • GPT 5.1 发布了,但西方媒体准备「讲好中国故事」
  • AI、游戏双驱动,腾讯「赚麻了」
  • 对话李彦宏:Chatbot 不是一切,我在 AI 上看到了更让人兴奋的未来
  • OpenAI把Transformer训练成「几乎全零」,黑箱首次被彻底揭开
  • ACL 2025 | 用图结构让RAG学会「记忆与总结」,重塑长上下文理解
  • 杭州/北京内推 | 阿里淘天算法团队招聘多模态理解方向算法实习生
  • 传苹果从微信小程序抽成 15%,腾讯回应;特斯拉考虑支持 CarPlay;iPhone Air 成功支持实体卡 |极客早知道
  • 谷歌DeepMind最新论文,刚刚登上了Nature!揭秘IMO最强数学模型
  • ICLR 2026出分,审稿员怒喷「精神病」!DeepMind研究员教你绝地求生
  • GPT-5.1发布当天,文心5.0杀回来了
  • 一句「你还好吗」值40亿?斯坦福博士出走xAI,押注AGI共情力
  • 营收狂飙的「暗面」:Meta成「全球欺诈大本营」?
  • 小鹏科技日「太魔幻」:机器人走猫步,飞行汽车接近量产
  • AAAI 2026 Oral 中科大联合西工大提出RSKT-Seg:专为遥感打造的高效开放词汇分割框架,推理提速2倍
  • Roboflow&CMU论文披露RF-DETR细节:首个COCO数据集突破60 AP实时目标检测,速度飙升20倍!
  • 博士申请 | 佛罗里达大学计算机系招收NLP/LLM方向全奖博士/实习生
  • 深度研究智能体真的“懂你”吗?OPPO × 浙大首发个性化深度研究评测基准
  • DeepSeek罗福莉正式亮相小米AI;「周杰伦概念股」联手宇树造 IP 机器人;乘用车百公里加速不少于5秒
  • 奥特曼下注27岁神秘青年,「复活」世界最顶级实验室
  • AI秒破18世纪「天书」账本!谷歌新模型盲测刷屏全网
  • Llama 4造假丑闻幕后:小扎豪赌143亿,却为中国AI「做了嫁衣」
  • 少年沉迷AI自杀,9岁遭性暗示!这门「孤独生意」,正推孩子入深渊
  • NeurIPS 2025 | 中科院携手快手发布LiveStar:首个“会说话、懂沉默”的直播AI,推理速度提升1.53倍
  • ConsistEdit:重新定义AI视觉编辑,港科大、清华等机构提出MM-DiT注意力控制新方法
  • AAAI 2026 | 悉尼科技大学 × 港理工推出 FedVLR:让联邦推荐也能“懂图文”
  • 双十一算力真敢卷!RTX 5090低至0.69元/时,同预算跑更多实验
  • 北京内推 | 阿里高德地图团队招聘大模型方向算法实习生(可长期/转正)
  • 对话元理智能张帆:为什么「商业强化学习」,才是 AI To B 的新出路
  • 深度复盘:大疆是如何成为影像领域新巨头的?
  • 传李想亲抓人事,华为系高管退出理想;Meta 首席 AI 科学家杨乐昆离职创业;AI 减肥或致饮食失调
  • Nature子刊:太空中建数据中心,无限能源,浙大首次证实可行!
  • 英伟达铁幕之后,谷歌AI芯片已成气候
  • 翻译界的ChatGPT时刻!Meta发布新模型,几段示例学会冷门新语言
  • 硅谷GPU蒙尘,马斯克一言成谶:美国AI被电卡脖子
  • 65岁图灵巨头离职创业!LeCun愤然与小扎决裂,Meta巨震
  • 年产值突破 150 亿,刚毕业的俊男美女涌入「团播」工厂
  • 马斯克想要 1 万亿,何小鹏只想等一句「牛 P」
  • 北京内推 | 百度文心一言基座团队模型组招聘大模型方向研究型实习生
  • 通往AGI的歧路:上海AI Lab重磅发现,自进化智能体可能“错误进化
  • 全模态到底是不是“1+1>2”?美团UNO-Bench揭示单模态与全模态能力的组合规律
  • 3DV 2026 | 特伦托大学等提出DEMO:让AI看懂复杂人体动作,实现密集描述新范式
  • NeurIPS 2025 | 上交大、南农大提出ADPretrain:为工业异常检测量身打造的预训练“超能力”
  • 小米汽车 10 月销量近 5 万,YU7 超 Model Y;美团 AI 编程工具开启公测;马化腾王传福成智元机器人受益股东

AAAI 2026 山大提出DiveSeg:为DINO注入“水下感知力”,实例分割性能提升显著

CV君 2025-11-17 12:36 江苏

让大模型在深海也能“看”得清

今天我们来聊一篇来自山东大学团队发表在AAAI 2026上的新工作。他们首次将强大的自监督视觉基础模型DINOv2引入了水下实例分割(Underwater Instance Segmentation, UIS)任务,并提出了一个名为DiveSeg的新框架。这个框架通过两个巧妙的设计,成功解决了DINOv2在水下场景“水土不服”的问题,在两大主流数据集上都取得了当前最佳(SOTA)的性能。

“水土不服”的视觉大模型

海洋探索、生态保护、水下机器人作业,都离不开对水下环境的精准感知。水下实例分割(UIS)是其中的一项关键技术,它要求算法不仅能识别出像素属于哪个类别(比如鱼、珊瑚、潜水员),还要能区分开每一个独立的目标实例。

然而,水下世界对计算机视觉算法来说一直是个大挑战。光在水中传播时会发生吸收和散射,导致图像色彩失真、对比度低、细节模糊。这就好比给相机蒙上了一层厚厚的蓝色或绿色滤镜,让原本强大的视觉模型“看不清”。

近年来,像DINO这样在海量自然图像上预训练的视觉基础模型(Visual Foundation Models)在各种下游任务中大放异彩。但直接把它们用于水下场景,效果往往不尽人意。原因很简单:预训练数据和水下数据的视觉特征差异太大了,存在严重的“领域鸿沟”(Domain Gap)。从上图的可视化对比中,我们可以直观地看到,无论是传统的CNN方法(Watermask)还是基于SAM的方法(USIS-SAM),在处理复杂的边界和实例区分时都存在不足,而DiveSeg的效果明显更胜一筹。

为了解决这个问题,研究者们提出了DiveSeg框架,它的核心思想就是让DINOv2学会适应水下环境。

DiveSeg:为DINO注入“水下感知力”

DiveSeg框架构建在DINOv2之上,通过引入两个核心组件——AquaStyle AlignerObjectPrior Prompter,来分别解决“场景适应”和“对象适应”两大难题。

上图展示了DiveSeg的整体框架。简单来说,模型首先通过AquaStyle Aligner模块提取并注入水下的“色彩风格”,让DINOv2主干网络快速适应水下领域。然后,ObjectPrior Prompter模块利用二进制掩码学习对象级别的先验知识,引导网络更好地聚焦于水下目标,从而简化实例分割的难度。

AquaStyle Aligner:让模型看懂“水下风格”

水下图像和普通图像最直观的区别就是颜色。这种独特的“水下风格”主要体现在图像的低频信息中。作者巧妙地利用了这一点,通过傅里叶变换来分离图像的幅度和相位。

如上图所示,幅度谱保留了图像的整体风格(如颜色和对比度),而相位谱则包含了物体的具体结构信息。AquaStyle Aligner模块通过保留幅度谱、平均化相位谱,再进行傅里叶逆变换,就能得到一张只包含水下颜色风格的“风格图”。

然后,这个风格信息被编码成一个“风格向量”,通过一个特别设计的Style Injection模块(基于交叉注意力机制)注入到DINOv2的特征提取过程中。这个过程就像是给DINOv2戴上了一副“潜水镜”,让它能够更好地理解水下图像的特征,而不会被预训练的知识所束缚。从下面的PCA可视化可以看出,相比原始DINOv2,DiveSeg能更好地对水下图像的特征进行聚类。

ObjectPrior Prompter:给模型“提示”该看哪里

看懂了颜色还不够,模型还需要知道要分割什么。DINOv2的预训练数据里很少有珊瑚、海胆这类水下生物,直接让它去分割这些“没见过”的东西,难度很大。

于是,作者设计了ObjectPrior Prompter模块。它的作用是先进行一次“粗分割”,生成一个只区分前景(可能是任何对象)和背景的二值掩码(Binary Mask)。这个掩码就像一个“提示”(Prompt),告诉后续的网络:“嘿,注意看这些区域,目标大概就在这里面。”

这个包含对象先验信息的提示被送入DINOv2主干网络,通过交叉注意力机制与图像特征进行交互,引导模型将注意力集中在潜在的目标上。这种“先找对象,再分实例”的策略,有效降低了直接进行实例分割的难度,让模型能够更准确地定位和区分水下的各种目标。

实验效果:显著超越SOTA

为了验证DiveSeg的有效性,研究者在UIIS和USIS10K这两个主流的水下实例分割数据集上进行了大量实验。

从上表可以看到,在USIS10K数据集上,无论是类别无关(Class-Agnostic)任务还是多类别(Multi-Class)任务,DiveSeg的性能都全面超越了之前的方法,包括基于CNN的WaterMask和基于SAM的USIS-SAM。特别是在多类别任务中,DiveSeg的mAP达到了48.4%,比之前的SOTA模型USIS-SAM提升了5.3个百分点,这是一个非常显著的进步。

上图的定性比较结果也直观地展示了DiveSeg的优势。无论是在密集的小目标(如海胆)还是在与背景颜色相近的目标(如海参)上,DiveSeg都能实现更完整、更精确的分割,边界处理也更加清晰。

消融实验

为了证明两个核心组件的有效性,作者还进行了消融实验。

结果显示,无论是去掉AquaStyle Aligner还是ObjectPrior Prompter,模型性能都会出现明显下降。当两者都去掉,直接使用DINOv2+Mask2Former的基线模型时,mAP仅为30.9%。而完整的DiveSeg模型则达到了35.6%,充分证明了这两个模块的价值。

这项工作为视觉基础模型在水下等特殊领域的应用提供了一个非常好的范例。它告诉我们,简单地将大模型直接微调可能不是最优解,针对性地设计领域自适应模块,让模型“入乡随俗”,才能最大化地发挥其潜力。

大家对这个方法怎么看?欢迎在评论区留下你的看法!

更多阅读:

NeurIPS 2025 | 华中科大等提出NAUTILUS:首个大规模水下多模态模型,破解深海“看图说话”难题

MAC-Lookup:开源水下图像增强算法

阅读原文

跳转微信打开

联系我们