动态列表

  • LLM首次达到人类语言专家水平!OpenAI o1拿下拆解句法、识别歧义、推理音律
  • 仅2天!谷歌AI破解十年谜题,锁定救命药人类全失手
  • 终结Transformer统治!清华姚班校友出手,剑指AI「灾难性遗忘」
  • 仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类
  • AI六巨头罕见同台!李飞飞激辩LeCun,黄仁勋:你们都错了
  • 10.58 万!零跑造了一台「红米 YU7」
  • 当一家传统车企,终于决定「师中长技」
  • AI热潮推动,全球 DRAM 内存价格暴涨;泡泡玛特回应直播事故;媒体爆料iPhone 18 Pro工程机进展
  • 强化学习教父重出江湖, 生成式AI的时代要结束了?
  • 英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万
  • 投85份简历0 Offer!CS研究生心态崩了,亲历20年最猛裁员潮
  • 视频模型假装在推理?MME-CoF新基准评估12个推理维度
  • Ilya、小扎之后,苏莱曼的「超级智能」进入7年倒计时!
  • IROS 2025 | 北理工提出BoRe-Depth:仅8.7M参数,在嵌入式设备实现50.7 FPS高清深度估计
  • 有些答案,听 AI 说一百遍,不如和「最有料的人」聊一次
  • 工程&计算机领域前沿洞察 | Synthesis技术前沿报告合集
  • 上交大刘鹏飞团队:Context Engineering进入2.0,上下文成为可操作对象
  • 用 AI 做电商真实效果如何?我们调研了双 11 一线从业者
  • 马斯克 1 万亿美元的薪酬方案获特斯拉股东批准;东方甄选孙东旭离职;Altman:今年 OpenAI 年化收入将达 200 亿美元
  • 蔚来,破 4 万!
  • 今年双十一最大的赢家是这张表
  • 复旦大学&StepFun提出WithAnyone:告别“复制粘贴脸”,实现可控、高保真的多人ID一致性生成
  • 大道至简,中科院等提出OneRef:统一视觉定位和指代分割
  • 极客公园创新大会 2026 首批嘉宾揭晓!
  • 自回归不必按token算了:微信AI × 清华用CALM直接「整段」预测
  • 北京内推 | 美团招聘大模型算法实习生(IM全渠道)
  • 达摩院联合浙大、港理工推出PixelRefer:多模态大模型迈向像素级视觉理解
  • Altman 怒喷 OpenAI 唱衰者;小鹏发布新一代人形机器人 IRON;苹果支付 10 亿美金,新 Siri 将引入谷歌 Gemini|极客早知道
  • 别被一堆Strong Accept吓住:德州农工×康奈尔实锤论文晒分“系统性虚高”
  • 记忆让机器人更聪明:原力灵机提出MemoryVLA化解长时程任务操作难题
  • 博士申请 | 南洋理工大学王琦琛老师课题组招收数据库方向全奖博士/博后
  • 151% 的增长背后,它正在成为 AI 的「新入口」
  • 清华&南洋理工等提出稀疏模型反演:ViT反演加速高达3.79倍,告别无效背景!
  • 低光图像增强新探索:SASW-Loss,无需改网络,即插即用提升多种模型性能
  • 山姆更新后遭会员疯狂吐槽;Switch2 销量破千万;小米马志宇警告存储涨价:明年最新的成本预估“有点惊悚”|极客早知道
  • Sketch-to-Layout,从草图到布局!DeepMind & EPFL 在设计领域的新工作
  • 为物理AI打造世界模型!英伟达发布Cosmos-2.5:模型缩小3.5倍,性能媲美SOTA
  • NeurIPS25 | 香港理工&OPPO&哈佛提出DNAEdit:直接噪声对齐让Rectified flow文生图编辑更加准确
  • 这个不「瞎 BB 」的 AI 硬件,给了我真正的「陪伴」丨New Things
  • Rokid 乐奇联手 BOLON 眼镜:眼镜巨头依视路的中国棋局
  • 跟一位日本比亚迪车主聊了聊,才明白我们对「出海」有多天真
  • 宁德时代赚走185亿,车企却不想再给「宁王」打工了
  • 从「绝望」到一轮融资43亿元:新石器做对了什么?
  • NeurIPS 2025 | 用蛋白质动态词表“搭积木”,ProDVa高效组装可折叠新蛋白
  • 全注意力、复杂推理不掉速:MiniMax M2把Agent做成了「可执行能力」
  • 北京内推 | 阿里通义实验室对话智能团队招聘大模型方向研究型实习生
  • 豆包,正在悄悄开启「电商新链路」
  • OpenAI 与 AWS 达成 380 亿美元算力合作;新 Siri 付费采用 Gemini;字节试行「豆包股」 | 极客早知道
  • Karpathy点赞NUS新研究:RL微调不稳定的关键根源,指向BF16精度本身
  • ICCV 2025 | 高德提出SeqGrowGraph:以序列化图扩展革新车道拓扑生成
  • 我体验了一下 AI 时代的「家」:快跑,到处都是 AI
  • 每天都和 AI 聊天,你可能已经是个「神经病」
  • 苹果,一赚「解」千愁
  • 多媒体顶会ACM MM 2025 最佳论文公布,从“看懂”到“会用”,再到“会思考”:揭示AI与物理世界融合新篇章
  • 顶刊ISPRS (IF 12+) | 400+参考文献,遥感图像超分辨率最新综述!
  • AMD发布E-MMDiT:仅304M参数,单节点1.5天训练,实现高效图像合成新基准
  • T1 零封 TES 战队,中国战队无缘 S15 总决赛舞台;英伟达合作制药巨头打造超级计算机;理想汽车汤靖详解 MEGA 起火事件|极客早知道
  • NeurIPS 2025 | 电子科技大学联合A*STAR提出SCOPE:兼顾显著性与覆盖率,实现高效多模态大模型令牌剪枝
  • ICCV 2025 | 卡内基梅隆大学空间可变自动对焦:单次拍摄实现全场景清晰,重新定义计算摄影
  • 特斯拉 Cybercab 实车曝光,部分量产;何小鹏谈雷军竞争:未来更期待对手是小米;黄仁勋完成 10 亿美元股票出售

TCSVT 25 | 宁波诺丁汉大学等提出De-LightSAM:仅需SAM-H 2%参数,实现通用化医疗影像自动分割

CV君 2025-11-07 21:32 江苏

De-LightSAM,让医疗影像分割更轻、更快、更通用。

最近,分割一切模型(Segment Anything Model, SAM)在计算机视觉领域掀起了一股浪潮,它强大的零样本分割能力让人印象深刻。然而,当这位“通才”进入严肃的医疗影像领域时,却显得有些水土不服:巨大的计算开销、对人工提示(prompt)的依赖,以及在不同医疗影像模态(如CT、X光、超声)之间泛化能力的不足,都限制了其在临床场景的实际应用。

为了解决这些痛点,来自宁波诺丁汉大学、香港中文大学、英国林肯大学、中国科学院香港创新研究院、诺丁汉大学以及香港理工大学的研究者们联手,提出了一种名为 De-LightSAM 的新框架。它是一个为通用化医疗影像分割量身打造的、模态解耦的轻量级SAM。顾名思义,“De-Light”即“Decoupled”和“Lightweight”,揭示了其两大核心特性:解耦与轻量化。该研究旨在让SAM变得更轻、更快,并且能够在无需人工交互的情况下,精准地分割不同类型的医疗影像。

  • 论文标题: De-LightSAM: Modality-Decoupled Lightweight SAM for Generalizable Medical Segmentation

  • 作者: Qing Xu, Jiaxuan Li, Xiangjian He, Chenxin Li, Fiseha Berhanu Tesema, Wenting Duan, Zhen Chen, Rong Qu, Jonathan M. Garibaldi, Chang Wen Chen

  • 机构: 宁波诺丁汉大学,香港中文大学,英国林肯大学,中国科学院香港创新研究院,诺丁汉大学,香港理工大学

  • 论文地址: https://ieeexplore.ieee.org/abstract/document/11203003

  • 代码仓库: https://github.com/xq141839/De-LightSAM

当前的挑战:医疗SAM的“三座大山”

将SAM应用于医疗领域,主要面临三大挑战:

  1. 计算成本高昂:标准SAM-H的图像编码器拥有超过6亿的参数,这对于资源有限的临床环境来说是个巨大的负担。

  2. 依赖手动提示:SAM的分割效果很大程度上依赖于用户提供精确的点、框等提示,这在需要处理大量影像的临床工作流中既费时又费力。

  3. 泛化能力受限:医疗影像具有高度的模态异质性(如皮肤镜、X光、眼底图像等成像原理和特征差异巨大)。现有的方法通常采用“一刀切”的解码策略,导致不同模态的知识相互干扰,模型难以泛化到未曾见过的影像类型。

上图直观展示了现有医疗SAM工作的局限性(a, b)与De-LightSAM的优势(c),即同时实现了计算高效和自动提示生成。

De-LightSAM:解耦一切,化繁为简

为了翻越这三座大山,作者们设计了De-LightSAM框架,其核心思想是“模态解耦”。整个框架由三大创新组件构成:领域可控的图像编码器(DC-Encoder)、自补丁提示生成器(SP-Generator)和查询解耦的模态解码器(QM-Decoder)。

上图为De-LightSAM的整体框架图。给定一张医疗影像,模型通过三个核心步骤完成分割任务。

模态解耦知识蒸馏(MDKD):轻量化的基石

要让模型变“轻”,知识蒸馏(Knowledge Distillation, KD)是常用方法。但传统的KD方法在处理多模态数据时效果不佳。为此,作者提出了一种新颖的 多模态解耦知识蒸馏(Multi-modal Decoupled Knowledge Distillation, MDKD) 策略。

MDKD的聪明之处在于,它构建了一个“双师”教学模型:

  • 一位“通识课老师”:使用在海量自然图像上预训练的SAM编码器,向学生模型(De-LightSAM的编码器)传授通用的、跨领域的视觉知识(Common Knowledge)。

  • 一位“专业课老师”:使用在医疗数据上微调过的SAM编码器,向学生模型传授针对特定医疗模态的专业知识(Domain-specific Knowledge)。

通过这种方式,De-LightSAM的编码器既学到了强大的基础视觉能力,又掌握了不同医疗影像的“方言”,从而在保持轻量的同时,具备了强大的特征提取和泛化能力。

上图详细阐述了MDKD策略,它将蒸馏任务分解为通用特征蒸馏和领域特定特征蒸馏。

三大核心组件协同工作

  1. DC-Encoder (Domain-Controllable Image Encoder) :这是一个轻量级的编码器,通过内置的“模态控制器”,可以为不同的医疗模态(皮肤镜、X光等)生成具有辨识度的专属特征。

  2. SP-Generator (Self-Patch Prompt Generator) :该组件实现了分割的“自动化”。它能从编码器提取的图像特征中,自动生成高质量的补丁提示(patch prompts),从而摆脱了对人工点、框输入的依赖。

  3. QM-Decoder (Query-decoupled Modality Decoder) :这是解决模态冲突的关键。它为每一种医疗模态都设置了独立的解码通道和专属的查询令牌(query token),实现了“一对一”的解码。这就像为每种语言都配备了专属翻译官,避免了信息在解码过程中因“串线”而失真。

实验效果:又轻又强,泛化性出色

De-LightSAM在6种不同的医疗影像模态(包括皮肤镜、X光、眼底、结肠镜、超声和显微镜)上进行了广泛实验,涵盖了源域(训练时可见)和目标域(未见过)的分割任务。

实验采用的源域数据集
实验采用的源域数据集
用于评估泛化性能的未见域数据集
用于评估泛化性能的未见域数据集

在源域上的表现

与现有的全自动分割模型(如U-Net系列)和轻量级SAM模型相比,De-LightSAM在所有源域数据集上均取得了SOTA(State-of-the-art)的性能。

源域性能对比表
源域性能对比表

上表展示了De-LightSAM在源域上的定量比较结果。特别是在自动分割模式下,相比其他轻量级SAM在某些任务(如S3和S6)上性能急剧下降,De-LightSAM表现稳健,Dice分数分别高出 56.47%25.92%

源域定性对比可视化结果
源域定性对比可视化结果

上图为源域上的定性分割结果对比,可以看到De-LightSAM的分割结果与真实标签(GT)更为接近,边缘更清晰。

惊人的泛化能力

更令人印象深刻的是De-LightSAM在未见过的目标域上的泛化表现。

上表显示,在跨域分割任务中,De-LightSAM全面超越了所有对比方法。例如,在结肠镜影像(S4→T4)和超声影像(S5→T5)的泛化任务中,Dice分数分别比之前的SOTA模型MADGNet高出 21.64%16.71%,展示了其卓越的泛化能力。

上图为目标域上的定性分割结果对比,De-LightSAM的分割结果在各种未见过的影像上依然保持了高精度。

轻量与高效

性能强大的同时,De-LightSAM做到了极致的轻量化。

计算开销对比(参数量、FLOPs、FPS、延迟)
计算开销对比(参数量、FLOPs、FPS、延迟)

上表对比了计算成本。De-LightSAM的参数量仅为 12.74M,大约是SAM-H(636M)的 2.0%。在自动分割模式下,其推理速度(FPS)达到了 13.09,远超其他轻量级SAM模型(普遍在1 FPS左右),延迟也最低,这为临床实时应用提供了可能。

上图展示了SP-Generator生成的补丁提示(Patch Prompts)与最终预测掩码的可视化结果,可以看到两者具有很强的一致性,证明了自动提示的有效性。

消融实验与深入分析

作者通过详尽的消融实验,验证了DC-Encoder、SP-Generator、QM-Decoder以及MDKD策略每个部分的有效性。

De-LightSAM 组件消融实验

实验设计非常巧妙,它从一个标准的、未做任何修改的 SAM 模型(基线)开始,然后逐一添加或组合 De-LightSAM的三大组件,来观察性能的变化。

最终的完整模型性能远超任何单个组件或两两组合,这清晰地表明 De-LightSAM的三个组件设计合理且缺一不可,它们之间存在着 1+1+1 > 3 的协同增效作用。

De-LightSAM各模块的消融研究
De-LightSAM各模块的消融研究

MDKD 策略消融实验

这部分实验则聚焦于回答另一个关键问题:论文提出的 MDKD 训练策略,相比传统的知识蒸馏 (KD)或从零开始训练,究竟优越在哪里?

实验对比了三种训练方式在两种模型设置(单独的 DC-Encoder 和完整的 De-LightSAM)下的表现,均表现出稳定的性能提升。

MDKD策略的消融研究
MDKD策略的消融研究

总结与展望

De-LightSAM通过创新的模态解耦设计,成功地解决了SAM在医疗领域应用的核心难题。它不仅将模型的参数量降低了两个数量级,还实现了全自动、高精度的分割,并在多种未见过的医疗影像上表现出强大的泛化能力。CV君认为,这项工作为构建真正适用于临床的、通用的、高效的医疗影像分割大模型铺平了道路,具有重要的研究意义和应用价值。

大家对这种模态解耦的思路怎么看?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

联系我们