CV君 2025-10-13 12:33 江苏
不止点哪分哪,更能懂你说的概念!
最近,Segment Anything Model (SAM) 系列迎来了第三代——SAM 3。如果说第一代 SAM 教会了模型“分割万物”,那么 SAM 3 则让模型更进了一步,开始“理解万物”。它不仅在传统的交互式分割任务上超越了前代,更是引入了一个全新的、令人兴奋的方向:可提示概念分割(Promptable Concept Segmentation, PCS)。(这是近期刚公布的ICLR 2026投稿论文,目前处于匿名审稿状态)
简单来说,你不再只能通过点和框来告诉模型“把这个东西抠出来”,而是可以直接用自然语言(比如“那只棕色的小狗”)、给几个示例图片,甚至两者结合,让模型理解你想要分割的“概念”,并找出图片里所有符合这个概念的实例。这无疑是向着更智能、更自然的人机交互迈出的一大步。
论文标题: SAM 3: Segment Anything with Concepts
从“指哪打哪”到“心领神会”
我们知道,SAM 和 SAM 2 在可提示视觉分割(Promptable Visual Segmentation, PVS)方面已经做得非常出色,用户通过点击或画框,就能精确地分割出目标物体。然而,这种交互方式本质上还是在“指”。
SAM 3 想要解决一个更深层次的问题:如何让模型理解一个“概念”?比如,当用户说“分割出所有的猫”,或者给出几张猫的图片作为例子时,模型能否在新的图片里准确地找出所有的猫?这就是 PCS 任务 的核心。
如上图所示,SAM 3 不仅在左侧展示的传统点击提示分割上超越了 SAM 2,更是在右侧开辟了 PCS 的新功能,允许用户通过名词短语、图像示例等方式,分割出某一视觉概念的所有实例。
为了实现这一目标,SAM 3 支持一系列灵活的提示方式,包括初始提示和可选的交互式优化提示。用户可以从一个简单的名词短语开始,然后通过添加图片示例或进行点击交互,来不断优化和明确自己的意图。
SAM 3 的架构与数据引擎
为了支持强大的 PCS 功能,SAM 3 在架构上进行了升级。下图是其整体架构概览,可以看到,它在 SAM 2 的基础上(蓝色部分)集成了一些新组件(黄色部分)。
更详细的架构图如下所示,其中黄色部分是 SAM 3 的新组件,蓝色是 SAM 2 的组件,青色则是来自 PE(Promptable Everything)的组件。这种模块化的设计使得模型能够有效地融合不同来源的提示信息。
一个有趣的设计是,模型中的“专家(Experts)”可以对同一个名词短语产生不同的合理解释。例如,对于“大的圆形”,一个专家可能关注几何形状,另一个则可能关注天体,这增加了模型理解的丰富性。
当然,强大的模型离不开强大的数据。SAM 3 构建了一个全新的数据引擎,用于收集和标注海量的“概念”数据。
这个数据引擎产出了一个名为 SA-Co (Segment Anything with Concepts) 的数据集,其中包含了来自视频和图像的大量带有短语和实例标注的数据。
研究团队还利用 AI 对标注进行验证,以确保数据质量,这套流程包括了对掩码质量的验证(Mask Verification)和对是否遗漏目标的验证(Exhaustivity verification)。
实验效果如何?
SAM 3 的表现在多个基准上都相当亮眼。
首先,在传统的交互式图像分割任务上,SAM 3 相比之前的模型(包括 SAM 2)取得了显著的进步。
其次,在新的 PCS 任务上,通过交互式地提供图像示例(exemplar prompts),SAM 3 的性能(CGF1 分数)随着示例数量的增加而稳步提升,证明了其学习和理解概念的能力。
更令人印象深刻的是,当将 SAM 3 与多模态大语言模型(MLLM)结合,构建成一个 SAM 3 Agent 时,它在没有经过任何针对性训练的情况下,就在多个指代性分割和推理分割任务上(如 ReasonSeg, OmniLabel, RefCOCO+)取得了超越之前工作的零样本(zero-shot)性能。这展示了 SAM 3 强大的泛化能力和作为智能体基础模型的潜力。
消融实验也证明了模型设计的有效性。例如,将“存在性(presence)”和“定位(localization)”解耦,为模型带来了巨大的性能提升。
CV君认为,SAM 3 的发布,标志着通用分割模型进入了一个新的阶段。它不再仅仅是一个工具,而更像一个能够理解我们意图的助手。从“分割物体”到“分割概念”,这一转变将为图像编辑、数据标注、机器人视觉等诸多领域带来深刻影响。
你觉得这个“概念分割”功能未来会如何改变我们的工作流?欢迎在评论区留下你的看法!