动态列表

  • Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」
  • 英伟达AI超算3999开售,「掌心之中」可部署所有大参数开源模型!
  • 登顶Hugging Face GAIA全球榜首!中兴超级智能体终结「AI黑盒」时代
  • AI圈再颠覆!中国AI翻译耳机通话翻译,实测震撼
  • 一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军
  • vivo X300 Pro:以「水桶旗舰」之躯,重登旗舰山巅
  • 直到毕业我才懂:原来延期的博士,不止我一个
  • 让论文自己讲!Paper2Video一键生成论文讲解视频,赶顶会DDL不慌了
  • 8美元“驯服”DeepSeek-V3.2?Training-Free GRPO把RL成本打到地板
  • NeurIPS 2025 | PPFN:渐进式提示融合,让红外图像增强在复杂场景下性能提升8.76%
  • NeurIPS 2025 | 让AIGC视频变为可探索场景:Instant4D实现单目动态场景的分钟级重建
  • 库克抖音带货 iPhone 17 Air,22 日开售;小米客服回应「SU7 门把手」;「丐版」特斯拉明年国内投产
  • 他用一生证明AI没有意识!「中文屋」提出者逝世,享年93岁
  • 今年诺奖成果曾遭质疑无用,但华人团队用它研制了未来芯片的「钥匙」
  • 剑桥揭开大模型翻车黑箱!别再怪它不懂推理,是行动出错了
  • ICLR神秘论文曝光!SAM3用「概念」看世界,重构视觉AI新范式
  • 硅谷爆发反AI「起义」!程序员拒用Cursor被一周解雇
  • 强化学习再迎范式切换:Sergey Levine团队把目标改写成“到达时间”
  • 如果RL可预测,我们还需要把训练跑满吗?中科大揭示参数更新的线性秘密
  • 国行 eSIM 尘埃落定,iPhone Air「下周见」
  • 为什么谷歌搜不到「没有条纹的衬衫」|AI 上新
  • ACM MM2025 Oral | MoSEAR:为多模态情感推理补齐“冲突场景”的短板
  • 雷军亲自测试,小米YU9实车谍照曝光;宇树获「秧歌机器人」专利;微团开卖「Win XP」蓝天白云拖鞋
  • 永别了,人类冠军!AI横扫天文奥赛,GPT-5得分远超金牌选手2.7倍
  • 濒死3次,医生判他死刑!宾大教授奇迹自救,誓用AI攻克14000种绝症
  • 告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星
  • Bug变奖励:AI的小失误,揭开创造力真相!
  • 复旦张军平:人类是硅基生命过渡体?
  • Meta Ray-Ban Display 首发体验合集:悬浮在现实中的一张便签
  • OriginOS 6 深度体验:当操作系统回归「体验为王」
  • Mamba-3惊现ICLR 2026投稿:三重升级打满“推理优先”范式
  • 93%成功率!从“改提示”到“写剧情”:STaR-Attack用叙事推理攻破大模型防线
  • NeurIPS 2025 | Latent Harmony:潜空间和谐共生,实现UHD图像修复新SOTA
  • NeurIPS 2025 | NTN-Diff:一石二鸟,利用空文本与频率感知破解图像修复难题
  • 马斯克脑机公司展示脑机控制机械臂;三星中国发布折叠屏新机,16999 元起售;滴滴自动驾驶获 20 亿元融资 | 极客早知道
  • 77岁「AI教父」Hinton:AI早有意识!我们打造的智能,可能终结人类文明
  • 全球首款1.8nm芯片亮相!华人CEO打响关键一战,英特尔杀回来了
  • 清华万引教授:万倍加速催化剂设计,AI突破DFT瓶颈!
  • 陶哲轩亲测!GPT-5 Pro 40分钟破解3年难题,登顶最难数学考试
  • 刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人
  • Attention is NOT All You Need:让“深度”重新流入时间,而非堆叠在参数之上
  • NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!
  • OpenAI 卖货做视频,Anthropic 专心写代码,谁能赢?
  • 一颗 1.8 纳米芯片,成了英特尔「最后的救赎」
  • 这款 AI 调研神器,让我一键产生 1000 个「种子用户」|AI 上新
  • 都用 GPT,为什么你没法中「百万大奖」?
  • ChatGPT 变身 App Store,「对话即应用」时代到了
  • IROS 2025 Oral | RAG-6Dpose:三大创新模块,利用 CAD 作为知识库进行检索增强 6D 姿态估计
  • IROS 2025 | 速度飙升24倍!巴黎萨克雷大学等提出HARP-NeXt:实时3D激光雷达分割新标杆
  • 「丐中丐」版特斯拉来了,Model 3/Y降价超3.5万元
  • 高德扫街榜的 23 天奇袭
  • 张一鸣近年来首次公开亮相;微软上海开始新一轮裁员,补偿N+4;罗永浩锐评 iPhone 17
  • GPT-5王者归来?奥特曼称AI已跨科学门槛,三大学科正迎来实质性突破
  • 老黄押宝「美版DeepSeek」!谷歌天才叛将创业,一夜吸金20亿美元
  • 任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码
  • 13万被引!ImageNet作者苏昊或将加盟复旦
  • 250份文档投毒,一举攻陷万亿LLM!Anthropic新作紧急预警
  • 和两位 CEO 聊 Sora: 应用层爆发的里程碑事件,创业者的机会来了
  • 新一代短剧人,涌向郑州「淘金」
  • 社交媒体的黄金时代,结束了
  • U-Bench:U-Net十年“大乱斗”终结者,100个变体、28个数据集的终极对决
  • 东京大学、牛津大学等联合发布VLA万字综述:机器人迈向通用智能的全栈指南
  • 北京/上海内推 | 阶跃星辰招聘RL for AIGC方向算法研究员/实习生
  • EMNLP 2025 | 拨云见日:知识电路分析揭示大语言模型“知识遮蔽”幻觉之源
  • DeepSeek苦练1T,清华只用5B?InfLLM-V2把稀疏注意力玩明白了
  • Sora 下载量破 100 万次;国庆中秋假期国内游总花费超过 8000 亿元;智驾多位核心高管离职,蔚来回应|极客早知道
  • 谷歌杀入诺奖神殿,两年三冠五得主!世界TOP3重现贝尔实验室神话
  • OpenAI×英伟达,可能创造了人类史上最大万亿级泡沫
  • H-1B正在筛掉「下一个英伟达」?
  • 全球AI视频大战升级!「中国版Sora」Vidu Q2参考生月底发布,能力对标Sora 2
  • 第二代InfLLM开源,同尺寸快三倍!零参数,可训练稀疏注意力
  • 腾讯推出TRM:让大模型像人类一样批判性思考,从文本依赖到事实正确
  • 马毅团队重磅发布新书:从MCR²到白盒Transformer,重构深度学习的第一性原理
  • 稳住训练、跑出泛化:STAGE重写「自回归图像生成」的强化学习范式
  • Diffusion²来袭:威斯康星大学&华盛顿大学等提出双扩散模型,“回溯历史-预测未来”,破解自动驾驶“鬼探头”难题
  • 北大等提出TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%
  • 把我的第一次日本旅行,完全交给 AI 是什么体验?
  • 英伟达将投资马斯克的 xAI;低价版Model 3/Y 「阉割」智驾功能;微信推出批量撤回信息功能
  • 刚刚,清华物理传奇Yao Shunyu,跳槽谷歌DeepMind!
  • 赚100亿,烧1万亿!OpenAI算力神话:英伟达撒钱、AMD送股、全硅谷陪跑
  • 英伟达垄断AI算力局面或将被颠覆!AMD赌上身家发起决斗,奥特曼窃喜
  • 刚刚,2025年诺贝尔化学奖揭晓!偷溜进图书馆的少年,改变了世界
  • 小心,AI依赖会让你变笨!吴恩达等专家教你如何正确使用AI
  • 无RLHF,7M小模型反超DeepSeek-R1:三星团队用递归思考取代规模堆叠
  • 告别深度传感器!慕尼黑工业大学提出DropD-SLAM:仅用单目RGB即可实现RGB-D级的SLAM精度
  • IROS 2025 | Waymo与谷歌DeepMind联手提出Drive&Gen:用生成视频评估自动驾驶,虚拟测试更逼真

SAM 3揭开面纱:不止分割万物,更能理解概念,交互式分割迎来新篇章!

CV君 2025-10-13 12:33 江苏

不止点哪分哪,更能懂你说的概念!

最近,Segment Anything Model (SAM) 系列迎来了第三代——SAM 3。如果说第一代 SAM 教会了模型“分割万物”,那么 SAM 3 则让模型更进了一步,开始“理解万物”。它不仅在传统的交互式分割任务上超越了前代,更是引入了一个全新的、令人兴奋的方向:可提示概念分割(Promptable Concept Segmentation, PCS)(这是近期刚公布的ICLR 2026投稿论文,目前处于匿名审稿状态)

简单来说,你不再只能通过点和框来告诉模型“把这个东西抠出来”,而是可以直接用自然语言(比如“那只棕色的小狗”)、给几个示例图片,甚至两者结合,让模型理解你想要分割的“概念”,并找出图片里所有符合这个概念的实例。这无疑是向着更智能、更自然的人机交互迈出的一大步。

从“指哪打哪”到“心领神会”

我们知道,SAM 和 SAM 2 在可提示视觉分割(Promptable Visual Segmentation, PVS)方面已经做得非常出色,用户通过点击或画框,就能精确地分割出目标物体。然而,这种交互方式本质上还是在“指”。

SAM 3 想要解决一个更深层次的问题:如何让模型理解一个“概念”?比如,当用户说“分割出所有的猫”,或者给出几张猫的图片作为例子时,模型能否在新的图片里准确地找出所有的猫?这就是 PCS 任务 的核心。

如上图所示,SAM 3 不仅在左侧展示的传统点击提示分割上超越了 SAM 2,更是在右侧开辟了 PCS 的新功能,允许用户通过名词短语、图像示例等方式,分割出某一视觉概念的所有实例。

为了实现这一目标,SAM 3 支持一系列灵活的提示方式,包括初始提示和可选的交互式优化提示。用户可以从一个简单的名词短语开始,然后通过添加图片示例或进行点击交互,来不断优化和明确自己的意图。

SAM 3 的架构与数据引擎

为了支持强大的 PCS 功能,SAM 3 在架构上进行了升级。下图是其整体架构概览,可以看到,它在 SAM 2 的基础上(蓝色部分)集成了一些新组件(黄色部分)。

更详细的架构图如下所示,其中黄色部分是 SAM 3 的新组件,蓝色是 SAM 2 的组件,青色则是来自 PE(Promptable Everything)的组件。这种模块化的设计使得模型能够有效地融合不同来源的提示信息。

一个有趣的设计是,模型中的“专家(Experts)”可以对同一个名词短语产生不同的合理解释。例如,对于“大的圆形”,一个专家可能关注几何形状,另一个则可能关注天体,这增加了模型理解的丰富性。

当然,强大的模型离不开强大的数据。SAM 3 构建了一个全新的数据引擎,用于收集和标注海量的“概念”数据。

这个数据引擎产出了一个名为 SA-Co (Segment Anything with Concepts) 的数据集,其中包含了来自视频和图像的大量带有短语和实例标注的数据。

研究团队还利用 AI 对标注进行验证,以确保数据质量,这套流程包括了对掩码质量的验证(Mask Verification)和对是否遗漏目标的验证(Exhaustivity verification)。

实验效果如何?

SAM 3 的表现在多个基准上都相当亮眼。

首先,在传统的交互式图像分割任务上,SAM 3 相比之前的模型(包括 SAM 2)取得了显著的进步。

其次,在新的 PCS 任务上,通过交互式地提供图像示例(exemplar prompts),SAM 3 的性能(CGF1 分数)随着示例数量的增加而稳步提升,证明了其学习和理解概念的能力。

更令人印象深刻的是,当将 SAM 3 与多模态大语言模型(MLLM)结合,构建成一个 SAM 3 Agent 时,它在没有经过任何针对性训练的情况下,就在多个指代性分割和推理分割任务上(如 ReasonSeg, OmniLabel, RefCOCO+)取得了超越之前工作的零样本(zero-shot)性能。这展示了 SAM 3 强大的泛化能力和作为智能体基础模型的潜力。

消融实验也证明了模型设计的有效性。例如,将“存在性(presence)”和“定位(localization)”解耦,为模型带来了巨大的性能提升。

CV君认为,SAM 3 的发布,标志着通用分割模型进入了一个新的阶段。它不再仅仅是一个工具,而更像一个能够理解我们意图的助手。从“分割物体”到“分割概念”,这一转变将为图像编辑、数据标注、机器人视觉等诸多领域带来深刻影响。

你觉得这个“概念分割”功能未来会如何改变我们的工作流?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

联系我们