动态列表

  • 他用一生证明AI没有意识!「中文屋」提出者逝世,享年93岁
  • 今年诺奖成果曾遭质疑无用,但华人团队用它研制了未来芯片的「钥匙」
  • 剑桥揭开大模型翻车黑箱!别再怪它不懂推理,是行动出错了
  • 硅谷爆发反AI「起义」!程序员拒用Cursor被一周解雇
  • 为什么谷歌搜不到「没有条纹的衬衫」|AI 上新
  • 雷军亲自测试,小米YU9实车谍照曝光;宇树获「秧歌机器人」专利;微团开卖「Win XP」蓝天白云拖鞋
  • 永别了,人类冠军!AI横扫天文奥赛,GPT-5得分远超金牌选手2.7倍
  • 濒死3次,医生判他死刑!宾大教授奇迹自救,誓用AI攻克14000种绝症
  • 告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星
  • Bug变奖励:AI的小失误,揭开创造力真相!
  • 复旦张军平:人类是硅基生命过渡体?
  • Meta Ray-Ban Display 首发体验合集:悬浮在现实中的一张便签
  • OriginOS 6 深度体验:当操作系统回归「体验为王」
  • 93%成功率!从“改提示”到“写剧情”:STaR-Attack用叙事推理攻破大模型防线
  • Mamba-3惊现ICLR 2026投稿:三重升级打满“推理优先”范式
  • NeurIPS 2025 | Latent Harmony:潜空间和谐共生,实现UHD图像修复新SOTA
  • NeurIPS 2025 | NTN-Diff:一石二鸟,利用空文本与频率感知破解图像修复难题
  • 马斯克脑机公司展示脑机控制机械臂;三星中国发布折叠屏新机,16999 元起售;滴滴自动驾驶获 20 亿元融资 | 极客早知道
  • 77岁「AI教父」Hinton:AI早有意识!我们打造的智能,可能终结人类文明
  • 全球首款1.8nm芯片亮相!华人CEO打响关键一战,英特尔杀回来了
  • 清华万引教授:万倍加速催化剂设计,AI突破DFT瓶颈!
  • 陶哲轩亲测!GPT-5 Pro 40分钟破解3年难题,登顶最难数学考试
  • 刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人
  • NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!
  • Attention is NOT All You Need:让“深度”重新流入时间,而非堆叠在参数之上
  • OpenAI 卖货做视频,Anthropic 专心写代码,谁能赢?
  • 一颗 1.8 纳米芯片,成了英特尔「最后的救赎」
  • 这款 AI 调研神器,让我一键产生 1000 个「种子用户」|AI 上新
  • 都用 GPT,为什么你没法中「百万大奖」?
  • ChatGPT 变身 App Store,「对话即应用」时代到了
  • IROS 2025 | 速度飙升24倍!巴黎萨克雷大学等提出HARP-NeXt:实时3D激光雷达分割新标杆
  • IROS 2025 Oral | RAG-6Dpose:三大创新模块,利用 CAD 作为知识库进行检索增强 6D 姿态估计
  • 「丐中丐」版特斯拉来了,Model 3/Y降价超3.5万元
  • 高德扫街榜的 23 天奇袭
  • 张一鸣近年来首次公开亮相;微软上海开始新一轮裁员,补偿N+4;罗永浩锐评 iPhone 17
  • GPT-5王者归来?奥特曼称AI已跨科学门槛,三大学科正迎来实质性突破
  • 老黄押宝「美版DeepSeek」!谷歌天才叛将创业,一夜吸金20亿美元
  • 任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码
  • 13万被引!ImageNet作者苏昊或将加盟复旦
  • 250份文档投毒,一举攻陷万亿LLM!Anthropic新作紧急预警
  • 和两位 CEO 聊 Sora: 应用层爆发的里程碑事件,创业者的机会来了
  • 新一代短剧人,涌向郑州「淘金」
  • 社交媒体的黄金时代,结束了
  • U-Bench:U-Net十年“大乱斗”终结者,100个变体、28个数据集的终极对决
  • 东京大学、牛津大学等联合发布VLA万字综述:机器人迈向通用智能的全栈指南
  • 北京/上海内推 | 阶跃星辰招聘RL for AIGC方向算法研究员/实习生
  • EMNLP 2025 | 拨云见日:知识电路分析揭示大语言模型“知识遮蔽”幻觉之源
  • DeepSeek苦练1T,清华只用5B?InfLLM-V2把稀疏注意力玩明白了
  • Sora 下载量破 100 万次;国庆中秋假期国内游总花费超过 8000 亿元;智驾多位核心高管离职,蔚来回应|极客早知道
  • 谷歌杀入诺奖神殿,两年三冠五得主!世界TOP3重现贝尔实验室神话
  • OpenAI×英伟达,可能创造了人类史上最大万亿级泡沫
  • H-1B正在筛掉「下一个英伟达」?
  • 全球AI视频大战升级!「中国版Sora」Vidu Q2参考生月底发布,能力对标Sora 2
  • 第二代InfLLM开源,同尺寸快三倍!零参数,可训练稀疏注意力
  • 腾讯推出TRM:让大模型像人类一样批判性思考,从文本依赖到事实正确
  • 马毅团队重磅发布新书:从MCR²到白盒Transformer,重构深度学习的第一性原理
  • 稳住训练、跑出泛化:STAGE重写「自回归图像生成」的强化学习范式
  • Diffusion²来袭:威斯康星大学&华盛顿大学等提出双扩散模型,“回溯历史-预测未来”,破解自动驾驶“鬼探头”难题
  • 北大等提出TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%
  • 把我的第一次日本旅行,完全交给 AI 是什么体验?
  • 英伟达将投资马斯克的 xAI;低价版Model 3/Y 「阉割」智驾功能;微信推出批量撤回信息功能
  • 刚刚,清华物理传奇Yao Shunyu,跳槽谷歌DeepMind!
  • 赚100亿,烧1万亿!OpenAI算力神话:英伟达撒钱、AMD送股、全硅谷陪跑
  • 英伟达垄断AI算力局面或将被颠覆!AMD赌上身家发起决斗,奥特曼窃喜
  • 刚刚,2025年诺贝尔化学奖揭晓!偷溜进图书馆的少年,改变了世界
  • 小心,AI依赖会让你变笨!吴恩达等专家教你如何正确使用AI
  • 无RLHF,7M小模型反超DeepSeek-R1:三星团队用递归思考取代规模堆叠
  • IROS 2025 | Waymo与谷歌DeepMind联手提出Drive&Gen:用生成视频评估自动驾驶,虚拟测试更逼真
  • 告别深度传感器!慕尼黑工业大学提出DropD-SLAM:仅用单目RGB即可实现RGB-D级的SLAM精度
  • 陶哲轩联手ChatGPT!10分钟击碎30年「无理」难题,数学圈炸裂
  • 刚刚,奥特曼官宣ChatGPT「终极OS入口」!8分钟速搭智能体,8亿人狂欢
  • 顿悟不是玄学!港科大清华等联手:撕开推理黑箱,RL让AI像人思考
  • 4万亿帝国接班人浮出水面!苹果不需要另一个库克
  • 刚刚,2025年诺贝尔物理学奖揭晓!量子计算成最大赢家
  • 告别梯度!Evolution Strategies全参微调挑战PPO/GRPO:更稳、更省、更好复现
  • NeurIPS 2025 | 北邮用“图+文”把人物检索拉满:自动合成数据 × 细粒度特征对齐
  • TPAMI 2025 | 电子科大等提出EEMFlow:从事件相机学习高效Meshflow与光流,速度提升30倍
  • MICCAI 2025 | 莱斯大学提出MetaSeg:参数减少90%,元学习隐式网络重塑医学图像分割
  • OpenAI 与 AMD 签百亿美元协议,后者股价暴涨;特斯拉廉价 Model Y 将于 7 日发布;知名旅行、听歌应用入住 ChatGPT

ICLR神秘论文曝光!SAM3用「概念」看世界,重构视觉AI新范式



  新智元报道  

编辑:元宇
【新智元导读】2023年Meta推出SAM,随后SAM 2扩展到视频分割,性能再度突破。近日,SAM 3悄悄现身ICLR 2026盲审论文,带来全新范式——「基于概念的分割」(Segment Anything with Concepts),这预示着视觉AI正从「看见」迈向真正的「理解」。

一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发

2023年4月,Meta AI发布了首个图像分割基础模型Segment Anything Model(SAM)。

SAM的目标是让计算机「能分割任何东西」。

2024年7月,Meta推出SAM 2,将模型扩展到视频分割并显著提升性能。

如今,SAM模型即将迎来第三次升级。

ICLR 2026会议盲审论文《SAM3:用概念分割一切》

https://openreview.net/pdf?id=r35clVtGzw

论文SAM 3: Segment Anything with Concepts》,也许可以带我们解锁这次SAM新升级的内幕。

该论文目前处于ICLR 2026会议盲审阶段,作者暂未公布身份,但从题目中不难推测其内容为SAM第三代的升级。

SAM3最大的突破在于它强调「基于概念的分割」,即不只是按像素或实例,而是可能按「语义概念」来理解和分割图像:

只要给出一个提示,比如「黄色校车」或一张参考图片,SAM 3就能在不同场景里找到并分割出对应的物体。


该功能被定义为可提示的概念分割(Promptable Concept Segmentation,PCS)。

为了支撑PCS,研究团队还构建了一个可扩展的数据引擎,生成了涵盖图像与视频的高质量数据集,包含约400万个不同的概念标签。


将「概念分割」引入SAM架构

SAM架构引入了「可提示分割」任务,可通过交互式提示分割图像与视频中的目标。

然而,早期的SAM 1和SAM 2更侧重视觉提示,并且每个提示仅分割单个对象实例。

这无法解决更普遍的问题:在任意图像或视频中,自动找到所有属于同一概念的对象。

比如,你输入「猫」,不仅是要找出一只猫,而是找出所有的猫。SAM 3正是为解决这一问题而推出的。

它相比较前代模型,不仅改进了可提示视觉分割(PVS),还开创了新的标准——可提示概念分割(PCS)。

PCS可以完成这样的任务:

模型可以根据提示(文字或图像),找出图像或视频中所有符合这个「概念」的对象,并保持每个对象的身份一致。

比如输入「红苹果」,模型会在不同帧中追踪每一个红苹果。

在实际使用中,用户还能通过交互方式(比如添加更多提示)逐步细化结果,解决模糊或歧义情况。

图1对比展示了SAM 3与SAM 2的核心区别,说明了从「可提示视觉分割」(PVS)到「可提示概念分割」(PCS)的进化。

图2中展示了SAM 3如何从「理解一个提示」到「交互式细化分割结果」的全过程,它体现了PCS任务的核心特征——可提示、可交互、可概念化。

SAM 3系统实现了三大创新:

1. 更广的媒体域:不局限于同质化网页来源,涵盖更丰富的图像和视频场景;


2. 智能标签生成:使用多模态大模型(MLLM)作为「AI标注员」,生成更多样且有挑战性的概念标签;


3. 标签验证:通过微调MLLM使其成为高效的「AI验证员」,达到接近人类的表现,从而将标注吞吐量翻倍。


研究团队构建了一个包含400万唯一短语与5200万掩码的高质量训练数据集,以及一个包含3800万短语与14亿掩码的合成数据集,还推出了一个新的测试标准SA-Co基准。

实验结果显示,SAM 3在可提示分割上建立新SOTA,例如在LVIS数据集上,SAM 3的零样本分割准确度达到47.0(此前最佳为38.5)。

在SA-Co基准上表现提升至少2倍,并在PVS基准上优于SAM 2。

在一张H200GPU上,SAM 3只需30毫秒就能在单张图中识别上百个对象,视频场景中也能保持接近实时的处理速度。


可提示概念分割(PCS)

研究人员将PCS定义为如下任务:

给定一张图片或一段不超过30秒的视频,让模型根据一个概念提示(可以是文字、示例图像,或两者结合),去检测、分割并跟踪所有符合该概念的对象。

这些「概念」一般是由简单名词短语(noun phrase,NP)组成的,包含一个名词和可选修饰语,比如「红苹果」或「条纹猫」。

文字提示会对整张图片或整段视频都生效,而图像示例(例如框选某个目标)则可以用于细化结果,帮助模型更精确地理解「我说的就是这个」。

PCS的一个难点在于我们面对的「概念」范围几乎无限,这带来了很多歧义性。

这些歧义即使在封闭类别(如LVIS数据集)中也存在。

SAM3采取以下措施应对歧义:

  • 多专家标注:每个测试样本由三位独立专家标注,确保结果更客观;

  • 评估协议优化:评估时允许多种「合理答案」共存;

  • 标注规范与数据清洗:在数据收集和指南中尽量减少歧义;

  • 模型层面处理:在SAM 3中设计了专门的「歧义模块」,帮助模型理解并容忍这些模糊边界。


让分割模型能够理解「概念」
同时还要看得见、记得住

SAM 3是对前一代SAM 2的拓展与泛化。

它同时支持两类任务:

  • 可提示视觉分割(PVS):根据几何或视觉提示(点、框、掩码)圈出指定物体;

  • 可提示概念分割(PCS):根据概念提示(简短的文字或示例图像)识别并分割所有符合该概念的目标。

换句话说,SAM 3既能理解「我点的这个东西」,也能理解「我说的这个概念」。

下图3中展示了SAM 3架构,由一个双编码器-解码器Transformer组成:

  • 检测器(Detector):负责在图像级别检测并分割目标;

  • 跟踪器(Tracker):跟踪器继承了SAM 2的Transformer架构,负责在视频中跟踪已检测的目标。

检测器和跟踪器分开运作,检测器只管发现目标,跟踪器才关注它们的身份,为了避免以上两种任务相互干扰,SAM 3引入了一个新的「存在性Token」,将识别与定位解耦。


人机协同的数据引擎
让模型实现「概念分割」能力

为了让SAM 3在可提示概念分割(PCS)上实现跨越式提升,它必须在更广泛的概念范围和更多样的视觉数据上进行训练。

为此,研究团队构建了一个高效的数据引擎,让人类标注员、AI标注员和SAM 3模型本身组成一个闭环系统,推动模型不断从自己的失败案例中学习。

通过这种方式,AI在一些标注环节上已经能达到甚至超过人类的准确度,使得整个数据生成效率提升了约一倍。

研究人员将数据引擎的建设分为四个阶段:

第1–3阶段仅针对图像,第4阶段扩展至视频。

阶段1:人类验证。

初期阶段完全依靠人类验证。

研究者使用随机图像和简单文本描述器生成概念短语,掩码由SAM2与开放词汇检测器提供。

阶段2:人类+AI验证。

利用第一阶段积累的人类标签,团队微调Llama 3.2模型,让它学会自动执行MV与EV验证。

AI验证员可以直接判断「这个掩码对不对、全不全」,从而把人力解放出来,专注于最棘手的样本。

此时,AI已能自动发现对模型具有挑战性的「困难负样本」。

阶段3:扩展视觉领域

第三阶段把数据覆盖扩展到15个不同视觉域(例如自然场景、工业、艺术等)。

通过从alt-text(图像描述文本)和基于Wikidata的本体库(约2240万个概念节点)中提取新短语,系统进一步补充了长尾类与细粒度类别。

阶段4:视频标注

将数据引擎扩展至视频。

使用成熟的SAM 3模型,研究人员在运动、遮挡、跟踪失败等复杂场景中采集高质量标注,最终构建了SA-Co/VIDEO数据集,包含5.25万视频、2.48万唯一短语,总计13.4万视频-短语对。

这部分主要聚焦于模型容易出错的拥挤场景,以最大化学习效果。

SA-Co数据集

数据引擎最终生成了多层级的SA-Co数据集家族:

  • SA-Co/HQ:高质量人工与AI协作图像数据,包含520万张图像、400万个唯一短语;

  • SA-Co/SYN:全自动生成的合成数据;

  • SA-Co/EXT:整合15个外部数据集并补充困难负样本;

  • SA-Co/VIDEO:视频级标注数据集。

这些数据构成了目前世界上最大规模的开放词汇分割数据集体系。

为衡量模型在真实应用中的表现,研究人员设计了SA-Co基准(Benchmark),涵盖图像与视频共12.6万个样本、21.4万唯一短语,包含超过300万条标注。

经过研究人员评估,在图像和视频分割、少样本检测与多模态语言配合任务上,SAM 3全面超越现有系统,它在SA-Co的图像与视频PCS上将性能提升到以往系统的两倍。

与前代模型相比,SAM 3不再只是一个只会「按图索骥」的工具,而是逐步演变成一个能理解概念、识别类别、保持语义一致性的智能视觉系统。

它将图像分割从「点选式」操作提升到「概念级」理解,为下一代智能视觉和多模态系统奠定了基础。

也许,视觉AI的「GPT-3时刻」真的已经不远了。

参考资料:
https://openreview.net/forum?id=r35clVtGzw%20
https://openreview.net/pdf?id=r35clVtGzw

<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652634033&amp;idx=2&amp;sn=4339d2223a95828d2731c9f571d3af10&amp;chksm=f00b2c2755d80d6801753789a3d39a0b8a5ba29763f06812633c4c3bc1a8fe84c5fe646c8397&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/tMKqpfaKPE&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们