动态列表

  • 强化学习教父重出江湖, 生成式AI的时代要结束了?
  • 英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万
  • 投85份简历0 Offer!CS研究生心态崩了,亲历20年最猛裁员潮
  • 视频模型假装在推理?MME-CoF新基准评估12个推理维度
  • Ilya、小扎之后,苏莱曼的「超级智能」进入7年倒计时!
  • 有些答案,听 AI 说一百遍,不如和「最有料的人」聊一次
  • 上交大刘鹏飞团队:Context Engineering进入2.0,上下文成为可操作对象
  • 工程&计算机领域前沿洞察 | Synthesis技术前沿报告合集
  • 用 AI 做电商真实效果如何?我们调研了双 11 一线从业者
  • 马斯克 1 万亿美元的薪酬方案获特斯拉股东批准;东方甄选孙东旭离职;Altman:今年 OpenAI 年化收入将达 200 亿美元
  • 蔚来,破 4 万!
  • 今年双十一最大的赢家是这张表
  • 复旦大学&StepFun提出WithAnyone:告别“复制粘贴脸”,实现可控、高保真的多人ID一致性生成
  • 极客公园创新大会 2026 首批嘉宾揭晓!
  • 自回归不必按token算了:微信AI × 清华用CALM直接「整段」预测
  • 北京内推 | 美团招聘大模型算法实习生(IM全渠道)
  • 达摩院联合浙大、港理工推出PixelRefer:多模态大模型迈向像素级视觉理解
  • Altman 怒喷 OpenAI 唱衰者;小鹏发布新一代人形机器人 IRON;苹果支付 10 亿美金,新 Siri 将引入谷歌 Gemini|极客早知道
  • 别被一堆Strong Accept吓住:德州农工×康奈尔实锤论文晒分“系统性虚高”
  • 博士申请 | 南洋理工大学王琦琛老师课题组招收数据库方向全奖博士/博后
  • 记忆让机器人更聪明:原力灵机提出MemoryVLA化解长时程任务操作难题
  • 151% 的增长背后,它正在成为 AI 的「新入口」
  • 清华&南洋理工等提出稀疏模型反演:ViT反演加速高达3.79倍,告别无效背景!
  • 低光图像增强新探索:SASW-Loss,无需改网络,即插即用提升多种模型性能
  • 山姆更新后遭会员疯狂吐槽;Switch2 销量破千万;小米马志宇警告存储涨价:明年最新的成本预估“有点惊悚”|极客早知道
  • Sketch-to-Layout,从草图到布局!DeepMind & EPFL 在设计领域的新工作
  • 为物理AI打造世界模型!英伟达发布Cosmos-2.5:模型缩小3.5倍,性能媲美SOTA
  • NeurIPS25 | 香港理工&OPPO&哈佛提出DNAEdit:直接噪声对齐让Rectified flow文生图编辑更加准确
  • 这个不「瞎 BB 」的 AI 硬件,给了我真正的「陪伴」丨New Things
  • Rokid 乐奇联手 BOLON 眼镜:眼镜巨头依视路的中国棋局
  • 跟一位日本比亚迪车主聊了聊,才明白我们对「出海」有多天真
  • 宁德时代赚走185亿,车企却不想再给「宁王」打工了
  • 从「绝望」到一轮融资43亿元:新石器做对了什么?
  • 全注意力、复杂推理不掉速:MiniMax M2把Agent做成了「可执行能力」
  • NeurIPS 2025 | 用蛋白质动态词表“搭积木”,ProDVa高效组装可折叠新蛋白
  • 北京内推 | 阿里通义实验室对话智能团队招聘大模型方向研究型实习生
  • 豆包,正在悄悄开启「电商新链路」
  • OpenAI 与 AWS 达成 380 亿美元算力合作;新 Siri 付费采用 Gemini;字节试行「豆包股」 | 极客早知道
  • ICCV 2025 | 高德提出SeqGrowGraph:以序列化图扩展革新车道拓扑生成
  • Karpathy点赞NUS新研究:RL微调不稳定的关键根源,指向BF16精度本身
  • 我体验了一下 AI 时代的「家」:快跑,到处都是 AI
  • 每天都和 AI 聊天,你可能已经是个「神经病」
  • 苹果,一赚「解」千愁
  • 多媒体顶会ACM MM 2025 最佳论文公布,从“看懂”到“会用”,再到“会思考”:揭示AI与物理世界融合新篇章
  • 顶刊ISPRS (IF 12+) | 400+参考文献,遥感图像超分辨率最新综述!
  • AMD发布E-MMDiT:仅304M参数,单节点1.5天训练,实现高效图像合成新基准
  • T1 零封 TES 战队,中国战队无缘 S15 总决赛舞台;英伟达合作制药巨头打造超级计算机;理想汽车汤靖详解 MEGA 起火事件|极客早知道
  • ICCV 2025 | 卡内基梅隆大学空间可变自动对焦:单次拍摄实现全场景清晰,重新定义计算摄影
  • NeurIPS 2025 | 电子科技大学联合A*STAR提出SCOPE:兼顾显著性与覆盖率,实现高效多模态大模型令牌剪枝
  • 特斯拉 Cybercab 实车曝光,部分量产;何小鹏谈雷军竞争:未来更期待对手是小米;黄仁勋完成 10 亿美元股票出售
  • 当强化学习学会“跳步骤”:Sergey Levine团队重写值函数的递归逻辑
  • 不用教它撒谎,LLM也会“心口不一”:上海AI Lab揭露高风险下的模型欺骗行为
  • 北京内推 | 快手模型与应用部增长模型团队招聘大模型/推荐方向算法实习生
  • 当 ChatGPT 要开始「搞黄色」,我都不敢想......
  • 港中文&港科大等提出FullPart:让3D部件生成达到全分辨率精度
  • 从 「会思考」到 「善创造」: 多模态大模型的深度推理与协同进化
  • 语言模型之后,智源 EMU3.5 找到了 AI 的「第三种 Scaling 范式」
  • 李想谈万台MEGA召回:生命只有一次;传明年AirPods配摄像头+AI;神舟二十一飞船发射成功,对接速度创纪录|极客早知道

大道至简,中科院等提出OneRef:统一视觉定位和指代分割

CV君 2025-11-06 17:35 江苏

用一个模型统一了三大指代任务,性能与效率双双领先。

在很多工作中常看到“统一视觉与语言”表示的论文,今天分享一篇语言指代定位与分割领域的工作,来自中国科学院、鹏城实验室和哈尔滨工业大学(深圳)等机构的研究者们,他们提出了一种名为 OneRef 的框架。

简单来说,OneRef 尝试解决一个在视觉和语言交叉领域里非常经典的问题:指代表达式定位与分割。这个任务就是让机器根据一句自然语言描述(比如“那个正在走路的长颈鹿”),在图片中找到并框出或分割出对应的物体。传统的做法通常是为不同的任务(比如画框的REC、做分割的RES)设计不同的模型,不仅复杂,而且效率不高。

OneRef 的核心思想就是“统一”,它用一个共享的“单塔”Transformer结构,同时处理图像和文本,把两种信息融合在同一个特征空间里。这就像给机器装上了一个既能看图又能懂话的“通用大脑”,不再需要为视觉和语言分别设置两个独立的“处理中心”再费力地去融合。

更关键的是,作者们还提出了一种全新的预训练范式,叫做 多模态掩码指代建模(Mask Referring Modeling, MRefM)。这个方法在训练时,不仅仅是简单地让模型恢复被遮住的图像或文字,而是引导它去理解“指代关系”,也就是文字描述和图像区域之间的精确对应。

这篇论文出自 NeurIPS 2024,一起来看看这项工作的基本信息:

  • 论文标题: OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling

  • 中文题目:基于掩码指代建模的视觉定位和指代分割单塔统一框架

  • 作者: Linhui Xiao, Xiaoshan Yang, Fang Peng, Yaowei Wang, Changsheng Xu

  • 机构: 中国科学院, 鹏城实验室, 中国科学院大学, 哈尔滨工业大学(深圳)

研究背景与动机

在 OneRef 之前,主流的指代表达式理解(REC)和分割(RES)方法大多采用的是“双塔”结构。如下图所示,它们通常会有一个独立的视觉编码器(比如 ViT)和一个语言编码器(比如 BERT),分别提取特征后,再通过一个复杂的“融合模块”(Fusion Transformer)进行交互。

这种设计的弊端很明显:

  1. 结构臃肿:模型参数量大,计算复杂。

  2. 融合困难:视觉和语言在两个独立的空间里编码,如何有效、细粒度地对齐一直是个难题,因此催生了各种复杂的交互设计。

  3. 任务割裂:不同的指代任务(画框、分割)往往需要不同的模型头,难以实现真正的统一。

研究者们正是看到了这些痛点,才提出了 OneRef。他们想探索一个更简洁、更高效的“单塔”共享模型,将视觉和语言从一开始就在一个统一的特征空间里进行建模,从而摆脱对笨重融合模块和复杂交互设计的依赖。

OneRef 的核心方法

OneRef 的成功主要归功于两大创新:一个统一的“单塔”架构和一个新颖的“掩码指代建模”预训练范式。

统一的单塔架构

OneRef 建立在一个模态共享的单塔 Transformer 之上(基于 BEiT-3 的思想),图像块(Patches)和文本词元(Tokens)被送入同一个 Transformer 编码器。这意味着模型从底层就开始学习视觉和语言的联合表示,天然地促进了两种模态的对齐。这种设计使得整个框架异常简洁,不再需要额外的跨模态融合编码器/解码器。

多模态掩码指代建模 (MRefM)

这是 OneRef 的灵魂所在。传统的掩码语言/图像建模(MLM/MIM)任务是让模型预测被遮挡的单词或图像块,这对于学习通用的图文知识很有效,但对于需要精确空间定位的指代任务来说,还不够。

MRefM 对此进行了升级,它包含两个相互关联的子任务:指代感知的掩码图像建模 (Referring-MIM)指代感知的掩码语言建模 (Referring-MLM)

  • Referring-MIM: 当模型重建被遮挡的图像块时,它不仅要恢复图像内容本身,还要额外预测一个“视觉目标关系分数”。这个分数描述了当前图像块与被指代物体区域之间的空间关系(例如,到目标中心的距离、相对尺寸等)。为了让模型更好地学习这种关系,作者还设计了一种“指代感知的动态图像掩码策略”,它会有侧重地对被指代的物体区域进行高比例的遮挡,迫使模型依赖上下文和文本来理解和重建它。

  • Referring-MLM: 类似地,在重建被遮挡的文本词元时,模型也需要预测一个“语义目标关系分数”,这个分数代表了当前词元与被指代图像区域的语义相关性。

通过这种方式,MRefM 预训练让模型的每一个图像和文本特征都隐式地包含了指代信息,为后续直接、高效地完成定位和分割任务打下了坚实的基础。

统一的任务头

得益于 MRefM 学习到的强大且统一的特征表示,OneRef 的下游任务头设计得异常简洁。无论是画框(REC)还是分割(RES),都可以直接在编码器的输出特征上,通过简单的点积操作和轻量级的 MLP(多层感知机)或反卷积层来直接回归出结果,无需任何特殊的 [Region] 标记或复杂的解码器。

惊艳的实验结果

OneRef 的性能表现非常出色,在多个主流的指代任务数据集上都取得了当前最佳(SOTA)的成绩。

指代表达式理解/定位 (REC/PG) 任务

在单数据集微调设定下,OneRef-L(大模型版本)在 RefCOCO、RefCOCO+ 和 RefCOCOg 等多个测试集上全面超越了之前的 SOTA 模型 HiVG-L。例如,在最具挑战性的 RefCOCOg 数据集上,准确率达到了 89.29%

在混合数据集预训练的设定下,OneRef 的优势更加明显。即便是与参数量远大于自己的多模态大语言模型(如 LION-12B)相比,OneRef-L 依然能在 RefCOCO+ 的 testB 上取得 82.70% 的准确率,性能领先。

指代表达式分割 (RES) 任务

在分割任务上,OneRef 同样表现优异。在 RefCOCO+ 的 testB 上,OneRef-L 的 mIoU 达到了 70.17%,显著高于之前的最佳方法。

效率与消融实验

除了性能强大,OneRef 还非常高效。下面的计算成本对比表显示,OneRef 的参数量和计算量(FLOPs)远低于 Grounding-DINO、MDETR 等知名模型,但推理速度(FPS)却快了 10倍 以上。这充分体现了其简洁架构的巨大优势。

消融实验也证明了 MRefM 范式的有效性。与基线相比,同时使用 Referring-MIM 和 Referring-MLM 带来了巨大的性能提升,在 RefCOCOg 测试集上提升了超过 6.2%

可视化效果

从定性结果来看,OneRef能够准确理解复杂的语言描述,并给出精确的定位框和分割掩码。

总结

CV君认为,OneRef不仅在性能上取得了突破,更重要的是为视觉语言指代任务提供了一个全新的、更加简洁优雅的框架。它证明了通过精心设计的预训练任务,一个统一的“单塔”模型完全有能力解决复杂的跨模态对齐和定位问题,这对于未来多模态基础模型的研究具有重要的启发意义。

大家对这个方法怎么看?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

联系我们