CV君 2025-11-06 17:35 江苏
用一个模型统一了三大指代任务,性能与效率双双领先。
在很多工作中常看到“统一视觉与语言”表示的论文,今天分享一篇语言指代定位与分割领域的工作,来自中国科学院、鹏城实验室和哈尔滨工业大学(深圳)等机构的研究者们,他们提出了一种名为 OneRef 的框架。
简单来说,OneRef 尝试解决一个在视觉和语言交叉领域里非常经典的问题:指代表达式定位与分割。这个任务就是让机器根据一句自然语言描述(比如“那个正在走路的长颈鹿”),在图片中找到并框出或分割出对应的物体。传统的做法通常是为不同的任务(比如画框的REC、做分割的RES)设计不同的模型,不仅复杂,而且效率不高。
OneRef 的核心思想就是“统一”,它用一个共享的“单塔”Transformer结构,同时处理图像和文本,把两种信息融合在同一个特征空间里。这就像给机器装上了一个既能看图又能懂话的“通用大脑”,不再需要为视觉和语言分别设置两个独立的“处理中心”再费力地去融合。
更关键的是,作者们还提出了一种全新的预训练范式,叫做 多模态掩码指代建模(Mask Referring Modeling, MRefM)。这个方法在训练时,不仅仅是简单地让模型恢复被遮住的图像或文字,而是引导它去理解“指代关系”,也就是文字描述和图像区域之间的精确对应。
这篇论文出自 NeurIPS 2024,一起来看看这项工作的基本信息:
论文标题: OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling
中文题目:基于掩码指代建模的视觉定位和指代分割单塔统一框架
作者: Linhui Xiao, Xiaoshan Yang, Fang Peng, Yaowei Wang, Changsheng Xu
机构: 中国科学院, 鹏城实验室, 中国科学院大学, 哈尔滨工业大学(深圳)
发表会议:38th Conference on Neural Information Processing Systems (NeurIPS 2024)
arXiv链接:https://arxiv.org/abs/2410.08021
代码和模型:https://github.com/linhuixiao/OneRef (代码和模型已全部开源)
研究背景与动机
在 OneRef 之前,主流的指代表达式理解(REC)和分割(RES)方法大多采用的是“双塔”结构。如下图所示,它们通常会有一个独立的视觉编码器(比如 ViT)和一个语言编码器(比如 BERT),分别提取特征后,再通过一个复杂的“融合模块”(Fusion Transformer)进行交互。
这种设计的弊端很明显:
结构臃肿:模型参数量大,计算复杂。
融合困难:视觉和语言在两个独立的空间里编码,如何有效、细粒度地对齐一直是个难题,因此催生了各种复杂的交互设计。
任务割裂:不同的指代任务(画框、分割)往往需要不同的模型头,难以实现真正的统一。
研究者们正是看到了这些痛点,才提出了 OneRef。他们想探索一个更简洁、更高效的“单塔”共享模型,将视觉和语言从一开始就在一个统一的特征空间里进行建模,从而摆脱对笨重融合模块和复杂交互设计的依赖。
OneRef 的核心方法
OneRef 的成功主要归功于两大创新:一个统一的“单塔”架构和一个新颖的“掩码指代建模”预训练范式。
统一的单塔架构
OneRef 建立在一个模态共享的单塔 Transformer 之上(基于 BEiT-3 的思想),图像块(Patches)和文本词元(Tokens)被送入同一个 Transformer 编码器。这意味着模型从底层就开始学习视觉和语言的联合表示,天然地促进了两种模态的对齐。这种设计使得整个框架异常简洁,不再需要额外的跨模态融合编码器/解码器。
多模态掩码指代建模 (MRefM)
这是 OneRef 的灵魂所在。传统的掩码语言/图像建模(MLM/MIM)任务是让模型预测被遮挡的单词或图像块,这对于学习通用的图文知识很有效,但对于需要精确空间定位的指代任务来说,还不够。
MRefM 对此进行了升级,它包含两个相互关联的子任务:指代感知的掩码图像建模 (Referring-MIM) 和 指代感知的掩码语言建模 (Referring-MLM) 。
Referring-MIM: 当模型重建被遮挡的图像块时,它不仅要恢复图像内容本身,还要额外预测一个“视觉目标关系分数”。这个分数描述了当前图像块与被指代物体区域之间的空间关系(例如,到目标中心的距离、相对尺寸等)。为了让模型更好地学习这种关系,作者还设计了一种“指代感知的动态图像掩码策略”,它会有侧重地对被指代的物体区域进行高比例的遮挡,迫使模型依赖上下文和文本来理解和重建它。
Referring-MLM: 类似地,在重建被遮挡的文本词元时,模型也需要预测一个“语义目标关系分数”,这个分数代表了当前词元与被指代图像区域的语义相关性。
通过这种方式,MRefM 预训练让模型的每一个图像和文本特征都隐式地包含了指代信息,为后续直接、高效地完成定位和分割任务打下了坚实的基础。
统一的任务头
得益于 MRefM 学习到的强大且统一的特征表示,OneRef 的下游任务头设计得异常简洁。无论是画框(REC)还是分割(RES),都可以直接在编码器的输出特征上,通过简单的点积操作和轻量级的 MLP(多层感知机)或反卷积层来直接回归出结果,无需任何特殊的 [Region] 标记或复杂的解码器。
惊艳的实验结果
OneRef 的性能表现非常出色,在多个主流的指代任务数据集上都取得了当前最佳(SOTA)的成绩。
指代表达式理解/定位 (REC/PG) 任务
在单数据集微调设定下,OneRef-L(大模型版本)在 RefCOCO、RefCOCO+ 和 RefCOCOg 等多个测试集上全面超越了之前的 SOTA 模型 HiVG-L。例如,在最具挑战性的 RefCOCOg 数据集上,准确率达到了 89.29%。
在混合数据集预训练的设定下,OneRef 的优势更加明显。即便是与参数量远大于自己的多模态大语言模型(如 LION-12B)相比,OneRef-L 依然能在 RefCOCO+ 的 testB 上取得 82.70% 的准确率,性能领先。
指代表达式分割 (RES) 任务
在分割任务上,OneRef 同样表现优异。在 RefCOCO+ 的 testB 上,OneRef-L 的 mIoU 达到了 70.17%,显著高于之前的最佳方法。
效率与消融实验
除了性能强大,OneRef 还非常高效。下面的计算成本对比表显示,OneRef 的参数量和计算量(FLOPs)远低于 Grounding-DINO、MDETR 等知名模型,但推理速度(FPS)却快了 10倍 以上。这充分体现了其简洁架构的巨大优势。
消融实验也证明了 MRefM 范式的有效性。与基线相比,同时使用 Referring-MIM 和 Referring-MLM 带来了巨大的性能提升,在 RefCOCOg 测试集上提升了超过 6.2%。
可视化效果
从定性结果来看,OneRef能够准确理解复杂的语言描述,并给出精确的定位框和分割掩码。
总结
CV君认为,OneRef不仅在性能上取得了突破,更重要的是为视觉语言指代任务提供了一个全新的、更加简洁优雅的框架。它证明了通过精心设计的预训练任务,一个统一的“单塔”模型完全有能力解决复杂的跨模态对齐和定位问题,这对于未来多模态基础模型的研究具有重要的启发意义。
大家对这个方法怎么看?欢迎在评论区留下你的看法!