ToolsAi

CV君 2025-11-06 17:35 江苏

用一个模型统一了三大指代任务，性能与效率双双领先。

在很多工作中常看到“统一视觉与语言”表示的论文，今天分享一篇语言指代定位与分割领域的工作，来自中国科学院、鹏城实验室和哈尔滨工业大学（深圳）等机构的研究者们，他们提出了一种名为 OneRef 的框架。

简单来说，OneRef 尝试解决一个在视觉和语言交叉领域里非常经典的问题：指代表达式定位与分割。这个任务就是让机器根据一句自然语言描述（比如“那个正在走路的长颈鹿”），在图片中找到并框出或分割出对应的物体。传统的做法通常是为不同的任务（比如画框的REC、做分割的RES）设计不同的模型，不仅复杂，而且效率不高。

OneRef 的核心思想就是“统一”，它用一个共享的“单塔”Transformer结构，同时处理图像和文本，把两种信息融合在同一个特征空间里。这就像给机器装上了一个既能看图又能懂话的“通用大脑”，不再需要为视觉和语言分别设置两个独立的“处理中心”再费力地去融合。

更关键的是，作者们还提出了一种全新的预训练范式，叫做 多模态掩码指代建模（Mask Referring Modeling, MRefM）。这个方法在训练时，不仅仅是简单地让模型恢复被遮住的图像或文字，而是引导它去理解“指代关系”，也就是文字描述和图像区域之间的精确对应。

这篇论文出自 NeurIPS 2024，一起来看看这项工作的基本信息：

论文标题: OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling

中文题目：基于掩码指代建模的视觉定位和指代分割单塔统一框架

作者: Linhui Xiao, Xiaoshan Yang, Fang Peng, Yaowei Wang, Changsheng Xu
机构: 中国科学院, 鹏城实验室, 中国科学院大学, 哈尔滨工业大学（深圳）

发表会议：38th Conference on Neural Information Processing Systems (NeurIPS 2024)
arXiv链接：https://arxiv.org/abs/2410.08021
发表链接： https://proceedings.neurips.cc/paper_files/paper/2024/hash/fcd812a51b8f8d05cfea22e3c9c4b369-Abstract-Conference.html
代码和模型：https://github.com/linhuixiao/OneRef （代码和模型已全部开源）

研究背景与动机

在 OneRef 之前，主流的指代表达式理解（REC）和分割（RES）方法大多采用的是“双塔”结构。如下图所示，它们通常会有一个独立的视觉编码器（比如 ViT）和一个语言编码器（比如 BERT），分别提取特征后，再通过一个复杂的“融合模块”（Fusion Transformer）进行交互。

这种设计的弊端很明显：

结构臃肿：模型参数量大，计算复杂。
融合困难：视觉和语言在两个独立的空间里编码，如何有效、细粒度地对齐一直是个难题，因此催生了各种复杂的交互设计。
任务割裂：不同的指代任务（画框、分割）往往需要不同的模型头，难以实现真正的统一。

研究者们正是看到了这些痛点，才提出了 OneRef。他们想探索一个更简洁、更高效的“单塔”共享模型，将视觉和语言从一开始就在一个统一的特征空间里进行建模，从而摆脱对笨重融合模块和复杂交互设计的依赖。

OneRef 的核心方法

OneRef 的成功主要归功于两大创新：一个统一的“单塔”架构和一个新颖的“掩码指代建模”预训练范式。

统一的单塔架构

OneRef 建立在一个模态共享的单塔 Transformer 之上（基于 BEiT-3 的思想），图像块（Patches）和文本词元（Tokens）被送入同一个 Transformer 编码器。这意味着模型从底层就开始学习视觉和语言的联合表示，天然地促进了两种模态的对齐。这种设计使得整个框架异常简洁，不再需要额外的跨模态融合编码器/解码器。

多模态掩码指代建模 (MRefM)

这是 OneRef 的灵魂所在。传统的掩码语言/图像建模（MLM/MIM）任务是让模型预测被遮挡的单词或图像块，这对于学习通用的图文知识很有效，但对于需要精确空间定位的指代任务来说，还不够。

MRefM 对此进行了升级，它包含两个相互关联的子任务：指代感知的掩码图像建模 (Referring-MIM) 和 指代感知的掩码语言建模 (Referring-MLM) 。

Referring-MIM: 当模型重建被遮挡的图像块时，它不仅要恢复图像内容本身，还要额外预测一个“视觉目标关系分数”。这个分数描述了当前图像块与被指代物体区域之间的空间关系（例如，到目标中心的距离、相对尺寸等）。为了让模型更好地学习这种关系，作者还设计了一种“指代感知的动态图像掩码策略”，它会有侧重地对被指代的物体区域进行高比例的遮挡，迫使模型依赖上下文和文本来理解和重建它。
Referring-MLM: 类似地，在重建被遮挡的文本词元时，模型也需要预测一个“语义目标关系分数”，这个分数代表了当前词元与被指代图像区域的语义相关性。

通过这种方式，MRefM 预训练让模型的每一个图像和文本特征都隐式地包含了指代信息，为后续直接、高效地完成定位和分割任务打下了坚实的基础。

统一的任务头

得益于 MRefM 学习到的强大且统一的特征表示，OneRef 的下游任务头设计得异常简洁。无论是画框（REC）还是分割（RES），都可以直接在编码器的输出特征上，通过简单的点积操作和轻量级的 MLP（多层感知机）或反卷积层来直接回归出结果，无需任何特殊的 [Region] 标记或复杂的解码器。