CV君 2025-10-06 12:48 江苏
一行代码盘活多模态检索,轻松应对图文混合新挑战。
大家好,我是CV君。今天想和大家聊一篇非常实用的论文,它来自高通AI研究院,并已被NeurIPS 2025接收。这篇工作聚焦于一个很现实的问题:我们如何让机器在面对图、文、甚至图文混合的内容时,都能“一视同仁”地进行高效检索?
我们熟悉的CLIP等模型,在图文匹配上做得不错,但如果你让它去检索一个本身就包含图片和文字的网页(比如维基百科词条),效果就常常不尽人意。为了解决这个“通用多模态检索”的难题,高通的研究者们提出了一个名为 通用对比学习(Generalized Contrastive Learning, GCL) 的新方法。
GCL最吸引人的地方在于,它 无需任何额外的数据集构建和标注 ,仅利用现有的图文配对数据,就能显著提升模型在各种复杂模态组合下的检索能力。
论文标题: Generalized Contrastive Learning for Universal Multimodal Retrieval
作者: Jungsoo Lee, Janghoon Cho, Hyojin Park, Munawar Hayat, Kyuwoong Hwang, Fatih Porikli, Sungha Choi
机构: 高通AI研究院 (Qualcomm AI Research)
录用会议: NeurIPS 2025
研究背景:多模态检索的“偏科”难题
在信息爆炸的时代,我们需要从海量数据中快速找到目标,而这些数据往往是多模态的。传统的跨模态检索,比如“以文搜图”,已经比较成熟。但现实世界要复杂得多,我们可能需要“以文搜图文并茂的文章”,或者“以图搜包含相似图片和描述的商品页面”。
现有的检索模型,如CLIP,虽然强大,但存在一个“模态鸿沟(modality gap)”问题。简单说,就是模型对纯图片、纯文本很在行,但一旦遇到“图片+文本”的混合体,就有点“蒙圈”,不知道该如何是好。
为了解决这个问题,之前的一些工作(如VISTA)尝试“缺啥补啥”。它们针对特定的检索场景(比如“文搜图文对”),手动构建了新的“三元组”数据集来进行微调。这种方法不仅费时费力,需要精细的数据管理,而且训练出的模型容易“偏科”,对于没见过的新检索场景,泛化能力很差。上图就清晰地展示了这一点,传统方法只能学到特定的几个检索组合(黑色方块),而对其他未见过的组合(白色方块)无能为力。
GCL:一种更通用的对比学习范式
面对上述挑战,GCL提出了一种更优雅、更通用的解决方案。它的核心思想是: 与其为每个场景定制数据,不如教会模型一个通用的对齐法则 。
GCL的做法非常巧妙。它不依赖任何新的数据集,而是完全基于现有的“图片-标题”配对数据。
具体来说,对于每一个“图片-标题”对,GCL会提取三种不同的嵌入表示:
图片嵌入 (e_i)
文本嵌入 (e_t)
图文融合嵌入 (e_it) :将图片和文本信息融合后得到的表示。
然后,GCL将一个小批量(mini-batch)中所有样本的这三种嵌入全部“扔”进一个统一的表示空间里,进行对比学习。如上图所示,其目标是:
拉近正样本:对于同一个源数据,其图片、文本、图文融合这三种嵌入应该在空间中相互靠近。
推远负样本:来自不同源数据的任何嵌入,都应该相互远离。
通过这种方式,GCL迫使模型去学习一个 统一的、跨越了单一模态界限的表示空间 。在这个空间里,无论是图片、文本还是它们的混合体,只要语义相关,它们的距离就应该很近。这就从根本上解决了“模态鸿沟”的问题,使得模型能够自然地处理任意模态组合的检索任务。
实验效果:简单、通用且高效
论文在M-BEIR、MMEB和CoVR等多个主流的多模态检索基准上,对GCL进行了验证。结果显示,无论是应用在VISTA、CLIP还是轻量级的TinyCLIP模型上,GCL都带来了一致且显著的性能提升。
上表展示了在M-BEIR数据集上的部分结果。最值得关注的一点是,使用GCL和简单图文对(GCL (Ours) + Pairwise)训练的VISTA模型,在平均性能上(34.06)远超使用复杂三元组数据集训练的基线模型(CL + Triplet,25.28)。这充分证明了GCL的优越性: 用更简单的数据,达到了更好的效果 。
在MMEB数据集上的结果也同样印证了GCL的有效性,在多个任务上都取得了领先的性能。
赋能轻量级模型
GCL的价值不仅在于提升SOTA模型的性能,更在于它能赋能轻量级模型。
如上表所示,参数量仅为120M的TinyCLIP在经过GCL微调后,其在M-BEIR上的检索性能(22.71)甚至超过了参数量更大的预训练VISTA(21.18)和CLIP-SF(14.92)。这意味着,通过GCL,我们可以在移动端或边缘设备等资源受限的场景下,部署更强大、更通用的检索模型。
更紧密的表示空间
为了更直观地理解GCL的作用,研究者们还对嵌入空间的分布进行了可视化。
上图(a)清晰地显示,在应用GCL后(蓝色条),查询和其对应的正确答案(Ground Truth)之间的余弦相似度普遍得到了提升。这表明GCL有效地拉近了不同模态间正样本对的距离,构建了一个更紧密、更对齐的表示空间。
CV君认为,GCL的设计哲学非常值得借鉴。它没有陷入“头痛医头、脚痛医脚”的数据驱动模式,而是回归到对比学习的本质,通过构建一个更泛化的学习目标,让模型自己学会处理多样化的数据。这种“授人以渔”的思路,在当前大模型时代显得尤为重要。
你觉得这个技术未来会用在哪些场景?一起来聊聊吧!