CV君 2025-09-29 12:12 江苏
近年来,大型多模态模型(LMM)在作为通用多模态助手方面取得了巨大成功,尤其是在宏观的图像和视频语言理解上。然而,这些模型往往“观其大略”,对于深入到像素级别的细粒度理解能力却关注较少。为了弥补这一差距,来自香港理工大学、腾讯、中国科学院和vivo等机构的研究者们提出了 UniPixel,一个能够无缝集成像素级感知与通用视觉推理能力的大型多模态模型,相关成果已被NeurIPS 2025接收。
UniPixel,意为“Unified Pixel”,其核心思想在于“统一”,即在一个模型内统一对象指代(Referring)和分割(Segmentation)两大能力,并将其作为后续复杂推理的基础。如下图所示,UniPixel能够灵活支持包括指代/推理/交互式分割、基于运动的视频推理、指代性视频描述与问答等多种细粒度图文理解任务。
论文标题: UniPixel: Unified Object Referring and Segmentation for Pixel-Level Visual Reasoning
作者团队: Ye Liu, Zongyang Ma, Junfu Pu, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen
所属机构: 香港理工大学,腾讯ARC Lab,中国科学院,vivo,腾讯AI Lab
录用会议: NeurIPS 2025
研究背景与动机
当前的LMM在处理视觉语言任务时,通常存在两个基本限制:
交互方式单一:主要依赖文本进行交互,缺乏更直观的视觉提示方式,如通过点、框来指定感兴趣的区域。
推理粒度粗糙:模型倾向于对整个图像进行宏观理解,难以对特定对象或区域进行深入的、细粒度的推理。
虽然已有工作尝试将LMM应用于区域级描述或指代性分割,但它们往往是“偏科生”,要么只能执行指代任务,要么只能执行分割任务,无法将这两种细粒度的感知能力有机地融入到视觉推理流程中。
上图清晰地展示了UniPixel与以往工作的区别。传统的指代模型(a)或分割模型(b)是分离的,而 UniPixel(c)首次将对象指代和分割统一在一个模型中,并能基于分割出的对象进行进一步的推理问答,实现了“感知”到“认知”的无缝衔接。
UniPixel:统一模型,三步走实现像素级推理
UniPixel的核心创新在于其独特的架构设计,它能够按需处理视觉提示(点、框等),生成相应的掩码(mask),并将这些掩码作为“中间指针”来引导后续的推理过程。
上图展示了UniPixel的整体架构,其工作流程可以概括为三步:
编码万物(Prompt Encoding):模型接收视频、文本问题和视觉提示(如点、框)作为输入。视觉编码器、文本分词器和专门的 提示编码器(Prompt Encoder) 将这些多模态信息统一编码为token。
按需分割与记忆(Mask Generation & Memory Bank):掩码解码器(Mask Decoder) 会为每一个视觉提示预测一个时空维度的掩码。这些新生成的“对象-掩码”对会被存入一个新颖的 对象记忆库(Object Memory Bank) 中。这个记忆库就像一个哈希表,动态地存储和更新着场景中我们感兴趣的对象信息。
注入记忆再推理(Memory Injection & Reasoning):在生成最终答案前,模型会将对象记忆库中存储的对象特征 注入(inject) 回语言模型的输入中。这样,LMM在进行推理时,就不仅拥有了对整个场景的宏观理解,还获得了关于特定对象的、精确到像素的细粒度信息,从而能够生成基于掩码的、内容更精准的回答。
实验效果:10项基准SOTA与创新的PixelQA任务
UniPixel的有效性在涵盖图像/视频指代、分割和以对象为中心的理解等9大类任务的 10个公开基准 上得到了广泛验证,并在多个任务上取得了SOTA(State-of-the-Art)性能。
以下是部分任务的性能对比,展示了UniPixel在多个指代性分割任务上的优越表现:
创新的PixelQA任务
为了更好地验证UniPixel的灵活性和综合能力,作者还提出了一个全新的 PixelQA(Pixel-Level Video Question Answering) 任务。该任务要求模型同时完成 对象指代、分割和问答 三项挑战,这是现有方法无法处理的。
下图则直观展示了UniPixel在PixelQA任务上的出色能力:即使用户只在视频的某一帧上通过点或框给出模糊的提示,模型也能准确地识别、跟踪该对象,并围绕该对象回答复杂问题。
总结与贡献
CV君认为,UniPixel的提出是LMM向更精细化、更实用的多模态智能助手迈出的重要一步。
提出了首个统一框架:UniPixel首次提出了一个统一对象指代和分割的端到端模型,实现了从粗粒度场景理解到细粒度像素推理的跨越。
引入了新的推理机制:通过创新的“对象记忆库”和“记忆注入”机制,UniPixel为LMM如何利用中间感知结果进行深度推理提供了一种全新的、有效的范式。
创建了新的评测维度:新颖的PixelQA任务为评估模型的综合像素级理解能力设立了新标准。
代码开源:模型和代码均已开源,将极大地推动社区在像素级视觉推理领域的研究。
总而言之,UniPixel通过其统一的设计,证明了对象指代和分割能力的融合能够相互促进,并能显著增强LMM的细粒度推理能力。这项工作无疑将启发更多关于像素级视觉理解的未来研究。
了解最新 AI 进展,欢迎关注公众号:我爱计算机视觉
感谢点赞支持。