原创 让你更懂AI的 2025-11-06 14:13 北京
让模型不只“看懂场景”,还能精确指向每一像素。
当前 MLLM 擅长全局场景级理解与推理,在像素级细粒度视觉理解任务上仍表现薄弱。
视觉语言理解已从整体场景级认知,迈向更细粒度的像素级目标级推理。然而,当下的研究工作多局限于单个物体的描述,难以深入理解多对象属性、交互关系及其时序演变,且牺牲了模型本身的通用理解能力。
研究人员给出创新的解决方案 PixelRefer:一个统一的时空像素级区域级理解框架,可实现任意粒度下的精细视觉指代与推理,在多项像素级细粒度理解任务取得领先性能表现,且模型推理时间、显存占用大幅优于现有工作。
PixelRefer 实现极小目标的准确语义理解以及时空物体区域理解。
作者单位:
ZJU、Alibaba DAMO、HK PloyU
论文链接:
https://arxiv.org/abs/2510.23603
项目网站链接:
https://circleradon.github.io/PixelRefer/
代码链接:
https://github.com/DAMO-NLP-SG/PixelRefer
核心看点
对像素级区域模型进行深入的分析:(i)语义丰富的区域表征直接决定像素级语义理解的质量;(ii)在 LLM 深层阶段,全局视觉标记的作用显著减弱;
引入 PixelRefer 与轻量化 PixelRefer-Lite 方法,实现高效像素级理解的同时,保持视觉语言模型本身通用视觉理解能力;
构建大规模区域级指令数据集 PixelRefer-2.2M,包含细粒度物体感知与全局视觉指令微调数据。
原理与做法
构建 Vision-Object Framework与Object-only Framework。其中对于 Vision-Object Framework,把全局视觉 token + 像素级区域 token + 文本 token 一起送入 LLM,既保留场景语境,又在对象级上精细推理。对于 Object-only Framework,将全局特征在前处理阶段融合入对象 token 表示中。这样一来,LLM 无需再使用全局视觉标记,显著降低显存与时间消耗,同时保持语义一致性与理解精度。
Scale-Adaptive Object Tokenizer(SAOT)。该像素级物体编码器能自适应地调整不同大小目标的特征尺度,让微小物体不被忽略、巨大目标不冗余;同时引入掩膜特征聚合(Abundant Feature Aggregation)与相对位置编码,让目标区域的表征既紧凑又富含上下文信息。
Object-Centric Infusion Module(OCI),该模块采用分层注意力机制,在局部与全局两个层面逐步注入视觉特征。通过 Local-to-Object 和 Global-to-Object Attention,使目标的表征同时具备细节感知与全局语义,从而实现更完整的上下文融合。
构建 Foundational Object Perception(140 万样本):涵盖物体、部件、时序关系的识别与描述;Visual Instruction Tuning(80 万样本):覆盖区域 QA、视频 QA、多对象关系与未来事件预测。
性能结果
对于图像像素级细粒度理解 benchmark
对于视频像素级细粒度理解 benchmark
对于推理时间与效率的计算
对于区域 token 的表征个数
研究意义与总结
PixelRefer 的提出,为多模态大模型的精细化视觉理解提供了新的方向,让模型从“看懂一张图”,进一步迈向“精确理解图中对象在时间与空间上的语义关系与变化”。无论在机器人感知、自动驾驶场景、医疗影像分析,还是影视内容理解与视频检索,都有很大的应用潜力和拓展空间。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·