CV君 2025-10-01 14:13 江苏
新方法让多模态模型看图、看视频、看3D都更准了!
最近,多模态大语言模型(MLLM)的发展日新月异,但大家有没有发现,很多模型似乎更偏爱处理文字,而在“看图说话”的“看”这个环节,总感觉还差那么点意思。它们或许能识别出图像里的物体,但对于更精细的视觉细节、动态的时间顺序或是三维空间关系,理解起来就有些吃力了。
为了解决这个问题,来自南洋理工大学、林雪平大学和商汤科技的研究者们提出了一个非常有创意的方案。他们的新论文 《Visual Jigsaw Post-Training Improves MLLMs》 介绍了一种名为 Visual Jigsaw 的后训练框架。
“Visual Jigsaw”直译过来就是“视觉拼图”。它的核心思想,就是让模型像玩拼图游戏一样,通过重建被打乱的视觉信息,来增强对视觉信号的内在理解。
论文标题:Visual Jigsaw Post-Training Improves MLLMs
作者:Penghao Wu, Yushan Zhang, Haiwen Diao, Bo Li, Lewei Lu, Ziwei Liu
机构:南洋理工大学、林雪平大学、商汤科技
让模型玩一场“视觉拼图”游戏
目前,提升MLLM能力的主流方法是基于强化学习的后训练,但这主要集中在文本层面。视觉输入通常只是被用来提取一些稀疏的线索,服务于基于文本的推理,这限制了模型视觉能力的深度发展。
为了让模型真正“懂”视觉,研究者们设计了 Visual Jigsaw。这是一个通用的自监督后训练框架,其核心是一个排序任务:将视觉输入(如图片、视频或3D数据)分割成块并打乱顺序,然后要求模型用自然语言输出正确的排列。
这个过程最巧妙的地方在于,它完全是 自监督 的,不需要任何人工标注。正确的顺序是天然存在的,模型可以根据预测与真实顺序的匹配度获得奖励信号,这与一种称为“来自可验证奖励的强化学习”(Reinforcement Learning from Verifiable Rewards, RLVR)的技术天然契合,也无需引入额外的视觉生成组件。
具体来说,研究者们设计了三种拼图任务:
图像拼图 (Image Jigsaw)
将一张图片分割成若干不重叠的图块,打乱顺序后,模型需要预测出它们在光栅扫描顺序(从左到右,从上到下)下的正确索引。这能锻炼模型对图像内容的细粒度感知和空间关系理解。
视频拼图 (Video Jigsaw)
将一段视频切分成多个片段,打乱后,模型需要预测它们原始的时间顺序。这个任务旨在增强模型对动态过程和时序关系的理解。
3D拼图 (3D Jigsaw)
从一张RGB-D图像中,根据深度值采样一些点,在RGB视图中标注出来并打乱。模型需要根据这些点在图像中的样子,恢复它们从近到远的正确深度顺序。这直接提升了模型对三维几何和空间布局的感知能力。
实验效果:拼图“玩”得好,能力提升大
那么,让模型玩拼图的效果究竟如何呢?实验结果相当惊人。研究者们在多种视觉模态的基准测试上验证了Visual Jigsaw的有效性。
从上面的雷达图可以直观地看到,经过Visual Jigsaw后训练的模型,在图像的细粒度感知、空间感知、组合理解,视频的时序理解,以及3D的几何感知等多个维度上,都取得了显著的进步。
图像理解能力提升
在多个图像理解基准测试上,经过Image Jigsaw训练的模型表现出了全面的性能提升,尤其是在细粒度感知、空间理解和组合式理解方面。
例如,在下面的例子中,原始模型错误地判断了图中的小熊,而经过拼图训练后的模型则能正确理解图像内容。
视频和3D理解同样出色
不仅是静态图像,在视频和3D数据上,Visual Jigsaw同样威力不减。
Video Jigsaw任务显著增强了模型在多个视频理解基准上的表现。
而3D Jigsaw则让模型在深度比较任务和更广泛的3D感知任务上都获得了稳定的性能增益。
研究者们还发现,这个方法甚至能提升那些以推理为导向的MLLM的视觉感知能力,同时不损害其原有的推理能力。
总结
Visual Jigsaw 的提出,为我们提供了一个全新的视角来思考如何提升多模态大模型的视觉能力。它通过一个简单而通用的“拼图”任务,巧妙地将自监督学习与强化学习结合起来,在不增加额外标注成本和模型复杂度的前提下,显著增强了模型对图像、视频和3D数据的内在理解。
这项工作不仅证明了以视觉为中心的自监督任务在后训练阶段的巨大潜力,也为未来设计更多样的视觉预训练任务带来了启发。作者已经开源了代码,感兴趣的朋友不妨去亲自尝试一下。
大家对这个“拼图游戏”怎么看?欢迎在评论区留下你的看法!