CV君 2025-11-10 13:01 江苏
GPT-4o的视觉能力,究竟到了什么地步?
最近,大型多模态模型(MLLM)的能力边界又一次被拓宽了。当红的 GPT-4o 不仅能说会道、看图作文,现在,来自武汉大学的研究者们想知道:如果让它来做一件非常专业的计算机视觉任务——行人重识别(Person Re-identification, Re-ID),它能做得怎么样?
行人重识别,简单来说,就是要在不同的摄像头画面中,认出同一个人。这项技术是智能安防、智慧城市背后的关键,但一直以来都面临着巨大的挑战:同一个人的外貌会因为视角、光线、穿着甚至时间流逝而发生巨大变化。传统的 Re-ID 模型通常是针对这个特定任务精心设计的“专才”。而 GPT-4o 这种 MLLM 则是知识渊博的“通才”。那么,“通才”与“专才”的对决,结果会如何呢?这篇论文就为我们带来了一场详尽的摸底评测。
论文标题: MLLMs meet Person Re-identification
作者: Mengying Duan, He Li, Mang Ye
机构: 武汉大学
会议: ACM Multimedia 2025
“策反” MLLM:如何让它乖乖做评测?
有趣的是,研究的第一步,竟然是如何“说服” GPT-4o 配合工作。
如果你直接给 GPT-4o 两张图片,问“这是不是同一个人?”,它很可能会因为隐私安全策略而拒绝回答。这体现了模型内置的安全机制。为了绕过这个限制,研究者们尝试了多种“沟通技巧”,比如把“人”换成“个体”,或者声称图片是 AI 生成的。但效果都不理想。
最终,他们发现了一个绝妙的办法:不问“是不是”,而是问“有多大可能性”。通过让模型给出一个 0 到 100 的相似度概率,GPT-4o 不仅给出了判断,还会附上非常详细的分析过程。CV君觉得,这个小技巧在与其他 MLLM 交互时也非常有借鉴意义。
五大“地狱难度”场景,全面拷问 GPT-4o
在解决了沟通问题后,研究者们设计了五个公认的 Re-ID 难题,来全方位地考验 MLLM 的视觉理解能力。
这五个场景分别是:
视角变化 (Angle Variation) :同一个人的正面、侧面、背面看起来可能完全不同。
光照差异 (Illumination Difference) :白天和晚上、室内和室外,光线会严重影响颜色和细节。
衣物更换 (Clothes Changing) :长期追踪中,换衣服是最常见的干扰项。
图像损坏 (Image Corruption) :真实世界中的图像往往有噪声、模糊或遮挡。
视觉细粒度识别 (Visually Fine-grained) :面对长相、穿着都极为相似的不同的人,模型能否明察秋毫?
实验结果:意料之外,情理之中
通过在这五个场景下对 GPT-4o、Gemini、Claude、Qwen 等六个主流 MLLM 进行横向评测,研究者们得到了一些非常有价值的结论。
上表清晰地展示了各模型在不同任务上的准确率(Acc.)和 F1 分数。绿色表示 GPT-4o 表现最佳,红色则表示其表现低于所有模型的平均水平。
GPT-4o 表现如何?
总体来看,GPT-4o 在大部分场景中都展现出了最强的实力,尤其是在 视角变化、图像损坏 和 细粒度识别 任务上,其准确率远超其他模型。
视角变化:在处理不同拍摄角度的图片时,GPT-4o 表现出了惊人的稳健性,准确率达到了 91.5%。它能够准确描述出“正面”或“侧面轮廓”等角度信息,并基于这些信息进行综合判断。
光照差异:面对光照变化,GPT-4o 也能给出合理的分析,比如它会推测“衣服的颜色变化可能是由不同的光照条件引起的”,并给出了 74% 的准确率,虽然不是最高,但其分析过程令人信服。
衣物更换:在人物更换衣物的场景下,所有模型的表现都还不错。GPT-4o 能够关注到衣物之外的特征,比如体型、裤子和鞋子,并做出了正确的判断。
图像损坏:在图像质量不佳的情况下,GPT-4o 依然取得了 87.1% 的高准确率,展现了强大的鲁棒性。不过,有时过度的噪声还是会误导它。
视觉细粒度识别:这是最考验模型“眼力”的任务。当面对两个外形极其相似但并非同一人时,即便是 GPT-4o 也感到了压力。如下图所示,在一些“高仿”路人面前,它也会犯错(红色标记为错误判断)。这说明,虽然 MLLM 很强大,但在需要极致细节分辨的场景下,离完美还有距离。
MLLM 的通用能力评估
除了任务表现,论文还从回应长度、回应率和准确率三个维度对所有模型进行了综合评估。
结果显示,GPT-4o 在准确率上以 78.5% 的成绩遥遥领先,而 Gemini 提供了最详尽的分析文本,Qwen-vl-max 的回应率最高。这说明不同的 MLLM 在设计上各有侧重。
提示词的力量
研究还发现,即使是同一个模型,使用不同的提示词(Prompt),其表现也会有显著差异。如下图所示,通过在提示词中加入“Here is a puzzle.”(这是一个谜题)这样的引导语,或者调整问题的表述方式,竟然能将一对多识别的准确率从28%提升到最高69%。这再次证明了“提示工程”在大模型应用中的神奇魔力。
总结与思考
这项研究告诉我们,以 GPT-4o 为代表的通用多模态大模型,在没有经过任何 Re-ID 任务微调的情况下,已经具备了相当不错的行人识别能力,尤其是在处理视角、光照等常见变化时表现出的推理和分析能力,甚至超过了一些人的直觉。
然而,在光照变化和极度细粒度的识别任务上,它们依然有很大的提升空间。这或许也为未来的研究指明了方向:如何将 MLLM 强大的通用知识和推理能力,与传统 Re-ID 模型在特定任务上的精准性结合起来,可能会是下一个突破口。
大家对这个方法怎么看?欢迎在评论区留下你的看法!