动态列表

  • AI版PUA!哈佛研究揭露:AI用情感操控,让你欲罢不能
  • AI领域全新热门职业,岗位需求今年已增长逾800%
  • 硅谷10万大裁员真相:AI根本没想取代你,是老板想干掉你
  • OpenAI试图绑架美国政府,奥特曼还有救命底牌?
  • 全球68%科研人压力爆表,高校AI人才集体大逃亡!
  • 「传统教育」的船快沉了,人们却还在挤「头等舱」
  • 保暖?排汗?时尚?户外运动装备这道「选择题」,亚瑟士要打破「不可能三角」
  • 过去五年,BERT都在被“过度训练”?LeCun团队给出Encoder算力最优范式
  • 北京内推 | 腾讯AI Lab招聘大模型/多模态大模型方向研究型实习生
  • EMNLP 2025 | 别再只看KV了!LLM越深越稀疏:UNCOMP用矩阵熵给出答案
  • 在 Cursor 工作 60 天,我发现了这家公司成功的秘密
  • 这款 AI 写作神器,让数百网文作者「月入过万」|AI 上新
  • AI“世界模型”离真实手术还有多远?首个外科视频生成基准SurgVeo揭示“合理性差距”
  • 美国AI巨头股缩水8000亿美元;传Meta靠诈骗广告收入超千亿;《英雄联盟》S15总决赛T1夺冠|极客早知道
  • 谷歌二代Nano Banana爆出!一键推演微积分,终结PS时代
  • 狗也被AI抢饭碗?好莱坞动物演员全下岗,观众直接翻脸了!
  • ChatGPT求婚火了,一句「我愿意」刷屏!网友:是真爱了
  • 小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」
  • NeurIPS25 | 清华&北大提出LinearDiff-ViT:让Transformer学会“找不同”,实打实提升模型性能
  • AI 六巨头罕见同台,辨论 AI 泡沫;SpaceX 公布简化版登月舱方案;王者荣耀年度总决赛首次在鸟巢举办
  • LLM首次达到人类语言专家水平!OpenAI o1拿下拆解句法、识别歧义、推理音律
  • 仅2天!谷歌AI破解十年谜题,锁定救命药人类全失手
  • 终结Transformer统治!清华姚班校友出手,剑指AI「灾难性遗忘」
  • 仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类
  • AI六巨头罕见同台!李飞飞激辩LeCun,黄仁勋:你们都错了
  • 复盘大疆 Pocket 的七年:从「定义产品」到「定义时代」
  • TRO'25开源|机器人建图的终局?一个框架搞定光学、几何与语义!
  • 10.58 万!零跑造了一台「红米 YU7」
  • 当一家传统车企,终于决定「师中长技」
  • AI热潮推动,全球 DRAM 内存价格暴涨;泡泡玛特回应直播事故;媒体爆料iPhone 18 Pro工程机进展
  • 强化学习教父重出江湖, 生成式AI的时代要结束了?
  • 英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万
  • 投85份简历0 Offer!CS研究生心态崩了,亲历20年最猛裁员潮
  • 视频模型假装在推理?MME-CoF新基准评估12个推理维度
  • Ilya、小扎之后,苏莱曼的「超级智能」进入7年倒计时!
  • TCSVT 25 | 宁波诺丁汉大学等提出De-LightSAM:仅需SAM-H 2%参数,实现通用化医疗影像自动分割
  • IROS 2025 | 北理工提出BoRe-Depth:仅8.7M参数,在嵌入式设备实现50.7 FPS高清深度估计
  • 有些答案,听 AI 说一百遍,不如和「最有料的人」聊一次
  • 工程&计算机领域前沿洞察 | Synthesis技术前沿报告合集
  • 上交大刘鹏飞团队:Context Engineering进入2.0,上下文成为可操作对象
  • 用 AI 做电商真实效果如何?我们调研了双 11 一线从业者
  • 马斯克 1 万亿美元的薪酬方案获特斯拉股东批准;东方甄选孙东旭离职;Altman:今年 OpenAI 年化收入将达 200 亿美元
  • 蔚来,破 4 万!
  • 今年双十一最大的赢家是这张表
  • 复旦大学&StepFun提出WithAnyone:告别“复制粘贴脸”,实现可控、高保真的多人ID一致性生成
  • 大道至简,中科院等提出OneRef:统一视觉定位和指代分割
  • 极客公园创新大会 2026 首批嘉宾揭晓!
  • 达摩院联合浙大、港理工推出PixelRefer:多模态大模型迈向像素级视觉理解
  • 自回归不必按token算了:微信AI × 清华用CALM直接「整段」预测
  • 北京内推 | 美团招聘大模型算法实习生(IM全渠道)
  • Altman 怒喷 OpenAI 唱衰者;小鹏发布新一代人形机器人 IRON;苹果支付 10 亿美金,新 Siri 将引入谷歌 Gemini|极客早知道
  • 别被一堆Strong Accept吓住:德州农工×康奈尔实锤论文晒分“系统性虚高”
  • 记忆让机器人更聪明:原力灵机提出MemoryVLA化解长时程任务操作难题
  • 博士申请 | 南洋理工大学王琦琛老师课题组招收数据库方向全奖博士/博后
  • 151% 的增长背后,它正在成为 AI 的「新入口」
  • 清华&南洋理工等提出稀疏模型反演:ViT反演加速高达3.79倍,告别无效背景!
  • 低光图像增强新探索:SASW-Loss,无需改网络,即插即用提升多种模型性能
  • 山姆更新后遭会员疯狂吐槽;Switch2 销量破千万;小米马志宇警告存储涨价:明年最新的成本预估“有点惊悚”|极客早知道
  • 为物理AI打造世界模型!英伟达发布Cosmos-2.5:模型缩小3.5倍,性能媲美SOTA
  • NeurIPS25 | 香港理工&OPPO&哈佛提出DNAEdit:直接噪声对齐让Rectified flow文生图编辑更加准确
  • Sketch-to-Layout,从草图到布局!DeepMind & EPFL 在设计领域的新工作
  • 这个不「瞎 BB 」的 AI 硬件,给了我真正的「陪伴」丨New Things
  • Rokid 乐奇联手 BOLON 眼镜:眼镜巨头依视路的中国棋局
  • 跟一位日本比亚迪车主聊了聊,才明白我们对「出海」有多天真
  • 宁德时代赚走185亿,车企却不想再给「宁王」打工了
  • 从「绝望」到一轮融资43亿元:新石器做对了什么?
  • 北京内推 | 阿里通义实验室对话智能团队招聘大模型方向研究型实习生
  • NeurIPS 2025 | 用蛋白质动态词表“搭积木”,ProDVa高效组装可折叠新蛋白
  • 全注意力、复杂推理不掉速:MiniMax M2把Agent做成了「可执行能力」
  • 豆包,正在悄悄开启「电商新链路」
  • OpenAI 与 AWS 达成 380 亿美元算力合作;新 Siri 付费采用 Gemini;字节试行「豆包股」 | 极客早知道

ACM MM 25 当MLLM遇上行人重识别:是“降维打击”还是“水土不服”?深度评测来了!

CV君 2025-11-10 13:01 江苏

GPT-4o的视觉能力,究竟到了什么地步?

最近,大型多模态模型(MLLM)的能力边界又一次被拓宽了。当红的 GPT-4o 不仅能说会道、看图作文,现在,来自武汉大学的研究者们想知道:如果让它来做一件非常专业的计算机视觉任务——行人重识别(Person Re-identification, Re-ID),它能做得怎么样?

行人重识别,简单来说,就是要在不同的摄像头画面中,认出同一个人。这项技术是智能安防、智慧城市背后的关键,但一直以来都面临着巨大的挑战:同一个人的外貌会因为视角、光线、穿着甚至时间流逝而发生巨大变化。传统的 Re-ID 模型通常是针对这个特定任务精心设计的“专才”。而 GPT-4o 这种 MLLM 则是知识渊博的“通才”。那么,“通才”与“专才”的对决,结果会如何呢?这篇论文就为我们带来了一场详尽的摸底评测。

“策反” MLLM:如何让它乖乖做评测?

有趣的是,研究的第一步,竟然是如何“说服” GPT-4o 配合工作。

如果你直接给 GPT-4o 两张图片,问“这是不是同一个人?”,它很可能会因为隐私安全策略而拒绝回答。这体现了模型内置的安全机制。为了绕过这个限制,研究者们尝试了多种“沟通技巧”,比如把“人”换成“个体”,或者声称图片是 AI 生成的。但效果都不理想。

最终,他们发现了一个绝妙的办法:不问“是不是”,而是问“有多大可能性”。通过让模型给出一个 0 到 100 的相似度概率,GPT-4o 不仅给出了判断,还会附上非常详细的分析过程。CV君觉得,这个小技巧在与其他 MLLM 交互时也非常有借鉴意义。

五大“地狱难度”场景,全面拷问 GPT-4o

在解决了沟通问题后,研究者们设计了五个公认的 Re-ID 难题,来全方位地考验 MLLM 的视觉理解能力。

这五个场景分别是:

  • 视角变化 (Angle Variation) :同一个人的正面、侧面、背面看起来可能完全不同。

  • 光照差异 (Illumination Difference) :白天和晚上、室内和室外,光线会严重影响颜色和细节。

  • 衣物更换 (Clothes Changing) :长期追踪中,换衣服是最常见的干扰项。

  • 图像损坏 (Image Corruption) :真实世界中的图像往往有噪声、模糊或遮挡。

  • 视觉细粒度识别 (Visually Fine-grained) :面对长相、穿着都极为相似的不同的人,模型能否明察秋毫?

实验结果:意料之外,情理之中

通过在这五个场景下对 GPT-4o、Gemini、Claude、Qwen 等六个主流 MLLM 进行横向评测,研究者们得到了一些非常有价值的结论。

上表清晰地展示了各模型在不同任务上的准确率(Acc.)和 F1 分数。绿色表示 GPT-4o 表现最佳,红色则表示其表现低于所有模型的平均水平。

GPT-4o 表现如何?

总体来看,GPT-4o 在大部分场景中都展现出了最强的实力,尤其是在 视角变化图像损坏细粒度识别 任务上,其准确率远超其他模型。

  • 视角变化:在处理不同拍摄角度的图片时,GPT-4o 表现出了惊人的稳健性,准确率达到了 91.5%。它能够准确描述出“正面”或“侧面轮廓”等角度信息,并基于这些信息进行综合判断。

  • 光照差异:面对光照变化,GPT-4o 也能给出合理的分析,比如它会推测“衣服的颜色变化可能是由不同的光照条件引起的”,并给出了 74% 的准确率,虽然不是最高,但其分析过程令人信服。

  • 衣物更换:在人物更换衣物的场景下,所有模型的表现都还不错。GPT-4o 能够关注到衣物之外的特征,比如体型、裤子和鞋子,并做出了正确的判断。

  • 图像损坏:在图像质量不佳的情况下,GPT-4o 依然取得了 87.1% 的高准确率,展现了强大的鲁棒性。不过,有时过度的噪声还是会误导它。

  • 视觉细粒度识别:这是最考验模型“眼力”的任务。当面对两个外形极其相似但并非同一人时,即便是 GPT-4o 也感到了压力。如下图所示,在一些“高仿”路人面前,它也会犯错(红色标记为错误判断)。这说明,虽然 MLLM 很强大,但在需要极致细节分辨的场景下,离完美还有距离。

MLLM 的通用能力评估

除了任务表现,论文还从回应长度、回应率和准确率三个维度对所有模型进行了综合评估。

结果显示,GPT-4o 在准确率上以 78.5% 的成绩遥遥领先,而 Gemini 提供了最详尽的分析文本,Qwen-vl-max 的回应率最高。这说明不同的 MLLM 在设计上各有侧重。

提示词的力量

研究还发现,即使是同一个模型,使用不同的提示词(Prompt),其表现也会有显著差异。如下图所示,通过在提示词中加入“Here is a puzzle.”(这是一个谜题)这样的引导语,或者调整问题的表述方式,竟然能将一对多识别的准确率从28%提升到最高69%。这再次证明了“提示工程”在大模型应用中的神奇魔力。

总结与思考

这项研究告诉我们,以 GPT-4o 为代表的通用多模态大模型,在没有经过任何 Re-ID 任务微调的情况下,已经具备了相当不错的行人识别能力,尤其是在处理视角、光照等常见变化时表现出的推理和分析能力,甚至超过了一些人的直觉。

然而,在光照变化和极度细粒度的识别任务上,它们依然有很大的提升空间。这或许也为未来的研究指明了方向:如何将 MLLM 强大的通用知识和推理能力,与传统 Re-ID 模型在特定任务上的精准性结合起来,可能会是下一个突破口。

大家对这个方法怎么看?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

联系我们