让你更懂AI的 2025-09-17 23:20 北京
从大海捞针到精准狙击
今年 ICML Outstanding Paper “COLLABLLM: From Passive Responders to Active Collaborators” 把从被动到主动的人机协作推到台前,展示了让大模型主动澄清意图、规划多轮协作的训练框架,显著提升任务完成度。
无独有偶,同期 LLaVA-ReID 把“主动性”引入行人重识别:模型不再被动接受含糊描述,而是基于候选图像有选择地发问,在多轮对话中迭代收窄目标,把“大海捞针”变成“精准狙击”。
本文第一作者鲁一丁是四川大学计算机学院 2022 级直博研究生。研究方向为多模态理解与 AI4Science,指导老师为彭玺教授。
论文标题:
LLaVA-ReID: Selective Multi-image Questioner for Interactive Person Re-Identification
论文地址:
https://arxiv.org/pdf/2504.10174
代码地址:
https://github.com/XLearning-SCU/LLaVA-ReID
huggingface数据集:
https://huggingface.co/datasets/XLearning-SCU/Interactive-PEDES-v1
多轮对话,让行人重识别不再「盲人摸象」
1983 年小巷,12 月晴朗。昏暗的房间里,福尔摩斯正仔细询问一起命案的目击证人。烛火摇曳,墙角一把焦黑的手杖成了谜团的起点。
证人紧张地回忆起他观察到嫌疑人的短暂瞬间:“那个人很高,大概 6 英尺,穿着格子衬衫,背着一个黑色的包”。
对于福尔摩斯这位怀疑论者来说,模糊的印象远远不够,每个细节都至关重要。他进一步追问:“他穿什么颜色的裤子?除了黑色的包,还携带了其他物品吗?他走路是否有跛脚或特殊步态?”
如同艺术家雕琢素描,福尔摩斯通过针对细节的定向询问,逐步勾勒出嫌疑人的完整形象,渐渐揭开真相。
▲ 图0 福尔摩斯探案
假设回到 20 世纪初的伦敦,福尔摩斯拥有一个交互式的 AI 工具,它将侦探直觉的延伸:基于证人不断演变的描述和从这些线索中评估出的候选嫌疑人,帮助福尔摩斯提出越来越精细和精准的问题。
不再被动接受笼统的描述,该工具使福尔摩斯能够分析证词和候选嫌疑人,动态调整问题。通过引导证人回忆嫌疑人外貌或行为的特定关键细节,在每次回复完善对嫌疑人的刻画,从而更有效地锁定嫌疑人。
▲ 图1。交互式行人重识别的图示案例。红色圆圈突出了候选图像中需要询问过程聚焦的独特细节。
在本文中,作者引入了交互式行人重识别(Inter-ReID)框架,其目标是通过与证人的持续交互迭代优化初始描述。此前没有研究探索过这一新问题,与之最接近的范式是基于文本的行人重识别(T-ReID)。
然而,现有的 T-ReID 假设描述是静态的、一次性提供的。相比之下,Inter-ReID 紧密反映现实场景,其中初始描述通常是不完整且模糊的,需要通过交互式优化来准确识别目标人物。
为促进对这一新型任务的研究,作者构建了一个新的数据集 Interactive-PEDES,其中包含:
粗粒度描述,用于模拟证人提供的初始不完整查询;
细粒度描述,捕捉丰富的详细视觉特征,模拟证人的潜在记忆;
通过将细粒度描述分解为多样化问题而衍生的多轮对话,涉及个体的详细属性。
本文的主要贡献如下:
引入了交互式行人重识别(Inter-ReID)这一新任务,该任务超越了传统的基于文本的行人重识别(T-ReID),通过与证人的交互提升了准确性和适应性。为支持该任务,构建了一个包含多轮对话的专用数据集,实现了 Inter-ReID 系统更有效的训练和评估。
提出了 LLaVA-ReID,一种多图像问题生成器,能够利用候选人物的视觉和文本上下文以及对话历史,识别图像集合之间的细粒度差异。广泛实验表明,该方法不仅提升了 Inter-ReID 的性能,还对现有的 T-ReID 任务有益。
任务定义:什么是交互式行人重识别?
简单来说,这个任务就像一场“你问我答”的游戏,需要系统既能“看”(分析图像差异),又能“问”(生成有效问题)
1. 初始描述:证人先给出一个不完整的描述(比如“穿格子衬衫,背黑包”)。
2. 系统提问:系统根据现有描述和候选图像,生成针对性的问题(比如“他的裤子是什么颜色?”“包里有没有露出什么物品?”)。
3. 证人回答:证人补充细节,系统根据新信息缩小搜索范围,直到找到目标人物。
数据集构建
数据集包含 54,749 张图像和 13,051 个人的身份,这些图像来自现有的 CUHK-PEDES 和 ICFG-PEDES 数据集,作者给它们加上了“对话属性”。制作过程分为三个步骤:
▲ 图2。所提出的自动对话数据构建流程示意图。步骤1:生成粗粒度和细粒度描述。步骤2:将后续描述分解为不同的属性。步骤3:构建多样化的问答对。
第一步:从模糊到清晰——生成粗粒度和细粒度描述
粗粒度描述:模拟证人的第一印象,用一句话概括主要特征,比如“一个穿黑色长外套、戴围巾的女性,背着包”。
细粒度描述:用 GPT-4o 模型进一步细化,补充粗粒度中没有的细节,比如“她穿着橄榄绿色阔腿裤,鞋子是带豹纹细节的黑色懒人鞋,背着灰紫色托特包,头发是浅棕色长发”。
第二步:拆分细节——把完整描述拆成独立问题点
比如,细粒度描述中提到“裤子颜色”“鞋子特征”“包的颜色”“头发长度和颜色”等,我们把这些细节拆分成单独的“子描述”,每个子描述对应一个可以提问的点。例如:
子描述 1:“她穿着橄榄绿色阔腿裤” → 对应问题:“你能描述一下她的裤子吗?”
子描述 2:“鞋子有豹纹细节” → 对应问题:“她的鞋子有什么特殊特征吗?”
第三步:设计多样化的问题——模拟真实对话场景
把每个子描述转化为三种类型的问题,让对话更自然、更有针对性:
1. 描述性问题(50%):用“是什么”“怎么样”引导证人自由描述,比如“他的外套款式是什么样的?”
2. 是非问题(40%):用假设性问题确认细节,比如“他的包是深蓝色的吗?”(即使假设错误,也能帮助证人回忆,比如证人可能回答:“不,是灰紫色的!”)
3. 多选题(10%):给出几个相似选项,降低证人回答难度,比如“他的头发是:A. 中长发 B. 深棕色长发 C. 短发卷发 D. 不确定”。
最终,每个图像平均对应 9 轮对话,训练集包含 47,376 张图像,测试集包含 7,373 张图像。
LLaVA-ReID模型:会提问的“智能侦探”
▲ 图3。(左)交互式行人重识别框架。检索器对图库图像和描述进行编码,向提问器提供检索结果和相关候选图像。提问器根据描述和候选图像生成具有判别性的问题。证人响应该问题并提供相应信息。(右)筛选器架构。筛选器基于文本信息从 top-k 候选人中选择最具代表性的候选图像。
LLaVA-ReID 的工作流程可以类比为一个三人小组:
1. 检索器(Retriever):快速筛选手册
角色:先用初始描述在图像库中快速搜索,找出最相似的一批候选图像(比如前 100 名)。
原理:基于 CLIP 模型,把文字和图像都转化为“特征向量”,计算它们的相似度,就像给文字和图像打“匹配分”。
2. 提问器(Questioner):智能提问专家(即 LLaVA-ReID)
角色:分析候选图像和对话历史,生成最能区分目标人物的问题。
原理:基于多模态大模型(LLaVA),同时“看”候选图像的视觉差异(比如衣服颜色、发型)和“读”对话内容(比如已经问过哪些问题,证人回答了什么)。
3. 回答器(Answerer):模拟证人的记忆
角色:根据预设的细粒度描述,回答提问器的问题。
原理:用语言模型(Qwen2.5)模拟证人,只能根据“记忆”(细粒度描述)回答,不能直接看图像,更贴近真实场景。
提问器的关键技术:如何做到“精准提问”?
难题 1:如何从大量候选图像中挑出“关键图像”?
● 问题:如果候选图像有 100 张,直接全部输入模型不现实,而且无关图像会干扰提问。
● 解决方案:选择性视觉筛选(Selective Visual Context)
用一个“筛选器”从候选图像中挑出最具代表性的几张(比如 4 张)。
筛选器会分析图像的特征和对话内容,找出差异最大的图像。比如:如果大部分候选者穿蓝色上衣,但有一张穿红色上衣,这张就会被优先选中,因为它可能是关键差异点。
难题 2:如何确定“问什么问题最有效”?
● 问题:比如已经知道“裤子是深色”,再问颜色可能没用,需要问其他未覆盖的细节(如鞋子、包的特征)。
● 解决方案:前瞻监督(Looking-Forward Supervision)
模型会“预判”每个可能的问题的效果:假设问了某个问题,得到答案后,看看目标人物的检索排名是否上升。
举个例子:如果问“鞋子是否有花纹”后,目标人物从第 50 名升到第 10 名,说明这个问题很有效,会被优先选择。
实验对比
1. 交互式重识别任务:越问越准,效率更高
▲ 表1。在 Interactive-PEDES 数据集上与最先进的交互式检索方法的对比。“Initial” 表示使用初始描述而不进行交互。我们的方法用灰色标记。BRI 值越低表示性能越好。
▲ 图4. 检索性能与查询次数的关系。实线表示 R@1,虚线表示 R@5。
如图 4 和表 1 所示,初始描述的 Recall@1 只有 35.86%(靠模糊描述很难找对人),但经过 5 轮交互后:LLaVA-ReID 的 Recall@1 提升到 73.20%,比最弱的 SimIRV(61.27%)高 12%,比最新的 PlugIR(65.44%)高近 8%。
BRI 值最低:说明它平均用更少的问题就能提升检索精度,比如问 3 个问题的效果比其他方法问 5 个问题还好。
2. 传统文本重识别(T-ReID)任务
▲ 表2。与现有文本行人重识别(T-ReID)方法在三个基准数据集上的集成性能对比。
把 LLaVA-ReID 集成到传统 T-ReID 模型(如 IRRA、RDE)中,即使这些模型原本假设描述完整,加上交互后性能仍有提升。在 CUHK-PEDES 数据集上,R@1 平均提升 5%+;在 ICFG-PEDES 数据集(人工标注较细粒度)上,提升更明显,说明即使初始描述较完整,交互仍能补充遗漏细节。
真实对话案例:模型如何一步步锁定目标?
▲ 图7。交互式系统生成的对话定性结果。每轮中的 4 张图像是由我们的筛选器选择的代表性候选图像。
总结
本文提出了交互式行人重识别这一全新任务,该任务通过引入证人与检索系统之间的多轮对话,使行人重识别场景更贴近现实。
为支撑这一任务,作者构建了专用数据集 Interactive-PEDES,并开发了多图像提问模型 LLaVA-ReID,该模型能够借助视觉和文本上下文识别细粒度差异。
未来,可以探索侦探式的推理范式,借鉴柯南、东野圭吾、阿婆笔下的推理逻辑,把复杂线索转化为模型可利用的交互证据;跨场景与多模态的融合,引入视频、音频,让线索拼图更全面。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·