CV君 2025-09-27 11:14 江苏
给LLM的提示词做个“精装修”,VQA性能就能免费提升!
大家好!如今,大语言模型(LLM)已经成了AI领域的“万能钥匙”,研究者们都想用它来解决各种任务,其中就包括视觉问答(VQA)。一个很自然的想法是:能不能直接“冻结”一个强大的LLM,不重新训练它,只把图像信息和问题“喂”给它,让它凭着自己渊博的知识来回答呢?
这个思路非常吸引人,因为它省去了昂贵的端到端训练。目前主流的做法是,先用一个图像描述模型(Captioning Model)把图片转成几句文字描述,然后把这些文字和问题一起打包发给LLM。但这里面有两个大坑:
信息太“毛坯”:生成的图像描述里,常常包含大量与问题无关的“噪声”信息。
LLM“不懂”VQA:LLM本身并不知道VQA任务的“游戏规则”,可能会答非所问。
为了解决这些问题,来自湖北大学、广东工业职业技术大学和山东警察学院的研究者们,提出了一种全新的、无需训练的VQA框架——SCRA-VQA。
论文标题: SCRA-VQA: Summarized Caption-Rerank for Augmented Large Language Models in Visual Question Answering
作者: Yan Zhang, Jiaqing Lin, Miao Zhang, Kui Xiao, Xiaoju Hou, Yue Zhao, Zhifei Li
机构: 湖北大学, 广东轻工职业技术大学, 山东警察学院
会议: DASFAA 2025 Oral
SCRA-VQA:给LLM的提示词做个“精装修”
SCRA-VQA的核心思想,就是不做“毛坯”交付,而是对输入给LLM的文本信息进行一番“精装修”。它通过一套精心设计的流程,对图像描述进行总结、重排和增强,让LLM能更好地理解图像和问题。
整个框架如下图所示,主要包含两个模块:图像到文本的转换,以及核心的图像描述精炼模块。
图像描述精炼:“精装修”三步走
这是SCRA-VQA的精髓所在,它通过三个步骤来处理原始的图像描述:
生成相似问题 (Similarity Question Generation)在把问题抛给LLM之前,先给它看几个“样板题”。这一步会根据图像描述的内容,自动生成一些相关的问答对。这就像在考试前给学生看几道例题,让他熟悉题型和答题格式。通过这种“上下文学习”,LLM能更好地理解VQA任务的要求。
摘要 (Summary)多条图像描述可能信息冗余。这一步会调用一个小的语言模型(如Gemma2b),将所有的图像描述进行总结,提炼出最核心、最精炼的摘要信息。这相当于给LLM划重点,排除干扰项。
重排 (Rerank)这是非常关键的一步。原始的图像描述是无序的,但并非所有描述都和问题同等相关。SCRA-VQA会计算每一条描述与当前问题的“相关性分数”,然后按照分数从高到低重新排序。这样,最相关的信息会排在最前面,确保LLM第一时间就能看到最重要的线索。
经过这三步“精装修”,原始的、杂乱的图像描述就变成了一份结构清晰、重点突出、附带“解题说明”的高质量上下文,LLM理解起来自然事半功倍。
实验结果:轻量级方法的出色表现
SCRA-VQA在一个67亿参数的OPT模型上进行了测试,在两个极具挑战性的知识型VQA数据集OK-VQA和A-OKVQA上,都取得了非常出色的成绩。
如下表所示,SCRA-VQA的性能优于其他同样无需端到端训练的Zero-shot方法(如PICa, Img2Prompt),尤其是在需要更复杂推理能力的A-OKVQA数据集上,优势更加明显。
作者还通过详尽的消融实验,证明了“精装修”每一步的有效性。从下表中可以看到,完整的SCRA-VQA(I+RC+S+QAP)效果最好,无论是去掉“重排(RC)”还是“摘要(S)”,性能都会出现明显下降,证明了这套组合拳的威力。
下图的可视化结果也直观地展示了SCRA-VQA是如何工作的。对于“这个房间叫什么名字?”的问题,精炼后的提示词准确地包含了“浴室”、“水槽”、“毛巾”等关键信息,帮助LLM成功推理出正确答案“Bathroom”。
总结
CV君认为,SCRA-VQA是一个非常聪明且实用的工作。在大家都在追求更大模型、更多数据、更昂贵训练的时候,它反其道而行之,聚焦于如何更高效地利用现有的“冻结”大模型。它证明了,精巧的提示工程(Prompt Engineering)同样能带来显著的性能提升,为轻量化、低成本地部署VQA应用提供了一条极具吸引力的路径。
无需昂贵的端到端训练,只靠“提示词装修”就能提升性能,大家对这种轻量化的方法怎么看?欢迎在评论区留下你的看法!