CV君 2025-09-15 14:56 江苏
随着大型视觉语言模型(VLM)的飞速发展,它们在处理复杂的视觉问答任务时展现出惊人的能力。其中,思维链(Chain-of-Thought, CoT)技术通过模拟人类一步一步的思考过程,极大地增强了模型的推理能力和可解释性。然而,当面临真实世界中更复杂的多语言视觉问答(multilingual VQA, mVQA)场景时,现有的CoT方法开始捉襟见肘——它们大多是纯文本的,并且以英语为中心,常常导致推理过程与视觉信息脱节,或在回答非英语问题时出现“语言错乱”(例如用英语回答阿拉伯语问题)。
为了解决这一痛点,来自蚂蚁集团和南洋理工大学的研究者们提出了一个名为 LaV-CoT 的全新框架。这是首个具备语言感知能力的视觉思维链(Language-aware Visual CoT),并引入了多维度奖励优化机制。LaV-CoT不仅在多个公开基准测试中取得了SOTA性能,准确率相比同等规模的开源模型提升了约9.5%,甚至超越了GPT-4o、Gemini-2.5-flash等顶尖专有模型,其在真实世界在线A/B测试中的优异表现也证明了其巨大的工业应用潜力。
论文标题: LaV-CoT: Language-Aware Visual CoT with Multi-Aspect Reward Optimization for Real-World Multilingual VQA
作者: Jing Huang, Zhiya Tan, Shutao Gong, Fanwei Zeng, Jianshu Li
机构: 蚂蚁集团、南洋理工大学
研究背景:当CoT遇上多语言VQA的挑战
思维链(CoT)让VLM在回答问题前,先生成一个详细的推理步骤,这使得模型的决策过程更加透明,也更能处理复杂逻辑。但现有方法在多语言VQA场景下存在三大核心问题:
语言不一致:模型可能无法识别问题的语言,导致用一种语言提问,却用另一种语言(通常是英语)回答。
视觉-文本未对齐:纯文本的CoT推理过程可能忽略或错误地解读了图像中的关键视觉信息。
多语言推理能力有限:模型在非英语语境下的复杂推理能力显著弱于英语。
从直接回答(a),到普通CoT(b),再到LaV-CoT(c),模型的回答在语言一致性和准确性上逐步提升。
LaV-CoT正是为了系统性地解决这些问题而设计的,它旨在创建一个既“看得懂图”又“说得对语言”的、结构化的推理框架。
LaV-CoT:数据、流程与训练的“三位一体”创新
LaV-CoT的创新体现在三个层面:定义了全新的语言感知视觉CoT推理流程,设计了自动化的CoT数据生成管线,并采用了基于多维度奖励的二阶段训练范式。
1. 语言感知的视觉CoT推理流程
这是LaV-CoT的核心。它将复杂的推理过程分解为四个可解释、可验证的阶段:
带边界框的文本摘要 (Text Summary with BBox) :首先,模型会检测并识别图像中的所有文本,并用边界框(BBox)标出其位置,然后对文本内容进行摘要。
语言识别 (Language Identification) :接着,模型会明确地识别出用户问题的所属语言,并打上标签(如
\lang{Thai}
)。这是实现“语言感知”的关键一步。空间对象级描述 (Spatial Object-level Captioning) :模型会描述图像中与问题相关的关键对象及其空间位置关系,并统计对象数量(如
\obj{5}
)。步进式逻辑推理 (Step-by-step Logical Reasoning) :最后,模型综合以上所有信息,用目标语言进行一步一步的逻辑推理,最终得出答案。
2. 自动化的多语言CoT数据生成
高质量的CoT训练数据是稀缺且昂贵的。LaV-CoT设计了一套自动化数据策划方法来解决这个问题。它利用一个强大的VLM(如GPT-4o)作为“生成器”,遵循上述四阶段流程生成初始的CoT标注。然后,再利用一个“评估器”对生成的每一步进行打分和校验。对于不合格的步骤,系统会定位错误并调用生成器进行修正,如此迭代生成、纠错、精炼,直至产出完全通过验证的高质量多语言CoT数据,为后续的模型训练提供了可扩展的数据基础。
3. 基于多维度奖励的二阶段训练
为了让模型能完美地学习和执行LaV-CoT流程,研究者设计了独特的两阶段训练范式:
阶段一:监督微调 (SFT) :首先,在自动生成的CoT数据集上对基础VLM进行SFT,让模型学会LaV-CoT的四阶段推理结构。
阶段二:语言感知的分组相对策略优化 (GRPO) :这是LaV-CoT性能起飞的关键。它是一种强化学习优化方法,模型会针对一个问题生成多个候选的CoT推理路径。然后,一个多维度奖励函数会从多个方面对这些路径进行打分,包括:
语言一致性奖励:推理和答案的语言是否与问题一致?
结构准确性奖励:CoT是否严格遵循了四阶段格式?文本和对象的计数是否正确?
语义对齐奖励:最终答案是否正确?(通过与标准答案的编辑距离等计算)
这种精细化的奖励机制,引导模型不仅仅是“答对问题”,更是要“以正确、一致、可解释的方式答对问题”。
实验结果:全面超越,效果惊人
LaV-CoT在MMMB、Multilingual MMBench、MTVQA等多个权威的多语言VQA基准上进行了广泛评测。
性能大幅领先:基于Qwen2.5-VL-3B训练的LaV-CoT模型,相比同等规模的开源基线,平均准确率提升了约9.5%。更惊人的是,它甚至比两倍参数规模的Qwen2.5-VL-7B等模型还高出约2.6%。
超越顶尖专有模型:在多个语言(特别是阿拉伯语、土耳其语等)的任务上,LaV-CoT的表现超越了GPT-4o和Gemini-2.5-flash。
对于一个阿拉伯语问题,Qwen2.5-VL-7B虽然进行了推理,但语言错乱且答案错误;而LaV-CoT则能全程使用阿拉伯语进行正确推理。
真实世界验证:研究团队还将LaV-CoT集成到企业级的智能文档处理系统中进行了在线A/B测试。结果显示,相比原有的生产管线,LaV-CoT使答案采纳率提升了8.7%,用户满意度提升了12.4%,充分证明了其在工业界部署的巨大价值。
总结与价值
LaV-CoT的提出,为多语言、多模态人机交互领域树立了新的标杆。其核心贡献在于:
首创语言感知的视觉CoT框架:通过结构化的多阶段推理流程,有效解决了VLM在多语言场景下的语言不一致和视觉-文本对齐问题。
可扩展的自动化数据方案:创新的“生成-验证-修正”数据闭环,为训练高质量的CoT模型提供了一种可规模化、低成本的解决方案。
精细化的多维度奖励优化:设计的GRPO训练范式和多方面奖励函数,为模型学习复杂、结构化的推理能力提供了强有力的引导。
SOTA的性能与工业价值:无论是在学术基准还是真实的工业场景,LaV-CoT都展现了卓越的性能和巨大的应用潜力。
CV君认为,LaV-CoT不仅是一个强大的VQA模型,更重要的是它为如何构建更鲁棒、更可信、更能适应全球化应用的多模态AI系统,提供了一套完整且极具启发性的方法论。
了解最新 AI 进展,欢迎关注公众号:aicvml投稿寻求报道请发邮件至:amos@52cv.net欢迎点赞、转发、评论。