52CV 2025-11-01 12:12 江苏
研究显示动态决策比静态监督更关键
多模态大模型(MLLMs)的浪潮席卷而来,在基础感知、理解和生成等任务上的表现令人惊叹。然而,使MLLMs从简单的感知跨越到真正的认知,做到「会思考、善创造」,仍是多模态AI生态中的应用难题。面对复杂的决策与情境,MLLMs如何进行忠实可靠的深度推理?如何兼具实证主义和浪漫主义色彩,既能进行严谨的推理论证又能进行创意的内容生成,并同时实现二者的协同进化?
本⽂将深度解析上海交通大学与南洋理工大学科研人员在这⼀前沿领域的两项最新研究:Corvid(ICCV 2025)与CoRL(NeurIPS 2025)。系统性地揭示如何从数据、模型、训练及推理四个层⾯协同设计,赋能MLLMs进⾏深度思考;以及如何开创性地提出协同强化学习框架,助⼒MLLMs理解与⽣成能⼒协同进化。
📚 Corvid: 从数据、模型、训练及推理策略层面提升MLLMs深度推理能⼒
论文标题: Corvid: Improving Multimodal Large Language Models Towards Chain-of-Thought Reasoning
录用信息: ICCV 2025 Highlight
0.『核心速览』
近来MLLMs在多模态感知与理解任务中表现出色,但开源的通用MLLMs在处理需要深度推理的复杂任务时仍然存在明显局限。该研究从模型结构、训练数据、训练范式和推理策略四个层面协同设计,系统地提升通用MLLMs的链式思考与推理能力。具体包括:
🎯开发了具有强CoT推理能力的多模态大模型Corvid。在结构上,Corvid采用了混合视觉编码器以增强视觉表征的完整性,并设计了新型连接器GateMixer来加强跨模态对齐。在完成GateMixer的对齐预训练后,Corvid经历了两阶段CoT形式的训练,以逐步提升其深度推理能力。
🎯提出了推理时扩展的自我验证策略,有效缓解了模型的过推理和欠推理问题。
🎯构建了多模态CoT数据集MCoT-Instruct,涵盖数学、科学、常识推理等多种推理类型,为MLLMs的深度推理能力训练提供了高质量的过程监督信号。
1.研究动机
近来MLLMs在多模态感知与理解任务中表现出色,但开源的通用MLLMs在处理需要深度思考和结构化推理的复杂任务时仍存在明显不足。通过回顾通用MLLMs的技术路线和实践案例,可以发现其深度推理能力欠缺可能源于以下三个方面:
高质量多模态CoT数据短缺:已有研究表明,仅以最终答案作为监督往往难以引导MLLMs学会忠实的链式思考和深度推理,因此高质量的多模态CoT数据至关重要。然而,社区中人工标注的CoT通常较为简短,AI生成的CoT则噪声较多,都不适合被直接用于CoT能力强化训练。
视觉表征不充分与跨模态对齐不足:因MLLMs技术路线潜在的视觉语言分支能力失衡特性,常导致视觉表示不充分、模态对齐不足等问题。这使得MLLMs常以有缺陷的、不完备的视觉证据进行推理。
Inference过程中的欠推理与过推理问题:现有o1类MLLMs对所有样本统—采用深度推理,忽视了任务复杂度的差异。实际上,对简单任务使用深度推理反而会因模型幻觉或知识遗忘而准确性降低。
针对上述问题,本文从模型结构、训练数据、训练范式及推理策略四个层面协同设计,旨在系统性提升通用MLLMs的链式思考与推理能力,进—步释放其在数学推理与科学问题求解等高难度多模态任务中的应用潜力。
2.方法
2.1模型结构
如图1所示,Corvid采用了混合视觉编码器(Hybrid Vision Encoder)以更充分地进行视觉内容编码和表征。其中,ViT形式的编码器旨在获取语意丰富的视觉特征,而CNN形式的编码器则为获取空间信息丰富的特征。为了更好地进行跨模态对齐,本文设计了—种新的连接器GateMixer。该连接器的核心是利用具有选择注意的门机制对和进行逐元素的整合。
2.2训练数据
Corvid训练过程涉及到的所有数据集汇总如表1所示。其中,MCoT-Instruct是为缓解数据稀缺问题,使用GPT辅助创建的多模态CoT数据。
2.3训练范式
Corvid经历三阶段的训练:
🎯Multi-Grained Alignment Pre-training: 在MGA-1M数据集上训练GateMixer,以为Corvid建立视觉-语言元素在表征空间的关联。
🎯CoT-Enhanced Supervised Fine-tuning: 在混有约 20% CoT数据的Corvid-1M上联合训练GateMixer与LLM,旨在同步学习指令跟随、直接推理、CoT推理等能力,并得到了基础模型Corvid-base。
🎯Pure-CoT Instruction Tuning: 在纯CoT数据组成的o1-320K上进—步优化Corvid-base,提升其深度推理能力,最终得到模型Corvid-o1。
2.4推理策略
为了缓解Corvid对简单样本过度推理和对困难样本推理不足的问题,本文设计了一种自我验证策略,用以处理不同难度的任务。该策略的核心是以跨模态对齐程度与模型置信度为度量,判断对于任意给定的任务,MLLMs是否需要进行深度推理。
3. 实验
◉ Corvid多模态推理能力的定量评测
与o1-like MLLMs性能对比:表2中的结果表明在使用相同Baseline的情况下,Corvid-o1的综合表现优于LLaVA-o1和LlamaV-o1。此外,Corvid-o1-8B也表现出较强的性能优势。
与开源MLLMs性能对比:表3展示了与同等参数规模MLLMs的性能对比,Corvid表现显著优于使用相同LLM基座的模型,并在多个数据集上超过最优模型。
◉ Corvid多模态推理过程的示范
图3可视化了在数学推理、科学问题求解、以及复杂视觉理解任务中,Corvid在得到最终答案前,能较好地生成忠实且详细的中间思考过程。
📚CoRL: 强化学习助力MLLMs理解与生成能力协同进化
论文标题: Co-Reinforcement Learning for Unified Multimodal Understanding and Generation
录用信息: NeurIPS 2025 Spotlight
0.『核心速览』
DeepSeek-R1 系列工作的成功表明基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)是—种行之有效的大模型后训练方法,能使预训练模型在不依赖大规模、高质量监督数据的情况下,快速习得高级能力或适配到特定场景。该研究致力于探索能有效提升统—多模态大模型视觉生成和多模态理解能力的RLVR策略,具体包括:
🎯验证了RLVR在跨任务协同进化与能力提升中的数据高效性和有效性。
🎯提出了协同强化学习框架框架(CoRL),通过两阶段的强化学习高效地提升ULMs的基础生成和理解能力,以及快速向特定场景的泛化能力。
1. 研究动机
DeepSeek-R1系列工作的成功表明基于可验证奖励的强化学习(RLVR)是—种高效且稳定的大模型后训练方法。这种新范式使模型能够在不依赖大规模、高质量监督数据的情况下,快速习得高级能力或适配到特定场景。
鉴于此特性,该研究探索如何有效地将RLVR拓展到统—多模态大模型(ULMs),以高效且同步地提升ULMs的视觉生成和多模态理解能力。然而,通过—系列关于RLVR学习策略的预实验却发现:对ULMs单—任务执行RLVR,可能会出现能力此消彼长的现象(如,生成提升—理解下降);而对模型理解和生成能力同时优化则能有效缓解这种现象,说明跨任务的奖励信号存在可利用的协同进化效应。
基于这—发现,本文遵循“先奠基后专攻”的核心思路,提出了—种面向统—多模态大模型的协同强化学习框架框架(CoRL),通过两阶段的强化学习高效地提升ULMs的基础生成和理解能力,以及快速向特定场景的泛化能力。
2.方法
2.1 Verifiable Rewards
如图4所示,CoRL在优化视觉生成任务中使用了双边循环—致性奖励和图文匹配奖励,在优化多模态理解任务中采用了准确性奖励和格式奖励。其中,使用LPIPS度量生成图像与真实图像间的视觉—致性,通过SPICE度量给定文本提示与生成图像的caption之间的语意—致性,实现对视觉生成质量的双向评估。则利用策略模型本身的内部表征,在token级别度量跨模态对齐的程度。
2.2 Unified RL
第—阶段的Unified RL采用特定格式的训练数据(真实图像-文本提示-QA对组成的三元组),通过多任务组合奖励函数, 利用共享的GRPO算法同步优化ULMs的理解和生成能力。这—设计充分利用了跨任务奖励信号之间的协同进化效应,使模型的不同能力在相互促进中得以提升,为后续向特定场景或任务适配奠定坚实的基础。
2.3 Refined RL
第二阶段的Refined RL采用目标场景或任务定制的训练数据与奖励函数,通过定向强化学习进—步增强ULMs的表现。例如,为提升ULMs在开放式推理任务中的表现,本文引入开放式CoT格式的训练数据,利用特定任务奖励,通过GRPO算法对ULMs的深度推理能力进行定向优化。
3.实验
ULM-R1是将CoRL框架应用于Janus-Pro-1B进行强化学习训练后获得的模型。
◉ 视觉生成
定量对比:表4中的结果表明ULM-R1较基线ULM取得了显著的性能改进,验证了CoRL的有效性。在与同等参数规模的ULMs相比中,ULM-R1也展示出较强的性能优势。
可视化:图5的可视化结果表明,ULM-R1在多样化提示下生成的图像在图文对齐方面表现更优,特别是在物体计数的准确性以及空间布局和组合关系的—致性上都得到了显著改进。
◉ 多模态理解
定量对比:表5的结果表明了ULM-R1较其他ULMs在多模态理解任务上的优势。
可视化:图6的可视化结果显示ULM-R1具有显著增强的理解能力,特别是在数学推理方面。
📚总结:从 「静态堆砌」到「动态协同」
从「会思考」到 「善创造」,研究显示动态决策比静态监督更关键。无论是Corvid的自我验证,还是CoRL的协同优化,都赋予了模型一种宝贵的“元认知”:与其盲目追求单—的、静态的监督信号,不如赋予其根据上下文动态决策和平衡内部能力的机制。本质都是在推动MLLMs超越静态的模式匹配,发展出更接近生物智能的——动态、自适应和协同的复杂能力。
展望多模态AI的未来发展,关键可能不再是静态能力的无限堆砌,而是动态决策与多能力协同的艺术。能够根据任务特性智慧地分配计算资源、能够通过跨任务协同释放潜能的模型,才是具有生命力的AGI。