ToolsAi

魏来 2025-10-17 17:14 北京

用「多数投票 + GRPO」刷爆多模态推理

自多模态大语言模型（MLLM）问世以来，它们在图像描述、视觉问答等任务中展现了惊人的能力。为了进一步提升模型性能，尤其是在复杂的多模态推理任务上，学术界和工业界的主流范式是监督微调（SFT）或强化学习（RL）。

然而，这些方法严重依赖于海量、高质量、且经过人工精细标注的多模态数据。随着模型能力的不断提升和应用场景的日益复杂，获取此类标注数据的成本变得极其高昂，甚至成为限制模型持续发展的瓶颈。

一个亟待解决的问题是：我们能否摆脱对外部标注数据的依赖，让多模态大模型在没有“标准答案”的情况下，实现持续的自我提升？

为了应对这一挑战，来自上海交通大学、里海大学等机构的研究团队提出了一种简洁而高效的多模态大模型无监督训练后优化框架 MM-UPT。该框架首次将稳定且可扩展的在线强化学习算法 GRPO 应用于 MLLM 的无监督自我改进场景。

MM-UPT 使用了一种基于“多数投票”的自奖励机制，取代了传统的外部奖励信号，使模型能够仅利用无标签数据，甚至完全由自身合成的数据，就能有效提升其核心的推理能力。

本工作已被 NeurIPS 2025（机器学习三大顶会之一，CCF-A 类）会议接收。论文第一作者为上海交通大学 MIFA 实验室的博士生魏来，通讯作者为上海交通大学 MIFA 实验室的黄维然副教授。

论文标题：

Unsupervised Post-Training for Multi-Modal LLM Reasoning via GRPO

论文链接：

https://arxiv.org/abs/2505.22453

代码链接：

https://github.com/waltonfuture/MM-UPT

为什么需要无监督的自我进化？

大模型的持续进化如同一个求知欲旺盛的学生，需要不断“刷题”来提升能力。在传统模式下，每刷一道题，都需要一位“老师”（即人工标注）来告知正确答案。这种模式虽然有效，但“老师”的精力和时间是有限的，高质量的“题库”（标注数据）总有被耗尽的一天。

因此，一个更理想的模式是，让模型学会“自我反思”和“自我订正”，即在没有标准答案的情况下，通过自己的思考来判断答案的优劣，并从中学习，实现自我进化。

这不仅解决了数据稀缺的难题，更为模型的规模化、自动化和持续性发展开辟了一条全新的道路。MM-UPT 正是沿着这一思路，探索如何让 MLLM 在多模态推理这一极具挑战性的领域实现真正的自我提升。

MM-UPT 的工作原理

MM-UPT 框架的核心思想是：用群体智慧生成内部奖励信号，驱动模型自我优化。它巧妙地将在线强化学习算法 GRPO 与一种名为“多数投票”（Majority Voting）的机制结合起来。这一思想也在一些同期工作（如 TTRL，SRT）中运用。

具体流程如上图所示：

生成多样性回答：针对一个无标签的多模态问题（例如，一张几何图和一道题目），MLLM 会被要求生成多个（例如 G 个）不同的回答。
群体决策定“真理”：通过一个简单的“多数投票”机制，从这 G 个回答中选出出现频率最高的那个，并将其作为“伪标签”（Pseudo-label）。这个过程类似于一个专家小组讨论后，将共识性的答案作为最可靠的结论。
构建自我奖励信号：根据每个回答是否与这个“伪标签”一致，系统会生成奖励信号。与伪标签一致的回答将获得正奖励（例如+1），不一致的则获得零奖励或负奖励。
强化学习促提升：这个内部生成的奖励信号随后被输入到 GRPO 算法中，用于更新模型参数。通过这种方式，模型被激励去产生更稳定、更一致、更接近群体共识的高质量回答，从而在没有外部监督的情况下实现了能力的迭代提升。

这个循环让模型能够基于自身的认知共识进行学习和迭代，有效地利用了无标签数据。除了无监督后训练的算法之外，研究团队也探索了让 MLLM 自行合成全新、无标签训练数据的能力，并参考 self-instruct 设计了两种合成策略：

上下文合成（In-Context Synthesizing）：给模型提供一个完整的原始样本（包含图像、问题和答案），然后要求它基于此上下文，生成一个与原始问题不同的新问题。这类似于举一反三，对现有知识进行变体和拓展。
直接合成（Direct Synthesizing）：更进一步，只给模型提供一张图像，让它在没有任何文本上下文的情况下，完全基于视觉内容独立地提出一个新问题。这极大地考验和激发了模型的创造力。

通过这两种方式生成的合成问题（如上图所示），构成了全新的、源源不断的无标签“题库”。这些“题库”随后被送入上文提到的“自奖励学习循环”中，驱动模型在新问题上进行新一轮的自我学习和进化。

综上，MM-UPT 通过自奖励学习循环和数据自造引擎的有机结合，构建了一个从利用现有无标签数据，到主动创造新数据，再到从新数据中学习的完整闭环，为多模态大模型实现真正意义上的、可规模化的持续自我改进开辟了一条全新的道路。

MM-UPT 的实验效果

为了验证框架的有效性，研究团队在多个权威的多模态数学推理基准（如 MathVista, MathVision 等）上进行了广泛实验。

3.1 在无标签标准数据集上效果显著

实验首先模拟了“有题无解”的场景，即使用标准数据集但隐去所有答案。结果如下表所示，基于 Qwen2.5-VL-7B 模型，MM-UPT 取得了全面的性能提升（例如，在 MathVista 上从 66.3% 提升至 72.9%）。

更重要的是，MM-UPT 的性能不仅显著优于其他无监督基线方法（如 LMSI，Genixer 等），甚至在多个数据集上逼近了使用标准答案进行训练的监督方法（Supervised GRPO）。这充分证明了多数投票机制作为伪奖励信号的有效性。

3.2 “自产自销”的数据也能驱动成长

MM-UPT 的终极目标是实现完全的自主进化。为此，研究团队进一步探索了仅使用模型自身生成的合成数据进行训练的潜力。

上表结果显示：使用“上下文合成”（In-Context Synthesizing）和“直接合成”（Direct Synthesizing）这两种类型的合成数据训练的模型，其性能同样获得了显著提升，并且效果与使用原始人类创建的问题相当，甚至在某些情况下（如 GeoQA 上的“直接合成”）表现更优。

这揭示了一条极具潜力的路径：未来 MLLM 或许可以不依赖任何外部数据，通过不断地自我提问、自我解答、自我评估，进入一个可规模化的、持续的自我完善循环。

3.3 具备良好的通用性和兼容性

为了证明 MM-UPT 并非只对特定模型有效，研究团队在包括 Qwen2.5-VL-3B，MM-Eureka-7B，ThinkLite-VL-7B 在内的多个不同规模和架构的模型上进行了消融实验。下面表格中的结果显示，MM-UPT 对所有被测试的模型都带来了稳定的性能增益。

一个更有趣的发现是，MM-UPT 对于已经接受过监督强化学习（如 MM-Eureka-7B）的模型依然有效，可以在其基础上实现“二次提升”。这表明 MM-UPT 可以作为一个轻量、即插即用的优化模块，帮助顶尖模型在新的无标签数据上继续挖掘潜力。

深入剖析 MM-UPT：优势、边界与权衡

一项优秀的技术不仅要证明其有效性，更要清晰地剖析其工作原理、适用边界及潜在的权衡。研究团队对 MM-UPT 进行了深入的分析，揭示了其成功背后的深层原因和实际应用中需要考量的因素。

4.1 为什么 MM-UPT 行之有效？

MM-UPT 的成功并非偶然，其背后是经典的集成学习理论在支撑。研究团队通过一个简单的概率模型解释了其原理：假设模型对某个二元问题的单次回答正确率为，且（即正确率高于随机猜测）。

在这种情况下，若独立采样次，那么正确回答的次数便服从二项分布（）。当正确次数超过总采样次数的一半时（），多数投票的结果就是正确的。

这一事件（我们称之为）发生的概率可以通过以下公式计算：

该公式可以继续推导出，只要单次正确率大于 0.5，那么经过多数投票后的最终正确率就会被放大，且高于。例如，如果模型单次回答的正确率，在采样 10 次后，通过该公式计算出的多数投票正确率将上升至约 85%。

这意味着，只要模型具备了一定的初始能力，多数投票机制就能非常可靠地筛选出正确的伪标签，为强化学习提供高质量的奖励信号，从而进入正向循环。

4.2 MM-UPT 的失效边界

反之，上述原理也揭示了 MM-UPT 的适用边界：当模型对某个领域的知识储备严重不足（即在上述建模中单次回答正确率 p<0.5）时，该框架可能会失效。

为了验证这一点，团队在一个专门收集了困难样本的数据集（ThinkLite-11K）上进行了实验。结果如预期一样，模型性能出现了显著下滑。这是因为在这种情况下，错误的回答反而成为了“大多数”，导致多数投票机制不断地将错误答案放大为伪标签，从而对模型产生了负向的优化作用。

这说明 MM-UPT 更适合作为一种“优等生”的强化方案，而非“差等生”的启蒙工具。

4.3 MM-UPT 中的两大权衡

MM-UPT 在提升模型能力的同时，也带来了需要仔细考量的权衡：

准确率 vs. 多样性：实验发现，MM-UPT 在显著提升单次回答准确率（pass@1）的同时，会降低模型回答的多样性（pass@10 指标下降）。

这是因为多数投票的奖励机制会激励模型收敛到共识度最高的“最优路径”上，从而牺牲了对其他可能正确的小众思路的探索。这是一种典型的“利用”与“探索”（Exploitation vs. Exploration）的权衡。

训练成本 vs. 推理成本：有人可能会问，为什么不直接在推理时使用多数投票等测试时扩展的方法来提升性能呢？

虽然推理时使用这种策略同样有效，但这将导致每次查询都需要进行多次采样，极大地增加了计算开销和响应时间，在规模化应用中是不现实的。

MM-UPT 的优势在于，它将这一成本“前置”到了一次性的训练阶段。经过优化的模型，在部署后能够以更高效的单次推理产出更强的性能，这对于追求低延迟和高吞吐量的实际应用场景至关重要。

结论与展望

MM-UPT 框架的提出，为多模态大模型的持续进化提供了一个摆脱“数据标注”枷锁的全新范式。通过简单而强大的“多数投票”自奖励机制和在线强化学习，模型得以在完全无监督的环境下实现推理能力的自我提升。

实验不仅验证了该框架在标准无标签数据集上的有效性，更揭示了利用模型自身合成数据进行可规模化自我完善的巨大潜力。当然，研究团队也指出，该方法的成功依赖于基础模型已具备一定的初始能力，否则多数投票可能会放大错误。

未来，将 MM-UPT 与更精细化的自奖励算法（如 LLM-as-a-Judge）和数据合成方法（如 Text2SVG）相结合，将是值得探索的方向。我们相信，这项工作将启发更多关于大模型自主学习和持续进化的研究。

论文链接：
https://arxiv.org/abs/2505.22453
代码链接：
https://github.com/waltonfuture/MM-UPT

关于我们

MIFA 实验室全称 Machine Intelligence Foundations and Applications Laboratory，即机器智能基础与应用实验室，隶属于上海交大计算机学院。实验室以长期的、有影响力的研究为驱动，致力于消除人工智能理论与实际应用之间的鸿沟，为 AI 的应用提供行之有效的理论指导。实验室团队小而精，科研氛围浓厚，负责人为黄维然副教授。目前，MIFA 实验室和多所知名高校、国家实验室、三甲医院以及业界大厂保持着紧密的学术合作与交流关系。

更多阅读