动态列表

  • 重磅!DeepSeek再开源:视觉即压缩,100个token干翻7000个
  • 全球首个「长肌腱」AI机器人量产!Nature盛赞的中国方案惊艳IROS现场
  • 甲骨文推出全球最大AI超算,作为OpenAI「星际之门」算力核心
  • MagicOS已成世界「第三极」,荣耀拿下AI大战叙事权
  • 美国拟减40%国际生,留学风向要变?Nature曝全球高校大洗牌
  • 美 NSA 被曝网攻中国「时间心脏」;微博王高飞:企业别把批评和黑公关混为一谈;传运营艰难,安世中国发公开信回应
  • 扎克伯格急了!Meta内部文件曝光:宁用竞品,也要废掉祖传系统
  • 浙大推出首个「多图应用题」基准GSM8K-V,全面评估 VLM数学推理能力
  • 英伟达4段简短提示词,IOI夺金!开源模型也能征服最难编程竞赛
  • 超越纯视觉模型!不改VLM标准架构,实现像素级深度预测
  • 5万美元筛选「超级婴儿」, 智商提升15点?马斯克被曝是客户!
  • NeurIPS 2025 | KAUST与MetaAI提出Vgent:图增强RAG,长视频理解性能超越SOTA 8.6%
  • TPAMI 2025 OccScene:联合扩散框架,同时推进感知与生成进步,3D场景生成新突破!
  • 不靠RL、不用训练:哈佛「Power Sampling」让基座模型推理媲美GRPO
  • 不用微调!像打方向盘一样“操控”大模型思考:Steering正在改写推理范式
  • 中国AIGC用户破5亿,增长1倍;今年超7成外卖低于15元;新能源事故,「破窗锤」被网友买爆|极客早知道
  • AI芯片战争关键一役!英伟达最强Blackwell首次「美国造」
  • 数学界地震!GPT-5连破10道「百年悬案」,陶哲轩:AI革命才刚开始
  • 前OpenAI研究员跨界做文创:Ilya发型帽子走红,AI成潮牌!
  • 训练成本暴降99%,35秒出1分钟高清视频!英伟达MIT等引爆视频AI革命
  • Karpathy泼冷水:AGI要等10年!根本没有「智能体元年」
  • 早鸟票倒计时2天!全国大模型智能生成大会:推理、多模态、智能体前沿集结
  • First Try Matters,不是Aha Moment:邴立东团队揭示推理模型靠首答,不靠反思
  • 一致性轨迹强化学习登场:上海AI Lab让扩散语言模型实现全并行少步数推理
  • 传 iPhone 17 Air 表现不佳,砍百万产量;黄仁勋:英伟达中国份额从 95% 降到 0%;AI 致维基百科访问显著下降
  • 马普所&谷歌等提出AnyUp:无需再训练的通用特征上采样,推理即用,效果SOTA!
  • 北大等提出MaskDCPT:通用图像修复预训练新范式,PSNR提升3.77dB
  • 可处理上万变量,攻克高维时序预测难题!华人团队开源模型、基准
  • Bengio推AGI「高考」,GPT-5单项0分
  • Hassabis官宣用AI点燃「人造太阳」!无限能源时代加速到来
  • 全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA
  • 太狠了,四条腿被锯掉也能爬!通用大脑开启机器人「无休」时代
  • 零跑,不再「摸着理想过河」
  • 硬刚 Sora 2,谷歌的 Veo 3.1 确实有小惊喜|AI 上新
  • 从会画画到会思考:快手可灵提出T2I-CoReBench,最强模型也难逃推理瓶颈
  • Meta花了420万美元、烧掉40万GPU·小时,只为验证一条Sigmoid曲线
  • 张鹏对谈朱啸虎、储瑞松、傅盛:Agentic AI 时代,不要什么东西都自己闷头做
  • Identity-GRPO:阿里开源多人物定制化视频生成的后训练优化算法
  • Real-world Video Super-Resolution | VSR的十字路口
  • 蔚来回应外国基金投诉:无事实依据;零跑推D19旗舰SUV,配超大电池;卡西欧推《回到未来》40周年联名表
  • 你的下一个「爱豆」不一定是真人,也可以是AI豆
  • 刚刚,谷歌深夜上新Veo 3.1!网友狂刷2.75亿条,Sora 2要小心了
  • 谷歌142页报告首发揭秘:90%码农每天用AI超2小时!
  • RL微调,关键在前10%奖励!基于评分准则,Scale AI等提出新方法
  • 谷歌×耶鲁联手发布抗癌神器!AI推理精准狙击「隐身」癌细胞
  • GPT越来越保守?斯坦福Manning团队提出Verbalized Sampling,让模型重新“多想一点”
  • ACL 2025 | 北大提出动态焦点解码:让开放生成既“靠谱”又“好看”
  • 统一高效来了!清华发布RLinf-VLA:把VLA+RL的训练与部署“一网打尽”
  • AI 时代,用一场「快闪」改变命运|IF 2026「AI 产品快闪」启动召集!
  • IF 2026 启动:来看看 AI 面前,谁在掌握主动权?
  • NeurIPS 2025 | 为Sora视频加上“隐形身份证”:清华大学等提出Safe-Sora,时空频率感知水印新框架
  • 从DNN到MLLM的异常之旅:视频异常检测(VAD)范式大迁徙
  • 苹果发布 M5 芯片笔记本和 iPad;微信:长时间不用账号,不再强行回收; 乔布斯登上一美元硬币
  • 马斯克的作业还是被奥特曼「抄走了」
  • 苏姿丰出手!Oracle下单5万颗AMD芯片,英伟达王座撼动
  • 具身智能算法哪家强?RoboChallenge见真章!全球首个大规模真机算法评测平台来了
  • NTU等联合提出A-MemGuard:为AI记忆上锁,投毒攻击成功率暴降95%
  • 苹果M5「夜袭」高通英特尔!AI算力狂飙400%,Pro三剑客火速上新
  • TPAMI 2025 | 华中科大与大疆等提出LLF-LUT++:4K照片增强仅需13ms,PSNR提升2.64dB!
  • IDEA提出Rex-Omni:将目标检测变为“下一个点预测”,零样本性能超越DINO
  • 下周见!Wiley Advanced主编论坛@IROS 2025:从审稿人视角重塑论文表达
  • AAAI 2026联合会议征稿开启:大语言模型中的深度逻辑推理
  • 罗福莉担任通讯作者,小米 × 北大联合发布R3:让MoE强化学习从崩盘回归可控
  • Altman:ChatGPT将支持成人内容;港版iPhone Air无法用内地eSIM;传雷军一夜掉粉30万|极客早知道
  • Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」
  • 英伟达AI超算3999开售,「掌心之中」可部署所有大参数开源模型!
  • 登顶Hugging Face GAIA全球榜首!中兴超级智能体终结「AI黑盒」时代
  • AI圈再颠覆!中国AI翻译耳机通话翻译,实测震撼
  • 一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军
  • vivo X300 Pro:以「水桶旗舰」之躯,重登旗舰山巅
  • 直到毕业我才懂:原来延期的博士,不止我一个
  • 让论文自己讲!Paper2Video一键生成论文讲解视频,赶顶会DDL不慌了
  • 8美元“驯服”DeepSeek-V3.2?Training-Free GRPO把RL成本打到地板
  • NeurIPS 2025 | PPFN:渐进式提示融合,让红外图像增强在复杂场景下性能提升8.76%
  • NeurIPS 2025 | 让AIGC视频变为可探索场景:Instant4D实现单目动态场景的分钟级重建
  • 库克抖音带货 iPhone 17 Air,22 日开售;小米客服回应「SU7 门把手」;「丐版」特斯拉明年国内投产

NeurIPS 2025 | 上交大提出MM-UPT:多模态大模型的“无监督后训练”范式

魏来 2025-10-17 17:14 北京

用「多数投票 + GRPO」刷爆多模态推理

自多模态大语言模型(MLLM)问世以来,它们在图像描述、视觉问答等任务中展现了惊人的能力。为了进一步提升模型性能,尤其是在复杂的多模态推理任务上,学术界和工业界的主流范式是监督微调(SFT)或强化学习(RL)。

然而,这些方法严重依赖于海量、高质量、且经过人工精细标注的多模态数据。随着模型能力的不断提升和应用场景的日益复杂,获取此类标注数据的成本变得极其高昂,甚至成为限制模型持续发展的瓶颈。

一个亟待解决的问题是:我们能否摆脱对外部标注数据的依赖,让多模态大模型在没有“标准答案”的情况下,实现持续的自我提升?

为了应对这一挑战,来自上海交通大学、里海大学等机构的研究团队提出了一种简洁而高效的多模态大模型无监督训练后优化框架 MM-UPT。该框架首次将稳定且可扩展的在线强化学习算法 GRPO 应用于 MLLM 的无监督自我改进场景。

MM-UPT 使用了一种基于“多数投票”的自奖励机制,取代了传统的外部奖励信号,使模型能够仅利用无标签数据,甚至完全由自身合成的数据,就能有效提升其核心的推理能力。

本工作已被 NeurIPS 2025(机器学习三大顶会之一,CCF-A 类)会议接收。论文第一作者为上海交通大学 MIFA 实验室的博士生魏来,通讯作者为上海交通大学 MIFA 实验室的黄维然副教授。

论文标题:

Unsupervised Post-Training for Multi-Modal LLM Reasoning via GRPO

论文链接:

https://arxiv.org/abs/2505.22453

代码链接:

https://github.com/waltonfuture/MM-UPT

为什么需要无监督的自我进化?

大模型的持续进化如同一个求知欲旺盛的学生,需要不断“刷题”来提升能力。在传统模式下,每刷一道题,都需要一位“老师”(即人工标注)来告知正确答案。这种模式虽然有效,但“老师”的精力和时间是有限的,高质量的“题库”(标注数据)总有被耗尽的一天。

因此,一个更理想的模式是,让模型学会“自我反思”和“自我订正”,即在没有标准答案的情况下,通过自己的思考来判断答案的优劣,并从中学习,实现自我进化。

这不仅解决了数据稀缺的难题,更为模型的规模化、自动化和持续性发展开辟了一条全新的道路。MM-UPT 正是沿着这一思路,探索如何让 MLLM 在多模态推理这一极具挑战性的领域实现真正的自我提升。

MM-UPT 的工作原理

MM-UPT 框架的核心思想是:用群体智慧生成内部奖励信号,驱动模型自我优化。它巧妙地将在线强化学习算法 GRPO 与一种名为“多数投票”(Majority Voting)的机制结合起来。这一思想也在一些同期工作(如 TTRL,SRT)中运用。

具体流程如上图所示:

  • 生成多样性回答:针对一个无标签的多模态问题(例如,一张几何图和一道题目),MLLM 会被要求生成多个(例如 G 个)不同的回答。

  • 群体决策定“真理”:通过一个简单的“多数投票”机制,从这 G 个回答中选出出现频率最高的那个,并将其作为“伪标签”(Pseudo-label)。这个过程类似于一个专家小组讨论后,将共识性的答案作为最可靠的结论。

  • 构建自我奖励信号:根据每个回答是否与这个“伪标签”一致,系统会生成奖励信号。与伪标签一致的回答将获得正奖励(例如+1),不一致的则获得零奖励或负奖励。

  • 强化学习促提升:这个内部生成的奖励信号随后被输入到 GRPO 算法中,用于更新模型参数。通过这种方式,模型被激励去产生更稳定、更一致、更接近群体共识的高质量回答,从而在没有外部监督的情况下实现了能力的迭代提升。

这个循环让模型能够基于自身的认知共识进行学习和迭代,有效地利用了无标签数据。除了无监督后训练的算法之外,研究团队也探索了让 MLLM 自行合成全新、无标签训练数据的能力,并参考 self-instruct 设计了两种合成策略:

  • 上下文合成(In-Context Synthesizing):给模型提供一个完整的原始样本(包含图像、问题和答案),然后要求它基于此上下文,生成一个与原始问题不同的新问题。这类似于举一反三,对现有知识进行变体和拓展。

  • 直接合成(Direct Synthesizing):更进一步,只给模型提供一张图像,让它在没有任何文本上下文的情况下,完全基于视觉内容独立地提出一个新问题。这极大地考验和激发了模型的创造力。

通过这两种方式生成的合成问题(如上图所示),构成了全新的、源源不断的无标签“题库”。这些“题库”随后被送入上文提到的“自奖励学习循环”中,驱动模型在新问题上进行新一轮的自我学习和进化。

综上,MM-UPT 通过自奖励学习循环和数据自造引擎的有机结合,构建了一个从利用现有无标签数据,到主动创造新数据,再到从新数据中学习的完整闭环,为多模态大模型实现真正意义上的、可规模化的持续自我改进开辟了一条全新的道路。

MM-UPT 的实验效果

为了验证框架的有效性,研究团队在多个权威的多模态数学推理基准(如 MathVista, MathVision 等)上进行了广泛实验。

3.1 在无标签标准数据集上效果显著

实验首先模拟了“有题无解”的场景,即使用标准数据集但隐去所有答案。结果如下表所示,基于 Qwen2.5-VL-7B 模型,MM-UPT 取得了全面的性能提升(例如,在 MathVista 上从 66.3% 提升至 72.9%)。

更重要的是,MM-UPT 的性能不仅显著优于其他无监督基线方法(如 LMSI,Genixer 等),甚至在多个数据集上逼近了使用标准答案进行训练的监督方法(Supervised GRPO)。这充分证明了多数投票机制作为伪奖励信号的有效性。

3.2 “自产自销”的数据也能驱动成长

MM-UPT 的终极目标是实现完全的自主进化。为此,研究团队进一步探索了仅使用模型自身生成的合成数据进行训练的潜力。

上表结果显示:使用“上下文合成”(In-Context Synthesizing)和“直接合成”(Direct Synthesizing)这两种类型的合成数据训练的模型,其性能同样获得了显著提升,并且效果与使用原始人类创建的问题相当,甚至在某些情况下(如 GeoQA 上的“直接合成”)表现更优。

这揭示了一条极具潜力的路径:未来 MLLM 或许可以不依赖任何外部数据,通过不断地自我提问、自我解答、自我评估,进入一个可规模化的、持续的自我完善循环。

3.3 具备良好的通用性和兼容性

为了证明 MM-UPT 并非只对特定模型有效,研究团队在包括 Qwen2.5-VL-3B,MM-Eureka-7B,ThinkLite-VL-7B 在内的多个不同规模和架构的模型上进行了消融实验。下面表格中的结果显示,MM-UPT 对所有被测试的模型都带来了稳定的性能增益。

一个更有趣的发现是,MM-UPT 对于已经接受过监督强化学习(如 MM-Eureka-7B)的模型依然有效,可以在其基础上实现“二次提升”。这表明 MM-UPT 可以作为一个轻量、即插即用的优化模块,帮助顶尖模型在新的无标签数据上继续挖掘潜力。

深入剖析 MM-UPT:优势、边界与权衡

一项优秀的技术不仅要证明其有效性,更要清晰地剖析其工作原理、适用边界及潜在的权衡。研究团队对 MM-UPT 进行了深入的分析,揭示了其成功背后的深层原因和实际应用中需要考量的因素。

4.1 为什么 MM-UPT 行之有效?

MM-UPT 的成功并非偶然,其背后是经典的集成学习理论在支撑。研究团队通过一个简单的概率模型解释了其原理:假设模型对某个二元问题的单次回答正确率为 ,且 (即正确率高于随机猜测)。

在这种情况下,若独立采样 次,那么正确回答的次数 便服从二项分布()。当正确次数超过总采样次数的一半时(),多数投票的结果就是正确的。

这一事件(我们称之为 )发生的概率可以通过以下公式计算:

该公式可以继续推导出,只要单次正确率 大于 0.5,那么经过多数投票后的最终正确率 就会被放大,且高于 。例如,如果模型单次回答的正确率 ,在采样 10 次后,通过该公式计算出的多数投票正确率将上升至约 85%。

这意味着,只要模型具备了一定的初始能力,多数投票机制就能非常可靠地筛选出正确的伪标签,为强化学习提供高质量的奖励信号,从而进入正向循环。

4.2 MM-UPT 的失效边界

反之,上述原理也揭示了 MM-UPT 的适用边界:当模型对某个领域的知识储备严重不足(即在上述建模中单次回答正确率 p<0.5)时,该框架可能会失效。

为了验证这一点,团队在一个专门收集了困难样本的数据集(ThinkLite-11K)上进行了实验。结果如预期一样,模型性能出现了显著下滑。这是因为在这种情况下,错误的回答反而成为了“大多数”,导致多数投票机制不断地将错误答案放大为伪标签,从而对模型产生了负向的优化作用。

这说明 MM-UPT 更适合作为一种“优等生”的强化方案,而非“差等生”的启蒙工具。

4.3 MM-UPT 中的两大权衡

MM-UPT 在提升模型能力的同时,也带来了需要仔细考量的权衡:

准确率 vs. 多样性:实验发现,MM-UPT 在显著提升单次回答准确率(pass@1)的同时,会降低模型回答的多样性(pass@10 指标下降)。

这是因为多数投票的奖励机制会激励模型收敛到共识度最高的“最优路径”上,从而牺牲了对其他可能正确的小众思路的探索。这是一种典型的“利用”与“探索”(Exploitation vs. Exploration)的权衡。

训练成本 vs. 推理成本:有人可能会问,为什么不直接在推理时使用多数投票等测试时扩展的方法来提升性能呢?

虽然推理时使用这种策略同样有效,但这将导致每次查询都需要进行多次采样,极大地增加了计算开销和响应时间,在规模化应用中是不现实的。

MM-UPT 的优势在于,它将这一成本“前置”到了一次性的训练阶段。经过优化的模型,在部署后能够以更高效的单次推理产出更强的性能,这对于追求低延迟和高吞吐量的实际应用场景至关重要。

结论与展望

MM-UPT 框架的提出,为多模态大模型的持续进化提供了一个摆脱“数据标注”枷锁的全新范式。通过简单而强大的“多数投票”自奖励机制和在线强化学习,模型得以在完全无监督的环境下实现推理能力的自我提升。

实验不仅验证了该框架在标准无标签数据集上的有效性,更揭示了利用模型自身合成数据进行可规模化自我完善的巨大潜力。当然,研究团队也指出,该方法的成功依赖于基础模型已具备一定的初始能力,否则多数投票可能会放大错误。

未来,将 MM-UPT 与更精细化的自奖励算法(如 LLM-as-a-Judge)和数据合成方法(如 Text2SVG)相结合,将是值得探索的方向。我们相信,这项工作将启发更多关于大模型自主学习和持续进化的研究。

关于我们

MIFA 实验室全称 Machine Intelligence Foundations and Applications Laboratory,即机器智能基础与应用实验室,隶属于上海交大计算机学院。实验室以长期的、有影响力的研究为驱动,致力于消除人工智能理论与实际应用之间的鸿沟,为 AI 的应用提供行之有效的理论指导。实验室团队小而精,科研氛围浓厚,负责人为黄维然副教授。目前,MIFA 实验室和多所知名高校、国家实验室、三甲医院以及业界大厂保持着紧密的学术合作与交流关系。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们