动态列表

  • 港中文&港科大等提出FullPart:让3D部件生成达到全分辨率精度
  • 港科大(广州)等联合发布多模态空间推理综述:为大模型画下空间理解的未来蓝图
  • ReDiff:突破并行生成瓶颈,多模态扩散模型生成质量与效率双提升
  • 谢菲尔德大学提出Region-CAM:mIoU提升13.6%,破解弱监督学习中的目标定位难题
  • 英伟达开源ChronoEdit,让P图学会物理常识,时序推理颠覆图像编辑!
  • 天津大学与快手联手提出GRAG:仅需4行代码,实现图像编辑的“丝滑”微调
  • 普林斯顿大学联手谷歌DeepMind,BOB让少样本细粒度分类精度飙升7.4%
  • IROS 2025 | 大连理工等提出STG-Avatar:25分钟训练,单目视频实时生成高保真数字人
  • 中科院SNELLA:视觉模型微调新范式,性能超越SOTA,内存占用降低近40%
  • 美团开源LongCat-Video:136亿参数长视频生成,分钟级推理720p
  • 看似万能的 AI,其实比你想的更脆弱和邪恶
  • 重建超越RAE,还能做编辑!北大&通义提出UniLIP: 自蒸馏训练助力CLIP大一统
  • 世界模型是否需要显式的 3D?UT Austin 新作 PE-Field 给出答案
  • Feed-Forward 3D综述:三维视觉进入“一步到位”时代
  • CUPID:单图秒速重建3D,港大提出姿态引导新范式
  • 每周100万人与ChatGPT聊自杀;美团推全国骑手社保补贴;高通发AI芯片,股价暴涨20%
  • 美国大学排名出炉:哥大断崖式下滑,MIT稳居CS榜第一!
  • 开源即登榜!登顶全球前十AI编程智能体,UCL初创团队开源Prometheus
  • 奥特曼考虑给ChatGPT加广告了!用8亿用户,救万亿债务
  • VaseVQA:考古领域实现专家级,诊断+补弱RL框架
  • 弑母分尸案震惊世界,AI伪造语音骗过警察!
  • 一把吉他卖出 10 亿后,LiberLive 选择自我革命
  • 仅仅是 AI,并不能让硬件更「智慧」,更重要的其实是这个
  • 北京/上海/杭州内推 | 蚂蚁集团保险大模型算法团队招聘大模型算法专家(P6-P7)
  • 多人物也能“认得准”!阿里开源Identity-GRPO,刷新视频生成一致性上限
  • RL记得更牢,SFT更健忘?普林斯顿陈丹琦团队改写后训练认知
  • 首个面向大模型的形式化数学竞赛正式启动:推动AI数学推理迈向可验证新高度
  • ICCV'25|开源AI3D数据集Objaverse++:更少的数据,却有更好的生成效果
  • 川大等提出LG-CD:一句话精准锁定遥感影像变化,F1分数高达91.83%
  • “压缩不减智”!EPIC让多模态大模型以更少 Token 跑得更快、更稳|NeurIPS 2025
  • ​一个对话助理,如何盘活整个「夸克宇宙」?
  • 马斯克 xAI 上新款「虚拟女友」;传小米 17 Air 明年上;996 成美国创业者美德
  • AI黑化如恶魔附体!LARGO攻心三步,潜意识种子瞬间开花 | NeurIPS 2025
  • 可攻可防,越狱成功率近90%!六大主流模型全中招 | EMNLP'25
  • 硅谷的「十万大裁员」:Meta按代码量裁员
  • 超94%类别第一!3D点云异常检测与修复新SOTA | ICCV'25
  • AI人格分裂实锤!30万道送命题,撕开OpenAI、谷歌「遮羞布」
  • 思而不学则殆:通义实验室×北大联合提出RL-PLUS,突破大模型推理边界
  • NeurIPS 2025 | 理解能否反过来教生成?VideoREPA让视频生成模型“懂物理”
  • 博士申请 | 香港中文大学陈玥老师招收人工智能/智能电网方向全奖博士生
  • NeurIPS 2025 | 港中文等提出COS3D:协同语言与分割,革新开放词汇3D分割
  • 上海交大与上海AI lab联手推出RAPO++:跨阶段提示优化,让文生视频模型“更懂你心”
  • 传OpenAI正开发新的生成式音乐工具;苹果将AirPods印度产能扩大一倍;《王者荣耀世界》官宣2026春天见

会看图≠会画图:SRUM用理解教会生成,探索统一多模态自我进化之路

原创 让你更懂AI的 2025-10-24 17:37 北京

理解与生成的边界,正被SRUM一点点打破

TLDR

SRUM 是一种简洁高效的后训练方法。其核心动机在于:当前统一多模态模型的理解能力普遍优于生成能力,对于许多对偶任务,生成端难以处理的问题,理解端却能轻松应对。基于此,SRUM 通过巧妙的指令设计,使理解端能够直接为生成端提供密集的奖励信号。

实验表明,仅使用约 6k 条提示和极少的训练时间,SRUM 即可在 T2I-CompBench 上提升 4–6 个点,并在 Geneval、WISE、T2I-Reasonbench 等多个基准上展现出优秀的泛化性能。

论文标题:

SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models

论文链接:

https://arxiv.org/abs/2510.12784

代码链接:

https://github.com/WayneJin0918/SRUM

HuggingFace链接:

https://huggingface.co/papers/2510.12784

背景

在通往通用人工智能的探索中,一个核心问题始终存在:模型能否通过内在机制实现自我迭代与进化?

随着大规模预训练语言模型的兴起,这一愿景取得了阶段性进展。从早期“自我奖励语言模型”的开创性尝试,到后续 “LLM-as-judge” 机制的深入探索,研究界在纯文本领域已积累了令人鼓舞的经验。

然而,当类似思路被引入多模态大模型时,却遭遇了现实瓶颈。多模态模型不仅依赖文本,还需要大量高质量的图像数据来支撑其进化过程。这类图像资源的获取与标注成本极高,严重制约了模型的自我进化能力,一度使该领域陷入发展困境。

面对挑战,研究社区展现出持续的创新能力。统一多模态模型,即将视觉理解与生成等多种任务整合进单一、端到端训练架构中,逐渐成为重要方向,以期实现多模态协同并降低系统复杂性。目前,该方向的架构范式可归纳为三类:

  • 纯自回归架构:将语言模型中的下一词元预测扩展至视觉数据,将图像视为离散词元序列。关键改进包括视觉编码器的解耦,例如 Janus 模型分别使用语义编码器处理理解任务,并保留重建型标记器用于生成;Show-O 模型则引入离散扩散调度以优化词元预测。

  • 序列式 AR-扩散混合架构:作为当前主流方案,此类模型利用自回归组件生成中间表征,进而调节基于扩散的解码器。部分变体将预训练的多模态大语言模型冻结,并将其特征通过可学习的查询或隐藏状态路由至外部图像生成器,有效复用已有强大模型。

  • 统一 Transformer 主干架构:采用更为一体化的设计,在同一 Transformer 中同时优化自回归与扩散目标。为提升扩展性,混合专家 Transformer 范式也被引入。

从早期 Chameleon、Transfusion、LlamaFusion 的探索,到 MetaMorph 的初步尝试,再到 Bagel 系列的逐步成熟,技术路径日渐清晰。最终,强大的 UMMs 架构进入研究者视野:它融合理解与生成能力,能够同时处理图像与文本的输入与输出。

这一根本性突破,使多模态模型得以在内部闭环中自主创造并评判数据,从而为自我进化铺平了道路,曾经的核心难题也由此迎刃而解。

探索

另一方面,现有的 UMMs 普遍存在一个显著问题:理解能力优于生成能力。对于一类对偶任务,模型理解表现良好,但生成却出现问题。因此,我们很自然地希望利用理解能力来引导生成,构建一个能力循环的框架。

▲ 图1:左图展示 UMMs 理解优于生成的现象,右图展示 SRUM 的基本框架

SRUM 正是基于这一视角,并进行了更细粒度的奖励过程设计。我们针对当前生成图像与提示在区域及全局层面的吻合程度,让理解部分进行打分,并将其转化为训练过程中的奖励信号。

▲ 图2:SRUM 的整体流程

首先,我们通过一组分布广泛的提示,让模型自行生成图像候选。随后,利用理解端对这些候选进行细粒度的奖励评估。最后,将奖励转化为密集的奖励图,并顺利融入训练过程。

训练时,我们加入了约束损失项以防止奖励黑客行为,这一点借鉴了以往类似 DPO 的奖励方法。最终,我们的方法在通用基准上取得了优异的生成效果。

▲ 图3:生成效果对比示例

分析

为了深入分析 SRUM 的性质及其有效原因,我们首先进行了消融实验,包括对推理过程中关键模块的移除以及超参数设计的分析。

▲ 图4:约束项系数的消融实验

▲ 图5:细节打分随训练步骤的变化

▲ 图6:整体布局打分随训练步骤的变化

在 Bagel 上的实验发现,“思考”模式的开启对布局生成效果提升显著,但对细节部分作用有限。同时,我们设计的全局奖励对布局的作用至关重要。另一方面,通过对比样本级别的奖励形式,我们发现该形式难以处理细节生成任务。

▲ 图7:不同奖励形式的对比

在理解模块相关的实验中,我们的方法相比监督微调对理解能力的损害极小,在 MMVP 基准上甚至略有提升,这充分说明 SRUM 实现了理解能力向生成能力的无痛迁移,完成了自我促进。

更有趣的是,通过观察不同参数簇的激活情况,我们发现 SRUM 能够同时促进理解与生成相关神经元在不同任务中的激活,暗示了模型能力间存在潜在的协同效应,这是一个非常积极的信号。

最后,我们探索了模型在知识领域生成的泛化性,也观察到了不错的结果。我们在 WISE 基准上使用其中一类提示进行训练,发现 SRUM 能够促进模型在另外两类提示上的表现,这是十分有意义的。

思考

在大量实验和试错过程中,我们总结出一些符合直觉的见解:

理解与生成是否相互冲突?

在 UMMs 中,这种现象确实存在。我们观察到,一旦使用某一类任务对模型主干进行监督微调,另一项能力往往会迅速衰退。

提升一种能力,常常以另一种能力的衰减为代价。尽管目前 UMMs 的训练效果尚不理想,但从我们的激活实验来看,若能选择合适的训练策略,模型的理解与生成能力之间仍可能浮现出潜在的协同效应。这为后续探索 UMMs 的训练范式提供了可行的指导方向。

后训练方法是“版本答案”吗?

当前如 RECA 等工作也聚焦于后训练阶段。但我们认为,这类训练范式或许应尝试前移,将其视为 SFT 阶段的一部分并进行适当适配,这样可能更具实践意义。

在我们看来,UMMs 的模块均衡问题始终围绕两条主线:架构设计与训练范式。我们的尝试,正是希望借助模型的原生能力,在训练范式这条路径上引入一些革新性的思路。

为何要坚持推进 UMMs?

这是一个常谈常新的话题。本质上,我们希望实现从理解到生成的知识迁移,这也是我们此前构建 WISE Benchmark 的初衷。

目前来看,理解端的能力尚未充分赋能于生成端,因此像 SRUM 这类方法,目前仅能视为过渡方案,期待未来能进一步优化。

为何要推动模型自我进化,72B 规模的外部模型打分不够可靠吗?

这一点其实颇具争议,背后涉及我们对“智能”本质的理解。正如元学习所探讨的,我们不仅希望模型能够学习,更希望它们能学会自我学习——在初期接受人类监督之后,逐步实现自主提升,而非永远停留在“无法成长的婴儿”阶段。

此外,当 UMMs 步入新阶段,其理解能力远超现有开源模型时,SRUM 是否将成为推动能力跃迁的关键答案?这也值得持续思考。

总体而言,我们仍可得出阶段性结论:利用理解端提供密集奖励是正确方向,区域级奖励也具有可行性。对学界而言,后训练因其隔离性与轻量化特性,仍是研究 UMMs 的理想起点。

我们期待后续有更多研究者与我们一起,将 SRUM 扩展至更大规模,探索其潜在性质。欢迎交流与合作,共同推进这一方向的深入发展。

Arxiv:

https://arxiv.org/abs/2510.12784

代码(辛苦大家帮忙 Star 一下):

https://github.com/WayneJin0918/SRUM

Hugging Face Paper(辛苦大家帮忙 upvote 一下):

https://huggingface.co/papers/2510.12784

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们