2025-10-09 23:49 北京
扩散不再一家独大
在扩散模型一家独大的时代,自回归文生图的潜力正被重新挖掘——它拥有更强的离散表征能力,却也更容易在强化学习阶段“失稳”。
STAGE 在自回归(Autoregressive, AR)文生图模型上首次实现了稳定性与泛化性的显著提升。它有效缓解了现有 GRPO 在自回归视觉生成中遇到的训练不稳与泛化差的问题,在多个主流评测基准上取得领先。
论文标题:
STAGE: Stable and Generalizable GRPO for Autoregressive Image Generation
论文链接:
https://arxiv.org/pdf/2509.25027
代码链接:
https://github.com/krennic999/STAGE
背景
近年来,自回归模型凭借良好的可扩展性与离散表征,正成为文生图的重要方向。但将强化学习(RL),尤其是 GRPO,直接用于自回归图像生成仍面临两大挑战:
其一,训练过程易不稳定,自回归模型对分布微小扰动高度敏感,难以稳步提升;
其二,多轮 RL 易引发分布漂移,逐步破坏预训练分布,进而出现 reward hacking 等现象,导致在训练集之外的基准上难以泛化、指标受限。
论文方法
STAGE 针对性提出了两项改进:
相似度感知的 Advantage/KL 重加权:在传统 GRPO 中,不同图像样本的相似区域往往会被分配到相反的奖励,导致训练过程产生冲突梯度。STAGE 引入基于视觉 token 相似度的加权机制,能够识别并降低这些冗余更新。
这样既能避免模型在背景等相似区域被反复扰动,又能突出前景和关键语义区域的优化方向,从而更好地保留预训练模型的原始分布,并显著提升训练效率与生成质量。
熵奖励(Entropy Reward):在训练过程中,由于某些奖励模型产生不明确的奖励(如GenEval),可能导致不稳定的策略熵变化,从而降低训练稳定性。
STAGE 引入基于参考模型的熵差奖励,在强化学习中动态约束模型的熵水平,防止熵坍塌并保持合理的不确定性。这种设计既能保证生成结果的稳定性和一致性,又能维持必要的多样性,使模型在跨任务泛化时依然具有良好的表现。
实验结果
GenEval 分数:在 Janus-Pro 7B 基础上,STAGE 将 GenEval 提升至 0.89,超过大多数现有扩散与自回归模型。
跨任务泛化:在 GenEval reward 上训练的模型展现出更强的泛化能力,在 T2I-Compbench 和 ImageReward 上的指标远高于基线 GRPO。
其他类型的奖励模型(Human preference,OCR 等)展示了所提方法在细节保真、布局稳定与文本渲染能力上的优势。
通过视觉效果对比,展示了所提方法在结构稳定性、细节和图像美学等方面的优势:
结语
STAGE 在强化学习驱动的自回归图像生成领域,首次实现了稳定性与泛化性的双提升。它突破了现有 GRPO 方法的局限,为自回归模型缩小与扩散模型之间的差距提供了新的思路。
更重要的是,STAGE 证明了——当强化学习与自回归生成以更精细的结构约束结合时,模型不仅能“稳住”,还能“学会泛化”。这一结果为未来构建高质量、高一致性的文生图系统提供了新的方向,也为强化学习在视觉生成中的可控性研究奠定了基础。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·