52CV 2025-10-31 16:38 江苏
论文标题: From Denoising to Refining: A Corrective Framework for Vision-Language Diffusion Model
作者团队:香港大学MMLab和腾讯ARC Lab
本文介绍一篇关于多模态扩散模型的新研究:ReDiff,从被动“去噪”到主动“精炼”的扩散模型新范式。
目前,多模态大模型(VLM)主要有基于自回归(AR)和离散扩散(Discrete Diffusion)两条技术路线。AR模型一次生成一个词,无法修改已生成的错误;扩散模型为双向注意力,虽然理论上可以并行生成、提高生成速度,但在实践中发现并行生成会带来很多问题:生成的句子语法混乱、语义幻觉严重。
本文深入探究了这个问题,并提出了一个全新的纠正框架(ReDiff),大幅提高多模态扩散模型并行生成的稳定性和准确性。
动机:灾难性的“错误累积”
为什么多模态扩散模型在并行生成时容易失败?
我们发现,这主要源于“训练-推理差异”:模型在训练时复原[mask]基于的是完全正确的context,但在推理时,它却必须依赖自己上一步生成的、可能包含错误的内容。
在并行生成(一次预测多个词)时,这种相互干扰的问题会更严重:模型在某一步生成了一个错误的词,这个错误立刻污染了上下文,导致模型在下一步预测新词时更加困难,更容易出现错误。
错误不断累积、互相影响,最终导致了“错误累积”(Error Cascade),输出的文本完全偏离事实、语法混乱。
方法:从被动去噪 (Passive Denoising) 到主动精炼 (Active Refining)
为了打破这个恶性循环,我们提出了一种全新的范式转变:从被动去噪,转向主动精炼。
传统的“去噪”模型是被动的,它只能在给定的、固定不变的上下文里去填补[MASK]空白。而 ReDiff 框架,赋予了模型“主动精炼”的能力,让它在生成新词的同时,还能回头审视并修正已经生成的错误内容,主动地改进生成的上下文环境。
具体地,本文通过两阶段训练来实现这一点:
阶段一: Foundational Revision(refine的基础)
首先给模型“喂”一些人工制造的错误数据(包括语法混乱和语义幻觉),让模型学会如何修正这些错误,使其具备基础的“纠错”能力,得到模型 ReDiff-Base。
阶段二:Online Self-Correction(refine的核心:自我纠错)
让模型“从自己的错误中学习”:
生成草稿:用第一阶段的 ReDiff-Base 生成一些(可能不完美的)“草稿”(Flawed Drafts)。
专家修正:引入一个强大的“专家模型”(如GPT-4o-mini)来批改这些草稿,生成修正后的“标准答案”。
学习修正:让 ReDiff 模型学习如何把自己的“草稿”修改成“专家修正版”。
这个过程可以循环进行,通过这种“Mistake-Driven”(错误驱动)的学习,ReDiff 真正学会了如何识别并纠正它自己倾向于犯的错误。
实验:更稳定、更准确、更高效
实验结果证明了 ReDiff 框架的优势:
并行生成稳定性:
在加速并行生成(即减少推理步数,每步生成更多token)时,基线模型(如LLaDA-V和传统mask-pred训练的模型)的性能会迅速下跌。而 ReDiff 性能下降非常平缓,展现了更好的稳定性,实现了高效且高质量的并行生成。
更高质量的生成效果:
除了可以提高并行生成稳定性,在同一推理步数下 ReDiff 也展现了更高的生成准确性、综合质量(更少的幻觉和语法错误)。在 CapMas、CapArena 等多个主流的 detailed caption 评测基准上,ReDiff 取得了领先的性能。
强大的纠错能力:
从生成实例中可以看到,模型在生成过程中可以同时预测新的词和纠正之前生成的错误词,生成的结果更准确通顺。并且如果用户预输入了错误词,模型也可以修正。
4tokens/step生成结果对比:
模型修正输入的错误答案:
refine修正过程,错误词用红色标记,修正后用绿色标记: