动态列表

  • 港中文&港科大等提出FullPart:让3D部件生成达到全分辨率精度
  • 港科大(广州)等联合发布多模态空间推理综述:为大模型画下空间理解的未来蓝图
  • 谢菲尔德大学提出Region-CAM:mIoU提升13.6%,破解弱监督学习中的目标定位难题
  • 英伟达开源ChronoEdit,让P图学会物理常识,时序推理颠覆图像编辑!
  • 天津大学与快手联手提出GRAG:仅需4行代码,实现图像编辑的“丝滑”微调
  • IROS 2025 | 大连理工等提出STG-Avatar:25分钟训练,单目视频实时生成高保真数字人
  • 普林斯顿大学联手谷歌DeepMind,BOB让少样本细粒度分类精度飙升7.4%
  • 中科院SNELLA:视觉模型微调新范式,性能超越SOTA,内存占用降低近40%
  • 美团开源LongCat-Video:136亿参数长视频生成,分钟级推理720p
  • 看似万能的 AI,其实比你想的更脆弱和邪恶
  • 重建超越RAE,还能做编辑!北大&通义提出UniLIP: 自蒸馏训练助力CLIP大一统
  • 世界模型是否需要显式的 3D?UT Austin 新作 PE-Field 给出答案
  • Feed-Forward 3D综述:三维视觉进入“一步到位”时代
  • CUPID:单图秒速重建3D,港大提出姿态引导新范式
  • 每周100万人与ChatGPT聊自杀;美团推全国骑手社保补贴;高通发AI芯片,股价暴涨20%
  • 美国大学排名出炉:哥大断崖式下滑,MIT稳居CS榜第一!
  • 开源即登榜!登顶全球前十AI编程智能体,UCL初创团队开源Prometheus
  • 奥特曼考虑给ChatGPT加广告了!用8亿用户,救万亿债务
  • VaseVQA:考古领域实现专家级,诊断+补弱RL框架
  • 弑母分尸案震惊世界,AI伪造语音骗过警察!
  • 一把吉他卖出 10 亿后,LiberLive 选择自我革命
  • 仅仅是 AI,并不能让硬件更「智慧」,更重要的其实是这个
  • 北京/上海/杭州内推 | 蚂蚁集团保险大模型算法团队招聘大模型算法专家(P6-P7)
  • 多人物也能“认得准”!阿里开源Identity-GRPO,刷新视频生成一致性上限
  • RL记得更牢,SFT更健忘?普林斯顿陈丹琦团队改写后训练认知
  • 首个面向大模型的形式化数学竞赛正式启动:推动AI数学推理迈向可验证新高度
  • ICCV'25|开源AI3D数据集Objaverse++:更少的数据,却有更好的生成效果
  • 川大等提出LG-CD:一句话精准锁定遥感影像变化,F1分数高达91.83%
  • “压缩不减智”!EPIC让多模态大模型以更少 Token 跑得更快、更稳|NeurIPS 2025
  • ​一个对话助理,如何盘活整个「夸克宇宙」?
  • 马斯克 xAI 上新款「虚拟女友」;传小米 17 Air 明年上;996 成美国创业者美德
  • AI黑化如恶魔附体!LARGO攻心三步,潜意识种子瞬间开花 | NeurIPS 2025
  • 可攻可防,越狱成功率近90%!六大主流模型全中招 | EMNLP'25
  • 硅谷的「十万大裁员」:Meta按代码量裁员
  • 超94%类别第一!3D点云异常检测与修复新SOTA | ICCV'25
  • AI人格分裂实锤!30万道送命题,撕开OpenAI、谷歌「遮羞布」
  • 思而不学则殆:通义实验室×北大联合提出RL-PLUS,突破大模型推理边界
  • NeurIPS 2025 | 理解能否反过来教生成?VideoREPA让视频生成模型“懂物理”
  • 博士申请 | 香港中文大学陈玥老师招收人工智能/智能电网方向全奖博士生
  • NeurIPS 2025 | 港中文等提出COS3D:协同语言与分割,革新开放词汇3D分割
  • 上海交大与上海AI lab联手推出RAPO++:跨阶段提示优化,让文生视频模型“更懂你心”
  • 传OpenAI正开发新的生成式音乐工具;苹果将AirPods印度产能扩大一倍;《王者荣耀世界》官宣2026春天见

ReDiff:突破并行生成瓶颈,多模态扩散模型生成质量与效率双提升

52CV 2025-10-31 16:38 江苏

本文介绍一篇关于多模态扩散模型的新研究:ReDiff,从被动“去噪”到主动“精炼”的扩散模型新范式。

可视化
可视化
可视化
可视化

目前,多模态大模型(VLM)主要有基于自回归(AR)和离散扩散(Discrete Diffusion)两条技术路线。AR模型一次生成一个词,无法修改已生成的错误;扩散模型为双向注意力,虽然理论上可以并行生成、提高生成速度,但在实践中发现并行生成会带来很多问题:生成的句子语法混乱、语义幻觉严重。

本文深入探究了这个问题,并提出了一个全新的纠正框架(ReDiff),大幅提高多模态扩散模型并行生成的稳定性和准确性。

动机:灾难性的“错误累积”

为什么多模态扩散模型在并行生成时容易失败?

我们发现,这主要源于“训练-推理差异”:模型在训练时复原[mask]基于的是完全正确的context,但在推理时,它却必须依赖自己上一步生成的、可能包含错误的内容。

在并行生成(一次预测多个词)时,这种相互干扰的问题会更严重:模型在某一步生成了一个错误的词,这个错误立刻污染了上下文,导致模型在下一步预测新词时更加困难,更容易出现错误。

错误不断累积、互相影响,最终导致了“错误累积”(Error Cascade),输出的文本完全偏离事实、语法混乱。

方法:从被动去噪 (Passive Denoising) 到主动精炼 (Active Refining)

为了打破这个恶性循环,我们提出了一种全新的范式转变:从被动去噪,转向主动精炼。

传统的“去噪”模型是被动的,它只能在给定的、固定不变的上下文里去填补[MASK]空白。而 ReDiff 框架,赋予了模型“主动精炼”的能力,让它在生成新词的同时,还能回头审视并修正已经生成的错误内容,主动地改进生成的上下文环境。

具体地,本文通过两阶段训练来实现这一点:

阶段一: Foundational Revision(refine的基础)

首先给模型“喂”一些人工制造的错误数据(包括语法混乱和语义幻觉),让模型学会如何修正这些错误,使其具备基础的“纠错”能力,得到模型 ReDiff-Base。

阶段二:Online Self-Correction(refine的核心:自我纠错)

让模型“从自己的错误中学习”:

生成草稿:用第一阶段的 ReDiff-Base 生成一些(可能不完美的)“草稿”(Flawed Drafts)。

专家修正:引入一个强大的“专家模型”(如GPT-4o-mini)来批改这些草稿,生成修正后的“标准答案”。

学习修正:让 ReDiff 模型学习如何把自己的“草稿”修改成“专家修正版”。

这个过程可以循环进行,通过这种“Mistake-Driven”(错误驱动)的学习,ReDiff 真正学会了如何识别并纠正它自己倾向于犯的错误。

实验:更稳定、更准确、更高效

实验结果证明了 ReDiff 框架的优势:

并行生成稳定性:

在加速并行生成(即减少推理步数,每步生成更多token)时,基线模型(如LLaDA-V和传统mask-pred训练的模型)的性能会迅速下跌。而 ReDiff 性能下降非常平缓,展现了更好的稳定性,实现了高效且高质量的并行生成。

更高质量的生成效果:

除了可以提高并行生成稳定性,在同一推理步数下 ReDiff 也展现了更高的生成准确性、综合质量(更少的幻觉和语法错误)。在 CapMas、CapArena 等多个主流的 detailed caption 评测基准上,ReDiff 取得了领先的性能。

强大的纠错能力:

从生成实例中可以看到,模型在生成过程中可以同时预测新的词和纠正之前生成的错误词,生成的结果更准确通顺。并且如果用户预输入了错误词,模型也可以修正。

4tokens/step生成结果对比:

模型修正输入的错误答案:

refine修正过程,错误词用红色标记,修正后用绿色标记:

可视化
可视化
可视化
可视化

阅读原文

跳转微信打开

联系我们