动态列表

港中文&港科大等提出FullPart：让3D部件生成达到全分辨率精度
港科大（广州）等联合发布多模态空间推理综述：为大模型画下空间理解的未来蓝图
谢菲尔德大学提出Region-CAM：mIoU提升13.6%，破解弱监督学习中的目标定位难题
英伟达开源ChronoEdit，让P图学会物理常识，时序推理颠覆图像编辑！
天津大学与快手联手提出GRAG：仅需4行代码，实现图像编辑的“丝滑”微调
IROS 2025 | 大连理工等提出STG-Avatar：25分钟训练，单目视频实时生成高保真数字人
普林斯顿大学联手谷歌DeepMind，BOB让少样本细粒度分类精度飙升7.4%
中科院SNELLA：视觉模型微调新范式，性能超越SOTA，内存占用降低近40%
美团开源LongCat-Video：136亿参数长视频生成，分钟级推理720p
看似万能的 AI，其实比你想的更脆弱和邪恶
重建超越RAE，还能做编辑！北大&通义提出UniLIP: 自蒸馏训练助力CLIP大一统
世界模型是否需要显式的 3D？UT Austin 新作 PE-Field 给出答案
Feed-Forward 3D综述：三维视觉进入“一步到位”时代
CUPID：单图秒速重建3D，港大提出姿态引导新范式
每周100万人与ChatGPT聊自杀；美团推全国骑手社保补贴；高通发AI芯片，股价暴涨20%
美国大学排名出炉：哥大断崖式下滑，MIT稳居CS榜第一！
开源即登榜！登顶全球前十AI编程智能体，UCL初创团队开源Prometheus
奥特曼考虑给ChatGPT加广告了！用8亿用户，救万亿债务
VaseVQA：考古领域实现专家级，诊断+补弱RL框架
弑母分尸案震惊世界，AI伪造语音骗过警察！
一把吉他卖出 10 亿后，LiberLive 选择自我革命
仅仅是 AI，并不能让硬件更「智慧」，更重要的其实是这个
北京/上海/杭州内推 | 蚂蚁集团保险大模型算法团队招聘大模型算法专家（P6-P7）
多人物也能“认得准”！阿里开源Identity-GRPO，刷新视频生成一致性上限
RL记得更牢，SFT更健忘？普林斯顿陈丹琦团队改写后训练认知
首个面向大模型的形式化数学竞赛正式启动：推动AI数学推理迈向可验证新高度
ICCV'25｜开源AI3D数据集Objaverse++：更少的数据，却有更好的生成效果
川大等提出LG-CD：一句话精准锁定遥感影像变化，F1分数高达91.83%
“压缩不减智”！EPIC让多模态大模型以更少 Token 跑得更快、更稳｜NeurIPS 2025
一个对话助理，如何盘活整个「夸克宇宙」？
马斯克 xAI 上新款「虚拟女友」；传小米 17 Air 明年上；996 成美国创业者美德
AI黑化如恶魔附体！LARGO攻心三步，潜意识种子瞬间开花 | NeurIPS 2025
可攻可防，越狱成功率近90%！六大主流模型全中招 | EMNLP'25
硅谷的「十万大裁员」：Meta按代码量裁员
超94%类别第一！3D点云异常检测与修复新SOTA | ICCV'25
AI人格分裂实锤！30万道送命题，撕开OpenAI、谷歌「遮羞布」
思而不学则殆：通义实验室×北大联合提出RL-PLUS，突破大模型推理边界
NeurIPS 2025 | 理解能否反过来教生成？VideoREPA让视频生成模型“懂物理”
博士申请 | 香港中文大学陈玥老师招收人工智能/智能电网方向全奖博士生
NeurIPS 2025 | 港中文等提出COS3D：协同语言与分割，革新开放词汇3D分割
上海交大与上海AI lab联手推出RAPO++：跨阶段提示优化，让文生视频模型“更懂你心”
传OpenAI正开发新的生成式音乐工具；苹果将AirPods印度产能扩大一倍；《王者荣耀世界》官宣2026春天见

ReDiff：突破并行生成瓶颈，多模态扩散模型生成质量与效率双提升

2025-10-31未知作者来源

52CV 2025-10-31 16:38 江苏

论文标题: From Denoising to Refining: A Corrective Framework for Vision-Language Diffusion Model
作者团队：香港大学MMLab和腾讯ARC Lab
论文：https://arxiv.org/pdf/2510.19871
主页：https://rediff-hku.github.io/
代码：https://github.com/jiyt17/ReDiff

本文介绍一篇关于多模态扩散模型的新研究：ReDiff，从被动“去噪”到主动“精炼”的扩散模型新范式。

可视化

可视化

目前，多模态大模型（VLM）主要有基于自回归（AR）和离散扩散（Discrete Diffusion）两条技术路线。AR模型一次生成一个词，无法修改已生成的错误；扩散模型为双向注意力，虽然理论上可以并行生成、提高生成速度，但在实践中发现并行生成会带来很多问题：生成的句子语法混乱、语义幻觉严重。

本文深入探究了这个问题，并提出了一个全新的纠正框架（ReDiff），大幅提高多模态扩散模型并行生成的稳定性和准确性。

动机：灾难性的“错误累积”

为什么多模态扩散模型在并行生成时容易失败？

我们发现，这主要源于“训练-推理差异”：模型在训练时复原[mask]基于的是完全正确的context，但在推理时，它却必须依赖自己上一步生成的、可能包含错误的内容。

在并行生成（一次预测多个词）时，这种相互干扰的问题会更严重：模型在某一步生成了一个错误的词，这个错误立刻污染了上下文，导致模型在下一步预测新词时更加困难，更容易出现错误。

错误不断累积、互相影响，最终导致了“错误累积”（Error Cascade），输出的文本完全偏离事实、语法混乱。

方法：从被动去噪 (Passive Denoising) 到主动精炼 (Active Refining)

为了打破这个恶性循环，我们提出了一种全新的范式转变：从被动去噪，转向主动精炼。

传统的“去噪”模型是被动的，它只能在给定的、固定不变的上下文里去填补[MASK]空白。而 ReDiff 框架，赋予了模型“主动精炼”的能力，让它在生成新词的同时，还能回头审视并修正已经生成的错误内容，主动地改进生成的上下文环境。

具体地，本文通过两阶段训练来实现这一点：

阶段一： Foundational Revision（refine的基础）

首先给模型“喂”一些人工制造的错误数据（包括语法混乱和语义幻觉），让模型学会如何修正这些错误，使其具备基础的“纠错”能力，得到模型 ReDiff-Base。

阶段二：Online Self-Correction（refine的核心：自我纠错）

让模型“从自己的错误中学习”：

生成草稿：用第一阶段的 ReDiff-Base 生成一些（可能不完美的）“草稿”（Flawed Drafts）。

专家修正：引入一个强大的“专家模型”（如GPT-4o-mini）来批改这些草稿，生成修正后的“标准答案”。

学习修正：让 ReDiff 模型学习如何把自己的“草稿”修改成“专家修正版”。

这个过程可以循环进行，通过这种“Mistake-Driven”（错误驱动）的学习，ReDiff 真正学会了如何识别并纠正它自己倾向于犯的错误。

实验：更稳定、更准确、更高效

实验结果证明了 ReDiff 框架的优势：

并行生成稳定性：

在加速并行生成（即减少推理步数，每步生成更多token）时，基线模型（如LLaDA-V和传统mask-pred训练的模型）的性能会迅速下跌。而 ReDiff 性能下降非常平缓，展现了更好的稳定性，实现了高效且高质量的并行生成。

更高质量的生成效果：

除了可以提高并行生成稳定性，在同一推理步数下 ReDiff 也展现了更高的生成准确性、综合质量（更少的幻觉和语法错误）。在 CapMas、CapArena 等多个主流的 detailed caption 评测基准上，ReDiff 取得了领先的性能。

强大的纠错能力：

从生成实例中可以看到，模型在生成过程中可以同时预测新的词和纠正之前生成的错误词，生成的结果更准确通顺。并且如果用户预输入了错误词，模型也可以修正。

4tokens/step生成结果对比:

模型修正输入的错误答案：

refine修正过程，错误词用红色标记，修正后用绿色标记：

可视化

可视化

跳转微信打开

类别

资源

联系我们

业务咨询toolsai_server@163.com
用户投诉toolsai_server@163.com
产品提交