动态列表

  • 清华&南洋理工等提出稀疏模型反演:ViT反演加速高达3.79倍,告别无效背景!
  • 低光图像增强新探索:SASW-Loss,无需改网络,即插即用提升多种模型性能
  • Sketch-to-Layout,从草图到布局!DeepMind & EPFL 在设计领域的新工作
  • 为物理AI打造世界模型!英伟达发布Cosmos-2.5:模型缩小3.5倍,性能媲美SOTA
  • AMD发布E-MMDiT:仅304M参数,单节点1.5天训练,实现高效图像合成新基准
  • 顶刊ISPRS (IF 12+) | 400+参考文献,遥感图像超分辨率最新综述!
  • 多媒体顶会ACM MM 2025 最佳论文公布,从“看懂”到“会用”,再到“会思考”:揭示AI与物理世界融合新篇章
  • NeurIPS 2025 | 电子科技大学联合A*STAR提出SCOPE:兼顾显著性与覆盖率,实现高效多模态大模型令牌剪枝
  • ICCV 2025 | 卡内基梅隆大学空间可变自动对焦:单次拍摄实现全场景清晰,重新定义计算摄影
  • 港中文&港科大等提出FullPart:让3D部件生成达到全分辨率精度
  • 从 「会思考」到 「善创造」: 多模态大模型的深度推理与协同进化
  • 英伟达开源ChronoEdit,让P图学会物理常识,时序推理颠覆图像编辑!
  • 谢菲尔德大学提出Region-CAM:mIoU提升13.6%,破解弱监督学习中的目标定位难题
  • ReDiff:突破并行生成瓶颈,多模态扩散模型生成质量与效率双提升
  • 港科大(广州)等联合发布多模态空间推理综述:为大模型画下空间理解的未来蓝图

NeurIPS25 | 香港理工&OPPO&哈佛提出DNAEdit:直接噪声对齐让Rectified flow文生图编辑更加准确

谢晨熹 2025-11-04 20:16 江苏

为什么直接对齐图像的初始噪声

在文本引导图像编辑领域,依托大规模预训练文本 - 图像模型的强大生成能力,无训练(training-free)方法已展现出令人瞩目的编辑效果。然而,当前主流方法仍存在显著技术局限:

  1. 传统基于扩散(diffusion-based)的方法,以及近期兴起的基于修正流(rectified flow, RF)的方法,在实现过程中均需通过向清晰图像逐步添加预测的噪声来 “反向推导” 获得轨迹。在此过程中,这些方法通常会用当前时间步的带噪声潜变量(noisy latent)去近似后续时间步的带噪声潜变量 —— 这种近似策略会引入 “累积漂移(accumulated drift)” 问题,最终导致图像重建精度下降,影响编辑效果的准确性。

  2. 基于修正流(RF)的方法本身存在一个关键特性尚未被充分利用:在 RF 框架下,每个时间步的带噪声潜变量,本质上是通过高斯噪声(Gaussian noises)与清晰图像的直接插值来估计的。这一特性为从 “噪声域” 直接优化编辑过程提供了可能性,从而有效规避误差累积问题。

Direct Noise Alignment 的核心思想

  • 通过插值替代近似预测的噪声。在传统扩散模型与早期修正流(RF)方法中,带噪声潜变量的获取依赖 “近似预测” 逻辑 —— 模型会基于当前时间步已有的带噪声潜变量,去估算下一个时间步的带噪声潜变量。这种 “递推式近似” 存在天然缺陷:每一步预测过程中产生的微小误差会随时间步推进不断叠加,最终导致 “累积漂移”,严重偏离真实的噪声分布,进而降低图像重建精度与编辑准确性。

而考虑到RF模型的特性:每个时间步的带噪声潜变量可通过高斯噪声与清晰图像的直接插值得到。具体而言,DNA 不依赖前一时间步的噪声进行 “猜测式预测”,而是直接基于初始清晰图像与高斯噪声,通过线性插值直接计算在每个时间步精准生成对应的带噪声潜变量。这种 “直接插值生成” 的方式,相当于跳过了传统方法中 “递推近似” 的中间环节,从根源上避免了误差的逐步累积,确保每个时间步的带噪声潜变量都严格贴合真实噪声分布。

  • 通过移动噪声减小模型在指定时间步的理想和预测去噪速度差。 我们通过高斯噪声和干净图片插值来获取中间的latent,这就导致了一个新的问题,用于插值的高斯噪声是否有“好坏”之分。假设我们很幸运的取到了那个理想的高斯噪声(即可以以这个高斯噪声为起点生成原图片的那个高斯噪声),那么以这个高斯噪声和原图片插值得到的noisy latent上模型预测的速度()和理想RF建模下的速度(()这两个速度在一个良好预训练的T2I模型下应该很接近。基于此我们想到,如果在每个插值出来的noisy latent上的理想速度和预测速度差越小,说明这个高斯噪声越接近那个理想的高斯噪声。也就是说我们可以通过向着使速度差变小的方向移动高斯噪声,逐渐接近理想的高斯噪声

Direct Noise Alignment 的具体实现

一句话简单来说,DNA分为3步:

  1. 通过线性插值计算nosiy latent

  2. 计算理想速度和预测速度差,将速度差映射到高斯噪声域移动高斯噪声

  3. 根据新的高斯噪声计算更新noisy latent

通过这三步不断迭代,逐渐将高斯噪声移动到图片对应的理想的高斯噪声

Mobile Velocity Guidance 实现更好的背景保持与目标编辑

此外,现有文本引导编辑方法在 “保留图像背景” 与 “实现目标对象被编辑” 之间的平衡能力不足,难以兼顾编辑精度与图像原有场景的完整性。

我们提出了移动速度引导(MVG)平衡背景保留与目标编辑需求,最终提升文本引导图像编辑的整体性能。MVG的核心思想同样是利用“速度差”,来从原图构造一个移动的指导编辑的目标。

这里的速度差是使用不同文本condition计算的速度差,这个速度差可以使得两个文本相同部分映射的区域不被改变而文本不同映射的区域被改变,具体实现参考Algorithm 2。

上图展示了完整的DNAEdit的流程,包括 DNA(左图) 和MVG(右图)。

DNA-Bench 长文本描述的图片编辑基准测试集

新一代的T2I,T2V模型对于长文本以及详细描述有着更好的理解能力。然而,现有的文本引导的图像编辑研究还在用较短的text prompt作为引导,对于长文本条件下模型编辑能力的评估还缺乏研究。

并且我们可以看到,例如下图,同一张图,使用简短描述和更加详细描述引导会产生截然不同的结果。因此我们基于常用的短文本基准PIE-Bench提出了新的长文本基准DNA-Bench,用于更好的评估新一代RF模型在长文本下编辑的表现。

实验效果

在主流的PIE-Bench和长文本DNA-Bench上进行了测试。DNAEdit作为一种RF建模下通用的编辑范式,可以轻松应用到主流的T2I模型下,因此提供了基于FLUX和SD3.5两个版本的测试结果。

从上表中可以看到,无论是和基于扩散的方法还是其他基于流的方法相比,DNAEdit 在 文本-图像对齐(Text-Image Align) 和 图像保真度(Image Fidelity) 这两个关键指标上都取得了顶尖或次顶尖的成绩。这说明它不仅能准确地执行编辑指令,还能最大程度地保留原图的结构和细节。

在多种编辑场景(包括物体替换、添加与删除以及全局风格化)中,DNAEdit的两个版本在有效保持背景一致性的同时展现出卓越的编辑能力。

DNAEdit应用于视频编辑

DNAEdit作为一个model-free的编辑算法,不仅可以应用于T2I模型,更可以简单的修改应用于视频编辑上,一样可以取得惊人的效果。

总结

DNAEdit提出了一种在RF建模下新的获取理想噪声的方案,有效避免了传统的反演导致的累积误差,实现更加精准的初始噪声获取。再结合MVG,可以有效的区分编辑和非编辑区域,实现背景保持和目标区域被编辑。此外,提出了DNA-Bench,有利于未来长文本条件下文本引导编辑方法的开发评估。

本文为粉丝投稿。

阅读原文

跳转微信打开

联系我们