ToolsAi

CV君 2025-11-12 19:49 江苏

AI编辑终于迎来了“既要又要还要”的时代！

论文标题: ConsistEdit: Highly Consistent and Precise Training-free Visual Editing
作者: Zixin Yin (香港科技大学), Ling-Hao Chen (清华大学, IDEA研究院), Lionel Ni (香港科技大学（广州）, 香港科技大学), Xili Dai (香港科技大学（广州）)
论文地址: https://arxiv.org/abs/2510.17803
项目主页: https://zxyin.github.io/ConsistEdit/
代码仓库（已开源）: https://github.com/zxYin/ConsistEdit_Code
录用会议: SIGGRAPH Asia 2025 Oral

大家好，今天想和大家聊一篇关于AI视觉编辑的新工作。不知道大家在用AI工具编辑图片或视频时，有没有遇到过这样的烦恼：想给人物换件衣服颜色，结果背景也跟着变了；或者想让图片里的物体动起来，结果物体的“长相”都变了。这种“牵一发而动全身”的尴尬，正是目前很多AI编辑工具的痛点。

最近，来自香港科技大学、清华大学、IDEA研究院和香港科技大学（广州）的研究者们，共同提出了一种名为ConsistEdit的全新视觉编辑方法，它似乎为解决这个难题带来了曙光。这项技术发表在了最新的论文中，旨在实现高度一致且精准的无训练视觉编辑。

简单来说，ConsistEdit就像一位既能“脑洞大开”又能“精打细算”的艺术家。它不仅能精准地按照你的文本指令（Prompt）修改图片或视频的指定区域，还能奇迹般地保持其他区域“纹丝不动”，甚至在编辑区域内也能保留住原有的结构和光影细节。

“鱼与熊掌”的困境：AI编辑的难题

在深入了解ConsistEdit之前，我们先来看看它要解决的是什么问题。

目前的文本引导式视觉编辑技术，尤其是那些无需重新训练的“即插即用”型方法，虽然灵活高效，但普遍存在一个核心矛盾：编辑强度与内容一致性难以兼得。

编辑强度够，一致性差：为了让编辑效果明显，模型可能会“用力过猛”，导致编辑区域的原始结构（如衣服褶皱、头发纹理）被破坏，非编辑区域也出现不该有的“色彩污染”或内容扭曲。
一致性好，编辑强度弱：如果过于强调保持一致性，编辑效果又可能大打折扣，甚至无法按照指令完成修改。

这个问题在多轮编辑或视频编辑中尤为致命，因为微小的错误会不断累积，最终导致整个作品“面目全非”。

上图就直观展示了ConsistEdit的强大之处。无论是多轮编辑（a）、多区域编辑（b），还是平滑地控制一致性强度（c），它都表现得“从从容容、游刃有余”，远超现有方法。更重要的是，它能很好地适配包括MM-DiT在内的各种新架构（d）。

另辟蹊径：从MM-DiT架构中发现新大陆

近年来，生成模型的架构正从大家熟悉的U-Net逐渐转向基于Transformer的架构，特别是多模态扩散Transformer (Multi-Modal Diffusion Transformer, MM-DiT) ，像Stable Diffusion 3就是基于此架构。MM-DiT在融合文本和视觉信息方面引入了新机制，这也为解决上述编辑难题提供了可能。

ConsistEdit团队深入分析了MM-DiT的注意力机制，并总结出三个关键洞见：

视觉信息是关键：编辑操作应仅限于注意力机制中的视觉部分 (vision parts) ，干扰文本部分 (text parts) 容易导致生成不稳定。
所有层都重要：与U-Net不同，MM-DiT的每一层都保留了丰富的语义内容。因此，注意力控制必须应用于所有层，而不是像过去只关注某些特定层。
Q、K、V的“分工”：注意力机制中的Query (Q)、Key (K) 和Value (V) token可以“分工合作”。通过控制Q和K，可以有效保持结构；而控制V，则能更好地保留内容。

上图可视化了MM-DiT不同注意力层中Q、K、V视觉token的投影，可以看到各层都包含了丰富的语义信息，印证了“所有层都重要”的观点。

ConsistEdit的核心魔法：掩码引导的注意力融合

基于以上发现，ConsistEdit提出了一套全新的、专为MM-DiT设计的注意力控制方法。其核心可以概括为“掩码引导的注意力融合” (Mask-Guided Attention Fusion) 。

如上图所示，整个流程可以概括为：

输入与逆向: 给定源图像/视频和源提示词，首先通过逆向过程得到能够重建它的初始噪声。

掩码引导的注意力融合: 在生成目标图像的过程中，ConsistEdit会根据目标物体自动生成一个掩码，精确区分“编辑区”和“非编辑区”。

结构与内容分离控制: 这是ConsistEdit的核心。在生成过程的特定阶段（由超参数控制），它会执行以下操作：

编辑区 (Structure Fusion): 为了在改变颜色或材质的同时保持原有结构（如衣服褶皱），ConsistEdit会将源图像的Q和K视觉令牌“嫁接”到目标图像的生成过程中。这相当于告诉模型：“结构照搬旧的，但外观请按新提示词来画”。其核心公式可以简化理解为：

这里，和代表从源图像提取的、携带结构信息的视觉令牌。这个操作只在的早期去噪步骤执行，以建立稳定的结构。

非编辑区 (Content Fusion): 为了确保背景等区域“纹丝不动”，ConsistEdit更进一步，直接将源图像的V视觉令牌也复制过来。V令牌富含颜色和纹理信息，通过这一步，可以实现像素级的完美保留。最终的注意力计算融合了对Q, K, V的精细控制：

通过这种精细的“分而治之”，ConsistEdit实现了在编辑区域内保持结构一致性，同时在非编辑区域保持内容的高度保真。

上图对比了不同的V token交换策略，证明了仅交换视觉部分的V token（Vision-only V）能在高一致性设置下带来最佳的内容保留效果。

此外，论文还引入了一个一致性强度参数，它控制着从哪个时间步开始进行融合。通过调整，用户可以平滑地控制编辑结果在“更像原始结构”和“更贴近新提示词”之间进行权衡，实现了从“保留结构”到“改变形状”的灵活过渡。

实验效果：眼见为实的强大

说了这么多原理，效果究竟如何？研究者们进行了一系列详尽的实验，并将ConsistEdit与SDEdit、UniEdit-Flow、DiTCtrl等多个SOTA方法进行了对比。

结构保持能力遥遥领先

在最考验结构一致性的“改变颜色/材质”任务中，研究者们使用了 Canny 边缘检测后的结构相似度（SSIM）作为指标。

从上表可以看到，在RF-Solver和FireFlow两个平台上，ConsistEdit的Canny SSIM分数达到了惊人的0.87左右，而基线方法只有0.5-0.6的水平，甚至和“固定种子生成”（Fix seed，相当于没有保持结构）的结果差不多。这意味着其他方法在编辑时，结构基本已经“面目全非”了。

在更全面的评测中，ConsistEdit同样取得了全方位的胜利。无论是结构一致性（Canny SSIM）、背景保持度（BG Preservation），还是与目标文本的匹配度（Clip Similarity），都拿下了第一。

结构一致性：在需要保持结构的“改变颜色”和“改变材质”任务中，ConsistEdit的Canny SSIM达到了0.8811，显著高于其他方法，意味着其在编辑后更好地保留了边缘和结构细节。
背景保留：在非编辑区域的内容保留方面，ConsistEdit的PSNR和SSIM分别高达36.76和0.9869，这意味着背景几乎没有发生不必要的变化。
编辑准确性：在CLIP相似度上，ConsistEdit同样取得了最高分，说明编辑结果与目标提示词的语义最匹配。