CV君 2025-10-12 12:12 江苏
一石二鸟,兼顾语义与保真度的修复新范式。
在文本引导的图像修复(Text-Guided Image Inpainting)领域,一个老大难问题始终困扰着研究者们:如何在根据文本描述填充缺失区域的同时,完美保留图像中未被遮挡的部分?很多时候,模型要么顾此失彼,要么两者都做得不尽如人意。
来自合肥工业大学的研究团队似乎找到了解决这个问题的钥匙。他们提出了一种名为 NTN-Diff 的新模型,巧妙地利用了图像不同频率带的特性,实现了“一石二鸟”的效果:既保证了修复区域与周围环境的语义一致性,又保护了原始区域不被破坏。
这项工作即将在 NeurIPS 2025 上亮相,让我们一起来看看它的精妙之处。
论文标题: One Stone with Two Birds: A Null-Text-Null Frequency-Aware Diffusion Models for Text-Guided Image Inpainting
作者: Haipeng Liu, Yang Wang, Meng Wang
机构: 合肥工业大学
问题的根源:纠缠的频率信息
为什么之前的模型总是难以两全其美?作者通过实验发现,问题的根源在于图像中不同频率信息的“纠缠”。
简单来说,一张图像可以被分解为不同的频率带:
低频带:决定了图像的整体颜色和光照等基本属性。
中频带:包含了图像的结构和布局信息。
高频带:包含了图像的细节和纹理。
在扩散模型的去噪过程中,文本提示对这些频率带的影响是不同的。作者的可视化分析显示,现有的方法在努力让修复区域与文本对齐时,往往会不经意地改变未遮挡区域的低频信息(比如背景色调),导致“保留”失败。
上图展示了去噪过程中,语义对齐(Denoised Image-Text Distance)和区域保留(Denoised Image-GT Distance)之间的矛盾。
进一步的研究发现,中频带信息(如物体轮廓和布局)在文本引导的去噪过程中相对稳定,而低频带信息则非常容易受到文本提示的“污染”。
上图分别展示了低频带(a)和中频带(b)在去噪过程中的变化。可以看到,低频信息在后期变化剧烈,而中频结构则相对稳定。
NTN-Diff:解耦频率,分步击破
基于以上洞察,NTN-Diff 的核心思想就是“解耦”和“分治”。它将去噪过程分为早期和晚期两个阶段,并设计了一个包含四步的精巧流程来分别处理不同的频率信息。
NTN-Diff 的整体流程图
整个流程可以概括为:
无文本去噪 (I) :首先,模型在 不使用 文本提示的情况下进行一次去噪,目的是初步生成一个不受文本干扰的、保留了原始图像特征的低频基底。
文本引导去噪 (II) :接着,模型在 使用 文本提示的情况下进行去噪,以生成符合文本描述的语义内容。关键的一步是,它会用第一步得到的“干净”低频信息替换掉当前步骤中被文本“污染”的低频信息,从而保护了背景。
中频引导的无文本去噪 (III) :为了让修复区域的结构(中频)与周围更好地融合,模型利用上一步生成的、语义对齐的稳定中频信息,去引导又一次 无文本 去噪过程。这一步旨在优化修复区域的内部结构,使其更自然。
晚期文本引导与区域融合 (IV) :在去噪的最后阶段,模型再次使用文本提示进行精修,以确保最终细节的语义准确性。同时,在每一步,模型都会强制将未遮挡区域恢复为原始图像的对应部分,实现了对原始区域的“像素级”保护。
上图直观展示了去噪后的低频层(a)和中频层(b)。
CV君认为,这种设计非常巧妙,它没有试图用一个单一的过程解决所有问题,而是将复杂的任务分解为针对不同频率、不同目标的子任务,通过“替换”和“引导”的操作,将各个子任务的优势组合起来,最终实现了看似矛盾的目标。
实验效果:全面超越 SOTA
理论说得好,还得看疗效。NTN-Diff 在多个主流的图像修复基准测试(如 BrushBench 和 EditBench)上都取得了当前最佳(SOTA)的性能。
定量结果
从量化指标上看,NTN-Diff 在保证区域保留(LPIPS分数更低)和语义对齐(CLIP-Score更高)方面均优于现有方法。
在 BrushBench 上的量化比较结果
在 EditBench 上的量化比较结果
定性结果
定性效果对比则更加直观。无论是添加物体、替换物体还是风格转换,NTN-Diff 的生成结果都显得更加自然和协调。
与其他方法的视觉效果对比,NTN-Diff 的结果(最右侧)在语义和一致性上表现更优。
更多对比案例,进一步验证了 NTN-Diff 的优越性。
消融实验
此外,作者还通过详尽的消融实验证明了模型中每个组件的必要性。例如,如果去掉特定的无文本或文本引导过程,生成结果就会出现明显的瑕疵,比如背景被破坏、生成内容与文本不符等。
消融研究:对比不同去噪策略的效果,证明了 NTN-Diff 设计的完整性。
不同频率带处理方式的消融实验对比。
关于文本/无文本提示对不同频率带影响的量化消融研究。
对超参数(早晚期阶段划分点)的敏感性分析。
总结
总而言之,NTN-Diff 通过对图像频率的深刻理解和精巧的流程设计,为文本引导的图像修复任务提供了一个非常优雅且有效的解决方案。它不仅在技术上取得了突破,也为我们思考如何控制生成模型提供了新的思路。
你觉得这个基于频率解耦的思路,未来还能应用在哪些生成任务上?欢迎在评论区留下你的看法!