CV君 2025-10-30 08:33 江苏
无需调参,让你的AIP图效果丝滑可控。
最近,基于Transformer的扩散模型(DiT)在图像编辑领域可以说是风生水起,但大家在享受AI带来便利的同时,可能也遇到过一个头疼的问题:生成的图像要么“改过头”,要么“没改到位”,很难精准控制编辑的“力度”。今天,我们就来聊一篇有意思的论文,它提出了一个简单又高效的解决方案。
这篇论文就是由天津大学和快手科技的研究者们共同发表的《Group Relative Attention Guidance for Image Editing》。他们提出了一个名为 GRAG(Group Relative Attention Guidance) 的方法,旨在实现对图像编辑强度的连续、细粒度控制。GRAG这个名字可以理解为“分组相对注意力引导”,核心思想就是通过“引导”模型内部的注意力机制,来更精确地平衡“听从指令”和“保持原图”之间的关系。
论文标题: Group Relative Attention Guidance for Image Editing
作者: Xuanpu Zhang, Xuesong Niu, Ruidong Chen, Dan Song, Jianhao Zeng, Penghui Du, Haoxiang Cao, Kai Wu, An-an Liu
机构: 天津大学;快手科技
项目主页(尚未开源): https://github.com/little-misfit/GRAG-Image-Editing
背景:DiT图像编辑的“控制”难题
在深入了解GRAG之前,我们先简单回顾一下背景。当前的图像编辑模型,特别是基于DiT架构的,虽然能力强大,但在“控制”上总有些力不从心。一个常见的技术是分类器无关引导(Classifier-Free Guidance, CFG),它通过一个引导尺度(guidance scale)来调节文本指令对生成结果的影响力。
然而,CFG的调节方式比较“一刀切”,很难做到平滑、精细的控制。调得太高,图片可能变得光怪陆离,完全偏离了原始图像;调得太低,又可能几乎看不到编辑效果。用户想要的,其实是一种像调音台推子一样丝滑、线性的控制感。
上图展示了GRAG方法在不同引导尺度下,对编辑强度的连续、精细控制效果,实现了在“遵循指令”和“保持原图”之间的完美平衡。
方法:深入DiT的注意力机制,发现“偏置”的秘密
为了解决这个问题,作者们把目光投向了DiT模型内部一个关键的组件——多模态注意力(MM-Attention)机制。他们通过可视化分析发现了一个有趣的现象:在注意力模块中,Query和Key的token嵌入特征存在一个显著的、仅与层数相关的“偏置向量”(bias vector)。
注意力层输入嵌入特征的可视化,可以观察到不同token之间存在一个明显的共享偏置。
跨不同注意力头的均值向量大小和标准差,进一步证实了嵌入空间中存在一个显著的偏置向量。
基于这个观察,作者们提出了一个核心洞察:
这个共享的偏置向量,可以被看作是模型“与生俱来”的、固有的编辑行为模式。
而每个token与这个偏置之间的差值(delta),则编码了与具体内容(如文本指令、源图像)相关的、个性化的编辑信号。
于是,GRAG方法应运而生。它的核心逻辑非常巧妙:不再是像CFG那样粗暴地放大或缩小整体信号,而是通过重新加权(reweighting) 不同token组(文本token vs. 图像token)的“差值(delta)”,来动态调整模型对“编辑指令”和“输入图像”的关注焦点。
GRAG方法示意图。通过调整不同token组的delta值,实现对编辑过程的精确引导。
简单来说,就是给来自“编辑指令”的信号和来自“原图”的信号分配不同的权重,从而实现对编辑强度的精细调节。最关键的是,这个过程无需任何额外的模型微调,而且实现起来非常简单,作者在论文中提到,仅需4行代码 就可以集成到现有的图像编辑框架中。
实验:更平滑、更精准的编辑控制
口说无凭,实验为证。作者在多个主流的图像编辑框架上验证了GRAG的效果。
首先,在基于训练的编辑方法上,GRAG展现了出色的性能。
在基于训练的图像编辑方法上的可视化结果。
下表中的量化结果也表明,集成GRAG后,模型的文本对齐度(CLIP-T)和图像保真度(DINO)都得到了提升。
与CFG的直接对比更能说明问题。从下面的对比图可以看出,随着引导尺度的增加,CFG的编辑效果很快就“崩了”,而GRAG则能保持平滑、连续的变化,更准确地反映了用户的编辑意图。
CFG与GRAG在不同引导尺度下的效果对比。GRAG能更有效地调节编辑指令对原图的影响,展现了更准确、连续的引导过程。
作者还进行了一系列消融实验,比较了不同引导策略的效果。结果显示,他们提出的对delta进行加权的策略(δ-guidance)在连续性和有效性上表现最佳。
不同引导策略的对比。折线图中的数据清晰地表明,GRAG采用的δ参数引导产生了最连续、最有效的编辑效果。
总结
CV君觉得,GRAG的巧妙之处在于它没有引入复杂的模块,而是从模型内部机制的深刻洞察出发,用一个“四两拨千斤”的方法解决了实际痛点。这种研究思路本身就非常值得借鉴。
总而言之,GRAG通过对DiT模型中注意力偏差的巧妙利用,提供了一种无需训练、即插即用、控制精细的图像编辑引导新范式。它不仅效果出色,而且实现成本极低,为未来的AIGC应用提供了更大的想象空间。
大家对这个方法怎么看?欢迎在评论区留下你的看法!