动态列表

  • 港中文&港科大等提出FullPart:让3D部件生成达到全分辨率精度
  • 港科大(广州)等联合发布多模态空间推理综述:为大模型画下空间理解的未来蓝图
  • ReDiff:突破并行生成瓶颈,多模态扩散模型生成质量与效率双提升
  • 谢菲尔德大学提出Region-CAM:mIoU提升13.6%,破解弱监督学习中的目标定位难题
  • 英伟达开源ChronoEdit,让P图学会物理常识,时序推理颠覆图像编辑!
  • IROS 2025 | 大连理工等提出STG-Avatar:25分钟训练,单目视频实时生成高保真数字人
  • 普林斯顿大学联手谷歌DeepMind,BOB让少样本细粒度分类精度飙升7.4%
  • 中科院SNELLA:视觉模型微调新范式,性能超越SOTA,内存占用降低近40%
  • 美团开源LongCat-Video:136亿参数长视频生成,分钟级推理720p
  • 看似万能的 AI,其实比你想的更脆弱和邪恶
  • 重建超越RAE,还能做编辑!北大&通义提出UniLIP: 自蒸馏训练助力CLIP大一统
  • 世界模型是否需要显式的 3D?UT Austin 新作 PE-Field 给出答案
  • Feed-Forward 3D综述:三维视觉进入“一步到位”时代
  • CUPID:单图秒速重建3D,港大提出姿态引导新范式
  • 每周100万人与ChatGPT聊自杀;美团推全国骑手社保补贴;高通发AI芯片,股价暴涨20%
  • 美国大学排名出炉:哥大断崖式下滑,MIT稳居CS榜第一!
  • 开源即登榜!登顶全球前十AI编程智能体,UCL初创团队开源Prometheus
  • 奥特曼考虑给ChatGPT加广告了!用8亿用户,救万亿债务
  • VaseVQA:考古领域实现专家级,诊断+补弱RL框架
  • 弑母分尸案震惊世界,AI伪造语音骗过警察!
  • 一把吉他卖出 10 亿后,LiberLive 选择自我革命
  • 仅仅是 AI,并不能让硬件更「智慧」,更重要的其实是这个
  • 北京/上海/杭州内推 | 蚂蚁集团保险大模型算法团队招聘大模型算法专家(P6-P7)
  • 多人物也能“认得准”!阿里开源Identity-GRPO,刷新视频生成一致性上限
  • RL记得更牢,SFT更健忘?普林斯顿陈丹琦团队改写后训练认知
  • 首个面向大模型的形式化数学竞赛正式启动:推动AI数学推理迈向可验证新高度
  • ICCV'25|开源AI3D数据集Objaverse++:更少的数据,却有更好的生成效果
  • 川大等提出LG-CD:一句话精准锁定遥感影像变化,F1分数高达91.83%
  • “压缩不减智”!EPIC让多模态大模型以更少 Token 跑得更快、更稳|NeurIPS 2025
  • ​一个对话助理,如何盘活整个「夸克宇宙」?
  • 马斯克 xAI 上新款「虚拟女友」;传小米 17 Air 明年上;996 成美国创业者美德
  • AI黑化如恶魔附体!LARGO攻心三步,潜意识种子瞬间开花 | NeurIPS 2025
  • 可攻可防,越狱成功率近90%!六大主流模型全中招 | EMNLP'25
  • 硅谷的「十万大裁员」:Meta按代码量裁员
  • 超94%类别第一!3D点云异常检测与修复新SOTA | ICCV'25
  • AI人格分裂实锤!30万道送命题,撕开OpenAI、谷歌「遮羞布」
  • 思而不学则殆:通义实验室×北大联合提出RL-PLUS,突破大模型推理边界
  • NeurIPS 2025 | 理解能否反过来教生成?VideoREPA让视频生成模型“懂物理”
  • 博士申请 | 香港中文大学陈玥老师招收人工智能/智能电网方向全奖博士生
  • NeurIPS 2025 | 港中文等提出COS3D:协同语言与分割,革新开放词汇3D分割
  • 上海交大与上海AI lab联手推出RAPO++:跨阶段提示优化,让文生视频模型“更懂你心”
  • 传OpenAI正开发新的生成式音乐工具;苹果将AirPods印度产能扩大一倍;《王者荣耀世界》官宣2026春天见

天津大学与快手联手提出GRAG:仅需4行代码,实现图像编辑的“丝滑”微调

CV君 2025-10-30 08:33 江苏

无需调参,让你的AIP图效果丝滑可控。

最近,基于Transformer的扩散模型(DiT)在图像编辑领域可以说是风生水起,但大家在享受AI带来便利的同时,可能也遇到过一个头疼的问题:生成的图像要么“改过头”,要么“没改到位”,很难精准控制编辑的“力度”。今天,我们就来聊一篇有意思的论文,它提出了一个简单又高效的解决方案。

这篇论文就是由天津大学和快手科技的研究者们共同发表的《Group Relative Attention Guidance for Image Editing》。他们提出了一个名为 GRAG(Group Relative Attention Guidance) 的方法,旨在实现对图像编辑强度的连续、细粒度控制。GRAG这个名字可以理解为“分组相对注意力引导”,核心思想就是通过“引导”模型内部的注意力机制,来更精确地平衡“听从指令”和“保持原图”之间的关系。

背景:DiT图像编辑的“控制”难题

在深入了解GRAG之前,我们先简单回顾一下背景。当前的图像编辑模型,特别是基于DiT架构的,虽然能力强大,但在“控制”上总有些力不从心。一个常见的技术是分类器无关引导(Classifier-Free Guidance, CFG),它通过一个引导尺度(guidance scale)来调节文本指令对生成结果的影响力。

然而,CFG的调节方式比较“一刀切”,很难做到平滑、精细的控制。调得太高,图片可能变得光怪陆离,完全偏离了原始图像;调得太低,又可能几乎看不到编辑效果。用户想要的,其实是一种像调音台推子一样丝滑、线性的控制感。

上图展示了GRAG方法在不同引导尺度下,对编辑强度的连续、精细控制效果,实现了在“遵循指令”和“保持原图”之间的完美平衡。

方法:深入DiT的注意力机制,发现“偏置”的秘密

为了解决这个问题,作者们把目光投向了DiT模型内部一个关键的组件——多模态注意力(MM-Attention)机制。他们通过可视化分析发现了一个有趣的现象:在注意力模块中,Query和Key的token嵌入特征存在一个显著的、仅与层数相关的“偏置向量”(bias vector)。

注意力层输入嵌入特征的可视化,可以观察到不同token之间存在一个明显的共享偏置。

跨不同注意力头的均值向量大小和标准差,进一步证实了嵌入空间中存在一个显著的偏置向量。

基于这个观察,作者们提出了一个核心洞察:

  • 这个共享的偏置向量,可以被看作是模型“与生俱来”的、固有的编辑行为模式。

  • 而每个token与这个偏置之间的差值(delta),则编码了与具体内容(如文本指令、源图像)相关的、个性化的编辑信号。

于是,GRAG方法应运而生。它的核心逻辑非常巧妙:不再是像CFG那样粗暴地放大或缩小整体信号,而是通过重新加权(reweighting) 不同token组(文本token vs. 图像token)的“差值(delta)”,来动态调整模型对“编辑指令”和“输入图像”的关注焦点。

GRAG方法示意图。通过调整不同token组的delta值,实现对编辑过程的精确引导。

简单来说,就是给来自“编辑指令”的信号和来自“原图”的信号分配不同的权重,从而实现对编辑强度的精细调节。最关键的是,这个过程无需任何额外的模型微调,而且实现起来非常简单,作者在论文中提到,仅需4行代码 就可以集成到现有的图像编辑框架中。

实验:更平滑、更精准的编辑控制

口说无凭,实验为证。作者在多个主流的图像编辑框架上验证了GRAG的效果。

首先,在基于训练的编辑方法上,GRAG展现了出色的性能。

在基于训练的图像编辑方法上的可视化结果。

下表中的量化结果也表明,集成GRAG后,模型的文本对齐度(CLIP-T)和图像保真度(DINO)都得到了提升。

与CFG的直接对比更能说明问题。从下面的对比图可以看出,随着引导尺度的增加,CFG的编辑效果很快就“崩了”,而GRAG则能保持平滑、连续的变化,更准确地反映了用户的编辑意图。

CFG与GRAG在不同引导尺度下的效果对比。GRAG能更有效地调节编辑指令对原图的影响,展现了更准确、连续的引导过程。

作者还进行了一系列消融实验,比较了不同引导策略的效果。结果显示,他们提出的对delta进行加权的策略(δ-guidance)在连续性和有效性上表现最佳。

不同引导策略的对比。折线图中的数据清晰地表明,GRAG采用的δ参数引导产生了最连续、最有效的编辑效果。

总结

CV君觉得,GRAG的巧妙之处在于它没有引入复杂的模块,而是从模型内部机制的深刻洞察出发,用一个“四两拨千斤”的方法解决了实际痛点。这种研究思路本身就非常值得借鉴。

总而言之,GRAG通过对DiT模型中注意力偏差的巧妙利用,提供了一种无需训练、即插即用、控制精细的图像编辑引导新范式。它不仅效果出色,而且实现成本极低,为未来的AIGC应用提供了更大的想象空间。

大家对这个方法怎么看?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

联系我们