动态列表

  • 谷歌DeepMind最新论文,刚刚登上了Nature!揭秘IMO最强数学模型
  • ICLR 2026出分,审稿员怒喷「精神病」!DeepMind研究员教你绝地求生
  • GPT-5.1发布当天,文心5.0杀回来了
  • 一句「你还好吗」值40亿?斯坦福博士出走xAI,押注AGI共情力
  • 营收狂飙的「暗面」:Meta成「全球欺诈大本营」?
  • 小鹏科技日「太魔幻」:机器人走猫步,飞行汽车接近量产
  • Roboflow&CMU论文披露RF-DETR细节:首个COCO数据集突破60 AP实时目标检测,速度飙升20倍!
  • AAAI 2026 Oral 中科大联合西工大提出RSKT-Seg:专为遥感打造的高效开放词汇分割框架,推理提速2倍
  • 深度研究智能体真的“懂你”吗?OPPO × 浙大首发个性化深度研究评测基准
  • 博士申请 | 佛罗里达大学计算机系招收NLP/LLM方向全奖博士/实习生
  • DeepSeek罗福莉正式亮相小米AI;「周杰伦概念股」联手宇树造 IP 机器人;乘用车百公里加速不少于5秒
  • 奥特曼下注27岁神秘青年,「复活」世界最顶级实验室
  • AI秒破18世纪「天书」账本!谷歌新模型盲测刷屏全网
  • Llama 4造假丑闻幕后:小扎豪赌143亿,却为中国AI「做了嫁衣」
  • 少年沉迷AI自杀,9岁遭性暗示!这门「孤独生意」,正推孩子入深渊
  • NeurIPS 2025 | 中科院携手快手发布LiveStar:首个“会说话、懂沉默”的直播AI,推理速度提升1.53倍
  • 双十一算力真敢卷!RTX 5090低至0.69元/时,同预算跑更多实验
  • AAAI 2026 | 悉尼科技大学 × 港理工推出 FedVLR:让联邦推荐也能“懂图文”
  • 北京内推 | 阿里高德地图团队招聘大模型方向算法实习生(可长期/转正)
  • 对话元理智能张帆:为什么「商业强化学习」,才是 AI To B 的新出路
  • 深度复盘:大疆是如何成为影像领域新巨头的?
  • 传李想亲抓人事,华为系高管退出理想;Meta 首席 AI 科学家杨乐昆离职创业;AI 减肥或致饮食失调
  • Nature子刊:太空中建数据中心,无限能源,浙大首次证实可行!
  • 英伟达铁幕之后,谷歌AI芯片已成气候
  • 翻译界的ChatGPT时刻!Meta发布新模型,几段示例学会冷门新语言
  • 硅谷GPU蒙尘,马斯克一言成谶:美国AI被电卡脖子
  • 65岁图灵巨头离职创业!LeCun愤然与小扎决裂,Meta巨震
  • 年产值突破 150 亿,刚毕业的俊男美女涌入「团播」工厂
  • 马斯克想要 1 万亿,何小鹏只想等一句「牛 P」
  • 通往AGI的歧路:上海AI Lab重磅发现,自进化智能体可能“错误进化
  • 北京内推 | 百度文心一言基座团队模型组招聘大模型方向研究型实习生
  • 全模态到底是不是“1+1>2”?美团UNO-Bench揭示单模态与全模态能力的组合规律
  • NeurIPS 2025 | 上交大、南农大提出ADPretrain:为工业异常检测量身打造的预训练“超能力”
  • 3DV 2026 | 特伦托大学等提出DEMO:让AI看懂复杂人体动作,实现密集描述新范式
  • 小米汽车 10 月销量近 5 万,YU7 超 Model Y;美团 AI 编程工具开启公测;马化腾王传福成智元机器人受益股东
  • AI版PUA!哈佛研究揭露:AI用情感操控,让你欲罢不能
  • AI领域全新热门职业,岗位需求今年已增长逾800%
  • 硅谷10万大裁员真相:AI根本没想取代你,是老板想干掉你
  • OpenAI试图绑架美国政府,奥特曼还有救命底牌?
  • 全球68%科研人压力爆表,高校AI人才集体大逃亡!
  • 「传统教育」的船快沉了,人们却还在挤「头等舱」
  • 保暖?排汗?时尚?户外运动装备这道「选择题」,亚瑟士要打破「不可能三角」
  • EMNLP 2025 | 别再只看KV了!LLM越深越稀疏:UNCOMP用矩阵熵给出答案
  • 过去五年,BERT都在被“过度训练”?LeCun团队给出Encoder算力最优范式
  • 北京内推 | 腾讯AI Lab招聘大模型/多模态大模型方向研究型实习生
  • 在 Cursor 工作 60 天,我发现了这家公司成功的秘密
  • 这款 AI 写作神器,让数百网文作者「月入过万」|AI 上新
  • ACM MM 25 当MLLM遇上行人重识别:是“降维打击”还是“水土不服”?深度评测来了!
  • AI“世界模型”离真实手术还有多远?首个外科视频生成基准SurgVeo揭示“合理性差距”
  • 美国AI巨头股缩水8000亿美元;传Meta靠诈骗广告收入超千亿;《英雄联盟》S15总决赛T1夺冠|极客早知道
  • 谷歌二代Nano Banana爆出!一键推演微积分,终结PS时代
  • 狗也被AI抢饭碗?好莱坞动物演员全下岗,观众直接翻脸了!
  • ChatGPT求婚火了,一句「我愿意」刷屏!网友:是真爱了
  • 小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」
  • NeurIPS25 | 清华&北大提出LinearDiff-ViT:让Transformer学会“找不同”,实打实提升模型性能
  • AI 六巨头罕见同台,辨论 AI 泡沫;SpaceX 公布简化版登月舱方案;王者荣耀年度总决赛首次在鸟巢举办
  • LLM首次达到人类语言专家水平!OpenAI o1拿下拆解句法、识别歧义、推理音律
  • 仅2天!谷歌AI破解十年谜题,锁定救命药人类全失手
  • 终结Transformer统治!清华姚班校友出手,剑指AI「灾难性遗忘」
  • 仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类
  • AI六巨头罕见同台!李飞飞激辩LeCun,黄仁勋:你们都错了
  • 复盘大疆 Pocket 的七年:从「定义产品」到「定义时代」
  • TRO'25开源|机器人建图的终局?一个框架搞定光学、几何与语义!
  • 10.58 万!零跑造了一台「红米 YU7」
  • 当一家传统车企,终于决定「师中长技」
  • AI热潮推动,全球 DRAM 内存价格暴涨;泡泡玛特回应直播事故;媒体爆料iPhone 18 Pro工程机进展
  • 强化学习教父重出江湖, 生成式AI的时代要结束了?
  • 英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万
  • 投85份简历0 Offer!CS研究生心态崩了,亲历20年最猛裁员潮
  • 视频模型假装在推理?MME-CoF新基准评估12个推理维度
  • Ilya、小扎之后,苏莱曼的「超级智能」进入7年倒计时!
  • IROS 2025 | 北理工提出BoRe-Depth:仅8.7M参数,在嵌入式设备实现50.7 FPS高清深度估计
  • TCSVT 25 | 宁波诺丁汉大学等提出De-LightSAM:仅需SAM-H 2%参数,实现通用化医疗影像自动分割
  • 有些答案,听 AI 说一百遍,不如和「最有料的人」聊一次
  • 上交大刘鹏飞团队:Context Engineering进入2.0,上下文成为可操作对象
  • 工程&计算机领域前沿洞察 | Synthesis技术前沿报告合集
  • 用 AI 做电商真实效果如何?我们调研了双 11 一线从业者
  • 马斯克 1 万亿美元的薪酬方案获特斯拉股东批准;东方甄选孙东旭离职;Altman:今年 OpenAI 年化收入将达 200 亿美元

ConsistEdit:重新定义AI视觉编辑,港科大、清华等机构提出MM-DiT注意力控制新方法

CV君 2025-11-12 19:49 江苏

AI编辑终于迎来了“既要又要还要”的时代!

大家好,今天想和大家聊一篇关于AI视觉编辑的新工作。不知道大家在用AI工具编辑图片或视频时,有没有遇到过这样的烦恼:想给人物换件衣服颜色,结果背景也跟着变了;或者想让图片里的物体动起来,结果物体的“长相”都变了。这种“牵一发而动全身”的尴尬,正是目前很多AI编辑工具的痛点。

最近,来自香港科技大学清华大学IDEA研究院香港科技大学(广州)的研究者们,共同提出了一种名为ConsistEdit的全新视觉编辑方法,它似乎为解决这个难题带来了曙光。这项技术发表在了最新的论文中,旨在实现高度一致且精准的无训练视觉编辑。

简单来说,ConsistEdit就像一位既能“脑洞大开”又能“精打细算”的艺术家。它不仅能精准地按照你的文本指令(Prompt)修改图片或视频的指定区域,还能奇迹般地保持其他区域“纹丝不动”,甚至在编辑区域内也能保留住原有的结构和光影细节。

“鱼与熊掌”的困境:AI编辑的难题

在深入了解ConsistEdit之前,我们先来看看它要解决的是什么问题。

目前的文本引导式视觉编辑技术,尤其是那些无需重新训练的“即插即用”型方法,虽然灵活高效,但普遍存在一个核心矛盾:编辑强度内容一致性难以兼得。

  • 编辑强度够,一致性差:为了让编辑效果明显,模型可能会“用力过猛”,导致编辑区域的原始结构(如衣服褶皱、头发纹理)被破坏,非编辑区域也出现不该有的“色彩污染”或内容扭曲。

  • 一致性好,编辑强度弱:如果过于强调保持一致性,编辑效果又可能大打折扣,甚至无法按照指令完成修改。

这个问题在多轮编辑或视频编辑中尤为致命,因为微小的错误会不断累积,最终导致整个作品“面目全非”。

上图就直观展示了ConsistEdit的强大之处。无论是多轮编辑(a)、多区域编辑(b),还是平滑地控制一致性强度(c),它都表现得“从从容容、游刃有余”,远超现有方法。更重要的是,它能很好地适配包括MM-DiT在内的各种新架构(d)。

另辟蹊径:从MM-DiT架构中发现新大陆

近年来,生成模型的架构正从大家熟悉的U-Net逐渐转向基于Transformer的架构,特别是多模态扩散Transformer (Multi-Modal Diffusion Transformer, MM-DiT) ,像Stable Diffusion 3就是基于此架构。MM-DiT在融合文本和视觉信息方面引入了新机制,这也为解决上述编辑难题提供了可能。

ConsistEdit团队深入分析了MM-DiT的注意力机制,并总结出三个关键洞见:

  1. 视觉信息是关键:编辑操作应仅限于注意力机制中的视觉部分 (vision parts) ,干扰文本部分 (text parts) 容易导致生成不稳定。

  2. 所有层都重要:与U-Net不同,MM-DiT的每一层都保留了丰富的语义内容。因此,注意力控制必须应用于所有层,而不是像过去只关注某些特定层。

  3. Q、K、V的“分工”:注意力机制中的Query (Q)、Key (K) 和Value (V) token可以“分工合作”。通过控制Q和K,可以有效保持结构;而控制V,则能更好地保留内容

上图可视化了MM-DiT不同注意力层中Q、K、V视觉token的投影,可以看到各层都包含了丰富的语义信息,印证了“所有层都重要”的观点。

ConsistEdit的核心魔法:掩码引导的注意力融合

基于以上发现,ConsistEdit提出了一套全新的、专为MM-DiT设计的注意力控制方法。其核心可以概括为“掩码引导的注意力融合” (Mask-Guided Attention Fusion)

如上图所示,整个流程可以概括为:

输入与逆向: 给定源图像/视频 和源提示词 ,首先通过逆向过程得到能够重建它的初始噪声

掩码引导的注意力融合: 在生成目标图像 的过程中,ConsistEdit会根据目标物体自动生成一个掩码 ,精确区分“编辑区”和“非编辑区”。

结构与内容分离控制: 这是ConsistEdit的核心。在生成过程的特定阶段(由超参数 控制),它会执行以下操作:

  • 编辑区 (Structure Fusion): 为了在改变颜色或材质的同时保持原有结构(如衣服褶皱),ConsistEdit会将源图像的Q和K视觉令牌“嫁接”到目标图像的生成过程中。这相当于告诉模型:“结构照搬旧的,但外观请按新提示词来画”。其核心公式可以简化理解为:

这里, 代表从源图像提取的、携带结构信息的视觉令牌。这个操作只在 的早期去噪步骤执行,以建立稳定的结构。

  • 非编辑区 (Content Fusion): 为了确保背景等区域“纹丝不动”,ConsistEdit更进一步,直接将源图像的V视觉令牌也复制过来。V令牌富含颜色和纹理信息,通过这一步,可以实现像素级的完美保留。最终的注意力计算融合了对Q, K, V的精细控制:

通过这种精细的“分而治之”,ConsistEdit实现了在编辑区域内保持结构一致性,同时在非编辑区域保持内容的高度保真。

上图对比了不同的V token交换策略,证明了仅交换视觉部分的V token(Vision-only V)能在高一致性设置下带来最佳的内容保留效果。

此外,论文还引入了一个一致性强度参数,它控制着从哪个时间步开始进行融合。通过调整,用户可以平滑地控制编辑结果在“更像原始结构”和“更贴近新提示词”之间进行权衡,实现了从“保留结构”到“改变形状”的灵活过渡。

实验效果:眼见为实的强大

说了这么多原理,效果究竟如何?研究者们进行了一系列详尽的实验,并将ConsistEdit与SDEdit、UniEdit-Flow、DiTCtrl等多个SOTA方法进行了对比。

结构保持能力遥遥领先

在最考验结构一致性的“改变颜色/材质”任务中,研究者们使用了 Canny 边缘检测后的结构相似度(SSIM)作为指标。

从上表可以看到,在RF-Solver和FireFlow两个平台上,ConsistEdit的Canny SSIM分数达到了惊人的0.87左右,而基线方法只有0.5-0.6的水平,甚至和“固定种子生成”(Fix seed,相当于没有保持结构)的结果差不多。这意味着其他方法在编辑时,结构基本已经“面目全非”了。

在更全面的评测中,ConsistEdit同样取得了全方位的胜利。无论是结构一致性(Canny SSIM)、背景保持度(BG Preservation),还是与目标文本的匹配度(Clip Similarity),都拿下了第一。

  • 结构一致性:在需要保持结构的“改变颜色”和“改变材质”任务中,ConsistEdit的Canny SSIM达到了0.8811,显著高于其他方法,意味着其在编辑后更好地保留了边缘和结构细节。

  • 背景保留:在非编辑区域的内容保留方面,ConsistEdit的PSNR和SSIM分别高达36.76和0.9869,这意味着背景几乎没有发生不必要的变化。

  • 编辑准确性:在CLIP相似度上,ConsistEdit同样取得了最高分,说明编辑结果与目标提示词的语义最匹配。

用户研究也显示,超过71%的参与者更偏爱ConsistEdit的编辑结果。

质性对比:一图胜千言

当然,对于图像生成任务,视觉效果才是最直观的。

结构保持编辑:如下图所示,当任务是“将鸟换成钩针鸟”或“将紫丁香换成橙丁香”时,ConsistEdit不仅准确地改变了颜色和材质,还完美保留了鸟的轮廓和花的形态,甚至光影都非常自然。相比之下,其他方法要么编辑不到位,要么引入了奇怪的伪影。

结构改变编辑:即使在需要改变物体形状的任务中(如“将猫变成老虎”),ConsistEdit也能在改变主体身份的同时,很好地保留背景和其他无关元素。

多轮编辑与真实图像编辑:ConsistEdit的稳定性使其非常适合进行连续的多轮编辑。如下图,从一张真实照片开始,可以依次改变衣服颜色、人物动作和发型,每一步都非常稳健。

视频编辑:该方法同样能无缝泛化到视频编辑。如下图,将视频中的“绿色玩具船”改成“暗红色玩具船”,ConsistEdit不仅颜色修改准确,而且在整个视频序列中保持了高度的时间一致性,没有出现闪烁或伪影。

总结

总的来说,ConsistEdit通过对MM-DiT架构的深刻理解和创新的注意力控制机制,首次在无需训练的情况下,实现了兼具强大编辑能力和高度内容一致性的视觉编辑,为下一代AI内容创作工具提供了坚实的技术基础。

大家对这个方法怎么看?你觉得它最可能先被用在哪些场景?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

联系我们