动态列表

  • 永别了,人类冠军!AI横扫天文奥赛,GPT-5得分远超金牌选手2.7倍
  • 濒死3次,医生判他死刑!宾大教授奇迹自救,誓用AI攻克14000种绝症
  • 告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星
  • Bug变奖励:AI的小失误,揭开创造力真相!
  • 复旦张军平:人类是硅基生命过渡体?
  • Meta Ray-Ban Display 首发体验合集:悬浮在现实中的一张便签
  • OriginOS 6 深度体验:当操作系统回归「体验为王」
  • Mamba-3惊现ICLR 2026投稿:三重升级打满“推理优先”范式
  • 93%成功率!从“改提示”到“写剧情”:STaR-Attack用叙事推理攻破大模型防线
  • NeurIPS 2025 | Latent Harmony:潜空间和谐共生,实现UHD图像修复新SOTA
  • 马斯克脑机公司展示脑机控制机械臂;三星中国发布折叠屏新机,16999 元起售;滴滴自动驾驶获 20 亿元融资 | 极客早知道
  • 77岁「AI教父」Hinton:AI早有意识!我们打造的智能,可能终结人类文明
  • 全球首款1.8nm芯片亮相!华人CEO打响关键一战,英特尔杀回来了
  • 清华万引教授:万倍加速催化剂设计,AI突破DFT瓶颈!
  • 陶哲轩亲测!GPT-5 Pro 40分钟破解3年难题,登顶最难数学考试
  • 刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人
  • Attention is NOT All You Need:让“深度”重新流入时间,而非堆叠在参数之上
  • NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!
  • OpenAI 卖货做视频,Anthropic 专心写代码,谁能赢?
  • 一颗 1.8 纳米芯片,成了英特尔「最后的救赎」
  • 这款 AI 调研神器,让我一键产生 1000 个「种子用户」|AI 上新
  • 都用 GPT,为什么你没法中「百万大奖」?
  • ChatGPT 变身 App Store,「对话即应用」时代到了
  • IROS 2025 Oral | RAG-6Dpose:三大创新模块,利用 CAD 作为知识库进行检索增强 6D 姿态估计
  • IROS 2025 | 速度飙升24倍!巴黎萨克雷大学等提出HARP-NeXt:实时3D激光雷达分割新标杆
  • 「丐中丐」版特斯拉来了,Model 3/Y降价超3.5万元
  • 高德扫街榜的 23 天奇袭
  • 张一鸣近年来首次公开亮相;微软上海开始新一轮裁员,补偿N+4;罗永浩锐评 iPhone 17
  • GPT-5王者归来?奥特曼称AI已跨科学门槛,三大学科正迎来实质性突破
  • 老黄押宝「美版DeepSeek」!谷歌天才叛将创业,一夜吸金20亿美元
  • 任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码
  • 13万被引!ImageNet作者苏昊或将加盟复旦
  • 250份文档投毒,一举攻陷万亿LLM!Anthropic新作紧急预警
  • 和两位 CEO 聊 Sora: 应用层爆发的里程碑事件,创业者的机会来了
  • 新一代短剧人,涌向郑州「淘金」
  • 社交媒体的黄金时代,结束了
  • U-Bench:U-Net十年“大乱斗”终结者,100个变体、28个数据集的终极对决
  • 东京大学、牛津大学等联合发布VLA万字综述:机器人迈向通用智能的全栈指南
  • DeepSeek苦练1T,清华只用5B?InfLLM-V2把稀疏注意力玩明白了
  • EMNLP 2025 | 拨云见日:知识电路分析揭示大语言模型“知识遮蔽”幻觉之源
  • 北京/上海内推 | 阶跃星辰招聘RL for AIGC方向算法研究员/实习生
  • Sora 下载量破 100 万次;国庆中秋假期国内游总花费超过 8000 亿元;智驾多位核心高管离职,蔚来回应|极客早知道
  • 谷歌杀入诺奖神殿,两年三冠五得主!世界TOP3重现贝尔实验室神话
  • OpenAI×英伟达,可能创造了人类史上最大万亿级泡沫
  • H-1B正在筛掉「下一个英伟达」?
  • 全球AI视频大战升级!「中国版Sora」Vidu Q2参考生月底发布,能力对标Sora 2
  • 第二代InfLLM开源,同尺寸快三倍!零参数,可训练稀疏注意力
  • 腾讯推出TRM:让大模型像人类一样批判性思考,从文本依赖到事实正确
  • 马毅团队重磅发布新书:从MCR²到白盒Transformer,重构深度学习的第一性原理
  • 稳住训练、跑出泛化:STAGE重写「自回归图像生成」的强化学习范式
  • Diffusion²来袭:威斯康星大学&华盛顿大学等提出双扩散模型,“回溯历史-预测未来”,破解自动驾驶“鬼探头”难题
  • 北大等提出TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%
  • 把我的第一次日本旅行,完全交给 AI 是什么体验?
  • 英伟达将投资马斯克的 xAI;低价版Model 3/Y 「阉割」智驾功能;微信推出批量撤回信息功能
  • 刚刚,清华物理传奇Yao Shunyu,跳槽谷歌DeepMind!
  • 赚100亿,烧1万亿!OpenAI算力神话:英伟达撒钱、AMD送股、全硅谷陪跑
  • 英伟达垄断AI算力局面或将被颠覆!AMD赌上身家发起决斗,奥特曼窃喜
  • 刚刚,2025年诺贝尔化学奖揭晓!偷溜进图书馆的少年,改变了世界
  • 小心,AI依赖会让你变笨!吴恩达等专家教你如何正确使用AI
  • 无RLHF,7M小模型反超DeepSeek-R1:三星团队用递归思考取代规模堆叠
  • IROS 2025 | Waymo与谷歌DeepMind联手提出Drive&Gen:用生成视频评估自动驾驶,虚拟测试更逼真
  • 告别深度传感器!慕尼黑工业大学提出DropD-SLAM:仅用单目RGB即可实现RGB-D级的SLAM精度
  • 陶哲轩联手ChatGPT!10分钟击碎30年「无理」难题,数学圈炸裂
  • 刚刚,奥特曼官宣ChatGPT「终极OS入口」!8分钟速搭智能体,8亿人狂欢
  • 顿悟不是玄学!港科大清华等联手:撕开推理黑箱,RL让AI像人思考
  • 4万亿帝国接班人浮出水面!苹果不需要另一个库克
  • 刚刚,2025年诺贝尔物理学奖揭晓!量子计算成最大赢家
  • 告别梯度!Evolution Strategies全参微调挑战PPO/GRPO:更稳、更省、更好复现
  • NeurIPS 2025 | 北邮用“图+文”把人物检索拉满:自动合成数据 × 细粒度特征对齐
  • TPAMI 2025 | 电子科大等提出EEMFlow:从事件相机学习高效Meshflow与光流,速度提升30倍
  • MICCAI 2025 | 莱斯大学提出MetaSeg:参数减少90%,元学习隐式网络重塑医学图像分割
  • OpenAI 与 AMD 签百亿美元协议,后者股价暴涨;特斯拉廉价 Model Y 将于 7 日发布;知名旅行、听歌应用入住 ChatGPT
  • 乔纳森下一个iPhone神话,要黄了?OpenAI秘密AI硬件深陷三重困境
  • 3年手搓ChatGPT!剑桥天才少年在Minecraft游戏中爆火回归
  • 一举击败Claude Code!微软提出代码生成黑科技:一键直出36K行代码
  • 刚刚,2025年诺贝尔生理学或医学奖揭晓!三位得主点燃器官移植希望
  • OpenAI入股AMD,股价暴涨35%!奥特曼左手黄仁勋,右手苏姿丰,通吃全球算力
  • 自进化Agent的第三种可能:隐式记忆,不动模型参数,胜过GRPO
  • 真实数据、全链路、可复核:GenoMAS打造更可信的基因分析智能体
  • NeurIPS 2025 | 慕尼黑工业大学提出SIM(3)等变网络:让3D形状补全告别“姿态偏见”,实现跨域泛化
  • NeurIPS 2025 | 高通提出GCL:无需额外数据,通用多模态检索迎来“一统江湖”新范式
  • 今日迎本世纪「最晚中秋月圆」;雷军:小米17 五天销量破百万;ChatGPT 或添私信聊天功能

NeurIPS 2025 | NTN-Diff:一石二鸟,利用空文本与频率感知破解图像修复难题

CV君 2025-10-12 12:12 江苏

一石二鸟,兼顾语义与保真度的修复新范式。

在文本引导的图像修复(Text-Guided Image Inpainting)领域,一个老大难问题始终困扰着研究者们:如何在根据文本描述填充缺失区域的同时,完美保留图像中未被遮挡的部分?很多时候,模型要么顾此失彼,要么两者都做得不尽如人意。

来自合肥工业大学的研究团队似乎找到了解决这个问题的钥匙。他们提出了一种名为 NTN-Diff 的新模型,巧妙地利用了图像不同频率带的特性,实现了“一石二鸟”的效果:既保证了修复区域与周围环境的语义一致性,又保护了原始区域不被破坏。

这项工作即将在 NeurIPS 2025 上亮相,让我们一起来看看它的精妙之处。

问题的根源:纠缠的频率信息

为什么之前的模型总是难以两全其美?作者通过实验发现,问题的根源在于图像中不同频率信息的“纠缠”。

简单来说,一张图像可以被分解为不同的频率带:

  • 低频带:决定了图像的整体颜色和光照等基本属性。

  • 中频带:包含了图像的结构和布局信息。

  • 高频带:包含了图像的细节和纹理。

在扩散模型的去噪过程中,文本提示对这些频率带的影响是不同的。作者的可视化分析显示,现有的方法在努力让修复区域与文本对齐时,往往会不经意地改变未遮挡区域的低频信息(比如背景色调),导致“保留”失败。

上图展示了去噪过程中,语义对齐(Denoised Image-Text Distance)和区域保留(Denoised Image-GT Distance)之间的矛盾。

进一步的研究发现,中频带信息(如物体轮廓和布局)在文本引导的去噪过程中相对稳定,而低频带信息则非常容易受到文本提示的“污染”。

上图分别展示了低频带(a)和中频带(b)在去噪过程中的变化。可以看到,低频信息在后期变化剧烈,而中频结构则相对稳定。

NTN-Diff:解耦频率,分步击破

基于以上洞察,NTN-Diff 的核心思想就是“解耦”和“分治”。它将去噪过程分为早期和晚期两个阶段,并设计了一个包含四步的精巧流程来分别处理不同的频率信息。

NTN-Diff 的整体流程图

整个流程可以概括为:

  1. 无文本去噪 (I) :首先,模型在 不使用 文本提示的情况下进行一次去噪,目的是初步生成一个不受文本干扰的、保留了原始图像特征的低频基底。

  2. 文本引导去噪 (II) :接着,模型在 使用 文本提示的情况下进行去噪,以生成符合文本描述的语义内容。关键的一步是,它会用第一步得到的“干净”低频信息替换掉当前步骤中被文本“污染”的低频信息,从而保护了背景。

  3. 中频引导的无文本去噪 (III) :为了让修复区域的结构(中频)与周围更好地融合,模型利用上一步生成的、语义对齐的稳定中频信息,去引导又一次 无文本 去噪过程。这一步旨在优化修复区域的内部结构,使其更自然。

  4. 晚期文本引导与区域融合 (IV) :在去噪的最后阶段,模型再次使用文本提示进行精修,以确保最终细节的语义准确性。同时,在每一步,模型都会强制将未遮挡区域恢复为原始图像的对应部分,实现了对原始区域的“像素级”保护。

上图直观展示了去噪后的低频层(a)和中频层(b)。

CV君认为,这种设计非常巧妙,它没有试图用一个单一的过程解决所有问题,而是将复杂的任务分解为针对不同频率、不同目标的子任务,通过“替换”和“引导”的操作,将各个子任务的优势组合起来,最终实现了看似矛盾的目标。

实验效果:全面超越 SOTA

理论说得好,还得看疗效。NTN-Diff 在多个主流的图像修复基准测试(如 BrushBench 和 EditBench)上都取得了当前最佳(SOTA)的性能。

定量结果

从量化指标上看,NTN-Diff 在保证区域保留(LPIPS分数更低)和语义对齐(CLIP-Score更高)方面均优于现有方法。

在 BrushBench 上的量化比较结果

在 EditBench 上的量化比较结果

定性结果

定性效果对比则更加直观。无论是添加物体、替换物体还是风格转换,NTN-Diff 的生成结果都显得更加自然和协调。

与其他方法的视觉效果对比,NTN-Diff 的结果(最右侧)在语义和一致性上表现更优。

更多对比案例,进一步验证了 NTN-Diff 的优越性。

消融实验

此外,作者还通过详尽的消融实验证明了模型中每个组件的必要性。例如,如果去掉特定的无文本或文本引导过程,生成结果就会出现明显的瑕疵,比如背景被破坏、生成内容与文本不符等。

消融研究:对比不同去噪策略的效果,证明了 NTN-Diff 设计的完整性。

不同频率带处理方式的消融实验对比。

关于文本/无文本提示对不同频率带影响的量化消融研究。

对超参数(早晚期阶段划分点)的敏感性分析。

总结

总而言之,NTN-Diff 通过对图像频率的深刻理解和精巧的流程设计,为文本引导的图像修复任务提供了一个非常优雅且有效的解决方案。它不仅在技术上取得了突破,也为我们思考如何控制生成模型提供了新的思路。

你觉得这个基于频率解耦的思路,未来还能应用在哪些生成任务上?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

联系我们