动态列表

  • 永别了,人类冠军!AI横扫天文奥赛,GPT-5得分远超金牌选手2.7倍
  • 濒死3次,医生判他死刑!宾大教授奇迹自救,誓用AI攻克14000种绝症
  • 告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星
  • Bug变奖励:AI的小失误,揭开创造力真相!
  • 复旦张军平:人类是硅基生命过渡体?
  • Meta Ray-Ban Display 首发体验合集:悬浮在现实中的一张便签
  • OriginOS 6 深度体验:当操作系统回归「体验为王」
  • Mamba-3惊现ICLR 2026投稿:三重升级打满“推理优先”范式
  • 93%成功率!从“改提示”到“写剧情”:STaR-Attack用叙事推理攻破大模型防线
  • NeurIPS 2025 | NTN-Diff:一石二鸟,利用空文本与频率感知破解图像修复难题
  • 马斯克脑机公司展示脑机控制机械臂;三星中国发布折叠屏新机,16999 元起售;滴滴自动驾驶获 20 亿元融资 | 极客早知道
  • 77岁「AI教父」Hinton:AI早有意识!我们打造的智能,可能终结人类文明
  • 全球首款1.8nm芯片亮相!华人CEO打响关键一战,英特尔杀回来了
  • 清华万引教授:万倍加速催化剂设计,AI突破DFT瓶颈!
  • 陶哲轩亲测!GPT-5 Pro 40分钟破解3年难题,登顶最难数学考试
  • 刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人
  • Attention is NOT All You Need:让“深度”重新流入时间,而非堆叠在参数之上
  • NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!
  • OpenAI 卖货做视频,Anthropic 专心写代码,谁能赢?
  • 一颗 1.8 纳米芯片,成了英特尔「最后的救赎」
  • 这款 AI 调研神器,让我一键产生 1000 个「种子用户」|AI 上新
  • 都用 GPT,为什么你没法中「百万大奖」?
  • ChatGPT 变身 App Store,「对话即应用」时代到了
  • IROS 2025 Oral | RAG-6Dpose:三大创新模块,利用 CAD 作为知识库进行检索增强 6D 姿态估计
  • IROS 2025 | 速度飙升24倍!巴黎萨克雷大学等提出HARP-NeXt:实时3D激光雷达分割新标杆
  • 「丐中丐」版特斯拉来了,Model 3/Y降价超3.5万元
  • 高德扫街榜的 23 天奇袭
  • 张一鸣近年来首次公开亮相;微软上海开始新一轮裁员,补偿N+4;罗永浩锐评 iPhone 17
  • GPT-5王者归来?奥特曼称AI已跨科学门槛,三大学科正迎来实质性突破
  • 老黄押宝「美版DeepSeek」!谷歌天才叛将创业,一夜吸金20亿美元
  • 任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码
  • 13万被引!ImageNet作者苏昊或将加盟复旦
  • 250份文档投毒,一举攻陷万亿LLM!Anthropic新作紧急预警
  • 和两位 CEO 聊 Sora: 应用层爆发的里程碑事件,创业者的机会来了
  • 新一代短剧人,涌向郑州「淘金」
  • 社交媒体的黄金时代,结束了
  • U-Bench:U-Net十年“大乱斗”终结者,100个变体、28个数据集的终极对决
  • 东京大学、牛津大学等联合发布VLA万字综述:机器人迈向通用智能的全栈指南
  • DeepSeek苦练1T,清华只用5B?InfLLM-V2把稀疏注意力玩明白了
  • EMNLP 2025 | 拨云见日:知识电路分析揭示大语言模型“知识遮蔽”幻觉之源
  • 北京/上海内推 | 阶跃星辰招聘RL for AIGC方向算法研究员/实习生
  • Sora 下载量破 100 万次;国庆中秋假期国内游总花费超过 8000 亿元;智驾多位核心高管离职,蔚来回应|极客早知道
  • 谷歌杀入诺奖神殿,两年三冠五得主!世界TOP3重现贝尔实验室神话
  • OpenAI×英伟达,可能创造了人类史上最大万亿级泡沫
  • H-1B正在筛掉「下一个英伟达」?
  • 全球AI视频大战升级!「中国版Sora」Vidu Q2参考生月底发布,能力对标Sora 2
  • 第二代InfLLM开源,同尺寸快三倍!零参数,可训练稀疏注意力
  • 腾讯推出TRM:让大模型像人类一样批判性思考,从文本依赖到事实正确
  • 马毅团队重磅发布新书:从MCR²到白盒Transformer,重构深度学习的第一性原理
  • 稳住训练、跑出泛化:STAGE重写「自回归图像生成」的强化学习范式
  • Diffusion²来袭:威斯康星大学&华盛顿大学等提出双扩散模型,“回溯历史-预测未来”,破解自动驾驶“鬼探头”难题
  • 北大等提出TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%
  • 把我的第一次日本旅行,完全交给 AI 是什么体验?
  • 英伟达将投资马斯克的 xAI;低价版Model 3/Y 「阉割」智驾功能;微信推出批量撤回信息功能
  • 刚刚,清华物理传奇Yao Shunyu,跳槽谷歌DeepMind!
  • 赚100亿,烧1万亿!OpenAI算力神话:英伟达撒钱、AMD送股、全硅谷陪跑
  • 英伟达垄断AI算力局面或将被颠覆!AMD赌上身家发起决斗,奥特曼窃喜
  • 刚刚,2025年诺贝尔化学奖揭晓!偷溜进图书馆的少年,改变了世界
  • 小心,AI依赖会让你变笨!吴恩达等专家教你如何正确使用AI
  • 无RLHF,7M小模型反超DeepSeek-R1:三星团队用递归思考取代规模堆叠
  • IROS 2025 | Waymo与谷歌DeepMind联手提出Drive&Gen:用生成视频评估自动驾驶,虚拟测试更逼真
  • 告别深度传感器!慕尼黑工业大学提出DropD-SLAM:仅用单目RGB即可实现RGB-D级的SLAM精度
  • 陶哲轩联手ChatGPT!10分钟击碎30年「无理」难题,数学圈炸裂
  • 刚刚,奥特曼官宣ChatGPT「终极OS入口」!8分钟速搭智能体,8亿人狂欢
  • 顿悟不是玄学!港科大清华等联手:撕开推理黑箱,RL让AI像人思考
  • 4万亿帝国接班人浮出水面!苹果不需要另一个库克
  • 刚刚,2025年诺贝尔物理学奖揭晓!量子计算成最大赢家
  • 告别梯度!Evolution Strategies全参微调挑战PPO/GRPO:更稳、更省、更好复现
  • NeurIPS 2025 | 北邮用“图+文”把人物检索拉满:自动合成数据 × 细粒度特征对齐
  • TPAMI 2025 | 电子科大等提出EEMFlow:从事件相机学习高效Meshflow与光流,速度提升30倍
  • MICCAI 2025 | 莱斯大学提出MetaSeg:参数减少90%,元学习隐式网络重塑医学图像分割
  • OpenAI 与 AMD 签百亿美元协议,后者股价暴涨;特斯拉廉价 Model Y 将于 7 日发布;知名旅行、听歌应用入住 ChatGPT
  • 乔纳森下一个iPhone神话,要黄了?OpenAI秘密AI硬件深陷三重困境
  • 3年手搓ChatGPT!剑桥天才少年在Minecraft游戏中爆火回归
  • 一举击败Claude Code!微软提出代码生成黑科技:一键直出36K行代码
  • 刚刚,2025年诺贝尔生理学或医学奖揭晓!三位得主点燃器官移植希望
  • OpenAI入股AMD,股价暴涨35%!奥特曼左手黄仁勋,右手苏姿丰,通吃全球算力
  • 自进化Agent的第三种可能:隐式记忆,不动模型参数,胜过GRPO
  • 真实数据、全链路、可复核:GenoMAS打造更可信的基因分析智能体
  • NeurIPS 2025 | 慕尼黑工业大学提出SIM(3)等变网络:让3D形状补全告别“姿态偏见”,实现跨域泛化
  • NeurIPS 2025 | 高通提出GCL:无需额外数据,通用多模态检索迎来“一统江湖”新范式
  • 今日迎本世纪「最晚中秋月圆」;雷军:小米17 五天销量破百万;ChatGPT 或添私信聊天功能

NeurIPS 2025 | Latent Harmony:潜空间和谐共生,实现UHD图像修复新SOTA

CV君 2025-10-12 12:12 江苏

在保真与感知间,找到那个最美的平衡点。

大家好,今天CV君想和大家聊一篇非常有意思的新工作,它来自中国科学技术大学和上海人工智能实验室,并被 NeurIPS 2025 接收。这项研究聚焦于超高清(UHD)图像修复,提出了一个名为 Latent Harmony 的全新框架。

简单来说,Latent Harmony 的名字寓意着在 VAE 的“潜空间”中,实现了多重目标的“和谐共生”。它巧妙地解决了超高清图像修复中一个棘手的“三角难题”:既要修复效果好(高保真度),又要看起来真实自然(高感知质量),同时还不能牺牲计算效率。

  • 论文标题: Latent Harmony: Synergistic Unified UHD Image Restoration via Latent Space Regularization and Controllable Refinement

  • 作者团队: Yidi Liu, Xueyang Fu, Jie Huang, Jie Xiao, Dong Li, Wenlong Zhang, Lei Bai, Zheng-Jun Zha

  • 所属机构: 中国科学技术大学, 上海人工智能实验室

  • 论文地址: https://arxiv.org/abs/2510.07961

  • 项目主页: https://github.com/lyd-2022/Latent-Harmony

问题的提出:UHD图像修复的“鱼与熊掌”

在处理像 4K 这样的超高清图像时,我们总是希望修复算法既能精确地还原图像细节,又能让修复后的图片看起来舒服、自然。但现实是,这两者往往很难兼得。

现有的方法通常可以分为两类:

  1. 直接在像素空间处理:这类方法效果直接,但计算量巨大,尤其是在 UHD 分辨率下,速度慢得让人难以接受。

  2. 在潜空间(Latent Space)处理:以变分自编码器(Variational Autoencoder, VAE)为代表,通过将高清图像压缩到一个更小的“潜空间”中进行处理,大大提升了效率。但问题也随之而来,VAE 为了让潜空间服从简单的高斯分布,往往会“丢掉”那些对图像修复至关重要的高频细节信息(比如纹理、边缘),导致修复结果模糊,细节丢失。

如上图所示,现有方法要么效率低下,要么以牺牲细节为代价。Latent Harmony 的目标,就是打破这种困境,找到一个既高效又能高质量还原细节的统一解决方案。

研究动机:深入潜空间的观察

为了搞清楚问题到底出在哪,研究者们做了一系列有趣的分析。他们发现,传统的 VAE 在面对不同类型的图像退化(如模糊、噪声)时,其潜空间的表征会混杂在一起,分不清哪些是图像内容,哪些是退化信息。

通过 t-SNE 可视化(上图 a)和一系列频谱分析(上图 c),他们得出了几个关键洞察:

  • 一个好的潜空间应该对图像的“语义内容”进行聚类,而不是被“退化类型”所干扰。

  • 高频信息对于图像修复至关重要,不能在 VAE 压缩时被随意抛弃。

  • 直接在潜空间进行微调时,如果能特别关注高频信息的恢复,可以取得更稳定的效果。

基于这些发现,Latent Harmony 的核心思路逐渐清晰:改造 VAE,让它的潜空间既能理解图像内容,又能保留关键的高频细节,并在此基础上进行可控的精细化修复。

Latent Harmony:两阶段和谐修复法

为了实现这一目标,作者设计了一个精巧的两阶段框架。

阶段一:构建更强大的潜空间 (LH-VAE)

这是整个方法的基础。作者没有用标准的 VAE,而是设计了一个名为 LH-VAE 的增强版。它的训练目标是构建一个对退化鲁棒、同时富含高频信息的潜空间。具体通过三个“法宝”实现:

  1. 渐进式退化扰动:在训练时,模拟真实世界中图像可能遇到的各种退化,并逐步增加扰动强度,让 VAE “见过世面”,从而对各种退化都有很好的适应性。

  2. 视觉语义约束:引入一个损失函数(LINV),确保同一张干净图片,无论经历何种退化,它们在潜空间中的语义表征都应该是一致的。这让 VAE 学会了“透过现象看本质”。

  3. 潜空间等变性约束:这是保留高频细节的关键。通过一个等变性损失(LEqv),要求对潜空间中的高频分量进行的操作,能够和像素空间中的相应操作保持一致。简单说,就是确保高频信息在编解码过程中不会“失真”或“丢失”。

经过这番改造,LH-VAE 编码出的潜空间,既干净又信息丰富,为后续的修复任务打下了坚实的基础。

阶段二:高频引导的潜空间修复 (HF-LoRA)

有了高质量的潜空间,接下来就是修复环节。作者在这里引入了当下非常流行的 LoRA (Low-Rank Adaptation) 技术,但又玩出了新花样,提出了 HF-LoRA (High-Frequency LoRA)

他们将 LoRA 模块分别应用到 VAE 的编码器和解码器上,并让它们“各司其职”:

  • 编码器 LoRA (FHF-LoRA) :专注于 保真度 (Fidelity) 。它由一个“高频对齐损失”来引导,目标是让修复后的图像在细节上尽可能地逼近原始的清晰图像。

  • 解码器 LoRA (PHF-LoRA) :专注于 感知质量 (Perception) 。它由一个“感知损失”来驱动,目标是让生成的图像纹理看起来更真实、更自然,即使这些纹理不是原始图像百分百的精确复刻。

更妙的是,这两个 LoRA 模块采用“交替优化”的策略进行训练,避免了目标冲突。在推理时,作者还引入了一个可调节的超参数 α,用户可以像调音量一样,自由地在“追求极致保真”和“追求最佳观感”之间找到自己喜欢的平衡点。

实验效果:全面领先,指哪打哪

Latent Harmony 的表现确实没让人失望。

在针对去雨、去噪、去模糊、去压缩伪影等多种 UHD 图像修复任务的定量比较中,Latent Harmony 在 PSNR、SSIM 和 LPIPS 等多个关键指标上都取得了当前最佳(SOTA)或次佳的成绩,并且计算效率(FLOPs)远优于其他高性能方法。

从视觉效果对比来看,无论是去除复杂的雨线,还是恢复模糊的人脸细节,Latent Harmony 的结果都更加清晰和自然,没有出现其他方法常见的伪影或模糊问题。

不仅如此,该方法在标准的、非 UHD 的图像修复任务上也表现出色,展示了其强大的泛化能力。

消融实验也充分验证了框架中每个组件的有效性,无论是潜空间正则化的各个模块,还是 HF-LoRA 的设计,都对最终的性能提升起到了关键作用。

总结

总的来说,Latent Harmony 通过对 VAE 潜空间的深度正则化和创新的高频引导修复策略,成功地在 UHD 图像修复任务中实现了效率、保真度和感知质量的协同统一。CV君认为,这种深入分析并改造潜空间表征的思路,以及可控平衡不同目标的思想,对于未来的生成模型研究都具有很好的启发意义。

你觉得这个技术未来会用在哪些场景?一起来聊聊吧!

阅读原文

跳转微信打开

联系我们