CV君 2025-10-12 12:12 江苏
在保真与感知间,找到那个最美的平衡点。
大家好,今天CV君想和大家聊一篇非常有意思的新工作,它来自中国科学技术大学和上海人工智能实验室,并被 NeurIPS 2025 接收。这项研究聚焦于超高清(UHD)图像修复,提出了一个名为 Latent Harmony 的全新框架。
简单来说,Latent Harmony 的名字寓意着在 VAE 的“潜空间”中,实现了多重目标的“和谐共生”。它巧妙地解决了超高清图像修复中一个棘手的“三角难题”:既要修复效果好(高保真度),又要看起来真实自然(高感知质量),同时还不能牺牲计算效率。
论文标题: Latent Harmony: Synergistic Unified UHD Image Restoration via Latent Space Regularization and Controllable Refinement
作者团队: Yidi Liu, Xueyang Fu, Jie Huang, Jie Xiao, Dong Li, Wenlong Zhang, Lei Bai, Zheng-Jun Zha
所属机构: 中国科学技术大学, 上海人工智能实验室
问题的提出:UHD图像修复的“鱼与熊掌”
在处理像 4K 这样的超高清图像时,我们总是希望修复算法既能精确地还原图像细节,又能让修复后的图片看起来舒服、自然。但现实是,这两者往往很难兼得。
现有的方法通常可以分为两类:
直接在像素空间处理:这类方法效果直接,但计算量巨大,尤其是在 UHD 分辨率下,速度慢得让人难以接受。
在潜空间(Latent Space)处理:以变分自编码器(Variational Autoencoder, VAE)为代表,通过将高清图像压缩到一个更小的“潜空间”中进行处理,大大提升了效率。但问题也随之而来,VAE 为了让潜空间服从简单的高斯分布,往往会“丢掉”那些对图像修复至关重要的高频细节信息(比如纹理、边缘),导致修复结果模糊,细节丢失。
如上图所示,现有方法要么效率低下,要么以牺牲细节为代价。Latent Harmony 的目标,就是打破这种困境,找到一个既高效又能高质量还原细节的统一解决方案。
研究动机:深入潜空间的观察
为了搞清楚问题到底出在哪,研究者们做了一系列有趣的分析。他们发现,传统的 VAE 在面对不同类型的图像退化(如模糊、噪声)时,其潜空间的表征会混杂在一起,分不清哪些是图像内容,哪些是退化信息。
通过 t-SNE 可视化(上图 a)和一系列频谱分析(上图 c),他们得出了几个关键洞察:
一个好的潜空间应该对图像的“语义内容”进行聚类,而不是被“退化类型”所干扰。
高频信息对于图像修复至关重要,不能在 VAE 压缩时被随意抛弃。
直接在潜空间进行微调时,如果能特别关注高频信息的恢复,可以取得更稳定的效果。
基于这些发现,Latent Harmony 的核心思路逐渐清晰:改造 VAE,让它的潜空间既能理解图像内容,又能保留关键的高频细节,并在此基础上进行可控的精细化修复。
Latent Harmony:两阶段和谐修复法
为了实现这一目标,作者设计了一个精巧的两阶段框架。
阶段一:构建更强大的潜空间 (LH-VAE)
这是整个方法的基础。作者没有用标准的 VAE,而是设计了一个名为 LH-VAE 的增强版。它的训练目标是构建一个对退化鲁棒、同时富含高频信息的潜空间。具体通过三个“法宝”实现:
渐进式退化扰动:在训练时,模拟真实世界中图像可能遇到的各种退化,并逐步增加扰动强度,让 VAE “见过世面”,从而对各种退化都有很好的适应性。
视觉语义约束:引入一个损失函数(LINV),确保同一张干净图片,无论经历何种退化,它们在潜空间中的语义表征都应该是一致的。这让 VAE 学会了“透过现象看本质”。
潜空间等变性约束:这是保留高频细节的关键。通过一个等变性损失(LEqv),要求对潜空间中的高频分量进行的操作,能够和像素空间中的相应操作保持一致。简单说,就是确保高频信息在编解码过程中不会“失真”或“丢失”。
经过这番改造,LH-VAE 编码出的潜空间,既干净又信息丰富,为后续的修复任务打下了坚实的基础。
阶段二:高频引导的潜空间修复 (HF-LoRA)
有了高质量的潜空间,接下来就是修复环节。作者在这里引入了当下非常流行的 LoRA (Low-Rank Adaptation) 技术,但又玩出了新花样,提出了 HF-LoRA (High-Frequency LoRA)。
他们将 LoRA 模块分别应用到 VAE 的编码器和解码器上,并让它们“各司其职”:
编码器 LoRA (FHF-LoRA) :专注于 保真度 (Fidelity) 。它由一个“高频对齐损失”来引导,目标是让修复后的图像在细节上尽可能地逼近原始的清晰图像。
解码器 LoRA (PHF-LoRA) :专注于 感知质量 (Perception) 。它由一个“感知损失”来驱动,目标是让生成的图像纹理看起来更真实、更自然,即使这些纹理不是原始图像百分百的精确复刻。
更妙的是,这两个 LoRA 模块采用“交替优化”的策略进行训练,避免了目标冲突。在推理时,作者还引入了一个可调节的超参数 α,用户可以像调音量一样,自由地在“追求极致保真”和“追求最佳观感”之间找到自己喜欢的平衡点。
实验效果:全面领先,指哪打哪
Latent Harmony 的表现确实没让人失望。
在针对去雨、去噪、去模糊、去压缩伪影等多种 UHD 图像修复任务的定量比较中,Latent Harmony 在 PSNR、SSIM 和 LPIPS 等多个关键指标上都取得了当前最佳(SOTA)或次佳的成绩,并且计算效率(FLOPs)远优于其他高性能方法。
从视觉效果对比来看,无论是去除复杂的雨线,还是恢复模糊的人脸细节,Latent Harmony 的结果都更加清晰和自然,没有出现其他方法常见的伪影或模糊问题。
不仅如此,该方法在标准的、非 UHD 的图像修复任务上也表现出色,展示了其强大的泛化能力。
消融实验也充分验证了框架中每个组件的有效性,无论是潜空间正则化的各个模块,还是 HF-LoRA 的设计,都对最终的性能提升起到了关键作用。
总结
总的来说,Latent Harmony 通过对 VAE 潜空间的深度正则化和创新的高频引导修复策略,成功地在 UHD 图像修复任务中实现了效率、保真度和感知质量的协同统一。CV君认为,这种深入分析并改造潜空间表征的思路,以及可控平衡不同目标的思想,对于未来的生成模型研究都具有很好的启发意义。
你觉得这个技术未来会用在哪些场景?一起来聊聊吧!