CV君 2025-10-14 12:36 江苏
刷新SOTA,复杂降级场景性能显著提升!
最近,来自大连理工大学和大连海事大学的研究者们,为我们带来了一项关于热红外图像增强的新研究。这项工作已被机器学习顶会 NeurIPS 2025 接收。
不同于我们常见的RGB图像,热红外图像的“视界”里,一切都由温度定义。但这种成像方式也让它极易受到各种内外因素的干扰,比如大气散射、设备内部噪声等,导致图像出现对比度低、模糊和噪声等多种问题。更棘手的是,这些问题常常“组团”出现,让修复变得异常困难。
为了解决这个痛点,研究者们提出了一个名为 “渐进式提示融合网络”(Progressive Prompt Fusion Network, PPFN)的全新框架。简单来说,就是通过给模型一些“提示”,让它能“对症下药”,精准地修复各种画质问题。
一起来看看这项工作的基本信息:
论文标题: Enhancing Infrared Vision: Progressive Prompt Fusion Network and Benchmark
作者: Jinyuan Liu, Zihang Chen, Zhu Liu, Zhiying Jiang, Long Ma, Xin Fan, Risheng Liu
机构: 大连理工大学, 大连海事大学
背景:红外图像增强的困境
热红外成像在夜视、自动驾驶、医疗诊断等领域有着不可替代的作用。然而,它的成像原理也决定了其天生的脆弱性。如下图所示,从外部环境的太阳辐射、大气散射,到设备内部的像素大小、内部噪声,都会导致最终的图像质量下降。
现有的方法大多是“专科医生”,一次只能处理一种特定的退化问题,比如只去噪或只提升对比度。而那些为RGB图像设计的“全科医生”模型,由于成像模型差异巨大,直接用在红外图像上效果也往往不尽人意。
如何让模型学会同时处理噪声、模糊、低对比度等多种混合问题,是红外图像增强领域一个亟待解决的难题。
方法:PPFN 与 SPT 双剑合璧
为了攻克这一难题,作者设计了一套精巧的组合拳:渐进式提示融合网络(PPFN)和选择性渐进式训练(SPT)。
渐进式提示融合网络 (PPFN)
PPFN的核心思想是 “提示学习” 。研究者们首先回顾了热成像的物理过程,并为每一种退化类型(如低对比度、模糊、噪声)都精心设计了“提示对”(Prompt Pairs)。
在处理一张待修复的红外图像时,PPFN会融合与当前退化情况相对应的提示对,来调整模型的内部特征。这就像一个经验丰富的向导,不断给模型提供指令,告诉它当前应该关注哪种问题、如何修复。这种自适应的引导机制,使得模型无论是面对单一问题还是复杂的混合问题,都能游刃有余。
选择性渐进式训练 (SPT)
光有好的网络结构还不够,训练方法同样关键。作者为此引入了 “选择性渐进式训练”(Selective Progressive Training, SPT)机制。
简单来说,就是让模型从易到难、循序渐进地学习。训练初期,模型先学习处理单一的退化问题;随着训练的深入,再逐步过渡到处理更复杂的混合退化场景。
如上图所示,通过这种渐进式的训练,模型能够更好地保留图像的关键结构细节,同时有效去除噪声并提升整体对比度,最终的修复效果也随着迭代逐步优化。
实验:新基准与SOTA级的性能
为了验证方法的有效性,作者还构建了一个全新的、高质量、多场景的红外图像基准数据集—— HM-TIR 。
与现有数据集相比,HM-TIR覆盖了更广泛的场景和更多样的相机视角,为红外图像增强研究提供了宝贵的资源。
实验结果令人印象深刻。无论是在单一退化场景还是复杂的混合退化场景,PPFN都展现出了卓越的性能。
下面的对比图直观地展示了PPFN在处理单一退化问题(如去噪、去模糊)时,相比其他方法的优势。
而在更具挑战性的复杂场景下,该方法的优势更加明显。
定量分析也证实了这一点。在公开数据集Iray和作者自建的HM-TIR上,PPFN在PSNR和SSIM等多项指标上均达到了SOTA水平。特别是在处理复杂退化场景时,实现了高达 8.76% 的显著性能提升。
消融实验也证明了PPFN和SPT策略的有效性,二者结合才能达到最佳效果。
总结
CV君认为,这项工作最巧妙的地方在于将“提示学习”的思想引入到了底层的图像恢复任务中,为解决复杂的混合退化问题提供了一个非常优雅且有效的范式。作者已经开源了代码,感兴趣的朋友可以去亲自体验一下。
你觉得这个技术未来会用在哪些场景?一起来聊聊吧!