动态列表

  • Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」
  • 英伟达AI超算3999开售,「掌心之中」可部署所有大参数开源模型!
  • 登顶Hugging Face GAIA全球榜首!中兴超级智能体终结「AI黑盒」时代
  • AI圈再颠覆!中国AI翻译耳机通话翻译,实测震撼
  • 一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军
  • vivo X300 Pro:以「水桶旗舰」之躯,重登旗舰山巅
  • 直到毕业我才懂:原来延期的博士,不止我一个
  • 8美元“驯服”DeepSeek-V3.2?Training-Free GRPO把RL成本打到地板
  • 让论文自己讲!Paper2Video一键生成论文讲解视频,赶顶会DDL不慌了
  • NeurIPS 2025 | 让AIGC视频变为可探索场景:Instant4D实现单目动态场景的分钟级重建
  • 库克抖音带货 iPhone 17 Air,22 日开售;小米客服回应「SU7 门把手」;「丐版」特斯拉明年国内投产
  • 他用一生证明AI没有意识!「中文屋」提出者逝世,享年93岁
  • 今年诺奖成果曾遭质疑无用,但华人团队用它研制了未来芯片的「钥匙」
  • 剑桥揭开大模型翻车黑箱!别再怪它不懂推理,是行动出错了
  • ICLR神秘论文曝光!SAM3用「概念」看世界,重构视觉AI新范式
  • 硅谷爆发反AI「起义」!程序员拒用Cursor被一周解雇
  • 如果RL可预测,我们还需要把训练跑满吗?中科大揭示参数更新的线性秘密
  • 强化学习再迎范式切换:Sergey Levine团队把目标改写成“到达时间”
  • 国行 eSIM 尘埃落定,iPhone Air「下周见」
  • 为什么谷歌搜不到「没有条纹的衬衫」|AI 上新
  • SAM 3揭开面纱:不止分割万物,更能理解概念,交互式分割迎来新篇章!
  • ACM MM2025 Oral | MoSEAR:为多模态情感推理补齐“冲突场景”的短板
  • 雷军亲自测试,小米YU9实车谍照曝光;宇树获「秧歌机器人」专利;微团开卖「Win XP」蓝天白云拖鞋
  • 永别了,人类冠军!AI横扫天文奥赛,GPT-5得分远超金牌选手2.7倍
  • 濒死3次,医生判他死刑!宾大教授奇迹自救,誓用AI攻克14000种绝症
  • 告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星
  • Bug变奖励:AI的小失误,揭开创造力真相!
  • 复旦张军平:人类是硅基生命过渡体?
  • Meta Ray-Ban Display 首发体验合集:悬浮在现实中的一张便签
  • OriginOS 6 深度体验:当操作系统回归「体验为王」
  • Mamba-3惊现ICLR 2026投稿:三重升级打满“推理优先”范式
  • 93%成功率!从“改提示”到“写剧情”:STaR-Attack用叙事推理攻破大模型防线
  • NeurIPS 2025 | Latent Harmony:潜空间和谐共生,实现UHD图像修复新SOTA
  • NeurIPS 2025 | NTN-Diff:一石二鸟,利用空文本与频率感知破解图像修复难题
  • 马斯克脑机公司展示脑机控制机械臂;三星中国发布折叠屏新机,16999 元起售;滴滴自动驾驶获 20 亿元融资 | 极客早知道
  • 77岁「AI教父」Hinton:AI早有意识!我们打造的智能,可能终结人类文明
  • 全球首款1.8nm芯片亮相!华人CEO打响关键一战,英特尔杀回来了
  • 清华万引教授:万倍加速催化剂设计,AI突破DFT瓶颈!
  • 陶哲轩亲测!GPT-5 Pro 40分钟破解3年难题,登顶最难数学考试
  • 刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人
  • Attention is NOT All You Need:让“深度”重新流入时间,而非堆叠在参数之上
  • NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!
  • OpenAI 卖货做视频,Anthropic 专心写代码,谁能赢?
  • 一颗 1.8 纳米芯片,成了英特尔「最后的救赎」
  • 这款 AI 调研神器,让我一键产生 1000 个「种子用户」|AI 上新
  • 都用 GPT,为什么你没法中「百万大奖」?
  • ChatGPT 变身 App Store,「对话即应用」时代到了
  • IROS 2025 Oral | RAG-6Dpose:三大创新模块,利用 CAD 作为知识库进行检索增强 6D 姿态估计
  • IROS 2025 | 速度飙升24倍!巴黎萨克雷大学等提出HARP-NeXt:实时3D激光雷达分割新标杆
  • 「丐中丐」版特斯拉来了,Model 3/Y降价超3.5万元
  • 高德扫街榜的 23 天奇袭
  • 张一鸣近年来首次公开亮相;微软上海开始新一轮裁员,补偿N+4;罗永浩锐评 iPhone 17
  • GPT-5王者归来?奥特曼称AI已跨科学门槛,三大学科正迎来实质性突破
  • 老黄押宝「美版DeepSeek」!谷歌天才叛将创业,一夜吸金20亿美元
  • 任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码
  • 13万被引!ImageNet作者苏昊或将加盟复旦
  • 250份文档投毒,一举攻陷万亿LLM!Anthropic新作紧急预警
  • 和两位 CEO 聊 Sora: 应用层爆发的里程碑事件,创业者的机会来了
  • 新一代短剧人,涌向郑州「淘金」
  • 社交媒体的黄金时代,结束了
  • U-Bench:U-Net十年“大乱斗”终结者,100个变体、28个数据集的终极对决
  • 东京大学、牛津大学等联合发布VLA万字综述:机器人迈向通用智能的全栈指南
  • 北京/上海内推 | 阶跃星辰招聘RL for AIGC方向算法研究员/实习生
  • EMNLP 2025 | 拨云见日:知识电路分析揭示大语言模型“知识遮蔽”幻觉之源
  • DeepSeek苦练1T,清华只用5B?InfLLM-V2把稀疏注意力玩明白了
  • Sora 下载量破 100 万次;国庆中秋假期国内游总花费超过 8000 亿元;智驾多位核心高管离职,蔚来回应|极客早知道
  • 谷歌杀入诺奖神殿,两年三冠五得主!世界TOP3重现贝尔实验室神话
  • OpenAI×英伟达,可能创造了人类史上最大万亿级泡沫
  • H-1B正在筛掉「下一个英伟达」?
  • 全球AI视频大战升级!「中国版Sora」Vidu Q2参考生月底发布,能力对标Sora 2
  • 第二代InfLLM开源,同尺寸快三倍!零参数,可训练稀疏注意力
  • 腾讯推出TRM:让大模型像人类一样批判性思考,从文本依赖到事实正确
  • 马毅团队重磅发布新书:从MCR²到白盒Transformer,重构深度学习的第一性原理
  • 稳住训练、跑出泛化:STAGE重写「自回归图像生成」的强化学习范式
  • Diffusion²来袭:威斯康星大学&华盛顿大学等提出双扩散模型,“回溯历史-预测未来”,破解自动驾驶“鬼探头”难题
  • 北大等提出TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%
  • 把我的第一次日本旅行,完全交给 AI 是什么体验?
  • 英伟达将投资马斯克的 xAI;低价版Model 3/Y 「阉割」智驾功能;微信推出批量撤回信息功能
  • 刚刚,清华物理传奇Yao Shunyu,跳槽谷歌DeepMind!
  • 赚100亿,烧1万亿!OpenAI算力神话:英伟达撒钱、AMD送股、全硅谷陪跑
  • 英伟达垄断AI算力局面或将被颠覆!AMD赌上身家发起决斗,奥特曼窃喜
  • 刚刚,2025年诺贝尔化学奖揭晓!偷溜进图书馆的少年,改变了世界
  • 小心,AI依赖会让你变笨!吴恩达等专家教你如何正确使用AI
  • 无RLHF,7M小模型反超DeepSeek-R1:三星团队用递归思考取代规模堆叠
  • 告别深度传感器!慕尼黑工业大学提出DropD-SLAM:仅用单目RGB即可实现RGB-D级的SLAM精度
  • IROS 2025 | Waymo与谷歌DeepMind联手提出Drive&Gen:用生成视频评估自动驾驶,虚拟测试更逼真

NeurIPS 2025 | PPFN:渐进式提示融合,让红外图像增强在复杂场景下性能提升8.76%

CV君 2025-10-14 12:36 江苏

刷新SOTA,复杂降级场景性能显著提升!

最近,来自大连理工大学和大连海事大学的研究者们,为我们带来了一项关于热红外图像增强的新研究。这项工作已被机器学习顶会 NeurIPS 2025 接收。

不同于我们常见的RGB图像,热红外图像的“视界”里,一切都由温度定义。但这种成像方式也让它极易受到各种内外因素的干扰,比如大气散射、设备内部噪声等,导致图像出现对比度低、模糊和噪声等多种问题。更棘手的是,这些问题常常“组团”出现,让修复变得异常困难。

为了解决这个痛点,研究者们提出了一个名为 “渐进式提示融合网络”Progressive Prompt Fusion Network, PPFN)的全新框架。简单来说,就是通过给模型一些“提示”,让它能“对症下药”,精准地修复各种画质问题。

一起来看看这项工作的基本信息:

背景:红外图像增强的困境

热红外成像在夜视、自动驾驶、医疗诊断等领域有着不可替代的作用。然而,它的成像原理也决定了其天生的脆弱性。如下图所示,从外部环境的太阳辐射、大气散射,到设备内部的像素大小、内部噪声,都会导致最终的图像质量下降。

现有的方法大多是“专科医生”,一次只能处理一种特定的退化问题,比如只去噪或只提升对比度。而那些为RGB图像设计的“全科医生”模型,由于成像模型差异巨大,直接用在红外图像上效果也往往不尽人意。

如何让模型学会同时处理噪声、模糊、低对比度等多种混合问题,是红外图像增强领域一个亟待解决的难题。

方法:PPFN 与 SPT 双剑合璧

为了攻克这一难题,作者设计了一套精巧的组合拳:渐进式提示融合网络(PPFN)和选择性渐进式训练(SPT)。

渐进式提示融合网络 (PPFN)

PPFN的核心思想是 “提示学习” 。研究者们首先回顾了热成像的物理过程,并为每一种退化类型(如低对比度、模糊、噪声)都精心设计了“提示对”(Prompt Pairs)。

在处理一张待修复的红外图像时,PPFN会融合与当前退化情况相对应的提示对,来调整模型的内部特征。这就像一个经验丰富的向导,不断给模型提供指令,告诉它当前应该关注哪种问题、如何修复。这种自适应的引导机制,使得模型无论是面对单一问题还是复杂的混合问题,都能游刃有余。

选择性渐进式训练 (SPT)

光有好的网络结构还不够,训练方法同样关键。作者为此引入了 “选择性渐进式训练”Selective Progressive Training, SPT)机制。

简单来说,就是让模型从易到难、循序渐进地学习。训练初期,模型先学习处理单一的退化问题;随着训练的深入,再逐步过渡到处理更复杂的混合退化场景。

如上图所示,通过这种渐进式的训练,模型能够更好地保留图像的关键结构细节,同时有效去除噪声并提升整体对比度,最终的修复效果也随着迭代逐步优化。

实验:新基准与SOTA级的性能

为了验证方法的有效性,作者还构建了一个全新的、高质量、多场景的红外图像基准数据集—— HM-TIR

与现有数据集相比,HM-TIR覆盖了更广泛的场景和更多样的相机视角,为红外图像增强研究提供了宝贵的资源。

实验结果令人印象深刻。无论是在单一退化场景还是复杂的混合退化场景,PPFN都展现出了卓越的性能。

下面的对比图直观地展示了PPFN在处理单一退化问题(如去噪、去模糊)时,相比其他方法的优势。

而在更具挑战性的复杂场景下,该方法的优势更加明显。

定量分析也证实了这一点。在公开数据集Iray和作者自建的HM-TIR上,PPFN在PSNR和SSIM等多项指标上均达到了SOTA水平。特别是在处理复杂退化场景时,实现了高达 8.76% 的显著性能提升。

消融实验也证明了PPFN和SPT策略的有效性,二者结合才能达到最佳效果。

总结

CV君认为,这项工作最巧妙的地方在于将“提示学习”的思想引入到了底层的图像恢复任务中,为解决复杂的混合退化问题提供了一个非常优雅且有效的范式。作者已经开源了代码,感兴趣的朋友可以去亲自体验一下。

你觉得这个技术未来会用在哪些场景?一起来聊聊吧!

阅读原文

跳转微信打开

联系我们