动态列表

  • 重磅!DeepSeek再开源:视觉即压缩,100个token干翻7000个
  • 全球首个「长肌腱」AI机器人量产!Nature盛赞的中国方案惊艳IROS现场
  • 甲骨文推出全球最大AI超算,作为OpenAI「星际之门」算力核心
  • MagicOS已成世界「第三极」,荣耀拿下AI大战叙事权
  • 美国拟减40%国际生,留学风向要变?Nature曝全球高校大洗牌
  • 美 NSA 被曝网攻中国「时间心脏」;微博王高飞:企业别把批评和黑公关混为一谈;传运营艰难,安世中国发公开信回应
  • 扎克伯格急了!Meta内部文件曝光:宁用竞品,也要废掉祖传系统
  • 浙大推出首个「多图应用题」基准GSM8K-V,全面评估 VLM数学推理能力
  • 英伟达4段简短提示词,IOI夺金!开源模型也能征服最难编程竞赛
  • 超越纯视觉模型!不改VLM标准架构,实现像素级深度预测
  • 5万美元筛选「超级婴儿」, 智商提升15点?马斯克被曝是客户!
  • TPAMI 2025 OccScene:联合扩散框架,同时推进感知与生成进步,3D场景生成新突破!
  • NeurIPS 2025 | KAUST与MetaAI提出Vgent:图增强RAG,长视频理解性能超越SOTA 8.6%
  • 不用微调!像打方向盘一样“操控”大模型思考:Steering正在改写推理范式
  • 不靠RL、不用训练:哈佛「Power Sampling」让基座模型推理媲美GRPO
  • 中国AIGC用户破5亿,增长1倍;今年超7成外卖低于15元;新能源事故,「破窗锤」被网友买爆|极客早知道
  • AI芯片战争关键一役!英伟达最强Blackwell首次「美国造」
  • 数学界地震!GPT-5连破10道「百年悬案」,陶哲轩:AI革命才刚开始
  • 前OpenAI研究员跨界做文创:Ilya发型帽子走红,AI成潮牌!
  • 训练成本暴降99%,35秒出1分钟高清视频!英伟达MIT等引爆视频AI革命
  • Karpathy泼冷水:AGI要等10年!根本没有「智能体元年」
  • 早鸟票倒计时2天!全国大模型智能生成大会:推理、多模态、智能体前沿集结
  • 一致性轨迹强化学习登场:上海AI Lab让扩散语言模型实现全并行少步数推理
  • First Try Matters,不是Aha Moment:邴立东团队揭示推理模型靠首答,不靠反思
  • 传 iPhone 17 Air 表现不佳,砍百万产量;黄仁勋:英伟达中国份额从 95% 降到 0%;AI 致维基百科访问显著下降
  • 马普所&谷歌等提出AnyUp:无需再训练的通用特征上采样,推理即用,效果SOTA!
  • 可处理上万变量,攻克高维时序预测难题!华人团队开源模型、基准
  • Bengio推AGI「高考」,GPT-5单项0分
  • Hassabis官宣用AI点燃「人造太阳」!无限能源时代加速到来
  • 全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA
  • 太狠了,四条腿被锯掉也能爬!通用大脑开启机器人「无休」时代
  • 零跑,不再「摸着理想过河」
  • 硬刚 Sora 2,谷歌的 Veo 3.1 确实有小惊喜|AI 上新
  • Meta花了420万美元、烧掉40万GPU·小时,只为验证一条Sigmoid曲线
  • NeurIPS 2025 | 上交大提出MM-UPT:多模态大模型的“无监督后训练”范式
  • 从会画画到会思考:快手可灵提出T2I-CoReBench,最强模型也难逃推理瓶颈
  • 张鹏对谈朱啸虎、储瑞松、傅盛:Agentic AI 时代,不要什么东西都自己闷头做
  • Identity-GRPO:阿里开源多人物定制化视频生成的后训练优化算法
  • Real-world Video Super-Resolution | VSR的十字路口
  • 蔚来回应外国基金投诉:无事实依据;零跑推D19旗舰SUV,配超大电池;卡西欧推《回到未来》40周年联名表
  • 你的下一个「爱豆」不一定是真人,也可以是AI豆
  • 刚刚,谷歌深夜上新Veo 3.1!网友狂刷2.75亿条,Sora 2要小心了
  • 谷歌142页报告首发揭秘:90%码农每天用AI超2小时!
  • RL微调,关键在前10%奖励!基于评分准则,Scale AI等提出新方法
  • 谷歌×耶鲁联手发布抗癌神器!AI推理精准狙击「隐身」癌细胞
  • ACL 2025 | 北大提出动态焦点解码:让开放生成既“靠谱”又“好看”
  • 统一高效来了!清华发布RLinf-VLA:把VLA+RL的训练与部署“一网打尽”
  • GPT越来越保守?斯坦福Manning团队提出Verbalized Sampling,让模型重新“多想一点”
  • AI 时代,用一场「快闪」改变命运|IF 2026「AI 产品快闪」启动召集!
  • IF 2026 启动:来看看 AI 面前,谁在掌握主动权?
  • NeurIPS 2025 | 为Sora视频加上“隐形身份证”:清华大学等提出Safe-Sora,时空频率感知水印新框架
  • 从DNN到MLLM的异常之旅:视频异常检测(VAD)范式大迁徙
  • 苹果发布 M5 芯片笔记本和 iPad;微信:长时间不用账号,不再强行回收; 乔布斯登上一美元硬币
  • 马斯克的作业还是被奥特曼「抄走了」
  • 苏姿丰出手!Oracle下单5万颗AMD芯片,英伟达王座撼动
  • 具身智能算法哪家强?RoboChallenge见真章!全球首个大规模真机算法评测平台来了
  • NTU等联合提出A-MemGuard:为AI记忆上锁,投毒攻击成功率暴降95%
  • 苹果M5「夜袭」高通英特尔!AI算力狂飙400%,Pro三剑客火速上新
  • TPAMI 2025 | 华中科大与大疆等提出LLF-LUT++:4K照片增强仅需13ms,PSNR提升2.64dB!
  • IDEA提出Rex-Omni:将目标检测变为“下一个点预测”,零样本性能超越DINO
  • 罗福莉担任通讯作者,小米 × 北大联合发布R3:让MoE强化学习从崩盘回归可控
  • AAAI 2026联合会议征稿开启:大语言模型中的深度逻辑推理
  • 下周见!Wiley Advanced主编论坛@IROS 2025:从审稿人视角重塑论文表达
  • Altman:ChatGPT将支持成人内容;港版iPhone Air无法用内地eSIM;传雷军一夜掉粉30万|极客早知道
  • Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」
  • 英伟达AI超算3999开售,「掌心之中」可部署所有大参数开源模型!
  • 登顶Hugging Face GAIA全球榜首!中兴超级智能体终结「AI黑盒」时代
  • AI圈再颠覆!中国AI翻译耳机通话翻译,实测震撼
  • 一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军
  • vivo X300 Pro:以「水桶旗舰」之躯,重登旗舰山巅
  • 直到毕业我才懂:原来延期的博士,不止我一个
  • 让论文自己讲!Paper2Video一键生成论文讲解视频,赶顶会DDL不慌了
  • 8美元“驯服”DeepSeek-V3.2?Training-Free GRPO把RL成本打到地板
  • NeurIPS 2025 | PPFN:渐进式提示融合,让红外图像增强在复杂场景下性能提升8.76%
  • NeurIPS 2025 | 让AIGC视频变为可探索场景:Instant4D实现单目动态场景的分钟级重建
  • 库克抖音带货 iPhone 17 Air,22 日开售;小米客服回应「SU7 门把手」;「丐版」特斯拉明年国内投产

北大等提出MaskDCPT:通用图像修复预训练新范式,PSNR提升3.77dB

CV君 2025-10-18 07:06 江苏

一个模型搞定所有图像退化!

朋友们,今天想跟大家聊一篇图像修复领域的有意思的新工作。如今,我们对图片质量的要求越来越高,但拍摄过程中总免不了各种意外,比如模糊、噪点、光线不足等等。传统的图像修复模型往往是“专科医生”,一个模型对应一种问题。但我们更想要一个“全科医生”,一个模型搞定所有图像退化问题,这就是所谓的“通用图像修复”。

最近,来自 北京大学、JIUTIAN Research 和国防科大 的研究者们就提出了一个名为 MaskDCPT 的通用图像修复预训练方法。这个名字拆开看就是 Masked Degradation Classification Pre-Training(掩码退化分类预训练),思路可以说非常巧妙。它不直接一上来就修复图像,而是先学会“诊断”图像坏掉的类型。

简单来说,这个方法通过一个统一的框架,让模型在预训练阶段就见多识广,不仅学会重建高质量图像,还学会了识别输入图像的“病症”(即退化类型)。这种“诊断+治疗”的模式,让模型在面对各种复杂的、甚至是没见过的图像退化问题时,表现得异常出色。

从官方给出的效果图就能看到,无论是“五项全能”的综合修复任务,还是真实的现实世界场景,MaskDCPT 预训练过的模型在保真度和感知质量上都达到了顶尖水平。

研究背景与动机

通用图像修复的目标是用一个模型解决多种多样的图像退化问题,比如去噪、去模糊、去雨、低光增强等等。之前的预训练方法,很多是借鉴自然语言处理领域的成功经验,比如掩码自编码器(MAE),在图像上做类似“完形填空”的任务来学习特征。

但这些方法有个问题:它们大多只关注图像内容本身的重建,而忽略了一个非常重要的信息——图像究竟是“怎么坏的”。不同类型的退化(比如高斯噪声和JPEG压缩),其底层特征和修复方式是截然不同的。如果模型能提前知道退化类型,无疑会对修复工作大有裨益。

作者们认为,退化信息和图像内容信息在修复任务中是互补的。因此,他们想设计一种新的预训练范式,能同时利用这两种信息,从而学习到更通用、更强大的图像修复能力。

MaskDCPT:掩码退化分类预训练

为了实现这个目标,研究者们设计了 MaskDCPT 框架。这个框架的整体流程相当清晰直观。

它的核心思想可以概括为以下几步:

  1. 输入与掩码:输入一张低质量(退化)的图像,并像做“完形填空”一样,在图像上随机遮掉一部分小块(patch-level masking)。

  2. 编码器提取特征:一个修复骨干网络(比如 CNN 或 Transformer)作为编码器,负责从被遮挡的低质量图像中提取特征。

  3. 双解码器设计:接下来是关键,模型有两个“头”(解码器),分头行动:

    • 重建解码器:它的任务是利用编码器提炼的特征,把被遮挡的图像“脑补”完整,重建出对应的高质量、无损的图像。这是一个图像重建任务。

    • 分类解码器:它的任务同样是基于那些特征,但目标不是重建图像,而是判断输入的低质量图像到底属于哪一种退化类型(比如是模糊了,还是加了噪点)。这是一个分类任务。

通过这种方式,MaskDCPT 将退化类型作为一种“极弱监督”信号,巧妙地融入到预训练中。模型为了同时完成好“重建”和“分类”这两个任务,就必须学习到一种既懂图像内容、又懂退化信息的广义特征表示。CV君觉得,这种设计有点像让模型“知其然,亦知其所以然”,不仅要会修,还要知道修的是什么毛病,思路非常赞。

作者还通过实验发现,退化分类的准确率和图像修复的性能是正相关的,这印证了他们最初的猜想。同时,合适的掩码率(mask ratio)也很重要,太低了模型学不到上下文,太高了又会丢失关键信息。

上图展示了分类准确率与训练迭代次数、图像掩码率的关系,可以看到随着训练进行,分类准确率稳步提升,并且在75%的掩码率附近达到最佳。

UIR-2.5M:一个全新的大规模修复数据集

光有好的方法还不够,还需要足够多、足够好的数据来“喂养”模型。为此,作者们还贡献了一个大规模的通用图像修复数据集——UIR-2.5M

这个数据集有多“壕”呢?它包含了 250万 个图像对,涵盖了 19种 不同的退化类型和超过 200个 退化等级,而且同时包含了合成数据和真实的现实世界数据。这为训练更鲁棒、更通用的修复模型提供了坚实的基础。

实验效果:性能显著提升

MaskDCPT 的效果到底如何?实验结果给出了答案:非常惊艳。

全能型修复任务(All-in-One Restoration)

在包含去雨、去雪、去模糊、去噪和去雾的“五项全能”修复任务上,使用 MaskDCPT 预训练的模型,无论是基于 CNN 还是 Transformer 架构,性能都得到了巨大提升。

从上表中可以看到,与那些需要专门为“全能”任务设计的复杂模型相比,仅仅是用了 MaskDCPT 预训练的经典模型(如 Uformer),就在 PSNR/SSIM 等指标上轻松超越了它们。PSNR 指标平均至少提升了 3.77 dB,这是一个非常显著的进步。

视觉效果对比也同样证明了其优越性,修复后的图像细节更清晰,伪影更少。

真实世界与未见过的退化场景

更具挑战性的是在真实世界和“域外”(Out-of-Domain)场景中的表现。

在6种真实世界的退化任务上,MaskDCPT 预训练的模型在感知指标 PIQE 上相比基线降低了 34.8%,这意味着修复后的图像在人眼看起来更自然、质量更高。

上图的视觉对比非常直观,经过 MaskDCPT 预训练的模型能够更好地处理真实复杂的低光和模糊问题。

当面对训练时从未见过的高强度噪声(σ = 75的高斯噪声)时,MaskDCPT 展现了强大的泛化能力。

可以看到,只有经过 MaskDCPT 预训练的模型能够有效去除强噪声,同时不产生多余的奇怪纹理。

混合退化场景

在更复杂的混合退化场景(比如低光+模糊)中,MaskDCPT 同样表现出色。

无论是定量指标还是视觉效果,都证明了该方法在处理复杂光照和结构问题上的能力。

消融实验

作者还进行了一系列消融实验,验证了方法设计的合理性。例如,他们比较了不同的掩码策略和掩码率,证明了 patch-level 的掩码和75%的掩码率是最佳选择。

同时,他们也验证了退化分类这个任务的重要性,证明了它确实能帮助模型提升修复性能。

总结

总的来说,MaskDCPT 这个工作直观、有效,通过一个巧妙的双任务设计,为通用图像修复的预训练提供了一个全新的、更强大的范式。作者不仅提出了新方法,还贡献了宝贵的数据集和开源代码,可以说是非常扎实和全面的工作了。

大家对这个“先诊断、后修复”的思路怎么看?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

联系我们