动态列表

  • 马斯克的作业还是被奥特曼「抄走了」
  • 苏姿丰出手!Oracle下单5万颗AMD芯片,英伟达王座撼动
  • 具身智能算法哪家强?RoboChallenge见真章!全球首个大规模真机算法评测平台来了
  • NTU等联合提出A-MemGuard:为AI记忆上锁,投毒攻击成功率暴降95%
  • 苹果M5「夜袭」高通英特尔!AI算力狂飙400%,Pro三剑客火速上新
  • IDEA提出Rex-Omni:将目标检测变为“下一个点预测”,零样本性能超越DINO
  • 罗福莉担任通讯作者,小米 × 北大联合发布R3:让MoE强化学习从崩盘回归可控
  • 下周见!Wiley Advanced主编论坛@IROS 2025:从审稿人视角重塑论文表达
  • AAAI 2026联合会议征稿开启:大语言模型中的深度逻辑推理
  • Altman:ChatGPT将支持成人内容;港版iPhone Air无法用内地eSIM;传雷军一夜掉粉30万|极客早知道
  • Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」
  • 英伟达AI超算3999开售,「掌心之中」可部署所有大参数开源模型!
  • 登顶Hugging Face GAIA全球榜首!中兴超级智能体终结「AI黑盒」时代
  • AI圈再颠覆!中国AI翻译耳机通话翻译,实测震撼
  • 一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军
  • vivo X300 Pro:以「水桶旗舰」之躯,重登旗舰山巅
  • 8美元“驯服”DeepSeek-V3.2?Training-Free GRPO把RL成本打到地板
  • 让论文自己讲!Paper2Video一键生成论文讲解视频,赶顶会DDL不慌了
  • 直到毕业我才懂:原来延期的博士,不止我一个
  • NeurIPS 2025 | 让AIGC视频变为可探索场景:Instant4D实现单目动态场景的分钟级重建
  • NeurIPS 2025 | PPFN:渐进式提示融合,让红外图像增强在复杂场景下性能提升8.76%
  • 库克抖音带货 iPhone 17 Air,22 日开售;小米客服回应「SU7 门把手」;「丐版」特斯拉明年国内投产
  • 他用一生证明AI没有意识!「中文屋」提出者逝世,享年93岁
  • 今年诺奖成果曾遭质疑无用,但华人团队用它研制了未来芯片的「钥匙」
  • 剑桥揭开大模型翻车黑箱!别再怪它不懂推理,是行动出错了
  • ICLR神秘论文曝光!SAM3用「概念」看世界,重构视觉AI新范式
  • 硅谷爆发反AI「起义」!程序员拒用Cursor被一周解雇
  • 强化学习再迎范式切换:Sergey Levine团队把目标改写成“到达时间”
  • 如果RL可预测,我们还需要把训练跑满吗?中科大揭示参数更新的线性秘密
  • 国行 eSIM 尘埃落定,iPhone Air「下周见」
  • 为什么谷歌搜不到「没有条纹的衬衫」|AI 上新
  • SAM 3揭开面纱:不止分割万物,更能理解概念,交互式分割迎来新篇章!
  • ACM MM2025 Oral | MoSEAR:为多模态情感推理补齐“冲突场景”的短板
  • 雷军亲自测试,小米YU9实车谍照曝光;宇树获「秧歌机器人」专利;微团开卖「Win XP」蓝天白云拖鞋
  • 永别了,人类冠军!AI横扫天文奥赛,GPT-5得分远超金牌选手2.7倍
  • 濒死3次,医生判他死刑!宾大教授奇迹自救,誓用AI攻克14000种绝症
  • 告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星
  • Bug变奖励:AI的小失误,揭开创造力真相!
  • 复旦张军平:人类是硅基生命过渡体?
  • Meta Ray-Ban Display 首发体验合集:悬浮在现实中的一张便签
  • OriginOS 6 深度体验:当操作系统回归「体验为王」
  • 93%成功率!从“改提示”到“写剧情”:STaR-Attack用叙事推理攻破大模型防线
  • Mamba-3惊现ICLR 2026投稿:三重升级打满“推理优先”范式
  • 不到1 年卖出 40 万台,吉利星愿做对了什么?
  • NeurIPS 2025 | NTN-Diff:一石二鸟,利用空文本与频率感知破解图像修复难题
  • NeurIPS 2025 | Latent Harmony:潜空间和谐共生,实现UHD图像修复新SOTA
  • 马斯克脑机公司展示脑机控制机械臂;三星中国发布折叠屏新机,16999 元起售;滴滴自动驾驶获 20 亿元融资 | 极客早知道
  • 77岁「AI教父」Hinton:AI早有意识!我们打造的智能,可能终结人类文明
  • 全球首款1.8nm芯片亮相!华人CEO打响关键一战,英特尔杀回来了
  • 清华万引教授:万倍加速催化剂设计,AI突破DFT瓶颈!
  • 陶哲轩亲测!GPT-5 Pro 40分钟破解3年难题,登顶最难数学考试
  • 刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人
  • Attention is NOT All You Need:让“深度”重新流入时间,而非堆叠在参数之上
  • NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!
  • OpenAI 卖货做视频,Anthropic 专心写代码,谁能赢?
  • 一颗 1.8 纳米芯片,成了英特尔「最后的救赎」
  • 这款 AI 调研神器,让我一键产生 1000 个「种子用户」|AI 上新
  • 都用 GPT,为什么你没法中「百万大奖」?
  • ChatGPT 变身 App Store,「对话即应用」时代到了
  • IROS 2025 | 速度飙升24倍!巴黎萨克雷大学等提出HARP-NeXt:实时3D激光雷达分割新标杆
  • IROS 2025 Oral | RAG-6Dpose:三大创新模块,利用 CAD 作为知识库进行检索增强 6D 姿态估计
  • 「丐中丐」版特斯拉来了,Model 3/Y降价超3.5万元
  • 高德扫街榜的 23 天奇袭
  • 张一鸣近年来首次公开亮相;微软上海开始新一轮裁员,补偿N+4;罗永浩锐评 iPhone 17
  • GPT-5王者归来?奥特曼称AI已跨科学门槛,三大学科正迎来实质性突破
  • 老黄押宝「美版DeepSeek」!谷歌天才叛将创业,一夜吸金20亿美元
  • 任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码
  • 13万被引!ImageNet作者苏昊或将加盟复旦
  • 250份文档投毒,一举攻陷万亿LLM!Anthropic新作紧急预警
  • 和两位 CEO 聊 Sora: 应用层爆发的里程碑事件,创业者的机会来了
  • 新一代短剧人,涌向郑州「淘金」
  • 社交媒体的黄金时代,结束了
  • 东京大学、牛津大学等联合发布VLA万字综述:机器人迈向通用智能的全栈指南
  • U-Bench:U-Net十年“大乱斗”终结者,100个变体、28个数据集的终极对决
  • DeepSeek苦练1T,清华只用5B?InfLLM-V2把稀疏注意力玩明白了
  • 北京/上海内推 | 阶跃星辰招聘RL for AIGC方向算法研究员/实习生
  • EMNLP 2025 | 拨云见日:知识电路分析揭示大语言模型“知识遮蔽”幻觉之源
  • Sora 下载量破 100 万次;国庆中秋假期国内游总花费超过 8000 亿元;智驾多位核心高管离职,蔚来回应|极客早知道
  • 谷歌杀入诺奖神殿,两年三冠五得主!世界TOP3重现贝尔实验室神话
  • OpenAI×英伟达,可能创造了人类史上最大万亿级泡沫
  • H-1B正在筛掉「下一个英伟达」?
  • 全球AI视频大战升级!「中国版Sora」Vidu Q2参考生月底发布,能力对标Sora 2
  • 第二代InfLLM开源,同尺寸快三倍!零参数,可训练稀疏注意力
  • 马毅团队重磅发布新书:从MCR²到白盒Transformer,重构深度学习的第一性原理
  • 稳住训练、跑出泛化:STAGE重写「自回归图像生成」的强化学习范式
  • 腾讯推出TRM:让大模型像人类一样批判性思考,从文本依赖到事实正确
  • 北大等提出TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%
  • Diffusion²来袭:威斯康星大学&华盛顿大学等提出双扩散模型,“回溯历史-预测未来”,破解自动驾驶“鬼探头”难题
  • 把我的第一次日本旅行,完全交给 AI 是什么体验?
  • 英伟达将投资马斯克的 xAI;低价版Model 3/Y 「阉割」智驾功能;微信推出批量撤回信息功能

TPAMI 2025 | 华中科大与大疆等提出LLF-LUT++:4K照片增强仅需13ms,PSNR提升2.64dB!

CV君 2025-10-15 15:44 江苏

全局局部协同处理,实现高清图像实时增强,性能与速度兼得。

最近,来自华中科技大学、大疆和香港理工大学的研究者们,为我们带来了一项非常酷的工作。他们提出了一种名为 LLF-LUT++ 的新型金字塔网络,完美解决了高分辨率照片增强中“效果”与“效率”难以兼得的痛点。

想象一下,处理一张4K超高清照片,从普通变得惊艳,需要多长时间?过去那些效果强大的模型可能需要几十甚至上百毫秒,而追求速度的模型效果又往往不尽人意。而 LLF-LUT++ 直接将这个时间压缩到了 13ms,同时在权威数据集上实现了 2.64 dB 的PSNR提升。这几乎意味着,我们可以在手机、无人机等设备上,实时享受到专业级的画质增强效果了。

下面,我们就来一起看看这项技术是如何实现的。

  • 论文标题: High-resolution Photo Enhancement in Real-time: A Laplacian Pyramid Network

  • 作者团队: Feng Zhang, Haoyou Deng, Zhiqiang Li, Lida Li, Bin Xu, Qingbo Lu, Zisheng Cao, Minchen Wei, Changxin Gao, Nong Sang, Xiang Bai

  • 所属机构: 华中科技大学; 大疆创新; 香港理工大学

  • 论文地址: https://arxiv.org/abs/2510.11613

  • 代码仓库: https://github.com/fengzhang427/LLF-LUT

  • 录用信息: TPAMI 2025

研究背景:速度与激情的两难选择

在计算摄影领域,照片增强一直是个热门话题。无论是调整曝光、恢复色彩,还是提升清晰度,目的都是让照片更“好看”。近年来,基于深度学习的方法层出不穷,效果也越来越好。但一个现实问题摆在面前:

  • 性能强大的模型:通常网络复杂、计算量大,在电脑上跑跑还行,一旦想部署到手机、无人机这些算力有限的“边缘设备”上,就力不从心了,速度根本跟不上。

  • 追求效率的模型:为了快,不得不牺牲模型复杂度,导致增强效果大打折扣,难以满足真实场景的需求。

如何在保证顶级效果的同时,实现超高效率,尤其是在处理4K、8K这类高分辨率图像时,成为了一个亟待解决的难题。这正是 LLF-LUT++ 想要攻克的方向。

LLF-LUT++:全局与局部协同的艺术

为了打破僵局,研究者们提出了一种基于拉普拉斯金字塔(Laplacian Pyramid)分解与重建的思路。它的核心思想是“分而治之”。一张高分辨率图像,可以被分解成一个低分辨率的基础层(包含全局光影和色彩信息)和多个高频层(包含边缘和纹理细节)。

这样一来,我们就可以用不同的策略来处理不同的信息:

  • 全局增强:在低分辨率图像上进行,计算量小,可以快速调整整体色调和对比度。

  • 局部增强:在高频层上进行,针对性地锐化边缘、增强细节。

LLF-LUT++ 正是基于这个原理构建的。整个框架如下图所示,它主要由全局增强和局部细节精炼两个核心部分组成。

全局增强:基于3D LUT的智能调色

对于全局增强,模型采用了一种图像自适应的3D查找表(3D LUT)技术。你可以把3D LUT想象成一个高级的“调色滤镜”,它定义了输入颜色到输出颜色的映射关系。但传统的LUT是固定的,而LLF-LUT++的LUT是动态生成的,能根据每张图片的内容自适应调整。

为了实现这一点并提高效率,模型首先将高分辨率输入图(I_HR)下采样得到低分辨率版本(I_LR)。然后,一个轻量级的Transformer权重预测器会分析这个低分辨率图像,并预测出两组权重:一组用于优化高分辨率图像,另一组用于优化低分辨率图像。这种双重权重融合策略,可以实现更精细的全局调整。

空间-频率Transformer:更懂图像的权重预测器

如何精准地预测出LUT的权重,是全局增强的关键。研究者们设计了一个新颖的“空间-频率Transformer”(spatial-frequency transformer)。与传统的只关注空间信息的Transformer不同,它还引入了傅里叶变换,从而能够同时捕捉图像在空间维度和频率维度的特征。

简单来说,频率特征能更好地反映图像的整体色调和风格,这对于预测全局调色参数至关重要。该网络以低分辨率图像为输入,通过多层编解码器结构,最终输出用于构建3D LUT的权重,实现了对图像内容的深度理解。

局部精炼:自适应拉普拉斯滤波器

在完成全局增强后,图像被分解到拉普拉斯金字塔中。对于金字塔中的高频层,模型应用了自适应的局部拉普拉斯滤波器(Local Laplacian Filter, LLF)来精炼细节。这个滤波器同样是内容自适应的,它能根据图像的局部特征,智能地增强边缘和纹理,同时避免产生光晕等不自然的瑕疵。

最终,经过精炼的高频层和增强后的低频基础层被重新组合,重建出最终的高质量图像。

实验效果:快得不止一点,效果好得非常明显

是骡子是马,拉出来遛遛。研究者们在两个主流的图像增强基准数据集(HDR+ 和 MIT-Adobe FiveK)上进行了大量实验。

从下面的定量对比表中可以看到,在处理4K分辨率图像时,LLF-LUT++ 的速度达到了惊人的 13ms,远超其他SOTA方法。同时,在HDR+数据集上,比次优方法高出 2.64dB,这是一个非常显著的提升。

在MIT-Adobe FiveK数据集上,LLF-LUT++ 同样在性能和速度上取得了最佳的平衡。

除了冷冰冰的数字,视觉效果的对比更加直观。无论是低分辨率还是原始高分辨率的图像,LLF-LUT++ 处理后的结果在色彩、对比度和细节上都更胜一筹,并且伪影更少。图片左上角的误差图(Error Map)颜色越深表示与专业修图师处理结果的差距越大,可以看到LLF-LUT++的误差图是最暗的。

HDR+ 数据集效果对比:

MIT-Adobe FiveK 数据集效果对比:

此外,论文还做了详尽的消融实验,验证了模型各个组件的有效性。例如,从基线的3D LUT方法开始,逐步加入像素级权重图、Transformer主干、局部拉普拉斯滤波器等,性能一路提升,证明了每个设计都不是多余的。

权重融合策略和金字塔层数的选择也经过了细致的对比分析,确保了最终方案的最优性。

总结

LLF-LUT++ 通过将拉普拉斯金字塔分解与现代深度学习技术(如Transformer和自适应LUT)相结合,成功地在实时高分辨率照片增强任务中实现了SOTA级别的性能和前所未有的速度。这项工作不仅为边缘设备上的高级图像处理铺平了道路,其“全局+局部”和“空域+频域”结合的设计思路,也为其他计算机视觉任务提供了宝贵的借鉴。作者已经开源了代码,CV君强烈建议感兴趣的同学去亲自体验一下。

大家对这个方法怎么看?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

联系我们