动态列表

  • 陶哲轩联手GPT-5,1小时攻克数学难题!全程无需编码,OpenAI副总惊呼
  • 1亿签约金抢AI大神?谷歌AI元老劝退全网:别再读博了!
  • 三天逆袭,Sora登顶美榜!15秒大片玩疯奥特曼,全网直呼真假难辨
  • 10个Agent一键组队:并行智能体协作,端到端交付从24h缩减到4h!
  • 首位AI女演员出道!好莱坞「天敌」来了,下一代偶像全是代码制造?
  • 网红挑战特斯拉FSD穿越美国出车祸;小米回应「小米汽车突然自己开走」;Sora 登顶美区苹果商城免费榜
  • 刚刚,Anthropic紧急换帅!新任CTO执掌算力命脉,直面OpenAI千亿赌局
  • Gemini 3.0 Pro内测流出,编程实力惊人!下周上线
  • 刚刚,奥特曼首曝:AI取代CEO后,我想去当农民!
  • 华人主导谷歌SLED,论文登顶会!一键让模型学会自救
  • LeCun考虑辞职!Meta AI百亿豪赌引爆「内战」,逼走首席科学家
  • NeurIPS 2025 | RAD:基于大规模3DGS孪生数字世界的端到端强化学习训练策略
  • 小米 17 系列销量超百万;苹果新产品泄密源头疑为越南工厂;低价版 model Y 现身官网代码|极客早知道
  • 刚刚,这家0产品0模型就估值854亿的公司,终于发布了首款产品!
  • 刚刚,奥特曼亲赴,韩国「举国」投靠!
  • 奥特曼「一张脸」引爆全球狂欢!Sora 2冲上APP榜第三,邀请码炒到1250元
  • 60岁老人AI养生三个月吃进医院!「AI精神病」全球扩散,OpenAI急招医生
  • 一杯咖啡,3亿美金!斯坦福天才少女退学创业,Meta AI大牛排队加入
  • 武大新作MASt3R-Fusion:融合IMU与GNSS,为新一代视觉SLAM注入“多感官”智慧
  • 中科大、清华、快手等发布OpenGPT-4o-Image:为多模态AI打造的“超级燃料”,图像编辑性能提升18%
  • 历史首位,马斯克身家突破 5000 亿美元;王腾注销、清空多个社媒账号;美国演员工会抵制 AI 演员
  • 刚刚,OpenAI Sora 2重磅登场!首个APP上线,或将成为AI时代新TikTok
  • Sora 2全网疯狂实测:以假乱真、脑洞大开、虚实难分|附首个APP教程和邀请码
  • OpenAI和DeepMind大佬离职联手,誓用AI科学家实现室温超导!已融3亿美元
  • 南洋理工联合商汤提出Visual Jigsaw:像玩拼图一样,显著提升多模态大模型的视觉理解力
  • 天津大学联合腾讯提出Wan-Alpha:一键生成高质量透明视频,发丝级抠图不再是梦
  • OpenAI 深夜重磅推出新视频模型和独立 App;英伟达市值突破4.5万亿美元;特斯拉预计推出第三代人形机器人 | 极客早知道
  • 刚刚!软银系创始人4个月打造机器人超级黑马,获2轮近亿元融资
  • 博士生,当代最穷科研民工?Nature最新调查:不涨工资,我们就跑路了
  • Thinking Machines曝LoRA终极指南:10倍学习率,媲美全参微调
  • AI改造出行体验:滴滴的试验能否开启行业范式转变?
  • GPT-5「降智」真相曝光:不是变笨,而是五个超级开关没激活
  • OpenAI 刚刚发布了属于 AI 的抖音,还有 Sora 2
  • DeFacto:用强化学习治愈AI幻觉,让多模态模型“有据可查”
  • YOLO26首份学界评论:端到端无NMS,目标成为边缘设备实时目标检测新标杆
  • NeurIPS 2025 | 清华大学与华为等提出全新正则化方法,破解稀疏视图3DGS“协同适应”难题
  • 榜一换人!OCRBench v2九月新榜:揭示多模态大模型文档智能真实水平
  • 把“俄罗斯方块”搬进设计室:物竞天择让振动微型机器人进化得越跑越快
  • LoRA到底能否媲美全参?Thinking Machines用实验曲线划出「无悔区」
  • DeepSeek V3.2 发布,API 成本减半;特斯拉员工被机器人打伤,索赔 5100 万美元;Claude 新模型登场
  • 谷歌Veo 3论文竟无一作者来自美国!揭秘零样本「看懂」世界
  • 零样本「即插即用」!智源开源RoboBrain-X0,一个基座模型开动不同机器人
  • AI老司机现身重庆!徐峥挑战赛车手,上演「不再囧途」
  • 强化学习之父给LLM判死刑!站队LeCun:我们全搞错了
  • 独家!DeepSeek最新模型上线,全新注意力机制基于北大ACL最佳论文
  • 北京内推 | 快手可灵AI技术部招聘视频生成/数字人方向算法实习生
  • KDD 2025 | 看不见也能控:用“基混杂向量”打穿分布移位,交通预测稳了
  • 4B逼近DeepSeek-R1!Bengio团队「递归聚合」刷新小模型上限
  • 在云栖,我们遇见了最会玩的「AI 原住民」
  • NeurIPS 2025 | UniPixel:首个统一对象指代与分割的像素级推理框架,让大模型看懂每一个像素
  • NeurIPS 2025 | Seg4Diff:无需分割头,揭示并放大扩散Transformer中的涌现分割能力
  • 做 AI 陪伴收获 1000 万用户后,前微信 AI 产品负责人,要重新定义生活里的 AI
  • 透视阿里云产品生态团队:AI 落地的「关键通道」
  • OpenAI「降配门」发酵,偷换模型遭全网实锤;小米 SU7 在日本首秀;苹果内部测试类 ChatGPT 应用|极客早知道
  • OpenAI「GPT门」事件引爆!Plus、Pro账户统统降配,偷换模型全网实锤
  • 突发,普林斯顿CS博士后猝然离世!清华本科毕业,刚完成论文答辩
  • 国内首次!8.9毫秒推理速度破纪录,1元打穿百万token
  • 惊现高管离职潮!马斯克亲信操盘xAI,千亿美元能填AGI野望?
  • 黄仁勋2小时反驳「AI泡沫帝国」论!英伟达将成全球首家十万亿市值公司
  • 云与AI,如何托举 Z 世代的创新野心
  • 8GB显卡的逆袭!SSD换显存,3060 Ti硬跑100k长上下文
  • NeurIPS 2025 | 我奶奶都能复现?条件表征学习:矩阵一乘,表征立马“对齐”!
  • 北京/杭州内推 | 阿里通义实验室招聘多模态大模型与智能体方向算法实习生
  • InterDigital开源CompressAI-Vision:为“AI看”的视频压缩,打造一个“通用跑分平台”
  • NeurIPS 2025 | 北大等提出C²Prompt:解耦类内与类间知识,破解联邦持续学习“双重遗忘”难题
  • 24.98万的理想i6,在特斯拉、小米、蔚来「后院」放了一把火
  • 小米 17 开售 5 分钟,破国产机销售纪录;Meta 研发机器人项目;国内发布「脑机接口标准」

南理工提出FMC-DETR:巧用“频率解耦”,航拍小目标检测精度飙升8.2% AP50

CV君 2025-10-04 12:12 江苏

新方法从频域入手,让AI在万米高空也能看清微小目标。

在广阔的航拍图像中,要准确地找出那些只占了几个像素点的微小目标,比如远处的车辆、行人,无疑是一项极具挑战性的任务。这就像是在一幅巨大的画卷中“找茬”,不仅考验眼力,更考验对整个画面的理解能力。这项技术在自然资源监测、交通管理、无人机搜救等领域至关重要。

目前的方法在处理这类问题时,常常陷入一个两难的境地:为了看清微小目标的细节,需要依赖网络浅层的、高分辨率的特征;但为了判断这个小目标到底是什么,又需要网络深层的、包含全局信息的上下文。如何有效地融合这两者,一直是个难题。

最近,来自南京理工大学的研究者们提出了一种全新的框架 FMC-DETR,巧妙地从“频域”入手,解决了这个难题。在他们的新论文 《FMC-DETR: Frequency-Decoupled Multi-Domain Coordination for Aerial-View Object Detection》 中,他们通过解耦不同频率的信息,实现了对航拍小目标前所未有的精准检测。

问题的核心:局部细节与全局上下文的“两难全”

在信号处理中,我们知道图像的高频部分对应着边缘、纹理等细节信息,而低频部分则对应着轮廓、背景等全局结构信息。

对于航拍小目标检测:

  • 高频细节 至关重要,因为目标本身就很小,所有可用的视觉线索都包含在这些高频信息里。

  • 低频上下文 同样不可或缺,它能帮助模型判断一个“小点”究竟是路灯、是车,还是噪声。

现有方法往往在网络深层才进行上下文融合,此时浅层的细节信息已经丢失很多。或者在融合时,全局信息(低频)会“污染”或“模糊”掉宝贵的局部细节(高频),导致性能瓶颈。

FMC-DETR:从频域入手,解耦多域协同

FMC-DETR的核心思想,就是 频率解耦(Frequency-Decoupled)。它不再将不同尺度的特征简单混合,而是先在频域上将它们分离开,有针对性地处理,最后再进行高效的多域协同(Multi-Domain Coordination)。

整个框架主要由三个创新模块构成:

1. WeKat骨干网 (Wavelet Kolmogorov-Arnold Transformer)

这是一个全新的骨干网络,也是实现频率解耦的关键。它包含两大“神器”:

  • 小波变换 (Wavelet Transform) :在网络的浅层特征上,作者创新性地引入了级联小波变换。小波变换是信号处理中一种强大的工具,能完美地将信号分解为高频和低频部分。这样一来,模型就可以在不破坏高频细节(保留小目标)的前提下,单独增强低频的全局上下文感知能力。

  • Kolmogorov-Arnold网络 (KANs) :这是近期非常火热的一种新型神经网络结构,理论上比传统的多层感知机(MLP)具有更强的非线性建模能力。作者用它来替代传统Transformer中的MLP,从而能更自适应地对多尺度特征之间的复杂依赖关系进行建模。

2. 轻量级跨阶段局部融合 (CPF)

这个模块用于高效地融合来自不同阶段的特征,它通过局部融合的方式,减少了冗余计算,提升了多尺度特征的交互效率。

3. 多域特征协同 (MDFC)

这是最后的“总指挥”。它将来自空间域(原始像素)、频率域(小波处理后)和结构先验(模型学到的)的信息进行统一,实现优势互补,最终在保留细节和增强全局感知之间取得完美平衡。

更少参数,更高精度:SOTA级的检测性能

FMC-DETR不仅设计巧妙,实际效果也相当惊人。在极具挑战性的VisDrone等航拍数据集上,它以更少的参数量,取得了当前最先进(SOTA)的性能。

与基线模型相比,FMC-DETR在VisDrone数据集上,将整体检测精度(AP)提升了 6.5%,将在小目标上更为关键的AP50指标提升了 8.2%

从下面的可视化热力图对比中,我们可以直观地看到FMC-DETR的优势。对于密集的小目标(如车辆),基线模型的注意力(亮区)非常分散,而FMC-DETR的注意力则能精准地聚焦在每一个目标上,从而实现了更准确的检测,减少了漏检和误检。

与基线模型在不同数据集上的定性比较:

从中大家也可以看到此类小目标检测的难度的确不小。

CV君认为,FMC-DETR的成功,为应对计算机视觉中的多尺度问题,特别是小目标检测,提供了一个全新的、极具潜力的思路。作者也提供了代码仓库,期待后续代码的放出。

将信号处理中的频域分析思想引入到目标检测,大家觉得这个方向还有哪些潜力可挖?欢迎在评论区分享你的看法!

阅读原文

跳转微信打开

联系我们