动态列表

  • 谷歌DeepMind最新论文,刚刚登上了Nature!揭秘IMO最强数学模型
  • ICLR 2026出分,审稿员怒喷「精神病」!DeepMind研究员教你绝地求生
  • GPT-5.1发布当天,文心5.0杀回来了
  • 一句「你还好吗」值40亿?斯坦福博士出走xAI,押注AGI共情力
  • 营收狂飙的「暗面」:Meta成「全球欺诈大本营」?
  • 小鹏科技日「太魔幻」:机器人走猫步,飞行汽车接近量产
  • AAAI 2026 Oral 中科大联合西工大提出RSKT-Seg:专为遥感打造的高效开放词汇分割框架,推理提速2倍
  • 深度研究智能体真的“懂你”吗?OPPO × 浙大首发个性化深度研究评测基准
  • 博士申请 | 佛罗里达大学计算机系招收NLP/LLM方向全奖博士/实习生
  • DeepSeek罗福莉正式亮相小米AI;「周杰伦概念股」联手宇树造 IP 机器人;乘用车百公里加速不少于5秒
  • 奥特曼下注27岁神秘青年,「复活」世界最顶级实验室
  • AI秒破18世纪「天书」账本!谷歌新模型盲测刷屏全网
  • Llama 4造假丑闻幕后:小扎豪赌143亿,却为中国AI「做了嫁衣」
  • 少年沉迷AI自杀,9岁遭性暗示!这门「孤独生意」,正推孩子入深渊
  • ConsistEdit:重新定义AI视觉编辑,港科大、清华等机构提出MM-DiT注意力控制新方法
  • NeurIPS 2025 | 中科院携手快手发布LiveStar:首个“会说话、懂沉默”的直播AI,推理速度提升1.53倍
  • 双十一算力真敢卷!RTX 5090低至0.69元/时,同预算跑更多实验
  • AAAI 2026 | 悉尼科技大学 × 港理工推出 FedVLR:让联邦推荐也能“懂图文”
  • 北京内推 | 阿里高德地图团队招聘大模型方向算法实习生(可长期/转正)
  • 对话元理智能张帆:为什么「商业强化学习」,才是 AI To B 的新出路
  • 深度复盘:大疆是如何成为影像领域新巨头的?
  • 传李想亲抓人事,华为系高管退出理想;Meta 首席 AI 科学家杨乐昆离职创业;AI 减肥或致饮食失调
  • Nature子刊:太空中建数据中心,无限能源,浙大首次证实可行!
  • 英伟达铁幕之后,谷歌AI芯片已成气候
  • 翻译界的ChatGPT时刻!Meta发布新模型,几段示例学会冷门新语言
  • 硅谷GPU蒙尘,马斯克一言成谶:美国AI被电卡脖子
  • 65岁图灵巨头离职创业!LeCun愤然与小扎决裂,Meta巨震
  • 年产值突破 150 亿,刚毕业的俊男美女涌入「团播」工厂
  • 马斯克想要 1 万亿,何小鹏只想等一句「牛 P」
  • 通往AGI的歧路:上海AI Lab重磅发现,自进化智能体可能“错误进化
  • 北京内推 | 百度文心一言基座团队模型组招聘大模型方向研究型实习生
  • 全模态到底是不是“1+1>2”?美团UNO-Bench揭示单模态与全模态能力的组合规律
  • NeurIPS 2025 | 上交大、南农大提出ADPretrain:为工业异常检测量身打造的预训练“超能力”
  • 3DV 2026 | 特伦托大学等提出DEMO:让AI看懂复杂人体动作,实现密集描述新范式
  • 小米汽车 10 月销量近 5 万,YU7 超 Model Y;美团 AI 编程工具开启公测;马化腾王传福成智元机器人受益股东
  • AI版PUA!哈佛研究揭露:AI用情感操控,让你欲罢不能
  • AI领域全新热门职业,岗位需求今年已增长逾800%
  • 硅谷10万大裁员真相:AI根本没想取代你,是老板想干掉你
  • OpenAI试图绑架美国政府,奥特曼还有救命底牌?
  • 全球68%科研人压力爆表,高校AI人才集体大逃亡!
  • 「传统教育」的船快沉了,人们却还在挤「头等舱」
  • 保暖?排汗?时尚?户外运动装备这道「选择题」,亚瑟士要打破「不可能三角」
  • EMNLP 2025 | 别再只看KV了!LLM越深越稀疏:UNCOMP用矩阵熵给出答案
  • 过去五年,BERT都在被“过度训练”?LeCun团队给出Encoder算力最优范式
  • 北京内推 | 腾讯AI Lab招聘大模型/多模态大模型方向研究型实习生
  • 在 Cursor 工作 60 天,我发现了这家公司成功的秘密
  • 这款 AI 写作神器,让数百网文作者「月入过万」|AI 上新
  • ACM MM 25 当MLLM遇上行人重识别:是“降维打击”还是“水土不服”?深度评测来了!
  • AI“世界模型”离真实手术还有多远?首个外科视频生成基准SurgVeo揭示“合理性差距”
  • 美国AI巨头股缩水8000亿美元;传Meta靠诈骗广告收入超千亿;《英雄联盟》S15总决赛T1夺冠|极客早知道
  • 谷歌二代Nano Banana爆出!一键推演微积分,终结PS时代
  • 狗也被AI抢饭碗?好莱坞动物演员全下岗,观众直接翻脸了!
  • ChatGPT求婚火了,一句「我愿意」刷屏!网友:是真爱了
  • 小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」
  • NeurIPS25 | 清华&北大提出LinearDiff-ViT:让Transformer学会“找不同”,实打实提升模型性能
  • AI 六巨头罕见同台,辨论 AI 泡沫;SpaceX 公布简化版登月舱方案;王者荣耀年度总决赛首次在鸟巢举办
  • LLM首次达到人类语言专家水平!OpenAI o1拿下拆解句法、识别歧义、推理音律
  • 仅2天!谷歌AI破解十年谜题,锁定救命药人类全失手
  • 终结Transformer统治!清华姚班校友出手,剑指AI「灾难性遗忘」
  • 仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类
  • AI六巨头罕见同台!李飞飞激辩LeCun,黄仁勋:你们都错了
  • 复盘大疆 Pocket 的七年:从「定义产品」到「定义时代」
  • TRO'25开源|机器人建图的终局?一个框架搞定光学、几何与语义!
  • 10.58 万!零跑造了一台「红米 YU7」
  • 当一家传统车企,终于决定「师中长技」
  • AI热潮推动,全球 DRAM 内存价格暴涨;泡泡玛特回应直播事故;媒体爆料iPhone 18 Pro工程机进展
  • 强化学习教父重出江湖, 生成式AI的时代要结束了?
  • 英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万
  • 投85份简历0 Offer!CS研究生心态崩了,亲历20年最猛裁员潮
  • 视频模型假装在推理?MME-CoF新基准评估12个推理维度
  • Ilya、小扎之后,苏莱曼的「超级智能」进入7年倒计时!
  • IROS 2025 | 北理工提出BoRe-Depth:仅8.7M参数,在嵌入式设备实现50.7 FPS高清深度估计
  • TCSVT 25 | 宁波诺丁汉大学等提出De-LightSAM:仅需SAM-H 2%参数,实现通用化医疗影像自动分割
  • 有些答案,听 AI 说一百遍,不如和「最有料的人」聊一次
  • 上交大刘鹏飞团队:Context Engineering进入2.0,上下文成为可操作对象
  • 工程&计算机领域前沿洞察 | Synthesis技术前沿报告合集
  • 用 AI 做电商真实效果如何?我们调研了双 11 一线从业者
  • 马斯克 1 万亿美元的薪酬方案获特斯拉股东批准;东方甄选孙东旭离职;Altman:今年 OpenAI 年化收入将达 200 亿美元

Roboflow&CMU论文披露RF-DETR细节:首个COCO数据集突破60 AP实时目标检测,速度飙升20倍!

CV君 2025-11-13 14:08 江苏

还在为模型调参和适配硬件发愁吗?也许你需要的是一个能“变形”的检测器。

2025年3月,来自Roboflow和卡耐基梅隆大学的研究团队联手,推出了一项名为RF-DETR的重磅研究,其声称是首个COCO数据集突破60 AP实时目标检测算法。最近他们发布了相关论文,披露其技术细节。它巧妙地将神经架构搜索(Neural Architecture Search, NAS)与DETR(DEtection TRansformer)相结合,旨在解决一个长期存在的痛点:如何在保持高精度的同时,为不同硬件和应用场景快速定制出最高效的实时目标检测器。

这项工作最引人注目的地方在于,它提出了一种“一次训练,到处部署”的范式。通过一次性的“超网”训练,就能得到一个包含成千上万种架构的“模型家族”。需要新模型时,只需从中“搜索”出一个在特定延迟和精度要求下最优的即可,无需重新训练,极大地提升了模型迭代和部署的效率。

研究背景:从通用大模型到“专才”小模型的挑战

近年来,像GroundingDINO这样的开放词汇(open-vocabulary)检测器在COCO等标准数据集上取得了惊人的零样本检测效果。但它们就像是“通才”,知识渊博但不够专精。当面对真实世界中各种“非主流”的垂直领域数据时(比如工业质检、农业病虫害识别),它们的泛化能力往往会下降。

一个直接的思路是拿这些庞大的视觉语言模型(VLM)在特定领域数据上进行微调。这确实能提升性能,但代价是巨大的——不仅牺牲了推理速度(因为VLM通常很重),还可能丢失了原有的开放词汇能力。

另一方面,像RT-DETR和YOLO系列这样的“专才”检测器,虽然速度飞快,但在精度和对新领域的适应性上,又常常不如那些经过微调的“通才”。

于是,一个核心矛盾摆在了我们面前:我们能否拥有一种既有“专才”模型的速度和效率,又能快速适应不同领域需求的检测器?RF-DETR正是为了解决这一问题而生。

RF-DETR的核心方法:权重共享与架构搜索

RF-DETR的核心思想是权重共享的神经架构搜索(Weight-Sharing NAS)。研究者们没有设计一个固定的网络结构,而是构建了一个包含多种架构可能性的“超网”(Supernet)。在训练这个超网时,每一次迭代都会随机采样一个“子网”(Sub-net)配置进行更新。

上图展示了RF-DETR的基础架构。它采用预训练的ViT(如DINOv2)作为骨干网络提取多尺度特征,并通过交错使用窗口化和非窗口化的注意力模块来平衡精度与延迟。值得注意的是,可变形交叉注意力和分割头都利用了投影器的输出,保证了特征空间组织的一致性。

训练完成后,这个“超网”就相当于一个巨大的模型库。当需要一个特定性能(比如,延迟必须低于5ms)的模型时,不再需要从头训练,而是可以直接在这个超网中搜索满足条件的最佳子网配置。

“架构调优旋钮”:RF-DETR的五大可变参数

为了实现灵活的架构搜索,RF-DETR定义了五个关键的“可调旋钮”(Tunable Knobs),在训练过程中动态变化,这种方法也被作者称为“架构增强”(Architecture Augmentation),它本身也像一种正则化手段,提升了模型的泛化能力。

这五个“旋钮”分别是:

  • (a) Patch大小:更小的Patch能捕捉更精细的特征,提升精度,但计算量更大。

  • (b) 解码器层数:解码器层数越多,通常性能越好,但延迟也越高。RF-DETR可以在推理时“丢弃”任意数量的解码器层,从而灵活控制速度。

  • (c) 查询(Query)数量:Query的数量决定了模型一次最多能检测出多少个物体。在推理时可以根据置信度丢弃多余的Query,减少计算。

  • (d) 图像分辨率:高分辨率图像有助于检测小目标,但更耗时。

  • (e) 窗口注意力块中的窗口数量:窗口注意力将自注意力计算限制在局部区域,调整窗口数量可以平衡全局信息交互和计算效率。

通过对这些维度进行组合,RF-DETR能够探索一个巨大且连续的精度-延迟帕累托前沿,为各种应用场景找到量身定制的模型。

惊人的实验结果:精度与速度的双重突破

RF-DETR在一系列实验中展示了其卓越的性能,无论是在标准的COCO数据集,还是在更具挑战性的、包含100个不同真实世界场景的Roboflow100-VL数据集上。

上图展示了RF-DETR与其他实时检测器在COCO和RF100-VL上的精度-延迟帕累托曲线。可以看到,RF-DETR的曲线(橙色)在各个延迟档位上都显著优于其他方法,实现了更优的权衡。

COCO检测性能

在COCO检测任务上,RF-DETR的表现堪称惊艳。

  • 轻量级对决RF-DETR (nano) 在相似的延迟下,COCO AP达到了48.0,比当时的SOTA模型D-FINE (nano)高出了整整5.3 AP。同时,它的性能也与YOLOv8/YOLOv11的中等型号(M)相当。

  • 重量级突破RF-DETR (2x-large)更是取得了60.1 AP的成绩,据论文所称,这是第一个在COCO上超过60 AP的实时检测器

真实世界泛化能力 (RF100-VL)

在更能体现模型泛化能力的RF100-VL基准上,RF-DETR同样表现出色。

  • RF-DETR (2x-large)的AP比强大的开放词汇模型GroundingDINO (tiny)高出1.2 AP,而推理速度却是后者的20倍!这充分证明了RF-DETR在保持高精度的同时,实现了极高的运行效率。

  • 与YOLO系列相比,DETR-based方法(包括RF-DETR)在RF100-VL上表现出更强的扩展性,即模型尺寸增大时,性能提升更明显。

消融实验的启示

论文还通过一系列消融实验,验证了各个设计选择的有效性。

  • 骨干网络的选择:实验证明,使用DINOv2作为骨干网络比使用CAEv2带来了显著的性能提升(约2.4% AP),这得益于DINOv2更强大的预训练知识。

  • NAS的价值:一个反直觉的发现是,即使只是引入权重共享NAS的训练机制,而不改变最终模型的固定架构,其性能相比于直接训练该固定架构也有所提升。这说明“架构增强”本身就是一种有效的正则化方法。

总结

RF-DETR为实时目标检测领域带来了一股清新的风。它通过权重共享的神经架构搜索,优雅地解决了为不同应用场景和硬件平台定制高效模型的难题。其“一次训练,按需搜索”的理念,不仅显著降低了计算成本,也为DETR这类强大的架构在真实世界中的广泛部署铺平了道路。

这项工作不仅刷新了多个基准测试的SOTA,更重要的是,它提供了一套实用的方法论,让开发者能够更轻松地在精度和速度之间找到完美的平衡点。作者已经开源了代码,如果你也对高效的目标检测感兴趣,不妨去亲自体验一下。

大家对这种“先造超网,再搜子网”的模式怎么看?欢迎在评论区分享你的想法!

阅读原文

跳转微信打开

联系我们