CV君 2025-11-13 14:08 江苏
还在为模型调参和适配硬件发愁吗?也许你需要的是一个能“变形”的检测器。
论文标题: RF-DETR: Neural Architecture Search for Real-Time Detection Transformers
作者: Isaac Robinson, Peter Robicheaux, Matvei Popov, Deva Ramanan, Neehar Peri
机构: Roboflow, 卡耐基梅隆大学
投稿信息: ICLR 2026 在投
2025年3月,来自Roboflow和卡耐基梅隆大学的研究团队联手,推出了一项名为RF-DETR的重磅研究,其声称是首个COCO数据集突破60 AP实时目标检测算法。最近他们发布了相关论文,披露其技术细节。它巧妙地将神经架构搜索(Neural Architecture Search, NAS)与DETR(DEtection TRansformer)相结合,旨在解决一个长期存在的痛点:如何在保持高精度的同时,为不同硬件和应用场景快速定制出最高效的实时目标检测器。
这项工作最引人注目的地方在于,它提出了一种“一次训练,到处部署”的范式。通过一次性的“超网”训练,就能得到一个包含成千上万种架构的“模型家族”。需要新模型时,只需从中“搜索”出一个在特定延迟和精度要求下最优的即可,无需重新训练,极大地提升了模型迭代和部署的效率。
研究背景:从通用大模型到“专才”小模型的挑战
近年来,像GroundingDINO这样的开放词汇(open-vocabulary)检测器在COCO等标准数据集上取得了惊人的零样本检测效果。但它们就像是“通才”,知识渊博但不够专精。当面对真实世界中各种“非主流”的垂直领域数据时(比如工业质检、农业病虫害识别),它们的泛化能力往往会下降。
一个直接的思路是拿这些庞大的视觉语言模型(VLM)在特定领域数据上进行微调。这确实能提升性能,但代价是巨大的——不仅牺牲了推理速度(因为VLM通常很重),还可能丢失了原有的开放词汇能力。
另一方面,像RT-DETR和YOLO系列这样的“专才”检测器,虽然速度飞快,但在精度和对新领域的适应性上,又常常不如那些经过微调的“通才”。
于是,一个核心矛盾摆在了我们面前:我们能否拥有一种既有“专才”模型的速度和效率,又能快速适应不同领域需求的检测器?RF-DETR正是为了解决这一问题而生。
RF-DETR的核心方法:权重共享与架构搜索
RF-DETR的核心思想是权重共享的神经架构搜索(Weight-Sharing NAS)。研究者们没有设计一个固定的网络结构,而是构建了一个包含多种架构可能性的“超网”(Supernet)。在训练这个超网时,每一次迭代都会随机采样一个“子网”(Sub-net)配置进行更新。
上图展示了RF-DETR的基础架构。它采用预训练的ViT(如DINOv2)作为骨干网络提取多尺度特征,并通过交错使用窗口化和非窗口化的注意力模块来平衡精度与延迟。值得注意的是,可变形交叉注意力和分割头都利用了投影器的输出,保证了特征空间组织的一致性。
训练完成后,这个“超网”就相当于一个巨大的模型库。当需要一个特定性能(比如,延迟必须低于5ms)的模型时,不再需要从头训练,而是可以直接在这个超网中搜索满足条件的最佳子网配置。
“架构调优旋钮”:RF-DETR的五大可变参数
为了实现灵活的架构搜索,RF-DETR定义了五个关键的“可调旋钮”(Tunable Knobs),在训练过程中动态变化,这种方法也被作者称为“架构增强”(Architecture Augmentation),它本身也像一种正则化手段,提升了模型的泛化能力。
这五个“旋钮”分别是:
(a) Patch大小:更小的Patch能捕捉更精细的特征,提升精度,但计算量更大。
(b) 解码器层数:解码器层数越多,通常性能越好,但延迟也越高。RF-DETR可以在推理时“丢弃”任意数量的解码器层,从而灵活控制速度。
(c) 查询(Query)数量:Query的数量决定了模型一次最多能检测出多少个物体。在推理时可以根据置信度丢弃多余的Query,减少计算。
(d) 图像分辨率:高分辨率图像有助于检测小目标,但更耗时。
(e) 窗口注意力块中的窗口数量:窗口注意力将自注意力计算限制在局部区域,调整窗口数量可以平衡全局信息交互和计算效率。
通过对这些维度进行组合,RF-DETR能够探索一个巨大且连续的精度-延迟帕累托前沿,为各种应用场景找到量身定制的模型。
惊人的实验结果:精度与速度的双重突破
RF-DETR在一系列实验中展示了其卓越的性能,无论是在标准的COCO数据集,还是在更具挑战性的、包含100个不同真实世界场景的Roboflow100-VL数据集上。
上图展示了RF-DETR与其他实时检测器在COCO和RF100-VL上的精度-延迟帕累托曲线。可以看到,RF-DETR的曲线(橙色)在各个延迟档位上都显著优于其他方法,实现了更优的权衡。
COCO检测性能
在COCO检测任务上,RF-DETR的表现堪称惊艳。
轻量级对决:RF-DETR (nano) 在相似的延迟下,COCO AP达到了48.0,比当时的SOTA模型D-FINE (nano)高出了整整5.3 AP。同时,它的性能也与YOLOv8/YOLOv11的中等型号(M)相当。
重量级突破:RF-DETR (2x-large)更是取得了60.1 AP的成绩,据论文所称,这是第一个在COCO上超过60 AP的实时检测器。
真实世界泛化能力 (RF100-VL)
在更能体现模型泛化能力的RF100-VL基准上,RF-DETR同样表现出色。
RF-DETR (2x-large)的AP比强大的开放词汇模型GroundingDINO (tiny)高出1.2 AP,而推理速度却是后者的20倍!这充分证明了RF-DETR在保持高精度的同时,实现了极高的运行效率。
与YOLO系列相比,DETR-based方法(包括RF-DETR)在RF100-VL上表现出更强的扩展性,即模型尺寸增大时,性能提升更明显。
消融实验的启示
论文还通过一系列消融实验,验证了各个设计选择的有效性。
骨干网络的选择:实验证明,使用DINOv2作为骨干网络比使用CAEv2带来了显著的性能提升(约2.4% AP),这得益于DINOv2更强大的预训练知识。
NAS的价值:一个反直觉的发现是,即使只是引入权重共享NAS的训练机制,而不改变最终模型的固定架构,其性能相比于直接训练该固定架构也有所提升。这说明“架构增强”本身就是一种有效的正则化方法。
总结
RF-DETR为实时目标检测领域带来了一股清新的风。它通过权重共享的神经架构搜索,优雅地解决了为不同应用场景和硬件平台定制高效模型的难题。其“一次训练,按需搜索”的理念,不仅显著降低了计算成本,也为DETR这类强大的架构在真实世界中的广泛部署铺平了道路。
这项工作不仅刷新了多个基准测试的SOTA,更重要的是,它提供了一套实用的方法论,让开发者能够更轻松地在精度和速度之间找到完美的平衡点。作者已经开源了代码,如果你也对高效的目标检测感兴趣,不妨去亲自体验一下。
大家对这种“先造超网,再搜子网”的模式怎么看?欢迎在评论区分享你的想法!