ToolsAi

CV君 2025-11-13 14:08 江苏

还在为模型调参和适配硬件发愁吗？也许你需要的是一个能“变形”的检测器。

论文标题: RF-DETR: Neural Architecture Search for Real-Time Detection Transformers
作者: Isaac Robinson, Peter Robicheaux, Matvei Popov, Deva Ramanan, Neehar Peri
机构: Roboflow, 卡耐基梅隆大学
论文地址: https://arxiv.org/abs/2511.09554
项目主页: https://rfdetr.roboflow.com/
代码仓库: https://github.com/roboflow/rf-detr
投稿信息: ICLR 2026 在投

2025年3月，来自Roboflow和卡耐基梅隆大学的研究团队联手，推出了一项名为RF-DETR的重磅研究，其声称是首个COCO数据集突破60 AP实时目标检测算法。最近他们发布了相关论文，披露其技术细节。它巧妙地将神经架构搜索（Neural Architecture Search, NAS）与DETR（DEtection TRansformer）相结合，旨在解决一个长期存在的痛点：如何在保持高精度的同时，为不同硬件和应用场景快速定制出最高效的实时目标检测器。

这项工作最引人注目的地方在于，它提出了一种“一次训练，到处部署”的范式。通过一次性的“超网”训练，就能得到一个包含成千上万种架构的“模型家族”。需要新模型时，只需从中“搜索”出一个在特定延迟和精度要求下最优的即可，无需重新训练，极大地提升了模型迭代和部署的效率。

研究背景：从通用大模型到“专才”小模型的挑战

近年来，像GroundingDINO这样的开放词汇（open-vocabulary）检测器在COCO等标准数据集上取得了惊人的零样本检测效果。但它们就像是“通才”，知识渊博但不够专精。当面对真实世界中各种“非主流”的垂直领域数据时（比如工业质检、农业病虫害识别），它们的泛化能力往往会下降。

一个直接的思路是拿这些庞大的视觉语言模型（VLM）在特定领域数据上进行微调。这确实能提升性能，但代价是巨大的——不仅牺牲了推理速度（因为VLM通常很重），还可能丢失了原有的开放词汇能力。

另一方面，像RT-DETR和YOLO系列这样的“专才”检测器，虽然速度飞快，但在精度和对新领域的适应性上，又常常不如那些经过微调的“通才”。

于是，一个核心矛盾摆在了我们面前：我们能否拥有一种既有“专才”模型的速度和效率，又能快速适应不同领域需求的检测器？RF-DETR正是为了解决这一问题而生。

RF-DETR的核心方法：权重共享与架构搜索

RF-DETR的核心思想是权重共享的神经架构搜索（Weight-Sharing NAS）。研究者们没有设计一个固定的网络结构，而是构建了一个包含多种架构可能性的“超网”（Supernet）。在训练这个超网时，每一次迭代都会随机采样一个“子网”（Sub-net）配置进行更新。

上图展示了RF-DETR的基础架构。它采用预训练的ViT（如DINOv2）作为骨干网络提取多尺度特征，并通过交错使用窗口化和非窗口化的注意力模块来平衡精度与延迟。值得注意的是，可变形交叉注意力和分割头都利用了投影器的输出，保证了特征空间组织的一致性。

训练完成后，这个“超网”就相当于一个巨大的模型库。当需要一个特定性能（比如，延迟必须低于5ms）的模型时，不再需要从头训练，而是可以直接在这个超网中搜索满足条件的最佳子网配置。

“架构调优旋钮”：RF-DETR的五大可变参数

为了实现灵活的架构搜索，RF-DETR定义了五个关键的“可调旋钮”（Tunable Knobs），在训练过程中动态变化，这种方法也被作者称为“架构增强”（Architecture Augmentation），它本身也像一种正则化手段，提升了模型的泛化能力。

这五个“旋钮”分别是：

(a) Patch大小：更小的Patch能捕捉更精细的特征，提升精度，但计算量更大。
(b) 解码器层数：解码器层数越多，通常性能越好，但延迟也越高。RF-DETR可以在推理时“丢弃”任意数量的解码器层，从而灵活控制速度。
(c) 查询（Query）数量：Query的数量决定了模型一次最多能检测出多少个物体。在推理时可以根据置信度丢弃多余的Query，减少计算。
(d) 图像分辨率：高分辨率图像有助于检测小目标，但更耗时。
(e) 窗口注意力块中的窗口数量：窗口注意力将自注意力计算限制在局部区域，调整窗口数量可以平衡全局信息交互和计算效率。

通过对这些维度进行组合，RF-DETR能够探索一个巨大且连续的精度-延迟帕累托前沿，为各种应用场景找到量身定制的模型。

惊人的实验结果：精度与速度的双重突破

RF-DETR在一系列实验中展示了其卓越的性能，无论是在标准的COCO数据集，还是在更具挑战性的、包含100个不同真实世界场景的Roboflow100-VL数据集上。

上图展示了RF-DETR与其他实时检测器在COCO和RF100-VL上的精度-延迟帕累托曲线。可以看到，RF-DETR的曲线（橙色）在各个延迟档位上都显著优于其他方法，实现了更优的权衡。

COCO检测性能

在COCO检测任务上，RF-DETR的表现堪称惊艳。

轻量级对决：RF-DETR (nano) 在相似的延迟下，COCO AP达到了48.0，比当时的SOTA模型D-FINE (nano)高出了整整5.3 AP。同时，它的性能也与YOLOv8/YOLOv11的中等型号（M）相当。
重量级突破：RF-DETR (2x-large)更是取得了60.1 AP的成绩，据论文所称，这是第一个在COCO上超过60 AP的实时检测器。

真实世界泛化能力 (RF100-VL)

在更能体现模型泛化能力的RF100-VL基准上，RF-DETR同样表现出色。

RF-DETR (2x-large)的AP比强大的开放词汇模型GroundingDINO (tiny)高出1.2 AP，而推理速度却是后者的20倍！这充分证明了RF-DETR在保持高精度的同时，实现了极高的运行效率。
与YOLO系列相比，DETR-based方法（包括RF-DETR）在RF100-VL上表现出更强的扩展性，即模型尺寸增大时，性能提升更明显。

消融实验的启示

论文还通过一系列消融实验，验证了各个设计选择的有效性。

骨干网络的选择：实验证明，使用DINOv2作为骨干网络比使用CAEv2带来了显著的性能提升（约2.4% AP），这得益于DINOv2更强大的预训练知识。
NAS的价值：一个反直觉的发现是，即使只是引入权重共享NAS的训练机制，而不改变最终模型的固定架构，其性能相比于直接训练该固定架构也有所提升。这说明“架构增强”本身就是一种有效的正则化方法。

总结

RF-DETR为实时目标检测领域带来了一股清新的风。它通过权重共享的神经架构搜索，优雅地解决了为不同应用场景和硬件平台定制高效模型的难题。其“一次训练，按需搜索”的理念，不仅显著降低了计算成本，也为DETR这类强大的架构在真实世界中的广泛部署铺平了道路。

这项工作不仅刷新了多个基准测试的SOTA，更重要的是，它提供了一套实用的方法论，让开发者能够更轻松地在精度和速度之间找到完美的平衡点。作者已经开源了代码，如果你也对高效的目标检测感兴趣，不妨去亲自体验一下。

大家对这种“先造超网，再搜子网”的模式怎么看？欢迎在评论区分享你的想法！

阅读原文

跳转微信打开

动态列表

Roboflow&CMU论文披露RF-DETR细节：首个COCO数据集突破60 AP实时目标检测，速度飙升20倍！