CV君 2025-10-15 15:44 江苏
一个模型,通吃各类检测,性能还如此能打!
今天和大家分享一篇来自IDEA 研究院的最新研究成果。这篇名为《Detect Anything via Next Point Prediction》的论文,介绍了一个名为 Rex-Omni 的3B参数多模态大语言模型(MLLM)。它巧妙地绕开了传统目标检测方法(如YOLO、DETR)中复杂的坐标回归问题,而是将目标检测重新定义为一个更符合语言模型思路的“下一个点预测”任务。
这一转变不仅让模型的设计更加简洁,更带来了惊人的性能提升。在COCO和LVIS等权威的目标检测基准上,Rex-Omni在零样本(zero-shot)设置下,其性能媲美甚至超越了像DINO和Grounding DINO这样强大的传统模型。
一起来看看这项工作的基本信息:
论文标题: Detect Anything via Next Point Prediction
作者团队: Qing Jiang, Junan Huo, Xingyu Chen, Yuda Xiong, Zhaoyang Zeng, Yihao Chen, Tianhe Ren, Junzhi Yu, Lei Zhang
所属机构: 粤港澳大湾区数字经济研究院(International Digital Economy Academy,简称 IDEA 研究院)
研究背景:当MLLM遇到目标检测的“老大难”
目标检测是计算机视觉领域的基石,从YOLO到DETR,再到DINO,我们见证了基于坐标回归的检测器不断刷新性能上限。然而,这些模型在理解复杂的自然语言指令方面相对受限。
近年来,研究者们尝试利用多模态大语言模型(MLLM)强大的语言理解能力来解决检测问题,但效果总是不尽如人意。这些MLLM在做检测时,常常面临召回率低、重复预测、坐标不准等一系列挑战。
究其原因,主要是两个核心困难:
优化目标不匹配:传统检测器使用L1或GIoU等几何感知损失函数,对坐标的微小偏差不敏感。而MLLM将坐标预测视为分类问题,即使像素上只差一点点,在模型看来也是完全错误的分类,导致损失巨大,优化困难。
训练与推理的鸿沟:MLLM在训练时普遍采用“教师强制”(teacher-forcing)策略,即总是基于标准答案(ground-truth)来预测下一个token。但在推理时,模型需要基于自己生成的内容进行预测,一旦出错就可能“一错再错”,导致重复检测或漏检等行为问题。
为了解决这些问题,Rex-Omni应运而生。
Rex-Omni的核心设计:三驾马车
Rex-Omni的成功主要归功于三大核心设计:任务范式、数据引擎和训练流程。
任务范式:化“回归”为“预测”
这是Rex-Omni最核心的创新。研究者们没有沿用传统的坐标回归思路,而是将所有视觉感知任务统一为坐标预测框架。
具体来说,他们将图像的坐标空间量化为1000个离散值(0到999),并为每个值分配一个专属的“特殊token”。这样一来,一个边界框(bounding box)只需要4个token(x0, y0, x1, y1)就能表示。
这种做法有两大好处:
降低学习难度:将连续的坐标回归问题,简化为在一个有限集合(1000个token)中进行选择的分类问题。
提升token效率:相比于将坐标值拆成单个数字(如“192”拆成“1”、“9”、“2”三个token)的方法,用一个特殊token表示一个坐标值,极大地缩短了输出序列的长度,提升了推理速度。
模型架构上,Rex-Omni基于Qwen2.5-VL-3B构建,巧妙地复用了词汇表最后1000个token作为坐标专用token,无需对模型结构做大的改动。
数据引擎:海量高质量数据的“兵工厂”
为了让模型学会这种新的坐标语言,并能理解复杂的指令,高质量、大规模的训练数据必不可-少。为此,团队构建了多个自动化的数据引擎,用于生成海量的标注数据,涵盖了定位(grounding)、指代(referring)、指向(pointing)等多种任务。
最终,他们整合了公共数据集和自产数据,构建了一个包含 2200万 样本的庞大训练集。
训练流程:SFT预训练 + GRPO强化学习
为了驯服这个3B参数的大家伙,研究者设计了一个两阶段训练流程。
第一阶段:监督微调(SFT):在2200万的庞大数据集上进行预训练,让模型掌握基本的坐标预测能力。
第二阶段:基于GRPO的强化学习后训练:SFT阶段虽然打下了基础,但“教师强制”带来的行为缺陷依然存在。为此,团队引入了一种名为 GRPO (Group-based Reward Policy Optimization) 的强化学习方法。该方法通过精心设计的几何感知奖励函数,让模型在“自由发挥”中学习,从而弥合离散token与连续坐标之间的鸿沟,提升框体精度,并有效抑制重复预测等不良行为。
实验结果:零样本“掀翻”一众高手
Rex-Omni的性能表现令人印象深刻。
在最经典的目标检测基准COCO上,Rex-Omni在零样本设置下(即完全不用COCO数据集训练),在常用的比较设置IoU阈值为0.5时,不仅超越了之前最强的MLLM(SEED1.5-VL),甚至还超过了为COCO特训的传统检测器DINO-R50。
下面的可视化结果直观地展示了Rex-Omni在COCO(常见物体)和LVIS(长尾物体)上的出色表现,其检测结果非常接近真实标注(GT)。
在更具挑战性的长尾检测任务LVIS上,Rex-Omni同样表现出色,mIoU指标达到了 46.9,再次证明了其强大的泛化能力。
对于密集小目标检测这一公认的难题,大多数MLLM都表现不佳。然而,Rex-Omni在Dense200数据集上取得了 78.4 的F1@0.5分数,效果惊人,远超其他MLLM。这得益于GRPO后训练有效抑制了SFT阶段产生的重复预测和“大框”错误。
除了传统的检测任务,得益于其语言模型的底子,Rex-Omni在指代性物体检测、视觉提示、GUI定位、OCR、关键点检测等多种视觉感知任务上也展现了全面的强大实力。
总结
CV君认为,Rex-Omni的探索非常具有启发性。它证明了,通过巧妙的任务重构和训练策略,MLLM不仅能“看懂”,更能“看准”。将目标检测统一到语言模型的生成框架下,不仅简化了问题,还释放了模型在多任务、零样本场景下的巨大潜力。这项工作为开发更通用、更智能的视觉感知系统开辟了一条令人兴奋的新道路。
作者已经开源了代码,感兴趣的朋友可以去项目主页一探究竟。
你觉得将检测任务语言模型化的思路,未来会成为主流吗?欢迎在评论区留下你的看法!