动态列表

  • 马斯克的作业还是被奥特曼「抄走了」
  • 苏姿丰出手!Oracle下单5万颗AMD芯片,英伟达王座撼动
  • 具身智能算法哪家强?RoboChallenge见真章!全球首个大规模真机算法评测平台来了
  • NTU等联合提出A-MemGuard:为AI记忆上锁,投毒攻击成功率暴降95%
  • 苹果M5「夜袭」高通英特尔!AI算力狂飙400%,Pro三剑客火速上新
  • TPAMI 2025 | 华中科大与大疆等提出LLF-LUT++:4K照片增强仅需13ms,PSNR提升2.64dB!
  • 罗福莉担任通讯作者,小米 × 北大联合发布R3:让MoE强化学习从崩盘回归可控
  • 下周见!Wiley Advanced主编论坛@IROS 2025:从审稿人视角重塑论文表达
  • AAAI 2026联合会议征稿开启:大语言模型中的深度逻辑推理
  • Altman:ChatGPT将支持成人内容;港版iPhone Air无法用内地eSIM;传雷军一夜掉粉30万|极客早知道
  • Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」
  • 英伟达AI超算3999开售,「掌心之中」可部署所有大参数开源模型!
  • 登顶Hugging Face GAIA全球榜首!中兴超级智能体终结「AI黑盒」时代
  • AI圈再颠覆!中国AI翻译耳机通话翻译,实测震撼
  • 一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军
  • vivo X300 Pro:以「水桶旗舰」之躯,重登旗舰山巅
  • 8美元“驯服”DeepSeek-V3.2?Training-Free GRPO把RL成本打到地板
  • 让论文自己讲!Paper2Video一键生成论文讲解视频,赶顶会DDL不慌了
  • 直到毕业我才懂:原来延期的博士,不止我一个
  • NeurIPS 2025 | 让AIGC视频变为可探索场景:Instant4D实现单目动态场景的分钟级重建
  • NeurIPS 2025 | PPFN:渐进式提示融合,让红外图像增强在复杂场景下性能提升8.76%
  • 库克抖音带货 iPhone 17 Air,22 日开售;小米客服回应「SU7 门把手」;「丐版」特斯拉明年国内投产
  • 他用一生证明AI没有意识!「中文屋」提出者逝世,享年93岁
  • 今年诺奖成果曾遭质疑无用,但华人团队用它研制了未来芯片的「钥匙」
  • 剑桥揭开大模型翻车黑箱!别再怪它不懂推理,是行动出错了
  • ICLR神秘论文曝光!SAM3用「概念」看世界,重构视觉AI新范式
  • 硅谷爆发反AI「起义」!程序员拒用Cursor被一周解雇
  • 强化学习再迎范式切换:Sergey Levine团队把目标改写成“到达时间”
  • 如果RL可预测,我们还需要把训练跑满吗?中科大揭示参数更新的线性秘密
  • 国行 eSIM 尘埃落定,iPhone Air「下周见」
  • 为什么谷歌搜不到「没有条纹的衬衫」|AI 上新
  • SAM 3揭开面纱:不止分割万物,更能理解概念,交互式分割迎来新篇章!
  • ACM MM2025 Oral | MoSEAR:为多模态情感推理补齐“冲突场景”的短板
  • 雷军亲自测试,小米YU9实车谍照曝光;宇树获「秧歌机器人」专利;微团开卖「Win XP」蓝天白云拖鞋
  • 永别了,人类冠军!AI横扫天文奥赛,GPT-5得分远超金牌选手2.7倍
  • 濒死3次,医生判他死刑!宾大教授奇迹自救,誓用AI攻克14000种绝症
  • 告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星
  • Bug变奖励:AI的小失误,揭开创造力真相!
  • 复旦张军平:人类是硅基生命过渡体?
  • Meta Ray-Ban Display 首发体验合集:悬浮在现实中的一张便签
  • OriginOS 6 深度体验:当操作系统回归「体验为王」
  • 93%成功率!从“改提示”到“写剧情”:STaR-Attack用叙事推理攻破大模型防线
  • Mamba-3惊现ICLR 2026投稿:三重升级打满“推理优先”范式
  • 不到1 年卖出 40 万台,吉利星愿做对了什么?
  • NeurIPS 2025 | NTN-Diff:一石二鸟,利用空文本与频率感知破解图像修复难题
  • NeurIPS 2025 | Latent Harmony:潜空间和谐共生,实现UHD图像修复新SOTA
  • 马斯克脑机公司展示脑机控制机械臂;三星中国发布折叠屏新机,16999 元起售;滴滴自动驾驶获 20 亿元融资 | 极客早知道
  • 77岁「AI教父」Hinton:AI早有意识!我们打造的智能,可能终结人类文明
  • 全球首款1.8nm芯片亮相!华人CEO打响关键一战,英特尔杀回来了
  • 清华万引教授:万倍加速催化剂设计,AI突破DFT瓶颈!
  • 陶哲轩亲测!GPT-5 Pro 40分钟破解3年难题,登顶最难数学考试
  • 刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人
  • Attention is NOT All You Need:让“深度”重新流入时间,而非堆叠在参数之上
  • NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!
  • OpenAI 卖货做视频,Anthropic 专心写代码,谁能赢?
  • 一颗 1.8 纳米芯片,成了英特尔「最后的救赎」
  • 这款 AI 调研神器,让我一键产生 1000 个「种子用户」|AI 上新
  • 都用 GPT,为什么你没法中「百万大奖」?
  • ChatGPT 变身 App Store,「对话即应用」时代到了
  • IROS 2025 | 速度飙升24倍!巴黎萨克雷大学等提出HARP-NeXt:实时3D激光雷达分割新标杆
  • IROS 2025 Oral | RAG-6Dpose:三大创新模块,利用 CAD 作为知识库进行检索增强 6D 姿态估计
  • 「丐中丐」版特斯拉来了,Model 3/Y降价超3.5万元
  • 高德扫街榜的 23 天奇袭
  • 张一鸣近年来首次公开亮相;微软上海开始新一轮裁员,补偿N+4;罗永浩锐评 iPhone 17
  • GPT-5王者归来?奥特曼称AI已跨科学门槛,三大学科正迎来实质性突破
  • 老黄押宝「美版DeepSeek」!谷歌天才叛将创业,一夜吸金20亿美元
  • 任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码
  • 13万被引!ImageNet作者苏昊或将加盟复旦
  • 250份文档投毒,一举攻陷万亿LLM!Anthropic新作紧急预警
  • 和两位 CEO 聊 Sora: 应用层爆发的里程碑事件,创业者的机会来了
  • 新一代短剧人,涌向郑州「淘金」
  • 社交媒体的黄金时代,结束了
  • 东京大学、牛津大学等联合发布VLA万字综述:机器人迈向通用智能的全栈指南
  • U-Bench:U-Net十年“大乱斗”终结者,100个变体、28个数据集的终极对决
  • DeepSeek苦练1T,清华只用5B?InfLLM-V2把稀疏注意力玩明白了
  • 北京/上海内推 | 阶跃星辰招聘RL for AIGC方向算法研究员/实习生
  • EMNLP 2025 | 拨云见日:知识电路分析揭示大语言模型“知识遮蔽”幻觉之源
  • Sora 下载量破 100 万次;国庆中秋假期国内游总花费超过 8000 亿元;智驾多位核心高管离职,蔚来回应|极客早知道
  • 谷歌杀入诺奖神殿,两年三冠五得主!世界TOP3重现贝尔实验室神话
  • OpenAI×英伟达,可能创造了人类史上最大万亿级泡沫
  • H-1B正在筛掉「下一个英伟达」?
  • 全球AI视频大战升级!「中国版Sora」Vidu Q2参考生月底发布,能力对标Sora 2
  • 第二代InfLLM开源,同尺寸快三倍!零参数,可训练稀疏注意力
  • 马毅团队重磅发布新书:从MCR²到白盒Transformer,重构深度学习的第一性原理
  • 稳住训练、跑出泛化:STAGE重写「自回归图像生成」的强化学习范式
  • 腾讯推出TRM:让大模型像人类一样批判性思考,从文本依赖到事实正确
  • 北大等提出TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%
  • Diffusion²来袭:威斯康星大学&华盛顿大学等提出双扩散模型,“回溯历史-预测未来”,破解自动驾驶“鬼探头”难题
  • 把我的第一次日本旅行,完全交给 AI 是什么体验?
  • 英伟达将投资马斯克的 xAI;低价版Model 3/Y 「阉割」智驾功能;微信推出批量撤回信息功能

IDEA提出Rex-Omni:将目标检测变为“下一个点预测”,零样本性能超越DINO

CV君 2025-10-15 15:44 江苏

一个模型,通吃各类检测,性能还如此能打!

今天和大家分享一篇来自IDEA 研究院的最新研究成果。这篇名为《Detect Anything via Next Point Prediction》的论文,介绍了一个名为 Rex-Omni 的3B参数多模态大语言模型(MLLM)。它巧妙地绕开了传统目标检测方法(如YOLO、DETR)中复杂的坐标回归问题,而是将目标检测重新定义为一个更符合语言模型思路的“下一个点预测”任务。

这一转变不仅让模型的设计更加简洁,更带来了惊人的性能提升。在COCO和LVIS等权威的目标检测基准上,Rex-Omni在零样本(zero-shot)设置下,其性能媲美甚至超越了像DINO和Grounding DINO这样强大的传统模型。

一起来看看这项工作的基本信息:

研究背景:当MLLM遇到目标检测的“老大难”

目标检测是计算机视觉领域的基石,从YOLO到DETR,再到DINO,我们见证了基于坐标回归的检测器不断刷新性能上限。然而,这些模型在理解复杂的自然语言指令方面相对受限。

近年来,研究者们尝试利用多模态大语言模型(MLLM)强大的语言理解能力来解决检测问题,但效果总是不尽如人意。这些MLLM在做检测时,常常面临召回率低、重复预测、坐标不准等一系列挑战。

究其原因,主要是两个核心困难:

  1. 优化目标不匹配:传统检测器使用L1或GIoU等几何感知损失函数,对坐标的微小偏差不敏感。而MLLM将坐标预测视为分类问题,即使像素上只差一点点,在模型看来也是完全错误的分类,导致损失巨大,优化困难。

  2. 训练与推理的鸿沟:MLLM在训练时普遍采用“教师强制”(teacher-forcing)策略,即总是基于标准答案(ground-truth)来预测下一个token。但在推理时,模型需要基于自己生成的内容进行预测,一旦出错就可能“一错再错”,导致重复检测或漏检等行为问题。

为了解决这些问题,Rex-Omni应运而生。

Rex-Omni的核心设计:三驾马车

Rex-Omni的成功主要归功于三大核心设计:任务范式、数据引擎和训练流程。

任务范式:化“回归”为“预测”

这是Rex-Omni最核心的创新。研究者们没有沿用传统的坐标回归思路,而是将所有视觉感知任务统一为坐标预测框架。

具体来说,他们将图像的坐标空间量化为1000个离散值(0到999),并为每个值分配一个专属的“特殊token”。这样一来,一个边界框(bounding box)只需要4个token(x0, y0, x1, y1)就能表示。

这种做法有两大好处:

  • 降低学习难度:将连续的坐标回归问题,简化为在一个有限集合(1000个token)中进行选择的分类问题。

  • 提升token效率:相比于将坐标值拆成单个数字(如“192”拆成“1”、“9”、“2”三个token)的方法,用一个特殊token表示一个坐标值,极大地缩短了输出序列的长度,提升了推理速度。

模型架构上,Rex-Omni基于Qwen2.5-VL-3B构建,巧妙地复用了词汇表最后1000个token作为坐标专用token,无需对模型结构做大的改动。

数据引擎:海量高质量数据的“兵工厂”

为了让模型学会这种新的坐标语言,并能理解复杂的指令,高质量、大规模的训练数据必不可-少。为此,团队构建了多个自动化的数据引擎,用于生成海量的标注数据,涵盖了定位(grounding)、指代(referring)、指向(pointing)等多种任务。

最终,他们整合了公共数据集和自产数据,构建了一个包含 2200万 样本的庞大训练集。

训练流程:SFT预训练 + GRPO强化学习

为了驯服这个3B参数的大家伙,研究者设计了一个两阶段训练流程。

  1. 第一阶段:监督微调(SFT):在2200万的庞大数据集上进行预训练,让模型掌握基本的坐标预测能力。

  2. 第二阶段:基于GRPO的强化学习后训练:SFT阶段虽然打下了基础,但“教师强制”带来的行为缺陷依然存在。为此,团队引入了一种名为 GRPO (Group-based Reward Policy Optimization) 的强化学习方法。该方法通过精心设计的几何感知奖励函数,让模型在“自由发挥”中学习,从而弥合离散token与连续坐标之间的鸿沟,提升框体精度,并有效抑制重复预测等不良行为。

实验结果:零样本“掀翻”一众高手

Rex-Omni的性能表现令人印象深刻。

在最经典的目标检测基准COCO上,Rex-Omni在零样本设置下(即完全不用COCO数据集训练),在常用的比较设置IoU阈值为0.5时,不仅超越了之前最强的MLLM(SEED1.5-VL),甚至还超过了为COCO特训的传统检测器DINO-R50。

下面的可视化结果直观地展示了Rex-Omni在COCO(常见物体)和LVIS(长尾物体)上的出色表现,其检测结果非常接近真实标注(GT)。

在更具挑战性的长尾检测任务LVIS上,Rex-Omni同样表现出色,mIoU指标达到了 46.9,再次证明了其强大的泛化能力。

对于密集小目标检测这一公认的难题,大多数MLLM都表现不佳。然而,Rex-Omni在Dense200数据集上取得了 78.4 的F1@0.5分数,效果惊人,远超其他MLLM。这得益于GRPO后训练有效抑制了SFT阶段产生的重复预测和“大框”错误。

除了传统的检测任务,得益于其语言模型的底子,Rex-Omni在指代性物体检测、视觉提示、GUI定位、OCR、关键点检测等多种视觉感知任务上也展现了全面的强大实力。

总结

CV君认为,Rex-Omni的探索非常具有启发性。它证明了,通过巧妙的任务重构和训练策略,MLLM不仅能“看懂”,更能“看准”。将目标检测统一到语言模型的生成框架下,不仅简化了问题,还释放了模型在多任务、零样本场景下的巨大潜力。这项工作为开发更通用、更智能的视觉感知系统开辟了一条令人兴奋的新道路。

作者已经开源了代码,感兴趣的朋友可以去项目主页一探究竟。

你觉得将检测任务语言模型化的思路,未来会成为主流吗?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

联系我们