动态列表

马斯克的作业还是被奥特曼「抄走了」
苏姿丰出手！Oracle下单5万颗AMD芯片，英伟达王座撼动
具身智能算法哪家强？RoboChallenge见真章！全球首个大规模真机算法评测平台来了
NTU等联合提出A-MemGuard：为AI记忆上锁，投毒攻击成功率暴降95%
苹果M5「夜袭」高通英特尔！AI算力狂飙400%，Pro三剑客火速上新
TPAMI 2025 | 华中科大与大疆等提出LLF-LUT++：4K照片增强仅需13ms，PSNR提升2.64dB！
罗福莉担任通讯作者，小米 × 北大联合发布R3：让MoE强化学习从崩盘回归可控
下周见！Wiley Advanced主编论坛@IROS 2025：从审稿人视角重塑论文表达
AAAI 2026联合会议征稿开启：大语言模型中的深度逻辑推理
Altman：ChatGPT将支持成人内容；港版iPhone Air无法用内地eSIM；传雷军一夜掉粉30万｜极客早知道
Karpathy「疯狂之作」：100美元、4小时，就能训练你自己的「小型GPT」
英伟达AI超算3999开售，「掌心之中」可部署所有大参数开源模型！
登顶Hugging Face GAIA全球榜首！中兴超级智能体终结「AI黑盒」时代
AI圈再颠覆！中国AI翻译耳机通话翻译，实测震撼
一个模型装下整个物种树！伯克利GPN-Star斩获基因预测双料冠军
vivo X300 Pro：以「水桶旗舰」之躯，重登旗舰山巅
8美元“驯服”DeepSeek-V3.2？Training-Free GRPO把RL成本打到地板
让论文自己讲！Paper2Video一键生成论文讲解视频，赶顶会DDL不慌了
直到毕业我才懂：原来延期的博士，不止我一个
NeurIPS 2025 | 让AIGC视频变为可探索场景：Instant4D实现单目动态场景的分钟级重建
NeurIPS 2025 | PPFN：渐进式提示融合，让红外图像增强在复杂场景下性能提升8.76%
库克抖音带货 iPhone 17 Air，22 日开售；小米客服回应「SU7 门把手」；「丐版」特斯拉明年国内投产
他用一生证明AI没有意识！「中文屋」提出者逝世，享年93岁
今年诺奖成果曾遭质疑无用，但华人团队用它研制了未来芯片的「钥匙」
剑桥揭开大模型翻车黑箱！别再怪它不懂推理，是行动出错了
ICLR神秘论文曝光！SAM3用「概念」看世界，重构视觉AI新范式
硅谷爆发反AI「起义」！程序员拒用Cursor被一周解雇
强化学习再迎范式切换：Sergey Levine团队把目标改写成“到达时间”
如果RL可预测，我们还需要把训练跑满吗？中科大揭示参数更新的线性秘密
国行 eSIM 尘埃落定，iPhone Air「下周见」
为什么谷歌搜不到「没有条纹的衬衫」｜AI 上新
SAM 3揭开面纱：不止分割万物，更能理解概念，交互式分割迎来新篇章！
ACM MM2025 Oral | MoSEAR:为多模态情感推理补齐“冲突场景”的短板
雷军亲自测试，小米YU9实车谍照曝光；宇树获「秧歌机器人」专利；微团开卖「Win XP」蓝天白云拖鞋
永别了，人类冠军！AI横扫天文奥赛，GPT-5得分远超金牌选手2.7倍
濒死3次，医生判他死刑！宾大教授奇迹自救，誓用AI攻克14000种绝症
告别「解码器饥饿」！中国科学院NeurIPS推SpaceServe，高并发克星
Bug变奖励：AI的小失误，揭开创造力真相！
复旦张军平：人类是硅基生命过渡体？
Meta Ray-Ban Display 首发体验合集：悬浮在现实中的一张便签
OriginOS 6 深度体验：当操作系统回归「体验为王」
93%成功率！从“改提示”到“写剧情”：STaR-Attack用叙事推理攻破大模型防线
Mamba-3惊现ICLR 2026投稿：三重升级打满“推理优先”范式
不到1 年卖出 40 万台，吉利星愿做对了什么？
NeurIPS 2025 | NTN-Diff：一石二鸟，利用空文本与频率感知破解图像修复难题
NeurIPS 2025 | Latent Harmony：潜空间和谐共生，实现UHD图像修复新SOTA
马斯克脑机公司展示脑机控制机械臂；三星中国发布折叠屏新机，16999 元起售；滴滴自动驾驶获 20 亿元融资 | 极客早知道
77岁「AI教父」Hinton：AI早有意识！我们打造的智能，可能终结人类文明
全球首款1.8nm芯片亮相！华人CEO打响关键一战，英特尔杀回来了
清华万引教授：万倍加速催化剂设计，AI突破DFT瓶颈！
陶哲轩亲测！GPT-5 Pro 40分钟破解3年难题，登顶最难数学考试
刚刚，Meta风雨飘摇中发了篇重量级论文，作者几乎全是华人
Attention is NOT All You Need：让“深度”重新流入时间，而非堆叠在参数之上
NeurIPS 2025 Oral | 1个Token零成本，REG让Diffusion训练收敛快20倍！
OpenAI 卖货做视频，Anthropic 专心写代码，谁能赢？
一颗 1.8 纳米芯片，成了英特尔「最后的救赎」
这款 AI 调研神器，让我一键产生 1000 个「种子用户」｜AI 上新
都用 GPT，为什么你没法中「百万大奖」？
ChatGPT 变身 App Store，「对话即应用」时代到了
IROS 2025 | 速度飙升24倍！巴黎萨克雷大学等提出HARP-NeXt：实时3D激光雷达分割新标杆
IROS 2025 Oral | RAG-6Dpose：三大创新模块，利用 CAD 作为知识库进行检索增强 6D 姿态估计
「丐中丐」版特斯拉来了，Model 3/Y降价超3.5万元
高德扫街榜的 23 天奇袭
张一鸣近年来首次公开亮相；微软上海开始新一轮裁员，补偿N+4；罗永浩锐评 iPhone 17
GPT-5王者归来？奥特曼称AI已跨科学门槛，三大学科正迎来实质性突破
老黄押宝「美版DeepSeek」！谷歌天才叛将创业，一夜吸金20亿美元
任意Agent皆可强化学习！微软推出Agent Lightning框架，无需修改任何代码
13万被引！ImageNet作者苏昊或将加盟复旦
250份文档投毒，一举攻陷万亿LLM！Anthropic新作紧急预警
和两位 CEO 聊 Sora：应用层爆发的里程碑事件，创业者的机会来了
新一代短剧人，涌向郑州「淘金」
社交媒体的黄金时代，结束了
东京大学、牛津大学等联合发布VLA万字综述：机器人迈向通用智能的全栈指南
U-Bench：U-Net十年“大乱斗”终结者，100个变体、28个数据集的终极对决
DeepSeek苦练1T，清华只用5B？InfLLM-V2把稀疏注意力玩明白了
北京/上海内推 | 阶跃星辰招聘RL for AIGC方向算法研究员/实习生
EMNLP 2025 | 拨云见日：知识电路分析揭示大语言模型“知识遮蔽”幻觉之源
Sora 下载量破 100 万次；国庆中秋假期国内游总花费超过 8000 亿元；智驾多位核心高管离职，蔚来回应｜极客早知道
谷歌杀入诺奖神殿，两年三冠五得主！世界TOP3重现贝尔实验室神话
OpenAI×英伟达，可能创造了人类史上最大万亿级泡沫
H-1B正在筛掉「下一个英伟达」？
全球AI视频大战升级！「中国版Sora」Vidu Q2参考生月底发布，能力对标Sora 2
第二代InfLLM开源，同尺寸快三倍！零参数，可训练稀疏注意力
马毅团队重磅发布新书：从MCR²到白盒Transformer，重构深度学习的第一性原理
稳住训练、跑出泛化：STAGE重写「自回归图像生成」的强化学习范式
腾讯推出TRM：让大模型像人类一样批判性思考，从文本依赖到事实正确
北大等提出TrackVLA++：赋予机器人推理与记忆，跟踪成功率飙升12%
Diffusion²来袭：威斯康星大学&华盛顿大学等提出双扩散模型，“回溯历史-预测未来”，破解自动驾驶“鬼探头”难题
把我的第一次日本旅行，完全交给 AI 是什么体验？
英伟达将投资马斯克的 xAI；低价版Model 3/Y 「阉割」智驾功能；微信推出批量撤回信息功能

IDEA提出Rex-Omni：将目标检测变为“下一个点预测”，零样本性能超越DINO

2025-10-15未知作者来源

CV君 2025-10-15 15:44 江苏

一个模型，通吃各类检测，性能还如此能打！

今天和大家分享一篇来自IDEA 研究院的最新研究成果。这篇名为《Detect Anything via Next Point Prediction》的论文，介绍了一个名为 Rex-Omni 的3B参数多模态大语言模型（MLLM）。它巧妙地绕开了传统目标检测方法（如YOLO、DETR）中复杂的坐标回归问题，而是将目标检测重新定义为一个更符合语言模型思路的“下一个点预测”任务。

这一转变不仅让模型的设计更加简洁，更带来了惊人的性能提升。在COCO和LVIS等权威的目标检测基准上，Rex-Omni在零样本（zero-shot）设置下，其性能媲美甚至超越了像DINO和Grounding DINO这样强大的传统模型。

一起来看看这项工作的基本信息：

论文标题: Detect Anything via Next Point Prediction
作者团队: Qing Jiang, Junan Huo, Xingyu Chen, Yuda Xiong, Zhaoyang Zeng, Yihao Chen, Tianhe Ren, Junzhi Yu, Lei Zhang
所属机构: 粤港澳大湾区数字经济研究院(International Digital Economy Academy,简称 IDEA 研究院)
论文地址: https://arxiv.org/abs/2510.12798
项目主页: https://rex-omni.github.io/
代码仓库: https://github.com/idea-research/rex-omni

研究背景：当MLLM遇到目标检测的“老大难”

目标检测是计算机视觉领域的基石，从YOLO到DETR，再到DINO，我们见证了基于坐标回归的检测器不断刷新性能上限。然而，这些模型在理解复杂的自然语言指令方面相对受限。

近年来，研究者们尝试利用多模态大语言模型（MLLM）强大的语言理解能力来解决检测问题，但效果总是不尽如人意。这些MLLM在做检测时，常常面临召回率低、重复预测、坐标不准等一系列挑战。

究其原因，主要是两个核心困难：

优化目标不匹配：传统检测器使用L1或GIoU等几何感知损失函数，对坐标的微小偏差不敏感。而MLLM将坐标预测视为分类问题，即使像素上只差一点点，在模型看来也是完全错误的分类，导致损失巨大，优化困难。
训练与推理的鸿沟：MLLM在训练时普遍采用“教师强制”（teacher-forcing）策略，即总是基于标准答案（ground-truth）来预测下一个token。但在推理时，模型需要基于自己生成的内容进行预测，一旦出错就可能“一错再错”，导致重复检测或漏检等行为问题。

为了解决这些问题，Rex-Omni应运而生。

Rex-Omni的核心设计：三驾马车

Rex-Omni的成功主要归功于三大核心设计：任务范式、数据引擎和训练流程。

任务范式：化“回归”为“预测”

这是Rex-Omni最核心的创新。研究者们没有沿用传统的坐标回归思路，而是将所有视觉感知任务统一为坐标预测框架。

具体来说，他们将图像的坐标空间量化为1000个离散值（0到999），并为每个值分配一个专属的“特殊token”。这样一来，一个边界框（bounding box）只需要4个token（x0, y0, x1, y1）就能表示。

这种做法有两大好处：

降低学习难度：将连续的坐标回归问题，简化为在一个有限集合（1000个token）中进行选择的分类问题。
提升token效率：相比于将坐标值拆成单个数字（如“192”拆成“1”、“9”、“2”三个token）的方法，用一个特殊token表示一个坐标值，极大地缩短了输出序列的长度，提升了推理速度。

模型架构上，Rex-Omni基于Qwen2.5-VL-3B构建，巧妙地复用了词汇表最后1000个token作为坐标专用token，无需对模型结构做大的改动。

数据引擎：海量高质量数据的“兵工厂”

为了让模型学会这种新的坐标语言，并能理解复杂的指令，高质量、大规模的训练数据必不可-少。为此，团队构建了多个自动化的数据引擎，用于生成海量的标注数据，涵盖了定位（grounding）、指代（referring）、指向（pointing）等多种任务。

最终，他们整合了公共数据集和自产数据，构建了一个包含 2200万 样本的庞大训练集。

训练流程：SFT预训练 + GRPO强化学习

为了驯服这个3B参数的大家伙，研究者设计了一个两阶段训练流程。

第一阶段：监督微调（SFT）：在2200万的庞大数据集上进行预训练，让模型掌握基本的坐标预测能力。
第二阶段：基于GRPO的强化学习后训练：SFT阶段虽然打下了基础，但“教师强制”带来的行为缺陷依然存在。为此，团队引入了一种名为 GRPO (Group-based Reward Policy Optimization) 的强化学习方法。该方法通过精心设计的几何感知奖励函数，让模型在“自由发挥”中学习，从而弥合离散token与连续坐标之间的鸿沟，提升框体精度，并有效抑制重复预测等不良行为。