动态列表

  • 77岁「AI教父」Hinton:AI早有意识!我们打造的智能,可能终结人类文明
  • 全球首款1.8nm芯片亮相!华人CEO打响关键一战,英特尔杀回来了
  • 清华万引教授:万倍加速催化剂设计,AI突破DFT瓶颈!
  • 陶哲轩亲测!GPT-5 Pro 40分钟破解3年难题,登顶最难数学考试
  • 刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人
  • Attention is NOT All You Need:让“深度”重新流入时间,而非堆叠在参数之上
  • NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!
  • OpenAI 卖货做视频,Anthropic 专心写代码,谁能赢?
  • 一颗 1.8 纳米芯片,成了英特尔「最后的救赎」
  • 这款 AI 调研神器,让我一键产生 1000 个「种子用户」|AI 上新
  • 都用 GPT,为什么你没法中「百万大奖」?
  • ChatGPT 变身 App Store,「对话即应用」时代到了
  • IROS 2025 | 速度飙升24倍!巴黎萨克雷大学等提出HARP-NeXt:实时3D激光雷达分割新标杆
  • 「丐中丐」版特斯拉来了,Model 3/Y降价超3.5万元
  • 高德扫街榜的 23 天奇袭
  • 张一鸣近年来首次公开亮相;微软上海开始新一轮裁员,补偿N+4;罗永浩锐评 iPhone 17
  • GPT-5王者归来?奥特曼称AI已跨科学门槛,三大学科正迎来实质性突破
  • 老黄押宝「美版DeepSeek」!谷歌天才叛将创业,一夜吸金20亿美元
  • 任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码
  • 13万被引!ImageNet作者苏昊或将加盟复旦
  • 250份文档投毒,一举攻陷万亿LLM!Anthropic新作紧急预警
  • 和两位 CEO 聊 Sora: 应用层爆发的里程碑事件,创业者的机会来了
  • 新一代短剧人,涌向郑州「淘金」
  • 社交媒体的黄金时代,结束了
  • U-Bench:U-Net十年“大乱斗”终结者,100个变体、28个数据集的终极对决
  • 东京大学、牛津大学等联合发布VLA万字综述:机器人迈向通用智能的全栈指南
  • DeepSeek苦练1T,清华只用5B?InfLLM-V2把稀疏注意力玩明白了
  • EMNLP 2025 | 拨云见日:知识电路分析揭示大语言模型“知识遮蔽”幻觉之源
  • 北京/上海内推 | 阶跃星辰招聘RL for AIGC方向算法研究员/实习生
  • Sora 下载量破 100 万次;国庆中秋假期国内游总花费超过 8000 亿元;智驾多位核心高管离职,蔚来回应|极客早知道
  • 谷歌杀入诺奖神殿,两年三冠五得主!世界TOP3重现贝尔实验室神话
  • OpenAI×英伟达,可能创造了人类史上最大万亿级泡沫
  • H-1B正在筛掉「下一个英伟达」?
  • 全球AI视频大战升级!「中国版Sora」Vidu Q2参考生月底发布,能力对标Sora 2
  • 第二代InfLLM开源,同尺寸快三倍!零参数,可训练稀疏注意力
  • 稳住训练、跑出泛化:STAGE重写「自回归图像生成」的强化学习范式
  • 腾讯推出TRM:让大模型像人类一样批判性思考,从文本依赖到事实正确
  • 马毅团队重磅发布新书:从MCR²到白盒Transformer,重构深度学习的第一性原理
  • 北大等提出TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%
  • Diffusion²来袭:威斯康星大学&华盛顿大学等提出双扩散模型,“回溯历史-预测未来”,破解自动驾驶“鬼探头”难题
  • 把我的第一次日本旅行,完全交给 AI 是什么体验?
  • 英伟达将投资马斯克的 xAI;低价版Model 3/Y 「阉割」智驾功能;微信推出批量撤回信息功能
  • 刚刚,清华物理传奇Yao Shunyu,跳槽谷歌DeepMind!
  • 赚100亿,烧1万亿!OpenAI算力神话:英伟达撒钱、AMD送股、全硅谷陪跑
  • 英伟达垄断AI算力局面或将被颠覆!AMD赌上身家发起决斗,奥特曼窃喜
  • 刚刚,2025年诺贝尔化学奖揭晓!偷溜进图书馆的少年,改变了世界
  • 小心,AI依赖会让你变笨!吴恩达等专家教你如何正确使用AI
  • 无RLHF,7M小模型反超DeepSeek-R1:三星团队用递归思考取代规模堆叠
  • 告别深度传感器!慕尼黑工业大学提出DropD-SLAM:仅用单目RGB即可实现RGB-D级的SLAM精度
  • IROS 2025 | Waymo与谷歌DeepMind联手提出Drive&Gen:用生成视频评估自动驾驶,虚拟测试更逼真
  • 陶哲轩联手ChatGPT!10分钟击碎30年「无理」难题,数学圈炸裂
  • 刚刚,奥特曼官宣ChatGPT「终极OS入口」!8分钟速搭智能体,8亿人狂欢
  • 顿悟不是玄学!港科大清华等联手:撕开推理黑箱,RL让AI像人思考
  • 4万亿帝国接班人浮出水面!苹果不需要另一个库克
  • 刚刚,2025年诺贝尔物理学奖揭晓!量子计算成最大赢家
  • 告别梯度!Evolution Strategies全参微调挑战PPO/GRPO:更稳、更省、更好复现
  • NeurIPS 2025 | 北邮用“图+文”把人物检索拉满:自动合成数据 × 细粒度特征对齐
  • MICCAI 2025 | 莱斯大学提出MetaSeg:参数减少90%,元学习隐式网络重塑医学图像分割
  • TPAMI 2025 | 电子科大等提出EEMFlow:从事件相机学习高效Meshflow与光流,速度提升30倍
  • OpenAI 与 AMD 签百亿美元协议,后者股价暴涨;特斯拉廉价 Model Y 将于 7 日发布;知名旅行、听歌应用入住 ChatGPT
  • 乔纳森下一个iPhone神话,要黄了?OpenAI秘密AI硬件深陷三重困境
  • 3年手搓ChatGPT!剑桥天才少年在Minecraft游戏中爆火回归
  • 一举击败Claude Code!微软提出代码生成黑科技:一键直出36K行代码
  • 刚刚,2025年诺贝尔生理学或医学奖揭晓!三位得主点燃器官移植希望
  • OpenAI入股AMD,股价暴涨35%!奥特曼左手黄仁勋,右手苏姿丰,通吃全球算力
  • 自进化Agent的第三种可能:隐式记忆,不动模型参数,胜过GRPO
  • 真实数据、全链路、可复核:GenoMAS打造更可信的基因分析智能体
  • NeurIPS 2025 | 高通提出GCL:无需额外数据,通用多模态检索迎来“一统江湖”新范式
  • NeurIPS 2025 | 慕尼黑工业大学提出SIM(3)等变网络:让3D形状补全告别“姿态偏见”,实现跨域泛化
  • 今日迎本世纪「最晚中秋月圆」;雷军:小米17 五天销量破百万;ChatGPT 或添私信聊天功能
  • 腾讯王者归来:混元图像3.0登顶LMArena!一手实测全球最强图像AI
  • AI「学不会」竟成相变探针!UCSD华人联手谷歌等,曝光量子纠缠秘密
  • 最新,2025诺奖预测出炉!中国科学家有望拿下化学奖?
  • 奥特曼:感受不到GPT-5变强,是因为你还不够「专业」
  • GPT-6或将比GPT-5强10倍!奥特曼揭秘ChatGPT如何诞生
  • 宾大提出F³:事件相机迎来“预测性”表征新范式,光流、分割、深度全SOTA!
  • LSTM之父再出手!xLSTM挑战Transformer:一场关于Scaling Laws的正面交锋
  • NeurIPS 2025 | AI也能做数学建模?本科生携手MM-Agent勇夺美赛全球前2%
  • “移步换景”一试,大模型全乱了:OST-Bench揭示MLLM时空推理短板
  • 微软下架「炉石」等多款游戏;华为云:华为算力效能超英伟达芯片 3 倍;马斯克回应特斯拉机器人打拳:并非遥控

IROS 2025 Oral | RAG-6Dpose:三大创新模块,利用 CAD 作为知识库进行检索增强 6D 姿态估计

飞落雨 2025-10-11 13:07 江苏

准确的 6D 姿态估计对机器人操作至关重要,可实现像抓取这样任务中精确的物体定位。单目 6D 姿态估计旨在从一张 RGB 图像中准确预测物体的三维位置和朝向,这对机器人抓取与交互等任务非常关键。然而,实现稳健可靠的 6D 姿态估计仍面临诸多挑战,如遮挡(包括自遮挡)、物体纹理缺乏,以及合成数据与真实世界之间的域差异等问题。

针对这种情境,尽管许多方法会使用输入图像作为输入,并仅将 CAD 模型用作监督信号,但 CAD 模型本身所蕴含的丰富信息尚未被充分利用。

本文介绍一篇收录于 IROS 2025 的论文《RAG-6DPose: Retrieval-Augmented 6D Pose Estimation via Leveraging CAD as Knowledge Base》。该研究由复旦大学和INSAIT的研究者们提出,设计了一种名为RAG-6DPose的检索增强式方法,利用 3D CAD 模型作为知识库,融合视觉和几何特征,在著名的BOP基准上取得了新的SOTA或极具竞争力的结果。

RAG-6DPose 抓取实例
RAG-6DPose 抓取实例

研究背景与意义

在机器人操作、自动化装配等场景中,单目 6D 姿态估计(Monocular 6D Pose Estimation)是一项核心技术,其目标是从一张 RGB 图像中准确预测物体的三维位置与朝向。这种能力对于机器人抓取、物体交互等任务至关重要,因为只有当机器人能够精确感知物体的空间位置与方向时,才能实现稳定、可靠的操作。

然而,要在真实复杂场景中实现鲁棒的 6D 姿态估计依然面临着多重挑战:

  • 遮挡与自遮挡:物体部分被其他物体或自身结构遮挡,会造成关键信息缺失;

  • 纹理缺失:某些工业零件、工具等表面缺乏明显的纹理特征,难以从 2D 图像中精准定位;

  • 域间差异:合成数据与真实世界在光照、噪声、背景等方面存在巨大差异,直接迁移常常导致性能下降。

过去的许多方法在处理这一任务时,通常会仅将 CAD 模型作为监督信号,而忽略了 CAD 模型本身蕴含的丰富信息——例如精确的几何结构、空间关系以及潜在的视觉外观特征。部分基于深度的研究尝试将 CAD 模型直接输入网络,通过点云编码等方式引入几何信息建立对应关系,但这些方法往往没有充分利用 CAD 的视觉信息。

RAG-6DPose 的提出正是为了突破这一局限:它不仅利用 CAD 的几何特征,还主动挖掘 CAD 模型的视觉外观信息,并将二者深度融合到姿态估计流程中。这种方法在遮挡、视角变化等挑战性场景下展现了更强的泛化性和稳定性,为机器人在真实环境中执行精确操作提供了更坚实的技术基础。

RAG-6Dpose

RAG-6DPose 的核心思想是将 CAD 模型构建成一个可检索的多模态知识库,并在推理过程中按需调用相关信息,以提升单目 6D 姿态估计的精度与鲁棒性。整个方法分为三个阶段:

1. 构建多模态 CAD 知识库

针对当前主流模型(如 DINOv2)在 二维特征提取 上优于三维特征的特点,RAG-6DPose 采用 “2D 表征 + 3D 对齐” 的策略来充分利用 CAD 数据。具体流程为:

  • 从 CAD 模型渲染多视角彩色图像;

  • 使用 DINOv2 提取每个视角的高质量视觉特征;

  • 通过深度信息将 2D 特征映射回 CAD 的 3D 点坐标;

每个点整合视觉特征、三维坐标与颜色信息,最终形成一个既包含外观又包含几何的多模态知识库。

2. 基于 ReSPC 模块的 CAD 信息检索

在姿态估计时,系统会根据输入的 RGB 图像,动态检索 知识库中与其最相关的 CAD 特征。为此,RAG-6DPose 提出了ReSPC模块,用于同时对齐与融合几何结构和视觉外观信息,从而高效提取最匹配的 CAD 数据支持后续推理。

3. 检索增强的姿态解码

最后,检索到的 CAD 特征与图像特征一同输入到检索增强解码器中,进行姿态预测。这一步不仅让网络获得了图像中的外观信息,还能借助 CAD 提供的精确几何参考,从而在遮挡、缺纹理等复杂场景下依然保持高精度。

实验结果

为了验证 RAG-6DPose 的有效性,作者在多个BOP基准数据集和真实机器人操作环境中进行了广泛测试。

1. 主要实验结果与指标

实验结果显示,我们的方法在多个数据集上都显著超越了基线模型,达到SOTA性能。

2. 模块有效性验证

消融实验充分验证了各个模块的有效性与必要性。

3. 真机实验

4. 可视化结果

本文为粉丝投稿,投稿邮箱amos@52cv.net

阅读原文

跳转微信打开

联系我们