飞落雨 2025-10-11 13:07 江苏
准确的 6D 姿态估计对机器人操作至关重要,可实现像抓取这样任务中精确的物体定位。单目 6D 姿态估计旨在从一张 RGB 图像中准确预测物体的三维位置和朝向,这对机器人抓取与交互等任务非常关键。然而,实现稳健可靠的 6D 姿态估计仍面临诸多挑战,如遮挡(包括自遮挡)、物体纹理缺乏,以及合成数据与真实世界之间的域差异等问题。
针对这种情境,尽管许多方法会使用输入图像作为输入,并仅将 CAD 模型用作监督信号,但 CAD 模型本身所蕴含的丰富信息尚未被充分利用。
本文介绍一篇收录于 IROS 2025 的论文《RAG-6DPose: Retrieval-Augmented 6D Pose Estimation via Leveraging CAD as Knowledge Base》。该研究由复旦大学和INSAIT的研究者们提出,设计了一种名为RAG-6DPose的检索增强式方法,利用 3D CAD 模型作为知识库,融合视觉和几何特征,在著名的BOP基准上取得了新的SOTA或极具竞争力的结果。
论文标题:RAG-6DPose: Retrieval-Augmented 6D Pose Estimation via Leveraging CAD as Knowledge Base
会议:IEEE/RSJ IROS 2025
研究背景与意义
在机器人操作、自动化装配等场景中,单目 6D 姿态估计(Monocular 6D Pose Estimation)是一项核心技术,其目标是从一张 RGB 图像中准确预测物体的三维位置与朝向。这种能力对于机器人抓取、物体交互等任务至关重要,因为只有当机器人能够精确感知物体的空间位置与方向时,才能实现稳定、可靠的操作。
然而,要在真实复杂场景中实现鲁棒的 6D 姿态估计依然面临着多重挑战:
遮挡与自遮挡:物体部分被其他物体或自身结构遮挡,会造成关键信息缺失;
纹理缺失:某些工业零件、工具等表面缺乏明显的纹理特征,难以从 2D 图像中精准定位;
域间差异:合成数据与真实世界在光照、噪声、背景等方面存在巨大差异,直接迁移常常导致性能下降。
过去的许多方法在处理这一任务时,通常会仅将 CAD 模型作为监督信号,而忽略了 CAD 模型本身蕴含的丰富信息——例如精确的几何结构、空间关系以及潜在的视觉外观特征。部分基于深度的研究尝试将 CAD 模型直接输入网络,通过点云编码等方式引入几何信息建立对应关系,但这些方法往往没有充分利用 CAD 的视觉信息。
RAG-6DPose 的提出正是为了突破这一局限:它不仅利用 CAD 的几何特征,还主动挖掘 CAD 模型的视觉外观信息,并将二者深度融合到姿态估计流程中。这种方法在遮挡、视角变化等挑战性场景下展现了更强的泛化性和稳定性,为机器人在真实环境中执行精确操作提供了更坚实的技术基础。
RAG-6Dpose
RAG-6DPose 的核心思想是将 CAD 模型构建成一个可检索的多模态知识库,并在推理过程中按需调用相关信息,以提升单目 6D 姿态估计的精度与鲁棒性。整个方法分为三个阶段:
1. 构建多模态 CAD 知识库
针对当前主流模型(如 DINOv2)在 二维特征提取 上优于三维特征的特点,RAG-6DPose 采用 “2D 表征 + 3D 对齐” 的策略来充分利用 CAD 数据。具体流程为:
从 CAD 模型渲染多视角彩色图像;
使用 DINOv2 提取每个视角的高质量视觉特征;
通过深度信息将 2D 特征映射回 CAD 的 3D 点坐标;
每个点整合视觉特征、三维坐标与颜色信息,最终形成一个既包含外观又包含几何的多模态知识库。
2. 基于 ReSPC 模块的 CAD 信息检索
在姿态估计时,系统会根据输入的 RGB 图像,动态检索 知识库中与其最相关的 CAD 特征。为此,RAG-6DPose 提出了ReSPC模块,用于同时对齐与融合几何结构和视觉外观信息,从而高效提取最匹配的 CAD 数据支持后续推理。
3. 检索增强的姿态解码
最后,检索到的 CAD 特征与图像特征一同输入到检索增强解码器中,进行姿态预测。这一步不仅让网络获得了图像中的外观信息,还能借助 CAD 提供的精确几何参考,从而在遮挡、缺纹理等复杂场景下依然保持高精度。
实验结果
为了验证 RAG-6DPose 的有效性,作者在多个BOP基准数据集和真实机器人操作环境中进行了广泛测试。
1. 主要实验结果与指标
实验结果显示,我们的方法在多个数据集上都显著超越了基线模型,达到SOTA性能。
2. 模块有效性验证
消融实验充分验证了各个模块的有效性与必要性。
3. 真机实验
4. 可视化结果
本文为粉丝投稿,投稿邮箱amos@52cv.net