CV君 2025-11-16 07:04 江苏
机器人操作如何摆脱深度噪声“魔咒”?清华大学新框架给你答案。
论文标题: SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation
作者: Hao Shi, Bin Xie, Yingfei Liu, Yang Yue, Tiancai Wang, Haoqiang Fan, Xiangyu Zhang, Gao Huang
机构: 清华大学, Dexmal原力灵机, 旷视科技, StepFun阶跃星辰
代码仓库(待开源): https://github.com/shihao1895/spatialactor
模型(待发布): https://huggingface.co/collections/shihao1895/spatialactor
录用信息: AAAI 2026 Oral
大家好,今天想和大家聊一篇来自清华大学、Dexmal原力灵机等机构的最新研究成果。这篇文章提出了一个名为SpatialActor的机器人操作框架,旨在解决一个非常棘手的问题:真实世界中,深度传感器采集的数据往往充满噪声,这极大地影响了机器人的操作精度和稳定性。SpatialActor通过一种巧妙的“解耦”思想,显著提升了机器人在复杂环境下的鲁棒性。
背景:机器人操作的“空间困境”
让机器人像人一样在三维空间中与物体进行灵巧交互,是机器人学的核心目标之一。为了实现这一点,机器人需要精确地理解周围环境的空间几何信息。
目前主流的技术路线大致可以分为两类:
基于点云的方法:直接处理3D点云数据,能明确表达几何结构。但缺点是点云通常是稀疏的,处理过程中容易丢失精细的语义信息,而且高质量的3D标注成本高昂。
基于图像的方法:将RGB图像和深度图(RGB-D)作为输入,利用强大的2D预训练模型提取特征。这种方法能获得密集的语义信息,但问题在于它们常常将语义和几何信息“纠缠”在一起处理。当深度图存在噪声时(这在现实中几乎是不可避免的),这种纠缠的表示会同时污染语义和几何的理解,导致性能急剧下降。
如上图所示,现有方法在面对噪声时表现不佳。而本文提出的SpatialActor(也许可以理解为“空间大师”?),其核心动机就是将这两种信息解耦,让模型在利用深度信息的同时,又能抵抗其带来的噪声影响。
SpatialActor:解耦语义与几何
SpatialActor的整体框架如下图所示。它创新性地将视觉感知分解为三个部分:视觉语义、高层几何和低层空间线索,并对它们进行独立建模和融合。
模型接收来自多个摄像头的RGB-D图像、机器人自身状态(如关节角度)和语言指令作为输入,最终输出机械臂末端的动作指令(包括位置、姿态和夹爪状态)。
其核心在于两大创新模块:
语义引导的几何模块 (SGM)
为了得到鲁棒的几何表示,SGM模块(Semantic-guided Geometric Module)并没有直接完全信任充满噪声的原始深度图。它引入了一个“外部专家”——一个预训练好的大规模深度估算模型。这个专家可以仅根据RGB图像,生成一个相对粗糙但非常鲁棒的几何先验。
如上图(a)所示,SGM通过一个门控融合机制(gating mechanism),自适应地将原始深度图提供的精细但有噪声的几何特征,与深度专家提供的粗糙但鲁棒的几何先验结合起来。公式如下:
这里的 是一个学习到的门控权重,它决定了在不同区域应该更相信原始深度还是专家先验,从而在抑制噪声的同时保留必要的几何细节。
空间变换器 (SPT)
高层几何信息虽然鲁棒,但对于需要毫米级精度的操作任务来说还不够。因此,作者设计了空间变换器(Spatial Transformer, SPT)来利用低层的空间线索。
如上图(b)所示,SPT的核心思想是为视觉特征建立精确的2D-3D空间对应关系。它利用相机内外参和深度值,将每个2D像素点反投影到三维空间中,并使用旋转位置编码(Rotary Positional Encoding, RoPE)将这些三维坐标信息编码到特征中。
通过这种方式,每个视觉Token都获得了明确的“空间身份”。随后,SPT通过两个层级的注意力机制进行信息交互:
视图级交互 (View-level Interaction):在单个视图内聚合上下文信息。
场景级交互 (Scene-level Interaction):跨越所有视图和语言指令,融合全局信息,形成对整个场景的统一理解。
最终,经过SPT处理的特征被送入动作解码器,生成精确的机器人动作。
实验效果:鲁棒性与泛化性的双重胜利
SpatialActor在模拟和真实世界的50多个任务上进行了广泛评估,结果非常亮眼。
RLBench基准测试
在主流的RLBench操作任务基准上,SpatialActor的平均成功率达到了87.4%,超越了之前所有的SOTA方法,比RVT-2高出6.0%。
特别是在那些对空间精度要求极高的任务上,如插入销钉 (Insert Peg)和形状分类 (Sort Shape),SpatialActor的性能提升尤为显著,分别比RVT-2高出53.3%和38.3%。
噪声鲁棒性测试
为了验证其对抗噪声的能力,研究者在深度数据中手动加入了不同程度的高斯噪声。
结果显示,在轻度、中度和重度噪声条件下,SpatialActor的平均成功率分别比RVT-2高出13.9%、16.9%和19.4%。这充分证明了其解耦设计的有效性。
上图展示了一个定性对比,在抓取胶棒的任务中,RVT-2由于噪声感知而抓取失败,而SpatialActor则能稳定地完成任务。
真实世界实验
研究团队还在真实的WidowX-250机械臂上部署了SpatialActor,涵盖了8个任务和15种变化。
实验结果表明,SpatialActor在真实世界中的平均成功率达到了63%,相比RVT-2的43%有了近20%的巨大提升,展现了强大的现实世界适应能力。
总结
总的来说,SpatialActor通过解耦语义与几何,并精细化地利用不同层次的空间信息,为解决机器人操作中的噪声敏感问题提供了一个非常有效的新范式。
你觉得这个技术未来会用在哪些场景?一起来聊聊吧!