CV君 2025-10-06 12:48 江苏
首个SIM(3)等变网络,无需对齐,跨域性能刷新SOTA!
聊一篇关于3D形状补全的顶会论文。
我们先简单聊聊为什么需要3D形状补全。在现实世界中,我们通过激光雷达(LiDAR)、深度相机等设备获取的3D数据几乎总是残缺不全的。这可能是因为物体被遮挡、传感器视角有限,或是扫描本身存在噪声。一个残缺的物体形状会给下游任务带来巨大麻烦,比如在自动驾驶中,系统需要根据一辆车的部分扫描脑补出它的完整形态才能做出安全的决策;在机器人抓取中,也需要知道物体的完整几何才能规划稳定的抓取姿态。因此,3D形状补全技术,即从部分观测中恢复物体完整三维形状的能力,是3D视觉领域一个至关重要的基础任务。
论文基本信息
论文标题: Learning Generalizable Shape Completion with SIM(3) Equivariance
作者: Yuqing Wang, Zhaiyu Chen, Xiao Xiang Zhu
所属机构: 慕尼黑工业大学
录用会议: NeurIPS 2025
研究动机
现有的形状补全方法虽然在标准数据集上表现优异,但在处理真实世界中姿态各异、尺度不一的扫描数据时,性能往往会急剧下降。这正是本篇论文的核心研究动机。
作者发现,问题的根源在于模型走了“捷径”。许多方法依赖于一个隐藏的假设:输入的残缺物体已经被“摆正”并“缩放到标准大小”(即对齐到规范坐标系)。这导致网络学会的不是通用的几何推理能力,而是去“记忆”和“匹配”在标准姿态下的形状。当现实中这个对齐假设不成立时,模型自然就“失灵”了。
为了打破这一困境,作者的目标是构建一个从架构上就对物体的姿态和尺度“免疫”的模型,迫使它去学习物体内在的、与观察视角无关的几何结构。基于此,他们提出了首个具有SIM(3)等变性的形状补全网络。简单来说,SIM(3)等变性意味着无论你如何旋转、平移或缩放输入的残缺3D点云,模型的补全结果也会相应地进行完全一致的变换,从根本上保证了结果的几何一致性。
现有方法的“捷径”与“困境”
在深入了解新方法之前,我们先看看传统方法存在的问题。目前主流的形状补全范式大致有三类:
显式规范化 (Explicit Canonicalization) :在处理输入前,先用一个独立的模块预测物体的标准姿态和尺寸,然后将其对齐。这种方法看似解决了问题,但实际上是将对齐的误差引入了模型,并且泄露了姿态和尺度信息,模型依然可能去“作弊”。
数据增强 (Data Augmentation) :通过在训练时对输入数据进行大量的随机旋转、平移和缩放,期望模型能学会对这些变换的“免疫力”。这种方法虽然有一定效果,但它并不能从根本上保证模型在遇到所有可能的变换时都能保持一致性,有时甚至会因为变换的多样性而产生模糊的补全结果。
部分等变性方法 (SO(3)/SE(3) Equivariance) :一些先进的方法考虑了旋转(SO(3))或旋转+平移(SE(3))的等变性,但这忽略了同样重要的“尺度”问题。
上图清晰地展示了这几种范式的区别。可以看到,无论是显式规范化还是数据增强,在面对非标准姿态的输入时都表现不佳。而本文提出的SIM(3)等变方法,则能完美地泛化到任意相似变换下。
核心方法:SIM(3)等变网络架构
为了实现真正的SIM(3)等变性,作者设计了一个精巧的Transformer编码器-解码器结构。其核心思想在于网络中的每一层都遵循一个“规范化-推理-恢复”的三步曲,从而在整个信息处理流程中维持等变性。
整个流程如上图所示:
特征提取: 首先,使用一个向量神经元网络(VN-DGCNN)从输入的点云块中提取具备旋转等变性的初始特征。
等变Transformer层: 接着,这些特征被送入Transformer的编码器和解码器。每一层都包含三个关键模块:
特征规范化 (Canonicalize): 受到层归一化(Layer Normalization)的启发,作者设计了一个模块,它能将特征在几何上对齐到一个标准的、与平移和尺度无关的“参考系”中。这一步巧妙地移除了平移和尺度信息,同时保留了旋转等变性。
不变性推理 (Reason): 在这个规范化的特征空间里,模型使用SIM(3)不变的注意力机制来推理物体的内在几何关系。因为此时特征已经与姿态和尺度解耦,注意力机制可以更专注于形状本身的结构。
变换恢复 (Restore): 推理完成后,网络再将之前移除的平移和尺度变换“加回去”,使得输出的特征恢复到原始的坐标系下。
通过在每一层都执行这个过程,网络确保了从输入到输出的端到端SIM(3)等变性。如下图所示,当输入点云经过一个相似变换(旋转、平移、缩放)后,输出的补全形状也精确地发生了同样的变换。
实验效果:真正的泛化能力
作者设计了一套“去偏见”的评估协议,即在测试时使用模型从未见过的、随机的姿态和尺度,来检验模型的真实泛化能力。
在标准数据集上的优越性
在PCN数据集上,与之前仅支持SO(3)、SE(3)等变性或使用数据增强的方法相比,该模型在更严格的SIM(3)测试设置下全面胜出。令人惊讶的是,即便是在之前那些方法占优的“有偏”评估设置下,本文的方法依然能取得SOTA或有竞争力的结果。
惊人的跨域泛化表现
这篇工作最亮眼的部分在于其跨域泛化能力。作者将仅在合成数据集PCN上训练的模型,直接用于补全真实的自动驾驶激光雷达扫描(KITTI)和室内场景扫描(OmniObject3D)。
结果非常惊艳。如下图所示,相比于基线模型,SIM(3)等变网络补全的车辆和家具形状更完整、细节更丰富。在定量指标上,它将KITTI上的最小匹配距离(MMD)降低了17%,并将OmniObject3D上的Chamfer距离降低了14%。这充分证明了学习内在几何对于泛化到全新数据领域的关键作用。
稳健性分析
此外,实验还证明了该方法对姿态和尺度扰动、噪声以及点云缺失都具有很强的鲁棒性。随着扰动的增加,其他方法的性能迅速下降,而SIM(3)等变模型则能保持稳定的补全质量。
总结
总而言之,这篇论文通过构建严格的SIM(3)等变性,为3D形状补全的泛化问题提供了一个非常深刻且有效的解决方案。它不仅仅是又一个在排行榜上刷分的模型,更是对3D视觉领域一个基本问题的哲学思考和实践探索。
作者已经开源了代码,感兴趣的朋友可以去他们的项目主页一探究竟。
对于这种严格的等变性设计,大家有什么看法?它会成为3D视觉的下一个主流范式吗?欢迎在评论区留下你的见解!