CV君 2025-11-14 22:14 江苏
一个能消化一切几何信息的3D视觉模型来了!
论文标题: OmniVGGT: Omni-Modality Driven Visual Geometry Grounded Transformer
作者: Haosong Peng, Hao Li, Yalun Dai, Yushi Lan, Yihang Luo, Tianyu Qi, Zhengshen Zhang, Yufeng Zhan, Junfei Zhang, Wenchao Xu, Ziwei Liu
机构: 香港科技大学、南洋理工大学、中山大学、新加坡国立大学、阿里巴巴集团
最近,通用的3D视觉基础模型开始引领潮流,但它们中的大多数都满足于仅使用RGB图像作为输入,而忽略了现实世界中唾手可得的几何信息,比如相机的内外参数、位姿和深度图。为了解决这个问题,来自港科大、南洋理工等机构的研究者们提出了一个名为OmniVGGT的新框架。这里的“Omni”指向“全模态”,精准地概括了其核心能力:一个能够有效利用任意数量的辅助几何模态(无论是训练还是推理阶段)来增强3D视觉理解的视觉几何基础Transformer。
背景:从RGB到多模态的3D感知
在3D视觉领域,无论是自动驾驶、AR/VR还是机器人技术,我们常常能获取到比单纯的彩色图像更丰富的信息。例如,RGB-D相机能提供深度图,激光雷达(LiDAR)能捕捉点云,而许多机器人应用本身就清楚自己的相机参数。然而,现有的许多3D基础模型在设计上却“偏食”于RGB图像,这无疑是一种信息浪费。虽然有工作尝试融合多模态输入,但往往被限制在特定的两种输入(如RGB图像对和深度图对)上,缺乏灵活性。
如何在统一的框架内,优雅且高效地融入这些形式多样、数量不定的几何信息,让模型变得更强大、更鲁棒,正是OmniVGGT希望解决的核心问题。
OmniVGGT:两大核心创新
OmniVGGT的整体架构如上图所示,它能够接收一组图像以及任意数量对应的相机参数(内外参、位姿)或深度图。其成功的秘诀主要在于两大核心设计:GeoAdapter和随机多模态融合训练策略。
GeoAdapter:无损注入几何信息的“适配器”
为了将额外的几何信息(如相机参数和深度)“喂”给模型,同时又不破坏预训练基础模型精心学习到的特征空间,研究者设计了一个即插即用的适配器模块——GeoAdapter。
它的设计思想十分精妙,特别是对于相机参数的注入,采用了零初始化卷积(zero-initialized convolution)。
具体来说,对于相机参数,GeoAdapter首先将其编码为辅助相机token 。然后,通过一个权重初始化为零的卷积层,再加到原始的相机token 上。其更新过程可以简化为如下公式:
在训练初期,由于的输出近似为零,这个操作相当于什么都没加,保证了模型的稳定性。随着训练的进行,网络可以“按需”学习,逐渐让这个适配器发挥作用,将几何先验知识平滑地融入到模型中。这种设计确保了优化的稳定性,并且带来的额外计算开销可以忽略不计。
对于深度信息的注入则更为直接,GeoAdapter将深度图编码为辅助深度token 后,直接加到对应的图像空间token 上:
作者在消融实验中发现,对深度分支使用零初始化卷积是多余的,反而会干扰信息的有效融合。
随机多模态融合:提升泛化与鲁棒性的训练魔法
为了让模型在推理时能从容应对“任意数量”的模态输入(可能只有RGB,可能有深度,也可能两者都有),OmniVGGT在训练阶段采用了一种随机多模态融合策略。
具体来说,在处理每个训练样本时,它会随机决定提供多少(甚至是否提供)相机参数和深度图真值。这种“时有时无”、“时多时少”的训练方式,迫使模型不能过度依赖任何一种辅助信息,而是去学习一种更鲁棒、更通用的空间表征。这使得最终训练出的模型具备了极高的灵活性,无论测试时提供何种模态组合,都能稳定输出高质量结果。
实验效果:全面领先,赋能机器人
OmniVGGT在多个主流3D视觉任务上进行了全面评估,包括单目/多视点深度估计、多视点立体匹配、相机位姿估计和三维重建。
上图直观展示了不同辅助信息带来的效果提升。仅提供相机信息(上),有助于校正低重叠区域的几何。仅提供深度信息(中),能带来更精细的局部几何。两者都提供时(下),相对距离和视角都得到了很好的修正。
多任务性能SOTA
在多视点深度估计任务中,如下表所示,无论是否提供辅助信息,OmniVGGT的表现都极具竞争力。仅使用RGB时,它就在ScanNet等数据集上取得了优于之前方法的结果。而当提供了相机参数(K, RT)和深度(D)后,性能更是大幅提升,在多个指标上成为新的SOTA。
在相机位姿估计任务上,OmniVGGT同样表现出色。仅用RGB输入,其性能就超越了此前的SOTA模型VGGT。更惊人的是,在利用辅助输入时,它的性能远超同样利用辅助信息的Pow3R,同时推理速度快了约30倍。
在稀疏视角的7-Scenes数据集上,提供相机参数(K+RT)能让模型在准确度(Acc)指标上获得高达65.4%的相对提升,这证明了OmniVGGT在处理极端稀疏视角时的强大能力。
赋能VLA,提升机器人操作精度
为了进一步验证其在实际应用中的价值,研究者将OmniVGGT整合到了视觉-语言-动作(Vision-Language-Action, VLA)模型中。由于OmniVGGT能生成更丰富、更具空间意识的3D表征,这对于需要与物理世界交互并预测绝对位姿的机器人操作至关重要。
在CALVIN机器人操作基准测试中,集成了OmniVGGT的VLA模型(Ours w/ rgb-d)在多项任务上超越了基于点云的基线模型,展现了更强的性能。这证明了OmniVGGT学习到的丰富空间表征能够有效转化为机器人操作精度的提升。
总结
OmniVGGT通过巧妙的GeoAdapter和随机多模态融合策略,成功打造了一个能够灵活、高效利用任意几何信息的统一3D视觉框架。它不仅在多个基准测试中刷新了SOTA,更在机器人等实际应用中展现了巨大潜力。作者已经开源了代码,鼓励大家上手尝试。
你觉得这种“即插即用”的模态融合方式,未来还能应用在哪些领域?欢迎在评论区分享你的看法!