CV君 2025-11-08 20:32 江苏
为机器人连接AI系统和物理世界提供了强大的环境表示
大家好,今天想和大家聊一篇非常扎实的工作,来自北京理工大学团队,并已被机器人顶刊 IEEE Transactions on Robotics (TRO) 接收。这篇名为 OmniMap 的论文,提出了一个首个能够同时在线处理光学、几何和语义信息的通用建图框架,并且最重要的是,现在已经开源了!
对于机器人来说,能全面准确地感知三维环境至关重要。这意味着要同时捕捉到环境的真实外观(光学)、精确的结构形状(几何)以及理解场景中的物体(语义)。但现有的方法往往顾此失彼,要么渲染效果模糊,要么几何结构不规整,要么语义理解有歧义。OmniMap 的出现,就是为了解决这个“鱼与熊掌不可兼得”的难题。
论文标题: OmniMap: A General Mapping Framework Integrating Optics, Geometry, and Semantics
作者: Yinan Deng, Yufeng Yue, Jianyu Dou, Jingyu Zhao, Jiahui Wang, Yujie Tang, Yi Yang, Mengyin Fu
机构: 北京理工大学
Arxiv链接: https://arxiv.org/abs/2509.07500
IEEE T-RO链接: https://ieeexplore.ieee.org/document/11203277
迈向通用感知的挑战
在 Embodied AI(具身智能)时代,机器人需要一个“超级大脑”来理解世界。这个大脑需要一个理想的环境表示,它应该能:
光学上:从任意视角都能渲染出照片般逼真的外观。
几何上:重建出精细的物体结构。
语义上:具备开放词汇的物体识别和scene understanding能力。
然而,现有的建图研究领域或多或少都存在短板。传统的体素建图方法(如 OctoMap)虽然能在线运行,但在光学和几何细节上表现不佳;表面重建方法(如 KinectFusion)能得到精细的几何模型,却缺乏语义信息;而近年来大火的 NeRF 和 3DGS 技术,虽然渲染效果惊艳,但通常需要离线训练,无法满足机器人实时在线的需求。
OmniMap 的核心架构
OmniMap 的强大之处在于其巧妙的系统设计。它主要由三个核心模块组成,采用了一种 紧密耦合的 3DGS-Voxel 混合表示,既保证了精细建模,又确保了结构的稳定性。
语言嵌入提取器 (Language Embeddings Extractor): 这个模块负责处理输入的每一帧图像,提取实例级的语义信息。它采用了一个高效的管线:首先使用 YOLO-World 检测实例的边界框,然后以边界框为提示,利用 TAP 模型同时生成精细的分割Mask和文本描述(Caption),最后通过 SBERT 将文本描述编码为固定维度的嵌入向量。
概率体素重建器 (Probabilistic Voxel Reconstructor): 该模块负责将2D的实例信息增量式地、稳健地融合到3D空间中。它通过计算几何相似度和语义相似度进行概率融合,从而实现准确的实例关联。其核心是实例计数传感器模型 (ICSM) ,它将体素更新建模为MAP估计问题,并通过狄利克雷分布的共轭先验,将更新规则简化为高效的“计数”操作,从而对前端分割的噪声具有很强的鲁棒性。
运动鲁棒的3DGS增量重建器 (Motion-Robust 3DGS Incremental Reconstructor): 这是实现高质量渲染和精细几何的关键。它从新增的体素中初始化新的高斯基元,并利用一个包含4个可微参数的自适应相机模型来补偿运动模糊和曝光变化,从而显著提升渲染质量。
关键技术创新
除了上述核心模块,OmniMap还有几项关键的技术创新值得关注:
基于体素的初始化: 与暴力添加高斯基元不同,OmniMap只在新分配的体素中初始化高斯,极大地保证了高斯的分布均匀性,避免了冗余,确保了模型的紧凑性。
法线约束: 为了获得更精细的几何结构,OmniMap在训练中引入了法线损失。通过监督渲染深度图的法线与真值深度图的法线,它强制实现了更强的局部几何一致性,从而重建出更平滑、更精细的表面。
实验效果:全方位超越 SOTA
OmniMap 在多个公开数据集上进行了广泛实验,并在渲染质量、几何精度和零样本语义分割三个维度上均达到了SOTA水平。
(1) 光学:图像渲染无论是色彩保真度还是细节纹理,OmniMap都展现了卓越的渲染品质。
(2) 几何:网格重建重建的网格表面平滑,结构精准,即使是椅子腿这样的精细结构也能完美还原。
(3) 语义:零样本分割在开放词汇的零样本分割任务上,OmniMap能够准确地识别和分割出各类物体。
丰富的下游应用
一个通用的建图框架,其价值最终体现在对下游任务的支持上。OmniMap 的全面表示能力使其能够赋能多种应用:
场景问答 (Scene Q&A): 用户可以像与聊天机器人对话一样,向系统提问关于场景的问题。
交互式编辑 (Interactive Editing): 用户可以查询并直接操纵场景中的物体,例如移动一把椅子,并从多视角实时看到编辑后的结果。
感知引导的操作 (Perception-guided Manipulation): 机械臂可以利用 OmniMap 对工作空间进行扫描和理解,从而完成用户指定的抓取等任务。
地图辅助的导航 (Map-assisted Navigation): 移动机器人可以先构建一个全面的场景地图,然后利用这个地图来完成更复杂的任务。
总结与未来工作
OmniMap 作为首个在光学、几何和语义上同时实现高精度、实时性和模型紧凑性的通用在线建图框架,其贡献是里程碑式的。它通过一系列创新设计,为机器人连接AI系统和物理世界提供了强大的环境表示。
当然,作者也坦诚地指出了当前的局限性:OmniMap 目前依赖外部定位系统,且暂时无法处理动态场景。未来的工作将专注于开发集成的跟踪模块和实现动态实例辨别,使OmniMap成为一个更通用的即插即用型场景表示解决方案。
大家对这个方法怎么看?欢迎在评论区留下你的看法,也强烈建议大家去GitHub上看看源码!