动态列表

  • 谷歌二代Nano Banana爆出!一键推演微积分,终结PS时代
  • 狗也被AI抢饭碗?好莱坞动物演员全下岗,观众直接翻脸了!
  • ChatGPT求婚火了,一句「我愿意」刷屏!网友:是真爱了
  • 小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」
  • NeurIPS25 | 清华&北大提出LinearDiff-ViT:让Transformer学会“找不同”,实打实提升模型性能
  • AI 六巨头罕见同台,辨论 AI 泡沫;SpaceX 公布简化版登月舱方案;王者荣耀年度总决赛首次在鸟巢举办
  • LLM首次达到人类语言专家水平!OpenAI o1拿下拆解句法、识别歧义、推理音律
  • 仅2天!谷歌AI破解十年谜题,锁定救命药人类全失手
  • 终结Transformer统治!清华姚班校友出手,剑指AI「灾难性遗忘」
  • 仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类
  • AI六巨头罕见同台!李飞飞激辩LeCun,黄仁勋:你们都错了
  • 复盘大疆 Pocket 的七年:从「定义产品」到「定义时代」
  • 10.58 万!零跑造了一台「红米 YU7」
  • 当一家传统车企,终于决定「师中长技」
  • AI热潮推动,全球 DRAM 内存价格暴涨;泡泡玛特回应直播事故;媒体爆料iPhone 18 Pro工程机进展
  • 强化学习教父重出江湖, 生成式AI的时代要结束了?
  • 英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万
  • 投85份简历0 Offer!CS研究生心态崩了,亲历20年最猛裁员潮
  • 视频模型假装在推理?MME-CoF新基准评估12个推理维度
  • Ilya、小扎之后,苏莱曼的「超级智能」进入7年倒计时!
  • TCSVT 25 | 宁波诺丁汉大学等提出De-LightSAM:仅需SAM-H 2%参数,实现通用化医疗影像自动分割
  • IROS 2025 | 北理工提出BoRe-Depth:仅8.7M参数,在嵌入式设备实现50.7 FPS高清深度估计
  • 有些答案,听 AI 说一百遍,不如和「最有料的人」聊一次
  • 工程&计算机领域前沿洞察 | Synthesis技术前沿报告合集
  • 上交大刘鹏飞团队:Context Engineering进入2.0,上下文成为可操作对象
  • 用 AI 做电商真实效果如何?我们调研了双 11 一线从业者
  • 马斯克 1 万亿美元的薪酬方案获特斯拉股东批准;东方甄选孙东旭离职;Altman:今年 OpenAI 年化收入将达 200 亿美元
  • 蔚来,破 4 万!
  • 今年双十一最大的赢家是这张表
  • 大道至简,中科院等提出OneRef:统一视觉定位和指代分割
  • 复旦大学&StepFun提出WithAnyone:告别“复制粘贴脸”,实现可控、高保真的多人ID一致性生成
  • 极客公园创新大会 2026 首批嘉宾揭晓!
  • 达摩院联合浙大、港理工推出PixelRefer:多模态大模型迈向像素级视觉理解
  • 北京内推 | 美团招聘大模型算法实习生(IM全渠道)
  • 自回归不必按token算了:微信AI × 清华用CALM直接「整段」预测
  • Altman 怒喷 OpenAI 唱衰者;小鹏发布新一代人形机器人 IRON;苹果支付 10 亿美金,新 Siri 将引入谷歌 Gemini|极客早知道
  • 别被一堆Strong Accept吓住:德州农工×康奈尔实锤论文晒分“系统性虚高”
  • 记忆让机器人更聪明:原力灵机提出MemoryVLA化解长时程任务操作难题
  • 博士申请 | 南洋理工大学王琦琛老师课题组招收数据库方向全奖博士/博后
  • 151% 的增长背后,它正在成为 AI 的「新入口」
  • 清华&南洋理工等提出稀疏模型反演:ViT反演加速高达3.79倍,告别无效背景!
  • 低光图像增强新探索:SASW-Loss,无需改网络,即插即用提升多种模型性能
  • 山姆更新后遭会员疯狂吐槽;Switch2 销量破千万;小米马志宇警告存储涨价:明年最新的成本预估“有点惊悚”|极客早知道
  • NeurIPS25 | 香港理工&OPPO&哈佛提出DNAEdit:直接噪声对齐让Rectified flow文生图编辑更加准确
  • 为物理AI打造世界模型!英伟达发布Cosmos-2.5:模型缩小3.5倍,性能媲美SOTA
  • Sketch-to-Layout,从草图到布局!DeepMind & EPFL 在设计领域的新工作
  • 这个不「瞎 BB 」的 AI 硬件,给了我真正的「陪伴」丨New Things
  • Rokid 乐奇联手 BOLON 眼镜:眼镜巨头依视路的中国棋局
  • 跟一位日本比亚迪车主聊了聊,才明白我们对「出海」有多天真
  • 宁德时代赚走185亿,车企却不想再给「宁王」打工了
  • 从「绝望」到一轮融资43亿元:新石器做对了什么?
  • NeurIPS 2025 | 用蛋白质动态词表“搭积木”,ProDVa高效组装可折叠新蛋白
  • 北京内推 | 阿里通义实验室对话智能团队招聘大模型方向研究型实习生
  • 全注意力、复杂推理不掉速:MiniMax M2把Agent做成了「可执行能力」
  • 豆包,正在悄悄开启「电商新链路」
  • OpenAI 与 AWS 达成 380 亿美元算力合作;新 Siri 付费采用 Gemini;字节试行「豆包股」 | 极客早知道
  • Karpathy点赞NUS新研究:RL微调不稳定的关键根源,指向BF16精度本身
  • ICCV 2025 | 高德提出SeqGrowGraph:以序列化图扩展革新车道拓扑生成
  • 我体验了一下 AI 时代的「家」:快跑,到处都是 AI
  • 每天都和 AI 聊天,你可能已经是个「神经病」
  • 苹果,一赚「解」千愁
  • AMD发布E-MMDiT:仅304M参数,单节点1.5天训练,实现高效图像合成新基准
  • 多媒体顶会ACM MM 2025 最佳论文公布,从“看懂”到“会用”,再到“会思考”:揭示AI与物理世界融合新篇章
  • 顶刊ISPRS (IF 12+) | 400+参考文献,遥感图像超分辨率最新综述!
  • T1 零封 TES 战队,中国战队无缘 S15 总决赛舞台;英伟达合作制药巨头打造超级计算机;理想汽车汤靖详解 MEGA 起火事件|极客早知道

TRO'25开源|机器人建图的终局?一个框架搞定光学、几何与语义!

CV君 2025-11-08 20:32 江苏

为机器人连接AI系统和物理世界提供了强大的环境表示

大家好,今天想和大家聊一篇非常扎实的工作,来自北京理工大学团队,并已被机器人顶刊 IEEE Transactions on Robotics (TRO) 接收。这篇名为 OmniMap 的论文,提出了一个首个能够同时在线处理光学、几何和语义信息的通用建图框架,并且最重要的是,现在已经开源了!

对于机器人来说,能全面准确地感知三维环境至关重要。这意味着要同时捕捉到环境的真实外观(光学)、精确的结构形状(几何)以及理解场景中的物体(语义)。但现有的方法往往顾此失彼,要么渲染效果模糊,要么几何结构不规整,要么语义理解有歧义。OmniMap 的出现,就是为了解决这个“鱼与熊掌不可兼得”的难题。

迈向通用感知的挑战

在 Embodied AI(具身智能)时代,机器人需要一个“超级大脑”来理解世界。这个大脑需要一个理想的环境表示,它应该能:

  1. 光学上:从任意视角都能渲染出照片般逼真的外观。

  2. 几何上:重建出精细的物体结构。

  3. 语义上:具备开放词汇的物体识别和scene understanding能力。

然而,现有的建图研究领域或多或少都存在短板。传统的体素建图方法(如 OctoMap)虽然能在线运行,但在光学和几何细节上表现不佳;表面重建方法(如 KinectFusion)能得到精细的几何模型,却缺乏语义信息;而近年来大火的 NeRF 和 3DGS 技术,虽然渲染效果惊艳,但通常需要离线训练,无法满足机器人实时在线的需求。

OmniMap 的核心架构

OmniMap 的强大之处在于其巧妙的系统设计。它主要由三个核心模块组成,采用了一种 紧密耦合的 3DGS-Voxel 混合表示,既保证了精细建模,又确保了结构的稳定性。

  1. 语言嵌入提取器 (Language Embeddings Extractor): 这个模块负责处理输入的每一帧图像,提取实例级的语义信息。它采用了一个高效的管线:首先使用 YOLO-World 检测实例的边界框,然后以边界框为提示,利用 TAP 模型同时生成精细的分割Mask和文本描述(Caption),最后通过 SBERT 将文本描述编码为固定维度的嵌入向量。

  2. 概率体素重建器 (Probabilistic Voxel Reconstructor): 该模块负责将2D的实例信息增量式地、稳健地融合到3D空间中。它通过计算几何相似度语义相似度进行概率融合,从而实现准确的实例关联。其核心是实例计数传感器模型 (ICSM) ,它将体素更新建模为MAP估计问题,并通过狄利克雷分布的共轭先验,将更新规则简化为高效的“计数”操作,从而对前端分割的噪声具有很强的鲁棒性。

  3. 运动鲁棒的3DGS增量重建器 (Motion-Robust 3DGS Incremental Reconstructor): 这是实现高质量渲染和精细几何的关键。它从新增的体素中初始化新的高斯基元,并利用一个包含4个可微参数的自适应相机模型来补偿运动模糊和曝光变化,从而显著提升渲染质量。

关键技术创新

除了上述核心模块,OmniMap还有几项关键的技术创新值得关注:

  • 基于体素的初始化: 与暴力添加高斯基元不同,OmniMap只在新分配的体素中初始化高斯,极大地保证了高斯的分布均匀性,避免了冗余,确保了模型的紧凑性。

  • 法线约束: 为了获得更精细的几何结构,OmniMap在训练中引入了法线损失。通过监督渲染深度图的法线与真值深度图的法线,它强制实现了更强的局部几何一致性,从而重建出更平滑、更精细的表面。

实验效果:全方位超越 SOTA

OmniMap 在多个公开数据集上进行了广泛实验,并在渲染质量、几何精度和零样本语义分割三个维度上均达到了SOTA水平。

(1) 光学:图像渲染无论是色彩保真度还是细节纹理,OmniMap都展现了卓越的渲染品质。

(2) 几何:网格重建重建的网格表面平滑,结构精准,即使是椅子腿这样的精细结构也能完美还原。

(3) 语义:零样本分割在开放词汇的零样本分割任务上,OmniMap能够准确地识别和分割出各类物体。

丰富的下游应用

一个通用的建图框架,其价值最终体现在对下游任务的支持上。OmniMap 的全面表示能力使其能够赋能多种应用:

  • 场景问答 (Scene Q&A): 用户可以像与聊天机器人对话一样,向系统提问关于场景的问题。

  • 交互式编辑 (Interactive Editing): 用户可以查询并直接操纵场景中的物体,例如移动一把椅子,并从多视角实时看到编辑后的结果。

  • 感知引导的操作 (Perception-guided Manipulation): 机械臂可以利用 OmniMap 对工作空间进行扫描和理解,从而完成用户指定的抓取等任务。

  • 地图辅助的导航 (Map-assisted Navigation): 移动机器人可以先构建一个全面的场景地图,然后利用这个地图来完成更复杂的任务。

总结与未来工作

OmniMap 作为首个在光学、几何和语义上同时实现高精度、实时性和模型紧凑性的通用在线建图框架,其贡献是里程碑式的。它通过一系列创新设计,为机器人连接AI系统和物理世界提供了强大的环境表示。

当然,作者也坦诚地指出了当前的局限性:OmniMap 目前依赖外部定位系统,且暂时无法处理动态场景。未来的工作将专注于开发集成的跟踪模块和实现动态实例辨别,使OmniMap成为一个更通用的即插即用型场景表示解决方案。

大家对这个方法怎么看?欢迎在评论区留下你的看法,也强烈建议大家去GitHub上看看源码!

阅读原文

跳转微信打开

联系我们