动态列表

  • AI不懂痛苦,却成了你的深夜知己!170位医生教ChatGPT安慰人
  • 一条短信,7年恩怨!奥特曼与马斯克决裂曝出新隐情
  • 不会说英语的母亲,教出了5万亿英伟达CEO!
  • AI「牛顿」来了!北大团队新突破,看一眼数据就能推出物理定律
  • AAAI 2026 Oral | 中科院联合港大提出ARRA:外部视觉表征对齐重塑全局一致性,让自回归大模型充分释放图像生成潜能
  • 1899 元「iPhone 袜子」上架秒光;传华为 Mate80 上 20GB 内存;微信点赞苹果小程序政策
  • 全球最大开源具身大模型!中国机器人跑完马拉松后开始学思考
  • OpenAI拆开AI「黑箱」,终于可以看懂GPT在想什么了
  • LeCun在Meta的「最后一作」
  • 视觉压缩称王?谷歌死守AI黑科技,DeepSeek一夜开源
  • iOS 为微信小程序「正名」,腾讯移动生态的新转机
  • WACV 2026 | PALMS+:融合深度基础模型,手机室内导航的技术再突破
  • GPT 5.1 发布了,但西方媒体准备「讲好中国故事」
  • AI、游戏双驱动,腾讯「赚麻了」
  • 对话李彦宏:Chatbot 不是一切,我在 AI 上看到了更让人兴奋的未来
  • ACL 2025 | 用图结构让RAG学会「记忆与总结」,重塑长上下文理解
  • OpenAI把Transformer训练成「几乎全零」,黑箱首次被彻底揭开
  • 杭州/北京内推 | 阿里淘天算法团队招聘多模态理解方向算法实习生
  • 传苹果从微信小程序抽成 15%,腾讯回应;特斯拉考虑支持 CarPlay;iPhone Air 成功支持实体卡 |极客早知道
  • 谷歌DeepMind最新论文,刚刚登上了Nature!揭秘IMO最强数学模型
  • ICLR 2026出分,审稿员怒喷「精神病」!DeepMind研究员教你绝地求生
  • GPT-5.1发布当天,文心5.0杀回来了
  • 一句「你还好吗」值40亿?斯坦福博士出走xAI,押注AGI共情力
  • 营收狂飙的「暗面」:Meta成「全球欺诈大本营」?
  • 小鹏科技日「太魔幻」:机器人走猫步,飞行汽车接近量产
  • AAAI 2026 Oral 中科大联合西工大提出RSKT-Seg:专为遥感打造的高效开放词汇分割框架,推理提速2倍
  • Roboflow&CMU论文披露RF-DETR细节:首个COCO数据集突破60 AP实时目标检测,速度飙升20倍!
  • 博士申请 | 佛罗里达大学计算机系招收NLP/LLM方向全奖博士/实习生
  • 深度研究智能体真的“懂你”吗?OPPO × 浙大首发个性化深度研究评测基准
  • DeepSeek罗福莉正式亮相小米AI;「周杰伦概念股」联手宇树造 IP 机器人;乘用车百公里加速不少于5秒
  • 奥特曼下注27岁神秘青年,「复活」世界最顶级实验室
  • AI秒破18世纪「天书」账本!谷歌新模型盲测刷屏全网
  • Llama 4造假丑闻幕后:小扎豪赌143亿,却为中国AI「做了嫁衣」
  • 少年沉迷AI自杀,9岁遭性暗示!这门「孤独生意」,正推孩子入深渊
  • ConsistEdit:重新定义AI视觉编辑,港科大、清华等机构提出MM-DiT注意力控制新方法
  • NeurIPS 2025 | 中科院携手快手发布LiveStar:首个“会说话、懂沉默”的直播AI,推理速度提升1.53倍
  • 北京内推 | 阿里高德地图团队招聘大模型方向算法实习生(可长期/转正)
  • AAAI 2026 | 悉尼科技大学 × 港理工推出 FedVLR:让联邦推荐也能“懂图文”
  • 双十一算力真敢卷!RTX 5090低至0.69元/时,同预算跑更多实验
  • 对话元理智能张帆:为什么「商业强化学习」,才是 AI To B 的新出路
  • 深度复盘:大疆是如何成为影像领域新巨头的?
  • 传李想亲抓人事,华为系高管退出理想;Meta 首席 AI 科学家杨乐昆离职创业;AI 减肥或致饮食失调
  • Nature子刊:太空中建数据中心,无限能源,浙大首次证实可行!
  • 英伟达铁幕之后,谷歌AI芯片已成气候
  • 翻译界的ChatGPT时刻!Meta发布新模型,几段示例学会冷门新语言
  • 硅谷GPU蒙尘,马斯克一言成谶:美国AI被电卡脖子
  • 65岁图灵巨头离职创业!LeCun愤然与小扎决裂,Meta巨震
  • 年产值突破 150 亿,刚毕业的俊男美女涌入「团播」工厂
  • 马斯克想要 1 万亿,何小鹏只想等一句「牛 P」
  • 通往AGI的歧路:上海AI Lab重磅发现,自进化智能体可能“错误进化
  • 北京内推 | 百度文心一言基座团队模型组招聘大模型方向研究型实习生
  • 全模态到底是不是“1+1>2”?美团UNO-Bench揭示单模态与全模态能力的组合规律
  • 3DV 2026 | 特伦托大学等提出DEMO:让AI看懂复杂人体动作,实现密集描述新范式
  • NeurIPS 2025 | 上交大、南农大提出ADPretrain:为工业异常检测量身打造的预训练“超能力”
  • 小米汽车 10 月销量近 5 万,YU7 超 Model Y;美团 AI 编程工具开启公测;马化腾王传福成智元机器人受益股东
  • AI版PUA!哈佛研究揭露:AI用情感操控,让你欲罢不能
  • AI领域全新热门职业,岗位需求今年已增长逾800%
  • 硅谷10万大裁员真相:AI根本没想取代你,是老板想干掉你
  • OpenAI试图绑架美国政府,奥特曼还有救命底牌?
  • 全球68%科研人压力爆表,高校AI人才集体大逃亡!
  • 「传统教育」的船快沉了,人们却还在挤「头等舱」
  • 保暖?排汗?时尚?户外运动装备这道「选择题」,亚瑟士要打破「不可能三角」
  • 北京内推 | 腾讯AI Lab招聘大模型/多模态大模型方向研究型实习生
  • EMNLP 2025 | 别再只看KV了!LLM越深越稀疏:UNCOMP用矩阵熵给出答案
  • 过去五年,BERT都在被“过度训练”?LeCun团队给出Encoder算力最优范式
  • 在 Cursor 工作 60 天,我发现了这家公司成功的秘密
  • 这款 AI 写作神器,让数百网文作者「月入过万」|AI 上新
  • AI“世界模型”离真实手术还有多远?首个外科视频生成基准SurgVeo揭示“合理性差距”
  • ACM MM 25 当MLLM遇上行人重识别:是“降维打击”还是“水土不服”?深度评测来了!
  • 美国AI巨头股缩水8000亿美元;传Meta靠诈骗广告收入超千亿;《英雄联盟》S15总决赛T1夺冠|极客早知道
  • 谷歌二代Nano Banana爆出!一键推演微积分,终结PS时代
  • 狗也被AI抢饭碗?好莱坞动物演员全下岗,观众直接翻脸了!
  • ChatGPT求婚火了,一句「我愿意」刷屏!网友:是真爱了
  • 小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」
  • NeurIPS25 | 清华&北大提出LinearDiff-ViT:让Transformer学会“找不同”,实打实提升模型性能
  • AI 六巨头罕见同台,辨论 AI 泡沫;SpaceX 公布简化版登月舱方案;王者荣耀年度总决赛首次在鸟巢举办

“全模态”3D视觉基础模型OmniVGGT出炉!即插即用任意几何模态,刷新3D视觉任务SOTA,赋能VLA模型

CV君 2025-11-14 22:14 江苏

一个能消化一切几何信息的3D视觉模型来了!

最近,通用的3D视觉基础模型开始引领潮流,但它们中的大多数都满足于仅使用RGB图像作为输入,而忽略了现实世界中唾手可得的几何信息,比如相机的内外参数、位姿和深度图。为了解决这个问题,来自港科大、南洋理工等机构的研究者们提出了一个名为OmniVGGT的新框架。这里的“Omni”指向“全模态”,精准地概括了其核心能力:一个能够有效利用任意数量的辅助几何模态(无论是训练还是推理阶段)来增强3D视觉理解的视觉几何基础Transformer。

背景:从RGB到多模态的3D感知

在3D视觉领域,无论是自动驾驶、AR/VR还是机器人技术,我们常常能获取到比单纯的彩色图像更丰富的信息。例如,RGB-D相机能提供深度图,激光雷达(LiDAR)能捕捉点云,而许多机器人应用本身就清楚自己的相机参数。然而,现有的许多3D基础模型在设计上却“偏食”于RGB图像,这无疑是一种信息浪费。虽然有工作尝试融合多模态输入,但往往被限制在特定的两种输入(如RGB图像对和深度图对)上,缺乏灵活性。

如何在统一的框架内,优雅且高效地融入这些形式多样、数量不定的几何信息,让模型变得更强大、更鲁棒,正是OmniVGGT希望解决的核心问题。

OmniVGGT:两大核心创新

OmniVGGT的整体架构如上图所示,它能够接收一组图像以及任意数量对应的相机参数(内外参、位姿)或深度图。其成功的秘诀主要在于两大核心设计:GeoAdapter随机多模态融合训练策略

GeoAdapter:无损注入几何信息的“适配器”

为了将额外的几何信息(如相机参数和深度)“喂”给模型,同时又不破坏预训练基础模型精心学习到的特征空间,研究者设计了一个即插即用的适配器模块——GeoAdapter。

它的设计思想十分精妙,特别是对于相机参数的注入,采用了零初始化卷积(zero-initialized convolution)

具体来说,对于相机参数,GeoAdapter首先将其编码为辅助相机token 。然后,通过一个权重初始化为零的卷积层,再加到原始的相机token 上。其更新过程可以简化为如下公式:

在训练初期,由于的输出近似为零,这个操作相当于什么都没加,保证了模型的稳定性。随着训练的进行,网络可以“按需”学习,逐渐让这个适配器发挥作用,将几何先验知识平滑地融入到模型中。这种设计确保了优化的稳定性,并且带来的额外计算开销可以忽略不计。

对于深度信息的注入则更为直接,GeoAdapter将深度图编码为辅助深度token 后,直接加到对应的图像空间token 上:

作者在消融实验中发现,对深度分支使用零初始化卷积是多余的,反而会干扰信息的有效融合。

随机多模态融合:提升泛化与鲁棒性的训练魔法

为了让模型在推理时能从容应对“任意数量”的模态输入(可能只有RGB,可能有深度,也可能两者都有),OmniVGGT在训练阶段采用了一种随机多模态融合策略。

具体来说,在处理每个训练样本时,它会随机决定提供多少(甚至是否提供)相机参数和深度图真值。这种“时有时无”、“时多时少”的训练方式,迫使模型不能过度依赖任何一种辅助信息,而是去学习一种更鲁棒、更通用的空间表征。这使得最终训练出的模型具备了极高的灵活性,无论测试时提供何种模态组合,都能稳定输出高质量结果。

实验效果:全面领先,赋能机器人

OmniVGGT在多个主流3D视觉任务上进行了全面评估,包括单目/多视点深度估计、多视点立体匹配、相机位姿估计和三维重建。

上图直观展示了不同辅助信息带来的效果提升。仅提供相机信息(上),有助于校正低重叠区域的几何。仅提供深度信息(中),能带来更精细的局部几何。两者都提供时(下),相对距离和视角都得到了很好的修正。

多任务性能SOTA

在多视点深度估计任务中,如下表所示,无论是否提供辅助信息,OmniVGGT的表现都极具竞争力。仅使用RGB时,它就在ScanNet等数据集上取得了优于之前方法的结果。而当提供了相机参数(K, RT)和深度(D)后,性能更是大幅提升,在多个指标上成为新的SOTA。

在相机位姿估计任务上,OmniVGGT同样表现出色。仅用RGB输入,其性能就超越了此前的SOTA模型VGGT。更惊人的是,在利用辅助输入时,它的性能远超同样利用辅助信息的Pow3R,同时推理速度快了约30倍

在稀疏视角的7-Scenes数据集上,提供相机参数(K+RT)能让模型在准确度(Acc)指标上获得高达65.4%的相对提升,这证明了OmniVGGT在处理极端稀疏视角时的强大能力。

赋能VLA,提升机器人操作精度

为了进一步验证其在实际应用中的价值,研究者将OmniVGGT整合到了视觉-语言-动作(Vision-Language-Action, VLA)模型中。由于OmniVGGT能生成更丰富、更具空间意识的3D表征,这对于需要与物理世界交互并预测绝对位姿的机器人操作至关重要。

在CALVIN机器人操作基准测试中,集成了OmniVGGT的VLA模型(Ours w/ rgb-d)在多项任务上超越了基于点云的基线模型,展现了更强的性能。这证明了OmniVGGT学习到的丰富空间表征能够有效转化为机器人操作精度的提升。

总结

OmniVGGT通过巧妙的GeoAdapter和随机多模态融合策略,成功打造了一个能够灵活、高效利用任意几何信息的统一3D视觉框架。它不仅在多个基准测试中刷新了SOTA,更在机器人等实际应用中展现了巨大潜力。作者已经开源了代码,鼓励大家上手尝试。

你觉得这种“即插即用”的模态融合方式,未来还能应用在哪些领域?欢迎在评论区分享你的看法!

阅读原文

跳转微信打开

联系我们