动态列表

  • 港中文&港科大等提出FullPart:让3D部件生成达到全分辨率精度
  • ReDiff:突破并行生成瓶颈,多模态扩散模型生成质量与效率双提升
  • 谢菲尔德大学提出Region-CAM:mIoU提升13.6%,破解弱监督学习中的目标定位难题
  • 英伟达开源ChronoEdit,让P图学会物理常识,时序推理颠覆图像编辑!
  • 天津大学与快手联手提出GRAG:仅需4行代码,实现图像编辑的“丝滑”微调
  • IROS 2025 | 大连理工等提出STG-Avatar:25分钟训练,单目视频实时生成高保真数字人
  • 普林斯顿大学联手谷歌DeepMind,BOB让少样本细粒度分类精度飙升7.4%
  • 中科院SNELLA:视觉模型微调新范式,性能超越SOTA,内存占用降低近40%
  • 美团开源LongCat-Video:136亿参数长视频生成,分钟级推理720p
  • 看似万能的 AI,其实比你想的更脆弱和邪恶
  • 重建超越RAE,还能做编辑!北大&通义提出UniLIP: 自蒸馏训练助力CLIP大一统
  • 世界模型是否需要显式的 3D?UT Austin 新作 PE-Field 给出答案
  • Feed-Forward 3D综述:三维视觉进入“一步到位”时代
  • CUPID:单图秒速重建3D,港大提出姿态引导新范式
  • 每周100万人与ChatGPT聊自杀;美团推全国骑手社保补贴;高通发AI芯片,股价暴涨20%
  • 美国大学排名出炉:哥大断崖式下滑,MIT稳居CS榜第一!
  • 开源即登榜!登顶全球前十AI编程智能体,UCL初创团队开源Prometheus
  • 奥特曼考虑给ChatGPT加广告了!用8亿用户,救万亿债务
  • VaseVQA:考古领域实现专家级,诊断+补弱RL框架
  • 弑母分尸案震惊世界,AI伪造语音骗过警察!
  • 一把吉他卖出 10 亿后,LiberLive 选择自我革命
  • 仅仅是 AI,并不能让硬件更「智慧」,更重要的其实是这个
  • 北京/上海/杭州内推 | 蚂蚁集团保险大模型算法团队招聘大模型算法专家(P6-P7)
  • 多人物也能“认得准”!阿里开源Identity-GRPO,刷新视频生成一致性上限
  • RL记得更牢,SFT更健忘?普林斯顿陈丹琦团队改写后训练认知
  • 首个面向大模型的形式化数学竞赛正式启动:推动AI数学推理迈向可验证新高度
  • ICCV'25|开源AI3D数据集Objaverse++:更少的数据,却有更好的生成效果
  • 川大等提出LG-CD:一句话精准锁定遥感影像变化,F1分数高达91.83%
  • “压缩不减智”!EPIC让多模态大模型以更少 Token 跑得更快、更稳|NeurIPS 2025
  • ​一个对话助理,如何盘活整个「夸克宇宙」?
  • 马斯克 xAI 上新款「虚拟女友」;传小米 17 Air 明年上;996 成美国创业者美德
  • AI黑化如恶魔附体!LARGO攻心三步,潜意识种子瞬间开花 | NeurIPS 2025
  • 可攻可防,越狱成功率近90%!六大主流模型全中招 | EMNLP'25
  • 硅谷的「十万大裁员」:Meta按代码量裁员
  • 超94%类别第一!3D点云异常检测与修复新SOTA | ICCV'25
  • AI人格分裂实锤!30万道送命题,撕开OpenAI、谷歌「遮羞布」
  • 思而不学则殆:通义实验室×北大联合提出RL-PLUS,突破大模型推理边界
  • NeurIPS 2025 | 理解能否反过来教生成?VideoREPA让视频生成模型“懂物理”
  • 博士申请 | 香港中文大学陈玥老师招收人工智能/智能电网方向全奖博士生
  • NeurIPS 2025 | 港中文等提出COS3D:协同语言与分割,革新开放词汇3D分割
  • 上海交大与上海AI lab联手推出RAPO++:跨阶段提示优化,让文生视频模型“更懂你心”
  • 传OpenAI正开发新的生成式音乐工具;苹果将AirPods印度产能扩大一倍;《王者荣耀世界》官宣2026春天见

港科大(广州)等联合发布多模态空间推理综述:为大模型画下空间理解的未来蓝图

CV君 2025-10-31 16:38 江苏

一篇全面的综述,系统梳理了大模型时代多模态空间推理的现状、挑战与未来。

我们生活在一个三维的世界里,理解空间关系是与生俱来的本能。但是,对于近年来飞速发展的大语言模型(LLM)而言,这似乎仍是一个不小的挑战。它们或许能对答如流、妙笔生花,但在被问及“桌子上的苹果左边是什么”这类问题时,却常常“犯迷糊”。

为了让AI真正理解并与物理世界交互,空间推理能力不可或缺。最近,来自香港科技大学(广州)、索菲亚大学、香港科技大学、华南理工大学、上海交通大学、比萨大学和特伦托大学等多个顶级研究机构的学者们,联手发布了一篇名为 《Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks》 的重磅综述,系统性地梳理了当前大模型在多模态空间推理领域的进展、挑战与未来。

  • 论文标题: Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks

  • 作者团队: Xu Zheng, Zihao Dongfang, Lutao Jiang, Boyuan Zheng, Yulong Guo, Zhenquan Zhang, Giuliano Albanese, Runyi Yang, Mengjiao Ma, Zixin Zhang, Chenfei Liao, Dingcheng Zhen, Yuanhuiyi Lyu, Yuqian Fu, Bin Ren, Linfeng Zhang, Danda Pani Paudel, Nicu Sebe, Luc Van Gool, Xuming Hu

  • 机构: 香港科技大学(广州)、索菲亚大学、香港科技大学、华南理工大学、上海交通大学、比萨大学、特伦托大学

  • 论文地址: https://arxiv.org/abs/2510.25760

  • 项目主页: https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning

这篇综述不仅对现有工作进行了归纳,还提供了一个开放的基准测试和代码库,旨在为该领域的研究者们提供一个坚实的基础和清晰的路线图。

空间推理:为什么重要?是什么?

空间推理是人类通过视觉、听觉等多种感官信息来理解和认知空间的基本能力。对于AI,尤其是在自动驾驶、机器人、增强现实等需要与物理世界深度交互的场景中,这种能力是实现智能化的关键。

论文首先明确了多模态空间推理的范畴,即模型需要从图像、视频、点云、音频、文本等异构输入中,推断出空间关系、位置和动作,并产生可验证的、空间上合理的输出。

论文的贡献:一张清晰的路线图

面对大模型空间推理领域方法众多但缺乏系统性梳理的现状,这篇综述做出的一项关键贡献是作者们构建了一个清晰的分类法(Taxonomy),将复杂的空间推理任务和技术系统地组织起来。

这张“科技树”将多模态空间推理划分为四大块:

  1. 通用多模态大语言模型(MLLM):关注如何通过后训练、模型架构设计和提升可解释性等方式,增强模型的通用空间推理能力。

  2. 3D视觉:深入探讨了3D场景下的视觉定位(Grounding)、场景理解与问答(QA)、以及3D内容生成。

  3. 具身智能(Embodied AI):聚焦于更复杂的动态任务,如视觉-语言导航(VLN)和视觉-语言-动作(VLA)模型。

  4. 新兴模态:探索了如何利用音频、第一视角视频等新传感信息来辅助空间理解。

通用MLLM的空间推理增强术

如何让一个通用的MLLM“开窍”,学会空间推理?论文总结了当前主流的几类方法。

  • 测试时扩展(Test-Time Scaling):包括提示工程(Prompt Engineering)、工具使用(Tool Use)等,无需重新训练模型,通过巧妙的输入设计或借助外部工具来提升性能。

  • 后训练(Post-Training):通过在特定的空间任务数据上进行监督微调(SFT)或强化学习(RL),来“教会”模型空间知识。

  • 模型设计与可解释性:从模型架构层面进行改进,或研究模型为何在空间任务上失败,从而针对性地提出解决方案。

论文详细对比了各种提示工程方法、工具使用策略以及强化学习方法在空间推理任务上的应用,为研究者提供了丰富的“弹药库”。

从2D到3D:空间推理的进阶之路

如果说2D图像的空间推理是基础,那么3D世界的理解与交互则是大模型们正在努力攻克的下一座高峰。

论文重点梳理了3D空间中的三大核心任务:

  • 3D视觉定位(3D Visual Grounding):根据语言描述,在3D场景中找到对应的物体。这需要模型将语言概念与3D空间中的几何实体精确对齐。

  • 3D场景推理与问答(3D Scene Reasoning and QA):对3D场景提出问题,并由模型进行回答,这要求模型对场景的几何结构、物体关系有更深层次的理解。

  • 3D生成(3D Generation):根据文本或图像描述,生成全新的3D模型或场景布局。这不仅考验模型的空间想象力,还考验其对物理世界规律的把握。

迈向物理世界:具身智能中的空间推理

具身智能(Embodied AI)是AI研究的“圣杯”之一,它要求智能体(Agent)能够在物理环境中执行任务。这背后,空间推理能力是不可或缺的驱动力。

论文回顾了VLA(视觉-语言-动作)和VLN(视觉-语言-导航)等主流具身任务中的空间推理研究。例如,如何让机器人根据“把桌上的红苹果放到冰箱里”这样的指令,规划出合理的路径并完成动作。作者们对比了不同的模型在引入3D信息、多任务训练等方面的策略和效果。

新的感官:视频和音频中的空间线索

除了传统的图像和文本,视频和音频也蕴含着丰富的空间信息。比如,通过声音的远近、方位变化,我们可以判断声源的位置和移动轨迹。

论文专门开辟章节,探讨了在视频问答和音频问答中,模型如何利用时空线索和声学线索进行推理。这为多模态感知开辟了新的可能性。

基准与挑战:衡量进步的标尺

没有度量,就无法进步。论文的另一大亮点是全面梳理了多模态空间推理的基准(Benchmarks)。作者们绘制了一张时间线,清晰地展示了相关基准的演进历程,从早期的图文对,到如今覆盖视频、音频、3D、交互等多种模态和任务的复杂评测。

同时,论文也汇总了当前SOTA模型在一些主流视频-文本空间推理基准上的表现,让我们可以直观地看到现有技术的水平。

最后,论文总结了该领域面临的核心挑战,并指明了未来的研究方向,例如:

  • 第一视角(Egocentric)的推理:如何从“我”的视角去理解世界。

  • 高效可扩展的3D表示:如何更好地在模型中表征复杂的3D世界。

  • 具身智能的泛化:如何让智能体在未知环境中也能表现出色。

  • 新传感器的融合:如何利用热成像、雷达、全景相机等更多样的传感器。

  • 统一的评测基准:建立更全面、更贴近真实的评测标准。

总结

CV君认为,这篇综述为关注多模态和具身智能领域的研究者提供了一份宝贵的“导航图”。它不仅告诉我们现在身处何方,更重要的是,它指明了通往“星辰大海”的几条可能路径。

大家对这个领域有什么看法?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

联系我们