让你更懂AI的 2025-10-05 20:12 北京
现实一动,智商掉线
多模态大语言模型(MLLMs)已在视觉与语言模态融合的感知与推理任务中展现出强大能力。而上海人工智能实验室提出的的 OST-Bench,则是从智能体探索场景的动态在线视角出发,为大模型的能力提出了新的挑战。
对比离线/静态的空间智能基准,OST-Bench 更精准地反映了具身感知在真实世界中的核心挑战。
OST-Bench基于丰富多样的场景数据 (ScanNet, Matterport3D 和 ARKitScenes) 构建,通过高效数据生成的流程,涵盖了 1,400 个场景的 10,000 组问答对(对应的训练集涵盖了 7000 个场景的 50,000 组问答对)。
作者对主流 MLLMs 进行测试后发现,这些模型在需要复杂时空推理的任务上表现欠佳:在线设置下,随着探索范围扩展与记忆增长,其准确率显著下降。
通过深入实验分析,作者识别出各个模型的共性常见错误,并通过进一步分析发现,复杂的空间线索推理与长期记忆检索能力,是当前模型发展的两大核心瓶颈。
最后,通过微调实验,作者证明了单纯数据微调的局限性以及更优的模型架构/训练范式的必要性。目前我们的代码和数据均已开源。
论文由上海人工智能实验室、上海交通大学、香港大学、香港中文大学的研究者们共同完成。
论文题目:
OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding
项目主页:
https://rbler1234.github.io/OSTBench.github.io/
论文链接:
https://arxiv.org/abs/2507.07984
Hugging Face数据集:
https://huggingface.co/datasets/rbler/OST-Bench
代码链接:
https://github.com/OpenRobotLab/OST-Bench
离线鸟瞰全景VS在线移步换景
在现实世界中,我们的视野范围是有限的,我们的眼睛在某一时刻只能聚焦于一个局部的场景。
随着不断的探索,移步换景,我们对于全局场景逐步地形成一个更为清晰的认识;与此同时,基于当前以及历史的观测,我们也能感知自身的位置变化以及与之前见过的物体的位置关系(“我离那把椅子越来越远”,”棕色的枕头现在在我的右后方”)。
在真实世界部署的智能体也是如此——它们通常无法一次性获取全局环境,而是依赖连续输入的局部观测,需要在不断“移步换景”中完成在线感知、记忆维护与时空推理。
这对导航、移动操控等具身任务尤为关键:比如在导航中,模型需要在当前时刻判断“刚才见到的目标现在在我左后方”,并据此决定行动。
随着多模态大模型在各类基准上不断刷新记录,人们开始关注它们在真实世界设定下的表现。在时间维度,希望模型具备在线理解能力;在空间维度,希望模型能够基于 2d 观测创建 3d 空间布局认知。
然而,以往的空间智能评测多为离线、固定输入长度,而涌现的一些在线视频评测基准往往只考察局部或语义层面的空间感知。
我们的 OST-Bench 则更贴近真实世界场景,相比以往基准具有两大核心特点:
1. 在线设定:模型必须在不断增长的观测中进行实时感知、记忆与推理;
2. 跨时空理解:需要同时结合当前画面与历史信息,完成面向时间跨度的复杂空间推理。
正如图 1 所示,与传统离线空间基准相比,在线设定对模型提出了更高、更接近真实智能体的要求。
▲ 图1
基准介绍:“移步换景”为大模型带来了哪些新难题?
以往针对 LMMs 的 OCR 评测基准主要关注基础的文字识别任务,但随着大模型的普及,现实世界的 OCR 需求已超越简单的“读出文字”。文档中的表格、图表、手写笔记、复杂的版式,文字图像的文本定位,以及基于文本的推理,都是 LMMs 面临的挑战。
传统静态场景理解关注物体属性、物体之间的关系等静态信息。当引入一个动态智能体后,场景中出现了新的考察信息,而这些信息不再是静止不变的了,而是会随着智能体的探索不断的更新变化, 问题种类也随之拓展。我们将这些信息分为了三大类别。
1. 智能体空间状态(Agent State):指智能体的位置和朝向,随着探索过程不断变化;
2. 智能体可见信息(Agent Visible Info):指智能体在记忆中可感知的物体种类、数量及出现时间,这些信息会随着探索动态更新;
3. 智能体-物体空间关系(Agent-object Spatial Relationship):指智能体与物体之间的三维空间关系(相对/绝对的距离与方向),也随着智能体的移动持续变化。
我们又对这三大类任务进一步细分为 15 个子任务,覆盖了判断 (JUD.)、估算 (EST.)、计数 (CNT.)、时间定位 (TEMP.) 四类题型(如图 2)OST-Bench 的数据采用规则化流程高效生成,并对每一道样本进行人工筛选与修正,最终覆盖 ScanNet、Matterport3D 和 ARKitScenes 共 1,400 个场景,10,000 条测试样本。
此外,在微调实验中,我们沿用同样的数据生成链路,构建了来自 7,000 个场景的 50,000 条训练样本,用于进一步的验证实验。
▲ 图2
实验结果:大模型的在线场景时空理解答卷
1. 主流大模型陷入困境:在 OST-Bench 上,当前主流多模态大模型与人类存在显著性能差距:在所有问题类型上准确率均远低于人类水准,尤其在“智能体空间状态”与“智能体-物体空间关系”任务中,其表现几乎接近随机猜测,暴露出跨时空信息推理的能力短板(表1/表2)。
值得注意的是,模型的准确率会随着探索步数的增加而持续下降(如图),说明现有范式难以适应长时序的在线设定。
2. 空间增强模型能做好吗?结果可能没那么乐观。我们额外评估了几类具备“空间建模”机制的模型(如 Spatial-MLLM、VLM-3R 和 LLaVA-3D),与其基座模型相比,它们在 OST-Bench 上不仅没有预期的显著提升,反而在部分任务上明显退步,并伴随指令遵循能力的下降。
总体来看,空间增强模型虽然在特定数据分布中表现良好,但在更开放、更复杂的在线场景中仍难以稳健发挥。这也进一步体现强调了 OST-Bench 在揭示模型真实能力边界方面的价值。
深入分析:大模型的表现诊断书
1. 错误类型统计——大模型听得懂看得清,但是推理能力差
我们对于每个模型抽取了 270 个错误案例进行人工分析,并将其归为三类:指令理解错误、感知错误和推理错误。结果显示,最主要的失分来源并非听不懂,看不清,而是“不会推理”。尤其是在两类任务中错误最为集中:
智能体与物体间的空间关系判断
智能体自身空间状态的推断
这两类任务都需要“把过去看过的多帧信息串起来”进行复杂时空推理,而模型往往在这一步“掉链子”。
2. 共性问题聚焦——大模型遇到难题更喜欢走捷径?
在对错误案例的深入分析中,我们发现一个十分典型的共性现象:在面对复杂时空推理问题时,对比主动回溯历史信息或检索关键线索,模型更倾向于“就地猜测”——仅依据当前片段中的有限信息做出草率推断,而非进行真正的时空整合推理。
我们将这种现象称为“时空推理捷径(Spatio-temporal Reasoning Shortcut)”:模型看似给出了合理答案,但推理过程并无充分依据,往往只是“表面合理”(下图体现了一些 case,绿色/红色高亮部分分别是模型正确/错误推理的部分)。
3. 跨视角推理测评子集——对于MLLM的专项补考
为了更精确地定位模型的能力边界,我们设计了一个针对性子集。和之前的测评不同,这次:
按难度分级。我们按是否需要多步的复杂推理(如下图)以及是否提前提出关键帧,将问题划分为四个难度等级。对比单步关联,多步空间关联任务要求更强的推理能力;对比只有关键帧输入,全视频输入则需在冗长观察中识别用于解答的关键帧。
答案推理过程双重判断。所有问题均由规则生成并经人工筛选,评测也全部人工完成,只有答案与推理过程同时正确,方被视为正确回答。
补考的结果(上表)表明:复杂线索条件下的空间推理能力不足与长期记忆检索机制薄弱是当前模型在在线时空理解任务中准确率受限的两大关键因素。这两项能力缺陷构成了模型性能提升的主要瓶颈,也明确指示了未来模型演进的重点方向。
4. 微调实验——提前”预习”在OST-Bench的帮助有多大?
为了评估模型能力的上限,我们基于来自 7000 个场景的 5 万条问答数据对多种模型进行了微调实验,结果如表所示。所有模型的分数均提升了超过 10%,证明“提前预习突击”确实有效。
然而,我们也发现:真正涉及复杂时空推理的任务仍难以突破 50% 的准确率,说明单纯微调并不能触及问题本质;此外,模型在部分题型上呈现出明显的“背答案”倾向而非真正理解。例如在估计题和判断题中,模型会在不同样本上重复输出几乎相同的数值或选项,显然是在依赖数据分布进行“蒙答”。
更糟的是,微调后的模型还容易“变得不听话”,连最基本的回答格式都无法稳定遵守,也无法对自己的答案进行解释。
这些实验现象表明:微调可以带来提升,但这种提升更像是“题海战术式的熟练”,而非“机制上的理解进步”。在这门课上,没有结构和范式的突破,仅靠刷数据是无法真正拿高分的。要攻克 OST-Bench,必须依赖更强的模型设计或训练策略。
总结
OST-Bench 提出了一个在线的时空场景理解基准,通过对于多个多模态大模型的评估,揭示了当前模型在面对“在线时空理解”任务时的深层短板,也为未来模型的发展指明了方向:突破复杂空间推理能力与长期记忆机制,将是下一代多模态模型迈向真实智能世界的关键一步。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·