ToolsAi

让你更懂AI的 2025-10-05 20:12 北京

现实一动，智商掉线

多模态大语言模型（MLLMs）已在视觉与语言模态融合的感知与推理任务中展现出强大能力。而上海人工智能实验室提出的的 OST-Bench，则是从智能体探索场景的动态在线视角出发，为大模型的能力提出了新的挑战。

对比离线/静态的空间智能基准，OST-Bench 更精准地反映了具身感知在真实世界中的核心挑战。

OST-Bench基于丰富多样的场景数据 (ScanNet, Matterport3D 和 ARKitScenes) 构建，通过高效数据生成的流程，涵盖了 1,400 个场景的 10,000 组问答对（对应的训练集涵盖了 7000 个场景的 50,000 组问答对）。

作者对主流 MLLMs 进行测试后发现，这些模型在需要复杂时空推理的任务上表现欠佳：在线设置下，随着探索范围扩展与记忆增长，其准确率显著下降。

通过深入实验分析，作者识别出各个模型的共性常见错误，并通过进一步分析发现，复杂的空间线索推理与长期记忆检索能力，是当前模型发展的两大核心瓶颈。

最后，通过微调实验，作者证明了单纯数据微调的局限性以及更优的模型架构/训练范式的必要性。目前我们的代码和数据均已开源。

论文由上海人工智能实验室、上海交通大学、香港大学、香港中文大学的研究者们共同完成。

论文题目：

OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding

项目主页：

https://rbler1234.github.io/OSTBench.github.io/

论文链接：

https://arxiv.org/abs/2507.07984

Hugging Face数据集：

https://huggingface.co/datasets/rbler/OST-Bench

代码链接：

https://github.com/OpenRobotLab/OST-Bench

离线鸟瞰全景VS在线移步换景

在现实世界中，我们的视野范围是有限的，我们的眼睛在某一时刻只能聚焦于一个局部的场景。

随着不断的探索，移步换景，我们对于全局场景逐步地形成一个更为清晰的认识；与此同时，基于当前以及历史的观测，我们也能感知自身的位置变化以及与之前见过的物体的位置关系(“我离那把椅子越来越远”，”棕色的枕头现在在我的右后方”)。

在真实世界部署的智能体也是如此——它们通常无法一次性获取全局环境，而是依赖连续输入的局部观测，需要在不断“移步换景”中完成在线感知、记忆维护与时空推理。

这对导航、移动操控等具身任务尤为关键：比如在导航中，模型需要在当前时刻判断“刚才见到的目标现在在我左后方”，并据此决定行动。

随着多模态大模型在各类基准上不断刷新记录，人们开始关注它们在真实世界设定下的表现。在时间维度，希望模型具备在线理解能力；在空间维度，希望模型能够基于 2d 观测创建 3d 空间布局认知。

然而，以往的空间智能评测多为离线、固定输入长度，而涌现的一些在线视频评测基准往往只考察局部或语义层面的空间感知。

我们的 OST-Bench 则更贴近真实世界场景，相比以往基准具有两大核心特点：

1. 在线设定：模型必须在不断增长的观测中进行实时感知、记忆与推理；

2. 跨时空理解：需要同时结合当前画面与历史信息，完成面向时间跨度的复杂空间推理。

正如图 1 所示，与传统离线空间基准相比，在线设定对模型提出了更高、更接近真实智能体的要求。

▲ 图1

基准介绍：“移步换景”为大模型带来了哪些新难题？

以往针对 LMMs 的 OCR 评测基准主要关注基础的文字识别任务，但随着大模型的普及，现实世界的 OCR 需求已超越简单的“读出文字”。文档中的表格、图表、手写笔记、复杂的版式，文字图像的文本定位，以及基于文本的推理，都是 LMMs 面临的挑战。

传统静态场景理解关注物体属性、物体之间的关系等静态信息。当引入一个动态智能体后，场景中出现了新的考察信息，而这些信息不再是静止不变的了，而是会随着智能体的探索不断的更新变化, 问题种类也随之拓展。我们将这些信息分为了三大类别。

1. 智能体空间状态（Agent State）：指智能体的位置和朝向，随着探索过程不断变化；

2. 智能体可见信息（Agent Visible Info）：指智能体在记忆中可感知的物体种类、数量及出现时间，这些信息会随着探索动态更新；

3. 智能体-物体空间关系（Agent-object Spatial Relationship）：指智能体与物体之间的三维空间关系（相对/绝对的距离与方向），也随着智能体的移动持续变化。

我们又对这三大类任务进一步细分为 15 个子任务，覆盖了判断 (JUD.)、估算 (EST.)、计数 (CNT.)、时间定位 (TEMP.) 四类题型（如图 2）OST-Bench 的数据采用规则化流程高效生成，并对每一道样本进行人工筛选与修正，最终覆盖 ScanNet、Matterport3D 和 ARKitScenes 共 1,400 个场景，10,000 条测试样本。

此外，在微调实验中，我们沿用同样的数据生成链路，构建了来自 7,000 个场景的 50,000 条训练样本，用于进一步的验证实验。

▲ 图2

实验结果：大模型的在线场景时空理解答卷

1. 主流大模型陷入困境：在 OST-Bench 上，当前主流多模态大模型与人类存在显著性能差距：在所有问题类型上准确率均远低于人类水准，尤其在“智能体空间状态”与“智能体-物体空间关系”任务中，其表现几乎接近随机猜测，暴露出跨时空信息推理的能力短板（表1/表2）。

值得注意的是，模型的准确率会随着探索步数的增加而持续下降（如图），说明现有范式难以适应长时序的在线设定。

2. 空间增强模型能做好吗？结果可能没那么乐观。我们额外评估了几类具备“空间建模”机制的模型（如 Spatial-MLLM、VLM-3R 和 LLaVA-3D），与其基座模型相比，它们在 OST-Bench 上不仅没有预期的显著提升，反而在部分任务上明显退步，并伴随指令遵循能力的下降。

总体来看，空间增强模型虽然在特定数据分布中表现良好，但在更开放、更复杂的在线场景中仍难以稳健发挥。这也进一步体现强调了 OST-Bench 在揭示模型真实能力边界方面的价值。

深入分析：大模型的表现诊断书

1. 错误类型统计——大模型听得懂看得清，但是推理能力差

我们对于每个模型抽取了 270 个错误案例进行人工分析，并将其归为三类：指令理解错误、感知错误和推理错误。结果显示，最主要的失分来源并非听不懂，看不清，而是“不会推理”。尤其是在两类任务中错误最为集中：

智能体与物体间的空间关系判断
智能体自身空间状态的推断

这两类任务都需要“把过去看过的多帧信息串起来”进行复杂时空推理，而模型往往在这一步“掉链子”。

2. 共性问题聚焦——大模型遇到难题更喜欢走捷径？

在对错误案例的深入分析中，我们发现一个十分典型的共性现象：在面对复杂时空推理问题时，对比主动回溯历史信息或检索关键线索，模型更倾向于“就地猜测”——仅依据当前片段中的有限信息做出草率推断，而非进行真正的时空整合推理。

我们将这种现象称为“时空推理捷径（Spatio-temporal Reasoning Shortcut）”：模型看似给出了合理答案，但推理过程并无充分依据，往往只是“表面合理”（下图体现了一些 case，绿色/红色高亮部分分别是模型正确/错误推理的部分）。

3. 跨视角推理测评子集——对于MLLM的专项补考

为了更精确地定位模型的能力边界，我们设计了一个针对性子集。和之前的测评不同，这次：

按难度分级。我们按是否需要多步的复杂推理（如下图）以及是否提前提出关键帧，将问题划分为四个难度等级。对比单步关联，多步空间关联任务要求更强的推理能力；对比只有关键帧输入，全视频输入则需在冗长观察中识别用于解答的关键帧。
答案推理过程双重判断。所有问题均由规则生成并经人工筛选，评测也全部人工完成，只有答案与推理过程同时正确，方被视为正确回答。