动态列表

  • 腾讯王者归来:混元图像3.0登顶LMArena!一手实测全球最强图像AI
  • AI「学不会」竟成相变探针!UCSD华人联手谷歌等,曝光量子纠缠秘密
  • 最新,2025诺奖预测出炉!中国科学家有望拿下化学奖?
  • 奥特曼:感受不到GPT-5变强,是因为你还不够「专业」
  • GPT-6或将比GPT-5强10倍!奥特曼揭秘ChatGPT如何诞生
  • LSTM之父再出手!xLSTM挑战Transformer:一场关于Scaling Laws的正面交锋
  • NeurIPS 2025 | AI也能做数学建模?本科生携手MM-Agent勇夺美赛全球前2%
  • 微软下架「炉石」等多款游戏;华为云:华为算力效能超英伟达芯片 3 倍;马斯克回应特斯拉机器人打拳:并非遥控
  • 陶哲轩联手GPT-5,1小时攻克数学难题!全程无需编码,OpenAI副总惊呼
  • 1亿签约金抢AI大神?谷歌AI元老劝退全网:别再读博了!
  • 三天逆袭,Sora登顶美榜!15秒大片玩疯奥特曼,全网直呼真假难辨
  • 10个Agent一键组队:并行智能体协作,端到端交付从24h缩减到4h!
  • 首位AI女演员出道!好莱坞「天敌」来了,下一代偶像全是代码制造?
  • 南理工提出FMC-DETR:巧用“频率解耦”,航拍小目标检测精度飙升8.2% AP50
  • 网红挑战特斯拉FSD穿越美国出车祸;小米回应「小米汽车突然自己开走」;Sora 登顶美区苹果商城免费榜
  • 刚刚,Anthropic紧急换帅!新任CTO执掌算力命脉,直面OpenAI千亿赌局
  • Gemini 3.0 Pro内测流出,编程实力惊人!下周上线
  • 刚刚,奥特曼首曝:AI取代CEO后,我想去当农民!
  • 华人主导谷歌SLED,论文登顶会!一键让模型学会自救
  • LeCun考虑辞职!Meta AI百亿豪赌引爆「内战」,逼走首席科学家
  • NeurIPS 2025 | RAD:基于大规模3DGS孪生数字世界的端到端强化学习训练策略
  • 小米 17 系列销量超百万;苹果新产品泄密源头疑为越南工厂;低价版 model Y 现身官网代码|极客早知道
  • 刚刚,这家0产品0模型就估值854亿的公司,终于发布了首款产品!
  • 刚刚,奥特曼亲赴,韩国「举国」投靠!
  • 奥特曼「一张脸」引爆全球狂欢!Sora 2冲上APP榜第三,邀请码炒到1250元
  • 60岁老人AI养生三个月吃进医院!「AI精神病」全球扩散,OpenAI急招医生
  • 一杯咖啡,3亿美金!斯坦福天才少女退学创业,Meta AI大牛排队加入
  • 武大新作MASt3R-Fusion:融合IMU与GNSS,为新一代视觉SLAM注入“多感官”智慧
  • 中科大、清华、快手等发布OpenGPT-4o-Image:为多模态AI打造的“超级燃料”,图像编辑性能提升18%
  • 历史首位,马斯克身家突破 5000 亿美元;王腾注销、清空多个社媒账号;美国演员工会抵制 AI 演员
  • 刚刚,OpenAI Sora 2重磅登场!首个APP上线,或将成为AI时代新TikTok
  • Sora 2全网疯狂实测:以假乱真、脑洞大开、虚实难分|附首个APP教程和邀请码
  • OpenAI和DeepMind大佬离职联手,誓用AI科学家实现室温超导!已融3亿美元
  • 南洋理工联合商汤提出Visual Jigsaw:像玩拼图一样,显著提升多模态大模型的视觉理解力
  • 天津大学联合腾讯提出Wan-Alpha:一键生成高质量透明视频,发丝级抠图不再是梦
  • OpenAI 深夜重磅推出新视频模型和独立 App;英伟达市值突破4.5万亿美元;特斯拉预计推出第三代人形机器人 | 极客早知道
  • 刚刚!软银系创始人4个月打造机器人超级黑马,获2轮近亿元融资
  • 博士生,当代最穷科研民工?Nature最新调查:不涨工资,我们就跑路了
  • Thinking Machines曝LoRA终极指南:10倍学习率,媲美全参微调
  • AI改造出行体验:滴滴的试验能否开启行业范式转变?
  • GPT-5「降智」真相曝光:不是变笨,而是五个超级开关没激活
  • OpenAI 刚刚发布了属于 AI 的抖音,还有 Sora 2
  • YOLO26首份学界评论:端到端无NMS,目标成为边缘设备实时目标检测新标杆
  • DeFacto:用强化学习治愈AI幻觉,让多模态模型“有据可查”
  • NeurIPS 2025 | 清华大学与华为等提出全新正则化方法,破解稀疏视图3DGS“协同适应”难题
  • LoRA到底能否媲美全参?Thinking Machines用实验曲线划出「无悔区」
  • 榜一换人!OCRBench v2九月新榜:揭示多模态大模型文档智能真实水平
  • 把“俄罗斯方块”搬进设计室:物竞天择让振动微型机器人进化得越跑越快
  • DeepSeek V3.2 发布,API 成本减半;特斯拉员工被机器人打伤,索赔 5100 万美元;Claude 新模型登场
  • 谷歌Veo 3论文竟无一作者来自美国!揭秘零样本「看懂」世界
  • 零样本「即插即用」!智源开源RoboBrain-X0,一个基座模型开动不同机器人
  • AI老司机现身重庆!徐峥挑战赛车手,上演「不再囧途」
  • 强化学习之父给LLM判死刑!站队LeCun:我们全搞错了
  • 独家!DeepSeek最新模型上线,全新注意力机制基于北大ACL最佳论文
  • 北京内推 | 快手可灵AI技术部招聘视频生成/数字人方向算法实习生
  • KDD 2025 | 看不见也能控:用“基混杂向量”打穿分布移位,交通预测稳了
  • 4B逼近DeepSeek-R1!Bengio团队「递归聚合」刷新小模型上限
  • 在云栖,我们遇见了最会玩的「AI 原住民」
  • NeurIPS 2025 | UniPixel:首个统一对象指代与分割的像素级推理框架,让大模型看懂每一个像素
  • NeurIPS 2025 | Seg4Diff:无需分割头,揭示并放大扩散Transformer中的涌现分割能力
  • 做 AI 陪伴收获 1000 万用户后,前微信 AI 产品负责人,要重新定义生活里的 AI
  • 透视阿里云产品生态团队:AI 落地的「关键通道」
  • OpenAI「降配门」发酵,偷换模型遭全网实锤;小米 SU7 在日本首秀;苹果内部测试类 ChatGPT 应用|极客早知道

“移步换景”一试,大模型全乱了:OST-Bench揭示MLLM时空推理短板

让你更懂AI的 2025-10-05 20:12 北京

现实一动,智商掉线

多模态大语言模型(MLLMs)已在视觉与语言模态融合的感知与推理任务中展现出强大能力。而上海人工智能实验室提出的的 OST-Bench,则是从智能体探索场景的动态在线视角出发,为大模型的能力提出了新的挑战。

对比离线/静态的空间智能基准,OST-Bench 更精准地反映了具身感知在真实世界中的核心挑战。

OST-Bench基于丰富多样的场景数据 (ScanNet, Matterport3D 和 ARKitScenes) 构建,通过高效数据生成的流程,涵盖了 1,400 个场景的 10,000 组问答对(对应的训练集涵盖了 7000 个场景的 50,000 组问答对)。

作者对主流 MLLMs 进行测试后发现,这些模型在需要复杂时空推理的任务上表现欠佳:在线设置下,随着探索范围扩展与记忆增长,其准确率显著下降。

通过深入实验分析,作者识别出各个模型的共性常见错误,并通过进一步分析发现,复杂的空间线索推理长期记忆检索能力,是当前模型发展的两大核心瓶颈。

最后,通过微调实验,作者证明了单纯数据微调的局限性以及更优的模型架构/训练范式的必要性。目前我们的代码和数据均已开源。

论文由上海人工智能实验室、上海交通大学、香港大学、香港中文大学的研究者们共同完成。

论文题目:

OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding

项目主页:

https://rbler1234.github.io/OSTBench.github.io/

论文链接:

https://arxiv.org/abs/2507.07984

Hugging Face数据集

https://huggingface.co/datasets/rbler/OST-Bench

代码链接

https://github.com/OpenRobotLab/OST-Bench

离线鸟瞰全景VS在线移步换景

在现实世界中,我们的视野范围是有限的,我们的眼睛在某一时刻只能聚焦于一个局部的场景。

随着不断的探索,移步换景,我们对于全局场景逐步地形成一个更为清晰的认识;与此同时,基于当前以及历史的观测,我们也能感知自身的位置变化以及与之前见过的物体的位置关系(我离那把椅子越来越远棕色的枕头现在在我的右后方)。


在真实世界部署的智能体也是如此——它们通常无法一次性获取全局环境,而是依赖连续输入的局部观测,需要在不断“移步换景”中完成在线感知、记忆维护与时空推理

这对导航、移动操控等具身任务尤为关键:比如在导航中,模型需要在当前时刻判断“刚才见到的目标现在在我左”,并据此决定行动。


随着多模态大模型在各类基准上不断刷新记录,人们开始关注它们在真实世界设定下的表现。在时间维度,希望模型具备在线理解能力;在空间维度,希望模型能够基于 2d 观测创建 3d 空间布局认知。

然而,以往的空间智能评测多为离线、固定输入长度,而涌现的一些在线视频评测基准往往只考察局部或语义层面的空间感知

我们的 OST-Bench 则更贴近真实世界场景,相比以往基准具有两大核心特点:


1. 在线设定模型必须在不断增长的观测中进行实时感知、记忆与推理;

2. 跨时空理解需要同时结合当前画面与历史信息,完成面向时间跨度的复杂空间推理。


正如图 1 所示,与传统离线空间基准相比,在线设定对模型提出了更高、更接近真实智能体的要求

▲ 图1

基准介绍:“移步换景”为大模型带来了哪些新难题?

以往针对 LMMs 的 OCR 评测基准主要关注基础的文字识别任务,但随着大模型的普及,现实世界的 OCR 需求已超越简单的“读出文字”。文档中的表格、图表、手写笔记、复杂的版式,文字图像的文本定位,以及基于文本的推理,都是 LMMs 面临的挑战。

传统静态场景理解关注物体属性、物体之间的关系等静态信息。当引入一个动态智能体场景中出现了新的考察信息,而这些信息不再是静止不变的了,而是会随着智能体的探索不断的更新变化, 问题种类也随之拓展。我们将这些信息分为了三大类别。


1. 智能体空间状态(Agent State)智能体的位置和朝向,随着探索过程不断变化;


2. 智能体可见信息(Agent Visible Info):指智能体在记忆中可感知的物体种类、数量及出现时间,这些信息会着探索动态更新;

3. 智能体-物体空间关系(Agent-object Spatial Relationship)指智能体与物体之间的三维空间关系(相对/绝对的距离与方向),也随着智能体的移动持续变化。


我们又对这三大类任务进一步细分15 个子任务,覆盖判断 (JUD.)、估算 (EST.)、计数 (CNT.)、时间定位 (TEMP.) 四类题型(如图 2)OST-Bench 的数据采用规则化流程高效生成,并对每一道样本进行人工筛选与修正最终覆盖 ScanNet、Matterport3D 和 ARKitScenes 1,400 个场景,10,000 条测试样本

此外,在微调实验中,我们沿用同样的数据生成链路,构建了来自 7,000 个场景的 50,000 条训练样本,用于进一步验证实验

▲ 图2

实验结果:大模型的在线场景时空理解答卷

1. 主流大模型陷入困境:在 OST-Bench 上,当前主流多模态大模型与人类存在显著性能差距:在所有问题类型上准确率均远低于人类水准,尤其在“智能体空间状态”与“智能体-物体空间关系”任务中,其表现几乎接近随机猜测,暴露出跨时空信息推理的能力短板(表1/表2)。

值得注意的是,模型的准确率会随着探索步数的增加而持续下降(如图),说明现有范式难以适应长时序的在线设定。

2. 空间增强模型能做好吗?结果可能没那么乐观。我们额外评估了几类具备“空间建模”机制的模型(如 Spatial-MLLM、VLM-3R 和 LLaVA-3D),与其基座模型相比,它们在 OST-Bench 上不仅没有预期的显著提升,反而在部分任务上明显退步,并伴随指令遵循能力的下降。

总体来看,空间增强模型虽然在特定数据分布中表现良好,但在更开放、更复杂的在线场景中仍难以稳健发挥。这也进一步体现强调了 OST-Bench 在揭示模型真实能力边界方面的价值。

深入分析:大模型的表现诊断书

1. 错误类型统计——大模型听得懂看得清,但是推理能力差


我们对于每个模型抽取了 270 个错误案例进行人工分析,并将其归为三类:指令理解错误、感知错误和推理错误。结果显示,最主要的失分来源并非听不懂,看不清而是“不会推理”尤其是在两类任务中错误最为集中:

  • 智能体与物体间的空间关系判断

  • 智能体自身空间状态的推断

这两类任务都需要“把过去看过的多帧信息串起来”进行复杂时空推理,而模型往往在这一步“掉链子”。

2. 共性问题聚焦——大模型遇到难题更喜欢走捷径?

在对错误案例的深入分析中,我们发现一个十分典型的共性现象:在面对复杂时空推理问题时,对比主动回溯历史信息或检索关键线索,模型更倾向于“就地猜测”——仅依据当前片段中的有限信息做出草率推断,而非进行真正的时空整合推理。

我们将这种现象称为“时空推理捷径(Spatio-temporal Reasoning Shortcut)”:模型看似给出了合理答案,但推理过程并无充分依据,往往只是“表面合理”(下图体现了一些 case,绿色/红色高亮部分分别是模型正确/错误推理的部分)。

3. 跨视角推理测评子集——对于MLLM的专项补考

为了更精确地定位模型的能力边界,我们设计了一个针对性子集。和之前的测评不同,这次:

  • 按难度分级。我们按是否需要多步的复杂推理(如下图)以及是否提前提出关键帧,将问题划分为四个难度等级。对比单步关联,多步空间关联任务要求更强的推理能力;对比只有关键帧输入,全视频输入则需在冗长观察中识别用于解答的关键帧。

  • 答案推理过程双重判断。所有问题均由规则生成并经人工筛选,评测也全部人工完成,只有答案与推理过程同时正确,方被视为正确回答。

补考的结果(上表)表明:复杂线索条件下的空间推理能力不足与长期记忆检索机制薄弱是当前模型在在线时空理解任务中准确率受限的两大关键因素。这两项能力缺陷构成了模型性能提升的主要瓶颈,也明确指示了未来模型演进的重点方向。

4. 微调实验——提前”预习”在OST-Bench的帮助有多大?

为了评估模型能力的上限,我们基于来自 7000 个场景的 5 万条问答数据对多种模型进行了微调实验,结果如表所示。所有模型的分数均提升了超过 10%,证明“提前预习突击”确实有效。

然而,我们也发现:真正涉及复杂时空推理的任务仍难以突破 50% 的准确率,说明单纯微调并不能触及问题本质;此外,模型在部分题型上呈现出明显的“背答案”倾向而非真正理解。例如在估计题和判断题中,模型会在不同样本上重复输出几乎相同的数值或选项,显然是在依赖数据分布进行“蒙答”。

更糟的是,微调后的模型还容易“变得不听话”,连最基本的回答格式都无法稳定遵守,也无法对自己的答案进行解释。

这些实验现象表明:微调可以带来提升,但这种提升更像是“题海战术式的熟练”,而非“机制上的理解进步”。在这门课上,没有结构和范式的突破,仅靠刷数据是无法真正拿高分的。要攻克 OST-Bench,必须依赖更强的模型设计或训练策略。

总结

OST-Bench 提出了一个在线的时空场景理解基准,通过对于多个多模态大模型的评估,揭示了当前模型在面对“在线时空理解”任务时的深层短板,也为未来模型的发展指明了方向:突破复杂空间推理能力与长期记忆机制,将是下一代多模态模型迈向真实智能世界的关键一步。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们