CV君 2025-10-19 13:12 江苏
图结构+推理验证,彻底解决长视频“看不全、记不住”的难题!
大家好,我是CV君。今天想和大家聊一篇非常有趣的新工作,它来自阿卜杜拉国王科技大学(KAUST)和Meta AI的研究团队,并被 NeurIPS 2025 接收为Spotlight论文。
这项研究针对的是一个我们这个时代非常现实的痛点:如何让AI更好地理解“长视频”。我们每天刷的短视频越来越长,电影、课程、会议录像更是动辄数小时,但目前的视频语言模型(LVLM)在处理这种长时序内容时,往往会因为上下文窗口的限制而“失忆”,难以准确捕捉和推理跨越很长时间的关键信息。
为了解决这个问题,研究者们提出了一个名为 Vgent 的新框架。Vgent可以理解为“Video Agent”的缩写,它巧妙地将“检索增强生成(Retrieval-Augmented Generation, RAG)”技术与图结构相结合,并引入了一个独特的“推理”步骤,极大地提升了模型处理长视频的能力。
论文标题: Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding
作者: Xiaoqian Shen, Wenxuan Zhang, Jun Chen, Mohamed Elhoseiny
机构: 阿卜杜拉国王科技大学;MetaAI
长视频理解的“记忆”难题
传统的视频语言模型在面对长视频时,通常采用稀疏采样或压缩视频token的方式,但这不可避免地会导致关键视觉信息的丢失。
近来,RAG技术被引入来处理长文本,其核心思想是“先检索,后生成”:当模型需要回答一个问题时,它首先从一个巨大的知识库(比如视频的所有片段)中检索出最相关的几段信息,然后基于这些信息来生成答案。
然而,将RAG直接应用于视频领域会遇到新的问题:
时序中断:简单地将视频切成片段,会破坏事件之间的时序连续性。
信息噪声:检索到的片段可能包含大量与问题无关的“噪声”,干扰模型的判断,甚至导致“幻觉”。
Vgent:用“图”和“推理”武装LVLM
Vgent框架的设计非常精巧,它通过一个四阶段的流水线来解决上述问题,CV君认为这套组合拳打得非常漂亮。
阶段一:离线构建视频图
这是Vgent的核心创新之一。它首先将长视频切分成多个小片段(clips),然后利用LVLM从每个片段中提取出关键的实体(如人物、物体、场景)和描述。接着,它将每个视频片段视为图中的一个“节点”,如果两个片段中出现了相同的实体,就在它们之间连接一条“边”。
这样一来,整个长视频就被组织成了一张结构化的知识图谱。这张图不仅保留了片段内的信息,更重要的是,它通过实体连接,重建了跨片段的语义和时序关系。这个过程是离线完成的,构建一次图,就可以反复用于回答不同的问题,非常高效。
阶段二:基于图的检索
当用户提出一个问题时,Vgent会先从问题中提取关键词,然后利用这些关键词在视频图谱上进行检索。由于图结构的存在,检索不再是孤立地看每个片段,而是可以沿着图的边际网络,找到所有与关键词相关的、互联的视频片段。
阶段三:结构化推理
这是Vgent的另一个“杀手锏”。研究者发现,即使检索到了正确的片段,模型也可能因为信息过载或“硬反例”(hard negatives)的干扰而答错。
为了解决这个问题,Vgent引入了一个中间推理步骤。它并不直接把检索到的片段丢给模型生成答案,而是先让LVLM根据原始问题,生成一系列结构化的“子问题”(subqueries),比如“视频里出现笔记本电脑了吗?”“有人在操作它吗?”“笔记本电脑是打开的吗?”。
然后,Vgent用这些子问题去逐一“审问”每个检索到的片段,验证它们是否真的包含了回答原始问题所需的关键信息。只有通过了验证的片段才会被保留下来。
如上图所示,当被问及“我打开笔记本电脑了吗?”时,模型最初因为检索到多个包含“笔记本”的片段(有些是开的,有些是关的)而产生了幻觉,错误地回答“没有”。但通过结构化推理,模型确认了“有人与笔记本交互”和“笔记本被打开”这两个关键子问题的答案,最终得出了正确的结论。
阶段四:多模态增强生成
最后,Vgent将经过推理步骤筛选后的“纯净”视频片段,连同推理过程本身(比如子问题的答案),一起作为增强的多模态上下文,输入给LVLM,从而生成最终精准、可靠的答案。
惊艳的实验结果
Vgent的效果如何?一句话:非常出色。
研究团队在MLVU等三个主流的长视频理解基准上进行了全面评估。结果显示,Vgent能够稳定地提升多种不同规模的开源LVLM的性能。
在MLVU基准上,Vgent为现有模型带来了 3.0% 到 5.4% 的显著性能提升。
值得一提的是,一个3B参数的Qwen2.5VL模型,在经过Vgent增强后,性能甚至超越了未经增强的7B版本。
与当前最先进的(SOTA)开源视频RAG方法相比,Vgent在NExT-QA基准上实现了 8.6% 的绝对优势。
消融实验也证明了Vgent每个部分的价值,特别是“图表示”和“结构化推理”,它们是性能提升的关键。
此外,在推理速度上,Vgent的离线图构建虽然需要一些时间,但一旦完成,在线推理的效率非常高,甚至比一些依赖外部API的方法更快。
总结
总的来说,Vgent框架通过一种非常创新的方式,为解决长视频理解这个难题提供了一个优雅且高效的解决方案。它不仅效果好,而且作为一个自包含的、可与任何开源LVLM集成的框架,其应用潜力巨大。作者已经开源了代码,CV君强烈建议感兴趣的同学去深入研究一下。
你觉得这个用“图”来给视频“编史记”的思路怎么样?欢迎在评论区留下你的看法!