动态列表

  • 重磅!DeepSeek再开源:视觉即压缩,100个token干翻7000个
  • 全球首个「长肌腱」AI机器人量产!Nature盛赞的中国方案惊艳IROS现场
  • 甲骨文推出全球最大AI超算,作为OpenAI「星际之门」算力核心
  • MagicOS已成世界「第三极」,荣耀拿下AI大战叙事权
  • 美国拟减40%国际生,留学风向要变?Nature曝全球高校大洗牌
  • 美 NSA 被曝网攻中国「时间心脏」;微博王高飞:企业别把批评和黑公关混为一谈;传运营艰难,安世中国发公开信回应
  • 扎克伯格急了!Meta内部文件曝光:宁用竞品,也要废掉祖传系统
  • 浙大推出首个「多图应用题」基准GSM8K-V,全面评估 VLM数学推理能力
  • 英伟达4段简短提示词,IOI夺金!开源模型也能征服最难编程竞赛
  • 超越纯视觉模型!不改VLM标准架构,实现像素级深度预测
  • 5万美元筛选「超级婴儿」, 智商提升15点?马斯克被曝是客户!
  • TPAMI 2025 OccScene:联合扩散框架,同时推进感知与生成进步,3D场景生成新突破!
  • 不用微调!像打方向盘一样“操控”大模型思考:Steering正在改写推理范式
  • 不靠RL、不用训练:哈佛「Power Sampling」让基座模型推理媲美GRPO
  • 中国AIGC用户破5亿,增长1倍;今年超7成外卖低于15元;新能源事故,「破窗锤」被网友买爆|极客早知道
  • AI芯片战争关键一役!英伟达最强Blackwell首次「美国造」
  • 数学界地震!GPT-5连破10道「百年悬案」,陶哲轩:AI革命才刚开始
  • 前OpenAI研究员跨界做文创:Ilya发型帽子走红,AI成潮牌!
  • 训练成本暴降99%,35秒出1分钟高清视频!英伟达MIT等引爆视频AI革命
  • Karpathy泼冷水:AGI要等10年!根本没有「智能体元年」
  • 早鸟票倒计时2天!全国大模型智能生成大会:推理、多模态、智能体前沿集结
  • 一致性轨迹强化学习登场:上海AI Lab让扩散语言模型实现全并行少步数推理
  • First Try Matters,不是Aha Moment:邴立东团队揭示推理模型靠首答,不靠反思
  • 传 iPhone 17 Air 表现不佳,砍百万产量;黄仁勋:英伟达中国份额从 95% 降到 0%;AI 致维基百科访问显著下降
  • 马普所&谷歌等提出AnyUp:无需再训练的通用特征上采样,推理即用,效果SOTA!
  • 北大等提出MaskDCPT:通用图像修复预训练新范式,PSNR提升3.77dB
  • 可处理上万变量,攻克高维时序预测难题!华人团队开源模型、基准
  • Bengio推AGI「高考」,GPT-5单项0分
  • Hassabis官宣用AI点燃「人造太阳」!无限能源时代加速到来
  • 全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA
  • 太狠了,四条腿被锯掉也能爬!通用大脑开启机器人「无休」时代
  • 零跑,不再「摸着理想过河」
  • 硬刚 Sora 2,谷歌的 Veo 3.1 确实有小惊喜|AI 上新
  • Meta花了420万美元、烧掉40万GPU·小时,只为验证一条Sigmoid曲线
  • NeurIPS 2025 | 上交大提出MM-UPT:多模态大模型的“无监督后训练”范式
  • 从会画画到会思考:快手可灵提出T2I-CoReBench,最强模型也难逃推理瓶颈
  • 张鹏对谈朱啸虎、储瑞松、傅盛:Agentic AI 时代,不要什么东西都自己闷头做
  • Identity-GRPO:阿里开源多人物定制化视频生成的后训练优化算法
  • Real-world Video Super-Resolution | VSR的十字路口
  • 蔚来回应外国基金投诉:无事实依据;零跑推D19旗舰SUV,配超大电池;卡西欧推《回到未来》40周年联名表
  • 你的下一个「爱豆」不一定是真人,也可以是AI豆
  • 刚刚,谷歌深夜上新Veo 3.1!网友狂刷2.75亿条,Sora 2要小心了
  • 谷歌142页报告首发揭秘:90%码农每天用AI超2小时!
  • RL微调,关键在前10%奖励!基于评分准则,Scale AI等提出新方法
  • 谷歌×耶鲁联手发布抗癌神器!AI推理精准狙击「隐身」癌细胞
  • ACL 2025 | 北大提出动态焦点解码:让开放生成既“靠谱”又“好看”
  • 统一高效来了!清华发布RLinf-VLA:把VLA+RL的训练与部署“一网打尽”
  • GPT越来越保守?斯坦福Manning团队提出Verbalized Sampling,让模型重新“多想一点”
  • AI 时代,用一场「快闪」改变命运|IF 2026「AI 产品快闪」启动召集!
  • IF 2026 启动:来看看 AI 面前,谁在掌握主动权?
  • NeurIPS 2025 | 为Sora视频加上“隐形身份证”:清华大学等提出Safe-Sora,时空频率感知水印新框架
  • 从DNN到MLLM的异常之旅:视频异常检测(VAD)范式大迁徙
  • 苹果发布 M5 芯片笔记本和 iPad;微信:长时间不用账号,不再强行回收; 乔布斯登上一美元硬币
  • 马斯克的作业还是被奥特曼「抄走了」
  • 苏姿丰出手!Oracle下单5万颗AMD芯片,英伟达王座撼动
  • 具身智能算法哪家强?RoboChallenge见真章!全球首个大规模真机算法评测平台来了
  • NTU等联合提出A-MemGuard:为AI记忆上锁,投毒攻击成功率暴降95%
  • 苹果M5「夜袭」高通英特尔!AI算力狂飙400%,Pro三剑客火速上新
  • TPAMI 2025 | 华中科大与大疆等提出LLF-LUT++:4K照片增强仅需13ms,PSNR提升2.64dB!
  • IDEA提出Rex-Omni:将目标检测变为“下一个点预测”,零样本性能超越DINO
  • 罗福莉担任通讯作者,小米 × 北大联合发布R3:让MoE强化学习从崩盘回归可控
  • AAAI 2026联合会议征稿开启:大语言模型中的深度逻辑推理
  • 下周见!Wiley Advanced主编论坛@IROS 2025:从审稿人视角重塑论文表达
  • Altman:ChatGPT将支持成人内容;港版iPhone Air无法用内地eSIM;传雷军一夜掉粉30万|极客早知道
  • Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」
  • 英伟达AI超算3999开售,「掌心之中」可部署所有大参数开源模型!
  • 登顶Hugging Face GAIA全球榜首!中兴超级智能体终结「AI黑盒」时代
  • AI圈再颠覆!中国AI翻译耳机通话翻译,实测震撼
  • 一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军
  • vivo X300 Pro:以「水桶旗舰」之躯,重登旗舰山巅
  • 直到毕业我才懂:原来延期的博士,不止我一个
  • 让论文自己讲!Paper2Video一键生成论文讲解视频,赶顶会DDL不慌了
  • 8美元“驯服”DeepSeek-V3.2?Training-Free GRPO把RL成本打到地板
  • NeurIPS 2025 | PPFN:渐进式提示融合,让红外图像增强在复杂场景下性能提升8.76%
  • NeurIPS 2025 | 让AIGC视频变为可探索场景:Instant4D实现单目动态场景的分钟级重建
  • 库克抖音带货 iPhone 17 Air,22 日开售;小米客服回应「SU7 门把手」;「丐版」特斯拉明年国内投产

NeurIPS 2025 | KAUST与MetaAI提出Vgent:图增强RAG,长视频理解性能超越SOTA 8.6%

CV君 2025-10-19 13:12 江苏

图结构+推理验证,彻底解决长视频“看不全、记不住”的难题!

大家好,我是CV君。今天想和大家聊一篇非常有趣的新工作,它来自阿卜杜拉国王科技大学(KAUST)和Meta AI的研究团队,并被 NeurIPS 2025 接收为Spotlight论文。

这项研究针对的是一个我们这个时代非常现实的痛点:如何让AI更好地理解“长视频”。我们每天刷的短视频越来越长,电影、课程、会议录像更是动辄数小时,但目前的视频语言模型(LVLM)在处理这种长时序内容时,往往会因为上下文窗口的限制而“失忆”,难以准确捕捉和推理跨越很长时间的关键信息。

为了解决这个问题,研究者们提出了一个名为 Vgent 的新框架。Vgent可以理解为“Video Agent”的缩写,它巧妙地将“检索增强生成(Retrieval-Augmented Generation, RAG)”技术与图结构相结合,并引入了一个独特的“推理”步骤,极大地提升了模型处理长视频的能力。

长视频理解的“记忆”难题

传统的视频语言模型在面对长视频时,通常采用稀疏采样或压缩视频token的方式,但这不可避免地会导致关键视觉信息的丢失。

近来,RAG技术被引入来处理长文本,其核心思想是“先检索,后生成”:当模型需要回答一个问题时,它首先从一个巨大的知识库(比如视频的所有片段)中检索出最相关的几段信息,然后基于这些信息来生成答案。

然而,将RAG直接应用于视频领域会遇到新的问题:

  1. 时序中断:简单地将视频切成片段,会破坏事件之间的时序连续性。

  2. 信息噪声:检索到的片段可能包含大量与问题无关的“噪声”,干扰模型的判断,甚至导致“幻觉”。

Vgent:用“图”和“推理”武装LVLM

Vgent框架的设计非常精巧,它通过一个四阶段的流水线来解决上述问题,CV君认为这套组合拳打得非常漂亮。

阶段一:离线构建视频图

这是Vgent的核心创新之一。它首先将长视频切分成多个小片段(clips),然后利用LVLM从每个片段中提取出关键的实体(如人物、物体、场景)和描述。接着,它将每个视频片段视为图中的一个“节点”,如果两个片段中出现了相同的实体,就在它们之间连接一条“边”。

这样一来,整个长视频就被组织成了一张结构化的知识图谱。这张图不仅保留了片段内的信息,更重要的是,它通过实体连接,重建了跨片段的语义和时序关系。这个过程是离线完成的,构建一次图,就可以反复用于回答不同的问题,非常高效。

阶段二:基于图的检索

当用户提出一个问题时,Vgent会先从问题中提取关键词,然后利用这些关键词在视频图谱上进行检索。由于图结构的存在,检索不再是孤立地看每个片段,而是可以沿着图的边际网络,找到所有与关键词相关的、互联的视频片段。

阶段三:结构化推理

这是Vgent的另一个“杀手锏”。研究者发现,即使检索到了正确的片段,模型也可能因为信息过载或“硬反例”(hard negatives)的干扰而答错。

为了解决这个问题,Vgent引入了一个中间推理步骤。它并不直接把检索到的片段丢给模型生成答案,而是先让LVLM根据原始问题,生成一系列结构化的“子问题”(subqueries),比如“视频里出现笔记本电脑了吗?”“有人在操作它吗?”“笔记本电脑是打开的吗?”。

然后,Vgent用这些子问题去逐一“审问”每个检索到的片段,验证它们是否真的包含了回答原始问题所需的关键信息。只有通过了验证的片段才会被保留下来。

如上图所示,当被问及“我打开笔记本电脑了吗?”时,模型最初因为检索到多个包含“笔记本”的片段(有些是开的,有些是关的)而产生了幻觉,错误地回答“没有”。但通过结构化推理,模型确认了“有人与笔记本交互”和“笔记本被打开”这两个关键子问题的答案,最终得出了正确的结论。

阶段四:多模态增强生成

最后,Vgent将经过推理步骤筛选后的“纯净”视频片段,连同推理过程本身(比如子问题的答案),一起作为增强的多模态上下文,输入给LVLM,从而生成最终精准、可靠的答案。

惊艳的实验结果

Vgent的效果如何?一句话:非常出色。

研究团队在MLVU等三个主流的长视频理解基准上进行了全面评估。结果显示,Vgent能够稳定地提升多种不同规模的开源LVLM的性能。

  • 在MLVU基准上,Vgent为现有模型带来了 3.0% 到 5.4% 的显著性能提升。

  • 值得一提的是,一个3B参数的Qwen2.5VL模型,在经过Vgent增强后,性能甚至超越了未经增强的7B版本。

  • 与当前最先进的(SOTA)开源视频RAG方法相比,Vgent在NExT-QA基准上实现了 8.6% 的绝对优势。

消融实验也证明了Vgent每个部分的价值,特别是“图表示”和“结构化推理”,它们是性能提升的关键。

此外,在推理速度上,Vgent的离线图构建虽然需要一些时间,但一旦完成,在线推理的效率非常高,甚至比一些依赖外部API的方法更快。

总结

总的来说,Vgent框架通过一种非常创新的方式,为解决长视频理解这个难题提供了一个优雅且高效的解决方案。它不仅效果好,而且作为一个自包含的、可与任何开源LVLM集成的框架,其应用潜力巨大。作者已经开源了代码,CV君强烈建议感兴趣的同学去深入研究一下。

你觉得这个用“图”来给视频“编史记”的思路怎么样?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

联系我们