52CV 2025-09-21 11:01 江苏
让视频大模型看懂高帧率密集视频
当前的视频大语言模型(VLLMs)在处理视频时,普遍面临一个核心瓶颈:为了节省巨大的计算成本,它们不得不“抽帧”处理,即只对视频中稀疏的几个关键帧进行分析,而丢弃了绝大部分的密集时序信息。这种做法在处理内容变化缓慢的视频时或许可行,但一旦遇到信息密集、需要逐帧理解的任务(如跟上快速闪过的课程字幕、分析体育比赛中的瞬时动作),就会“失明”。
为了解决这一痛点,来自东北大学、普林斯顿大学和马里兰大学的研究者们,在一篇名为 《Dense Video Understanding with Gated Residual Tokenization》 的论文中,提出了一个全新的概念和解决方案。他们首先定义了 密集视频理解(Dense Video Understanding, DVU) 这一新任务,并为此构建了 首个 评测基准 DIVE。更重要的是,他们提出了一种名为 门控残差标记化(Gated Residual Tokenization, GRT) 的创新框架,旨在让VLLM能够高效、可扩展地处理高帧率视频。
论文标题:Dense Video Understanding with Gated Residual Tokenization
作者团队:Haichao Zhang, Wenhao Chai, Shwai He, Ang Li, Yun Fu
机构:美国东北大学, 普林斯顿大学, 马里兰大学
背景:高帧率视频理解的“不能承受之重”
为什么现有的VLLM都选择“抽帧”?根本原因在于“Tokenization”的高昂成本。将视频的每一帧都像图片一样转换成Token,会带来两大问题:
计算冗余:视频中相邻帧之间通常只有少量区域(如移动的人物)发生变化,而大量静态背景(如墙壁、天空)是重复的。对每一帧的静态背景都进行重复的Tokenization是巨大的浪费。
Token数量爆炸:Token数量会随着视频长度和帧率线性增长,这很快会超出LLM的上下文窗口限制,并因注意力机制的二次方复杂度而导致计算成本爆炸。
正是为了规避这些问题,现有模型和评测基准都走向了“稀疏理解”的道路,但这从根本上限制了VLLM在需要精细时序推理任务上的应用潜力。
GRT:高效处理高帧率视频的两阶段框架
GRT 的设计灵感来源于经典的视频压缩技术,其核心思想是 “只处理变化的部分”。它通过一个两阶段的“门控”和“融合”机制,在Token层面实现了对视频信息的智能压缩。
阶段一:运动补偿的帧间门控标记化 (Motion-Compensated Inter-Gated Tokenization)
这一阶段在像素层面减少冗余。它模仿视频编码中的I帧(关键帧)和P帧(预测帧)的概念:
识别关键帧(Key Frame):对于一个场景的起始帧,GRT会将其作为关键帧进行完整的Tokenization,以捕捉静态的场景信息,生成“Key-token”。
门控处理P帧(P-Frame):对于后续的帧,GRT首先进行像素级的运动估计,识别出画面中哪些区域是运动的,哪些是静止的。然后,通过一个“门控”机制,只对运动的区域(Patch)进行Tokenization,生成“P-token”,而完全跳过静止的背景区域。
通过这种方式,GRT避免了对静态背景的重复计算,使得Token数量和计算量的增长与视频帧数呈 次线性关系,极大地提升了处理效率。
阶段二:语义感知的场景内Token融合 (Semantic-Scene Intra-Tokenization Merging)
这一阶段在语义层面进一步压缩信息。它解决了视频中可能存在的“场景重复”问题:
场景相似性度量:GRT会比较不同场景的关键帧Token(Key-token)的分布,以判断两个场景在语义上是否相似(例如,一个演讲者在同一个讲台背景下讲了十分钟)。
Token融合:如果两个场景被判定为语义上等价,GRT会 将它们的Key-token进行融合(例如,通过聚类生成一个新的代表性Token),并简单地将它们各自的P-token(代表了各自场景内的独特运动)拼接起来。
这一步操作,在保留了所有动态信息的同时,进一步剔除了跨场景的静态背景冗余,使得最终输入到LLM的Token序列变得极为精简。
实验结果:小模型也能超越大模型
为了验证GRT的有效性,研究者们首先构建了 首个 面向密集时序推理的基准 DIVE (Dense Information Video Evaluation) 。DIVE通过利用YouTube视频的字幕流,自动生成需要逐帧推理才能正确回答的问答对。
在DIVE基准上的实验结果令人振奋:
性能超越SOTA:搭载了GRT的0.5B参数小模型,其性能(以平均意见分MOS衡量) 显著优于 多个更大规模的7B参数VLLM基线模型。这证明了GRT框架的高效性和密集时序信息的关键性。
性能随帧率正向扩展:与传统方法因帧率增加而性能下降或计算崩溃不同,GRT的性能随着输入视频FPS的增加而 持续提升。这有力地证明了GRT能够有效利用高帧率视频中的密集信息。
显著的Token压缩率:实验数据显示,在1 FPS的设置下,GRT的两阶段压缩能将Token数量减少到原始(逐帧处理)的 14% ,极大地降低了计算开销。
消融实验也证明了GRT的两个阶段对于最终性能都至关重要。
总结与贡献
这项工作直面了当前VLLM领域的核心痛点,为实现真正意义上的密集视频理解迈出了关键一步。
其主要贡献在于:
定义了密集视频理解(DVU)新任务,并创建了 首个 相应的评测基准 DIVE,填补了领域空白。
提出了Gated Residual Tokenization (GRT)框架,通过一个创新的、受视频压缩启发的两阶段流程,首次实现了对高帧率视频的高效、可扩展的Tokenization。
实验证明了密集时序信息的重要性,并验证了GRT能够让VLLM从小模型到大模型都能从中受益,为未来VLLM处理更复杂的动态视觉信息开辟了新的道路。
总而言之,GRT的出现,有望让VLLM摆脱“低帧率”的束缚,真正看懂、看清我们这个连续而丰富的动态世界。
了解最新 AI 进展,欢迎关注公众号:我爱计算机视觉感谢点赞支持。