CV君 2025-11-12 19:49 江苏
一个更懂何时“开口”的AI
论文标题: LiveStar: Live Streaming Assistant for Real-World Online Video Understanding
作者: Zhenyu Yang, Kairui Zhang, Yuhang Hu, Bing Wang, Shengsheng Qian, Bin Wen, Fan Yang, Tingting Gao, Weiming Dong, Changsheng Xu
机构: 中国科学院自动化研究所、中国科学院大学、上海科技大学、快手科技、鹏城实验室
录用会议: NeurIPS 2025
大家好!今天想和大家聊一篇非常有趣的新工作,来自中科院自动化所、快手科技等机构的研究者们,发表在 NeurIPS 2025 上的论文《LiveStar: Live Streaming Assistant for Real-World Online Video Understanding》。
想象一下,当你在看直播时,如果有一个AI助手能实时理解视频内容,并在最恰当的时候为你生成解说或回答你的问题,那该多酷?这就是“在线视频理解”这个领域正在努力实现的目标。但这事儿并不简单,AI不仅要一帧一帧地看懂视频流,还得聪明地决定什么时候“开口说话”,什么时候保持“沉默”。
现有的方法大多依赖一个特殊的“序列结束(EOS)”标记来判断是否该生成回应,但这带来了一系列问题:比如模型大部分时间都在学习“沉默”,导致训练数据严重不平衡;相邻的相似帧可能会产生一个说话、一个沉默的矛盾结果;甚至还会污染模型的词汇表,影响语义连贯性。
为了解决这些痛点,研究者们提出了一个全新的实时流媒体助手——LiveStar。它的核心思想是让模型不再被动地预测“沉默”,而是主动地、智能地决定何时响应,从而实现更自然、更高效的实时视频理解。
LiveStar的核心技术揭秘
LiveStar的实现主要依靠三大创新点:流式视频-语言对齐训练策略、响应-沉默解码框架,以及内存感知加速技术。
增量式视频-语言对齐与流式因果注意力掩码 (SCAM)
传统Video-LLM的训练目标通常是最大化给定图像或视频生成相应文本的概率,即 。然而,这种方式无法处理流式视频的增量输入和动态对齐问题。
LiveStar对此进行了改进,将优化目标重新定义为在给定历史上下文和当前帧的情况下,最大化生成相应文本的概率:
其中, 是时间点 的视频帧, 是累积的多模态上下文, 代表一个语义片段(比如一个完整的动作或场景)。
为了实现这个目标,LiveStar构建了交错的“帧-描述”序列进行训练。但这里有个问题:同一个语义片段内的所有帧都对应着相似的描述,如果模型在生成当前帧的描述时看到了后面帧的描述,不就等于“作弊”了吗?
为了解决这个问题,研究者们设计了 流式因果注意力掩码(Streaming Causal Attention Masks, SCAM)。如上图所示,这个特殊的注意力机制可以确保模型在为当前帧生成描述时,只能“看到”过去所有视频帧和之前片段的“最终”描述,而不会看到当前片段内其他帧的描述,从而避免了信息泄露,保证了模型是真正“理解”了内容才生成输出。
最终的优化目标变为:
这里的 就是SCAM设计的关键掩码。
上图直观地展示了LiveStar(c-e部分)与现有方法(b部分)在处理在线视频流时的区别。现有方法严重依赖EOS token,而LiveStar通过SCAM和SVeD建立了一个更高效的响应-沉默框架。
流式验证解码 (SVeD):智能判断响应时机
解决了“如何说”的问题,接下来是“何时说”。LiveStar为此设计了 流式验证解码(Streaming Verification Decoding, SVeD) 框架。
这个框架引入了一个“解码门(decoding gate)”机制。它的工作流程是这样的:
当模型在 时刻生成一个描述 后,会计算这个描述的困惑度(Perplexity),这个值可以理解为模型对这个描述的“自信程度”。
对于后续的每一帧 ,模型不再急于生成新描述,而是先用单次前向传播来“验证”一下旧描述 是否还适用于当前帧,即重新计算 。
只有当新算出的困惑度显著高于旧的(,其中 是一个可调参数),意味着旧描述已经“跟不上”视频内容的变化了,解码门才会打开,生成新的描述。否则,就保持“沉默”,继续沿用旧描述。
这种“先验证再生成”的机制,仅通过一次轻量级的前向传播就能判断是否需要响应,相比于生成EOS token的方式,推理速度更快,也更符合人类的认知习惯。
内存感知加速:让长视频处理成为可能
对于动辄数十分钟甚至几小时的直播视频,如何处理海量的帧数据是一个巨大的挑战。LiveStar借鉴了心理学中的“峰终定律(Peak-End Rule)”——即人们对一段经历的记忆主要由高峰(最强烈的体验)和结尾决定。
LiveStar设计了 峰终内存压缩(Peak-End Memory Compression) 策略。它会优先保留那些语义重要性高(即PPL值低)的关键帧和每个语义片段的结尾帧(代表事件总结),并根据帧的重要性和时间远近,概率性地丢弃一些旧的、不那么重要的帧。
再结合 流式键值缓存(Streaming Key-Value Cache) 技术,它能够有效避免对历史上下文的重复计算,最终在处理10分钟以上的视频时,实现了 1.53倍 的推理加速。
全新的数据集和亮眼的实验结果
为了更好地训练和评估在线视频理解模型,研究团队还构建了一个名为 OmniStar 的大规模数据集。该数据集覆盖了15个不同的真实世界场景和5种在线评估任务,包括实时叙事生成(RNG)、在线时序定位(OTG)、帧级密集问答(FDQ)等,为该领域的研究提供了宝贵的资源。
实验结果非常亮眼。在OmniStar-RNG任务的在线评估中,LiveStar在语义正确性(SemCor)上达到了 3.19,远超之前的SOTA模型MMDuet(1.93),同时响应时间差(TimDiff)也从2.32降低到了 1.91。
在Ego4D和SVBench等其他基准测试中,LiveStar同样表现出色。例如,在Ego4D上,LiveStar的PPL和TimeDiff指标均优于之前的方法,Token Accuracy(TokAcc)更是达到了 61.1%,相比LION-FS的45.9%有巨大提升。
消融实验也验证了各个模块的有效性。例如,上图展示了SVeD框架中的响应-沉默阈值 对性能的影响,发现在 时模型在各项指标上取得了最佳平衡。
上表则展示了推理加速策略的消融研究,证明了峰终内存压缩(Peak-End)和双层KV缓存(Both)的组合能够显著提升FPS,同时保持甚至略微提升语义正确性(SemCor)和时序差异(TimDiff)表现。
总结
总的来说,LiveStar通过一套创新的训练和推理框架,成功地让视频理解模型学会了何时“开口”,何时“沉默”,在保证理解准确性的同时,极大地提升了实时响应的效率和自然度。这项工作不仅为在线视频理解领域带来了新的SOTA,也为未来更智能、更实用的AI助手铺平了道路。作者也已经开源了代码和数据集,感兴趣的朋友可以去他们的GitHub主页一探究竟。
更多阅读:
StreamDiffusionV2:UC伯克利联合MIT、斯坦福提出,14B大模型实时跑出58帧,重新定义交互式视频生成