ToolsAi

CV君 2025-11-12 19:49 江苏

一个更懂何时“开口”的AI

论文标题: LiveStar: Live Streaming Assistant for Real-World Online Video Understanding
作者: Zhenyu Yang, Kairui Zhang, Yuhang Hu, Bing Wang, Shengsheng Qian, Bin Wen, Fan Yang, Tingting Gao, Weiming Dong, Changsheng Xu
机构: 中国科学院自动化研究所、中国科学院大学、上海科技大学、快手科技、鹏城实验室
论文地址: https://arxiv.org/abs/2511.05299
项目地址: https://github.com/yzy-bupt/LiveStar
录用会议: NeurIPS 2025

大家好！今天想和大家聊一篇非常有趣的新工作，来自中科院自动化所、快手科技等机构的研究者们，发表在 NeurIPS 2025 上的论文《LiveStar: Live Streaming Assistant for Real-World Online Video Understanding》。

想象一下，当你在看直播时，如果有一个AI助手能实时理解视频内容，并在最恰当的时候为你生成解说或回答你的问题，那该多酷？这就是“在线视频理解”这个领域正在努力实现的目标。但这事儿并不简单，AI不仅要一帧一帧地看懂视频流，还得聪明地决定什么时候“开口说话”，什么时候保持“沉默”。

现有的方法大多依赖一个特殊的“序列结束（EOS）”标记来判断是否该生成回应，但这带来了一系列问题：比如模型大部分时间都在学习“沉默”，导致训练数据严重不平衡；相邻的相似帧可能会产生一个说话、一个沉默的矛盾结果；甚至还会污染模型的词汇表，影响语义连贯性。

为了解决这些痛点，研究者们提出了一个全新的实时流媒体助手——LiveStar。它的核心思想是让模型不再被动地预测“沉默”，而是主动地、智能地决定何时响应，从而实现更自然、更高效的实时视频理解。

LiveStar的核心技术揭秘

LiveStar的实现主要依靠三大创新点：流式视频-语言对齐训练策略、响应-沉默解码框架，以及内存感知加速技术。

增量式视频-语言对齐与流式因果注意力掩码 (SCAM)

传统Video-LLM的训练目标通常是最大化给定图像或视频生成相应文本的概率，即。然而，这种方式无法处理流式视频的增量输入和动态对齐问题。

LiveStar对此进行了改进，将优化目标重新定义为在给定历史上下文和当前帧的情况下，最大化生成相应文本的概率：

其中，是时间点的视频帧，是累积的多模态上下文，代表一个语义片段（比如一个完整的动作或场景）。

为了实现这个目标，LiveStar构建了交错的“帧-描述”序列进行训练。但这里有个问题：同一个语义片段内的所有帧都对应着相似的描述，如果模型在生成当前帧的描述时看到了后面帧的描述，不就等于“作弊”了吗？

为了解决这个问题，研究者们设计了 流式因果注意力掩码（Streaming Causal Attention Masks, SCAM）。如上图所示，这个特殊的注意力机制可以确保模型在为当前帧生成描述时，只能“看到”过去所有视频帧和之前片段的“最终”描述，而不会看到当前片段内其他帧的描述，从而避免了信息泄露，保证了模型是真正“理解”了内容才生成输出。

最终的优化目标变为：

这里的就是SCAM设计的关键掩码。

上图直观地展示了LiveStar（c-e部分）与现有方法（b部分）在处理在线视频流时的区别。现有方法严重依赖EOS token，而LiveStar通过SCAM和SVeD建立了一个更高效的响应-沉默框架。

流式验证解码 (SVeD)：智能判断响应时机

解决了“如何说”的问题，接下来是“何时说”。LiveStar为此设计了 流式验证解码（Streaming Verification Decoding, SVeD） 框架。

这个框架引入了一个“解码门（decoding gate）”机制。它的工作流程是这样的：

当模型在时刻生成一个描述后，会计算这个描述的困惑度（Perplexity），这个值可以理解为模型对这个描述的“自信程度”。
对于后续的每一帧，模型不再急于生成新描述，而是先用单次前向传播来“验证”一下旧描述是否还适用于当前帧，即重新计算。
只有当新算出的困惑度显著高于旧的（，其中是一个可调参数），意味着旧描述已经“跟不上”视频内容的变化了，解码门才会打开，生成新的描述。否则，就保持“沉默”，继续沿用旧描述。

这种“先验证再生成”的机制，仅通过一次轻量级的前向传播就能判断是否需要响应，相比于生成EOS token的方式，推理速度更快，也更符合人类的认知习惯。

内存感知加速：让长视频处理成为可能

对于动辄数十分钟甚至几小时的直播视频，如何处理海量的帧数据是一个巨大的挑战。LiveStar借鉴了心理学中的“峰终定律（Peak-End Rule）”——即人们对一段经历的记忆主要由高峰（最强烈的体验）和结尾决定。

LiveStar设计了 峰终内存压缩（Peak-End Memory Compression） 策略。它会优先保留那些语义重要性高（即PPL值低）的关键帧和每个语义片段的结尾帧（代表事件总结），并根据帧的重要性和时间远近，概率性地丢弃一些旧的、不那么重要的帧。

再结合 流式键值缓存（Streaming Key-Value Cache） 技术，它能够有效避免对历史上下文的重复计算，最终在处理10分钟以上的视频时，实现了 1.53倍 的推理加速。

全新的数据集和亮眼的实验结果

为了更好地训练和评估在线视频理解模型，研究团队还构建了一个名为 OmniStar 的大规模数据集。该数据集覆盖了15个不同的真实世界场景和5种在线评估任务，包括实时叙事生成（RNG）、在线时序定位（OTG）、帧级密集问答（FDQ）等，为该领域的研究提供了宝贵的资源。

实验结果非常亮眼。在OmniStar-RNG任务的在线评估中，LiveStar在语义正确性（SemCor）上达到了 3.19，远超之前的SOTA模型MMDuet（1.93），同时响应时间差（TimDiff）也从2.32降低到了 1.91。

在Ego4D和SVBench等其他基准测试中，LiveStar同样表现出色。例如，在Ego4D上，LiveStar的PPL和TimeDiff指标均优于之前的方法，Token Accuracy（TokAcc）更是达到了 61.1%，相比LION-FS的45.9%有巨大提升。

消融实验也验证了各个模块的有效性。例如，上图展示了SVeD框架中的响应-沉默阈值对性能的影响，发现在时模型在各项指标上取得了最佳平衡。

上表则展示了推理加速策略的消融研究，证明了峰终内存压缩（Peak-End）和双层KV缓存（Both）的组合能够显著提升FPS，同时保持甚至略微提升语义正确性（SemCor）和时序差异（TimDiff）表现。

总结

总的来说，LiveStar通过一套创新的训练和推理框架，成功地让视频理解模型学会了何时“开口”，何时“沉默”，在保证理解准确性的同时，极大地提升了实时响应的效率和自然度。这项工作不仅为在线视频理解领域带来了新的SOTA，也为未来更智能、更实用的AI助手铺平了道路。作者也已经开源了代码和数据集，感兴趣的朋友可以去他们的GitHub主页一探究竟。

阅读原文

跳转微信打开

动态列表

NeurIPS 2025 | 中科院携手快手发布LiveStar：首个“会说话、懂沉默”的直播AI，推理速度提升1.53倍

LiveStar的核心技术揭秘

增量式视频-语言对齐与流式因果注意力掩码 (SCAM)

流式验证解码 (SVeD)：智能判断响应时机

内存感知加速：让长视频处理成为可能

全新的数据集和亮眼的实验结果

总结

类别

资源

联系我们