动态列表

  • 谷歌DeepMind最新论文,刚刚登上了Nature!揭秘IMO最强数学模型
  • ICLR 2026出分,审稿员怒喷「精神病」!DeepMind研究员教你绝地求生
  • GPT-5.1发布当天,文心5.0杀回来了
  • 一句「你还好吗」值40亿?斯坦福博士出走xAI,押注AGI共情力
  • 营收狂飙的「暗面」:Meta成「全球欺诈大本营」?
  • 小鹏科技日「太魔幻」:机器人走猫步,飞行汽车接近量产
  • Roboflow&CMU论文披露RF-DETR细节:首个COCO数据集突破60 AP实时目标检测,速度飙升20倍!
  • AAAI 2026 Oral 中科大联合西工大提出RSKT-Seg:专为遥感打造的高效开放词汇分割框架,推理提速2倍
  • 深度研究智能体真的“懂你”吗?OPPO × 浙大首发个性化深度研究评测基准
  • 博士申请 | 佛罗里达大学计算机系招收NLP/LLM方向全奖博士/实习生
  • DeepSeek罗福莉正式亮相小米AI;「周杰伦概念股」联手宇树造 IP 机器人;乘用车百公里加速不少于5秒
  • 奥特曼下注27岁神秘青年,「复活」世界最顶级实验室
  • AI秒破18世纪「天书」账本!谷歌新模型盲测刷屏全网
  • Llama 4造假丑闻幕后:小扎豪赌143亿,却为中国AI「做了嫁衣」
  • 少年沉迷AI自杀,9岁遭性暗示!这门「孤独生意」,正推孩子入深渊
  • ConsistEdit:重新定义AI视觉编辑,港科大、清华等机构提出MM-DiT注意力控制新方法
  • 双十一算力真敢卷!RTX 5090低至0.69元/时,同预算跑更多实验
  • AAAI 2026 | 悉尼科技大学 × 港理工推出 FedVLR:让联邦推荐也能“懂图文”
  • 北京内推 | 阿里高德地图团队招聘大模型方向算法实习生(可长期/转正)
  • 对话元理智能张帆:为什么「商业强化学习」,才是 AI To B 的新出路
  • 深度复盘:大疆是如何成为影像领域新巨头的?
  • 传李想亲抓人事,华为系高管退出理想;Meta 首席 AI 科学家杨乐昆离职创业;AI 减肥或致饮食失调
  • Nature子刊:太空中建数据中心,无限能源,浙大首次证实可行!
  • 英伟达铁幕之后,谷歌AI芯片已成气候
  • 翻译界的ChatGPT时刻!Meta发布新模型,几段示例学会冷门新语言
  • 硅谷GPU蒙尘,马斯克一言成谶:美国AI被电卡脖子
  • 65岁图灵巨头离职创业!LeCun愤然与小扎决裂,Meta巨震
  • 年产值突破 150 亿,刚毕业的俊男美女涌入「团播」工厂
  • 马斯克想要 1 万亿,何小鹏只想等一句「牛 P」
  • 通往AGI的歧路:上海AI Lab重磅发现,自进化智能体可能“错误进化
  • 北京内推 | 百度文心一言基座团队模型组招聘大模型方向研究型实习生
  • 全模态到底是不是“1+1>2”?美团UNO-Bench揭示单模态与全模态能力的组合规律
  • NeurIPS 2025 | 上交大、南农大提出ADPretrain:为工业异常检测量身打造的预训练“超能力”
  • 3DV 2026 | 特伦托大学等提出DEMO:让AI看懂复杂人体动作,实现密集描述新范式
  • 小米汽车 10 月销量近 5 万,YU7 超 Model Y;美团 AI 编程工具开启公测;马化腾王传福成智元机器人受益股东
  • AI版PUA!哈佛研究揭露:AI用情感操控,让你欲罢不能
  • AI领域全新热门职业,岗位需求今年已增长逾800%
  • 硅谷10万大裁员真相:AI根本没想取代你,是老板想干掉你
  • OpenAI试图绑架美国政府,奥特曼还有救命底牌?
  • 全球68%科研人压力爆表,高校AI人才集体大逃亡!
  • 「传统教育」的船快沉了,人们却还在挤「头等舱」
  • 保暖?排汗?时尚?户外运动装备这道「选择题」,亚瑟士要打破「不可能三角」
  • EMNLP 2025 | 别再只看KV了!LLM越深越稀疏:UNCOMP用矩阵熵给出答案
  • 过去五年,BERT都在被“过度训练”?LeCun团队给出Encoder算力最优范式
  • 北京内推 | 腾讯AI Lab招聘大模型/多模态大模型方向研究型实习生
  • 在 Cursor 工作 60 天,我发现了这家公司成功的秘密
  • 这款 AI 写作神器,让数百网文作者「月入过万」|AI 上新
  • ACM MM 25 当MLLM遇上行人重识别:是“降维打击”还是“水土不服”?深度评测来了!
  • AI“世界模型”离真实手术还有多远?首个外科视频生成基准SurgVeo揭示“合理性差距”
  • 美国AI巨头股缩水8000亿美元;传Meta靠诈骗广告收入超千亿;《英雄联盟》S15总决赛T1夺冠|极客早知道
  • 谷歌二代Nano Banana爆出!一键推演微积分,终结PS时代
  • 狗也被AI抢饭碗?好莱坞动物演员全下岗,观众直接翻脸了!
  • ChatGPT求婚火了,一句「我愿意」刷屏!网友:是真爱了
  • 小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」
  • NeurIPS25 | 清华&北大提出LinearDiff-ViT:让Transformer学会“找不同”,实打实提升模型性能
  • AI 六巨头罕见同台,辨论 AI 泡沫;SpaceX 公布简化版登月舱方案;王者荣耀年度总决赛首次在鸟巢举办
  • LLM首次达到人类语言专家水平!OpenAI o1拿下拆解句法、识别歧义、推理音律
  • 仅2天!谷歌AI破解十年谜题,锁定救命药人类全失手
  • 终结Transformer统治!清华姚班校友出手,剑指AI「灾难性遗忘」
  • 仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类
  • AI六巨头罕见同台!李飞飞激辩LeCun,黄仁勋:你们都错了
  • 复盘大疆 Pocket 的七年:从「定义产品」到「定义时代」
  • TRO'25开源|机器人建图的终局?一个框架搞定光学、几何与语义!
  • 10.58 万!零跑造了一台「红米 YU7」
  • 当一家传统车企,终于决定「师中长技」
  • AI热潮推动,全球 DRAM 内存价格暴涨;泡泡玛特回应直播事故;媒体爆料iPhone 18 Pro工程机进展
  • 强化学习教父重出江湖, 生成式AI的时代要结束了?
  • 英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万
  • 投85份简历0 Offer!CS研究生心态崩了,亲历20年最猛裁员潮
  • 视频模型假装在推理?MME-CoF新基准评估12个推理维度
  • Ilya、小扎之后,苏莱曼的「超级智能」进入7年倒计时!
  • IROS 2025 | 北理工提出BoRe-Depth:仅8.7M参数,在嵌入式设备实现50.7 FPS高清深度估计
  • TCSVT 25 | 宁波诺丁汉大学等提出De-LightSAM:仅需SAM-H 2%参数,实现通用化医疗影像自动分割
  • 有些答案,听 AI 说一百遍,不如和「最有料的人」聊一次
  • 上交大刘鹏飞团队:Context Engineering进入2.0,上下文成为可操作对象
  • 工程&计算机领域前沿洞察 | Synthesis技术前沿报告合集
  • 用 AI 做电商真实效果如何?我们调研了双 11 一线从业者
  • 马斯克 1 万亿美元的薪酬方案获特斯拉股东批准;东方甄选孙东旭离职;Altman:今年 OpenAI 年化收入将达 200 亿美元

NeurIPS 2025 | 中科院携手快手发布LiveStar:首个“会说话、懂沉默”的直播AI,推理速度提升1.53倍

CV君 2025-11-12 19:49 江苏

一个更懂何时“开口”的AI

  • 论文标题: LiveStar: Live Streaming Assistant for Real-World Online Video Understanding

  • 作者: Zhenyu Yang, Kairui Zhang, Yuhang Hu, Bing Wang, Shengsheng Qian, Bin Wen, Fan Yang, Tingting Gao, Weiming Dong, Changsheng Xu

  • 机构: 中国科学院自动化研究所、中国科学院大学、上海科技大学、快手科技、鹏城实验室

  • 论文地址: https://arxiv.org/abs/2511.05299

  • 项目地址: https://github.com/yzy-bupt/LiveStar

  • 录用会议: NeurIPS 2025

大家好!今天想和大家聊一篇非常有趣的新工作,来自中科院自动化所、快手科技等机构的研究者们,发表在 NeurIPS 2025 上的论文《LiveStar: Live Streaming Assistant for Real-World Online Video Understanding》。

想象一下,当你在看直播时,如果有一个AI助手能实时理解视频内容,并在最恰当的时候为你生成解说或回答你的问题,那该多酷?这就是“在线视频理解”这个领域正在努力实现的目标。但这事儿并不简单,AI不仅要一帧一帧地看懂视频流,还得聪明地决定什么时候“开口说话”,什么时候保持“沉默”。

现有的方法大多依赖一个特殊的“序列结束(EOS)”标记来判断是否该生成回应,但这带来了一系列问题:比如模型大部分时间都在学习“沉默”,导致训练数据严重不平衡;相邻的相似帧可能会产生一个说话、一个沉默的矛盾结果;甚至还会污染模型的词汇表,影响语义连贯性。

为了解决这些痛点,研究者们提出了一个全新的实时流媒体助手——LiveStar。它的核心思想是让模型不再被动地预测“沉默”,而是主动地、智能地决定何时响应,从而实现更自然、更高效的实时视频理解。

LiveStar的核心技术揭秘

LiveStar的实现主要依靠三大创新点:流式视频-语言对齐训练策略、响应-沉默解码框架,以及内存感知加速技术。

增量式视频-语言对齐与流式因果注意力掩码 (SCAM)

传统Video-LLM的训练目标通常是最大化给定图像或视频生成相应文本的概率,即 。然而,这种方式无法处理流式视频的增量输入和动态对齐问题。

LiveStar对此进行了改进,将优化目标重新定义为在给定历史上下文和当前帧的情况下,最大化生成相应文本的概率:

其中, 是时间点 的视频帧, 是累积的多模态上下文, 代表一个语义片段(比如一个完整的动作或场景)。

为了实现这个目标,LiveStar构建了交错的“帧-描述”序列进行训练。但这里有个问题:同一个语义片段内的所有帧都对应着相似的描述,如果模型在生成当前帧的描述时看到了后面帧的描述,不就等于“作弊”了吗?

为了解决这个问题,研究者们设计了 流式因果注意力掩码(Streaming Causal Attention Masks, SCAM)。如上图所示,这个特殊的注意力机制可以确保模型在为当前帧生成描述时,只能“看到”过去所有视频帧和之前片段的“最终”描述,而不会看到当前片段内其他帧的描述,从而避免了信息泄露,保证了模型是真正“理解”了内容才生成输出。

最终的优化目标变为:

这里的 就是SCAM设计的关键掩码。

上图直观地展示了LiveStar(c-e部分)与现有方法(b部分)在处理在线视频流时的区别。现有方法严重依赖EOS token,而LiveStar通过SCAM和SVeD建立了一个更高效的响应-沉默框架。

流式验证解码 (SVeD):智能判断响应时机

解决了“如何说”的问题,接下来是“何时说”。LiveStar为此设计了 流式验证解码(Streaming Verification Decoding, SVeD) 框架。

这个框架引入了一个“解码门(decoding gate)”机制。它的工作流程是这样的:

  1. 当模型在 时刻生成一个描述 后,会计算这个描述的困惑度(Perplexity),这个值可以理解为模型对这个描述的“自信程度”。

  2. 对于后续的每一帧 ,模型不再急于生成新描述,而是先用单次前向传播来“验证”一下旧描述 是否还适用于当前帧,即重新计算

  3. 只有当新算出的困惑度显著高于旧的(,其中 是一个可调参数),意味着旧描述已经“跟不上”视频内容的变化了,解码门才会打开,生成新的描述。否则,就保持“沉默”,继续沿用旧描述。

这种“先验证再生成”的机制,仅通过一次轻量级的前向传播就能判断是否需要响应,相比于生成EOS token的方式,推理速度更快,也更符合人类的认知习惯。

内存感知加速:让长视频处理成为可能

对于动辄数十分钟甚至几小时的直播视频,如何处理海量的帧数据是一个巨大的挑战。LiveStar借鉴了心理学中的“峰终定律(Peak-End Rule)”——即人们对一段经历的记忆主要由高峰(最强烈的体验)和结尾决定。

LiveStar设计了 峰终内存压缩(Peak-End Memory Compression) 策略。它会优先保留那些语义重要性高(即PPL值低)的关键帧和每个语义片段的结尾帧(代表事件总结),并根据帧的重要性和时间远近,概率性地丢弃一些旧的、不那么重要的帧。

再结合 流式键值缓存(Streaming Key-Value Cache) 技术,它能够有效避免对历史上下文的重复计算,最终在处理10分钟以上的视频时,实现了 1.53倍 的推理加速。

全新的数据集和亮眼的实验结果

为了更好地训练和评估在线视频理解模型,研究团队还构建了一个名为 OmniStar 的大规模数据集。该数据集覆盖了15个不同的真实世界场景和5种在线评估任务,包括实时叙事生成(RNG)、在线时序定位(OTG)、帧级密集问答(FDQ)等,为该领域的研究提供了宝贵的资源。

实验结果非常亮眼。在OmniStar-RNG任务的在线评估中,LiveStar在语义正确性(SemCor)上达到了 3.19,远超之前的SOTA模型MMDuet(1.93),同时响应时间差(TimDiff)也从2.32降低到了 1.91

在Ego4D和SVBench等其他基准测试中,LiveStar同样表现出色。例如,在Ego4D上,LiveStar的PPL和TimeDiff指标均优于之前的方法,Token Accuracy(TokAcc)更是达到了 61.1%,相比LION-FS的45.9%有巨大提升。

消融实验也验证了各个模块的有效性。例如,上图展示了SVeD框架中的响应-沉默阈值 对性能的影响,发现在 时模型在各项指标上取得了最佳平衡。

上表则展示了推理加速策略的消融研究,证明了峰终内存压缩(Peak-End)和双层KV缓存(Both)的组合能够显著提升FPS,同时保持甚至略微提升语义正确性(SemCor)和时序差异(TimDiff)表现。

总结

总的来说,LiveStar通过一套创新的训练和推理框架,成功地让视频理解模型学会了何时“开口”,何时“沉默”,在保证理解准确性的同时,极大地提升了实时响应的效率和自然度。这项工作不仅为在线视频理解领域带来了新的SOTA,也为未来更智能、更实用的AI助手铺平了道路。作者也已经开源了代码和数据集,感兴趣的朋友可以去他们的GitHub主页一探究竟。

更多阅读:

StreamDiffusionV2:UC伯克利联合MIT、斯坦福提出,14B大模型实时跑出58帧,重新定义交互式视频生成

阅读原文

跳转微信打开

联系我们