动态列表

刚刚，Gemini「灵魂人物」官宣加盟xAI！马斯克火速转推背书
靠10万+粉丝，北漂插画师秒贷款！华为全栈AI加速，让银行及时看见
醒醒，LLM根本没有性格！加州理工华人揭开AI人格幻觉真相
哈佛大佬都哭了！H-1B签证飙至10万刀，微软谷歌连夜召回全球员工
马斯克xAI百天血战，100天狂招100人！联创实权被削，豪言干掉微软
全球双榜SOTA！明略科技专有大模型 Mano开启GUI智能操作新时代
谷歌Gemini IMO和ICPC夺金功臣之一被xAI挖走，马斯克直呼：起飞
工业级3D世界构建提速90倍！全新框架LatticeWorld让虚拟世界「一句话成真」
集合通信库VCCL释放GPU极致算力，创智、基流、智谱、联通、北航、清华、东南重磅开源
【招生招聘】阿卜杜拉国王科技大学孟彦达博士组全奖博士、博后、实习、交流生
iPhone17 卖爆，官网发货延至双 11；比亚迪仰望 U9 赛道版开启预定；网友玩坏 iPhone「舌头刷抖音」
「逆龄大脑药」首次人体试验！奥特曼押注RTR242，返老还童将要成真？
终结CMU霸权，清华首次登顶CSRankings世界第一！北大AI领域夺冠
大模型训练新突破！Meta提出LSP：无数据也能实现能力飞升
OpenAI最新硬件2026年底亮相！狂挖苹果20+老将，首款神秘设备或将颠覆iPhone
小扎AI眼镜当场死机，CTO自曝灾难级演示内幕：一个指令干趴自家服务器
当大厂「卷」Agent，腾讯选择「下产线」
陈天桥旗下AI公司MiroMind打造全球顶尖预测型大模型，性能登顶行业基准
OpenAI从苹果挖了20多人搞硬件，知情人士：苹果创新缓慢、官僚主义令人厌倦
Mini-Omni-Reasoner：实时推理，定义下一代端到端对话模型
TPAMI 2025 | DiffMVS/CasDiffMVS：一种置信度感知的扩散模型，实现轻量且准确的多视图立体三维重建
北大等提出BEVUDA++，首次解决BEV感知跨域难题，夜间检测性能提升12.9%
iPhone 17 Pro 首日即现划痕；传 OpenAI 联手立讯做 AI 硬件；2025 年搞笑诺贝尔出炉
史上最大升级！7亿周活ChatGPT逼宫，谷歌慌了，这次要把AI整个塞进Chrome
谷歌AI或摘千禧年大奖！华人博士破解百年数学难题，首次捕获奇点
登顶多模态推理榜MMMU！UCSD新方法超越GPT-5、Gemini
DeepSeek-R1登顶Nature，8位专家严审通过，大模型「交卷时刻」来了
18岁天才少年，登上Nature封面！
扩散大语言模型也能飞？DPad免训练加速61倍，全局规划照样稳
北京内推 | 腾讯混元大模型X团队招聘大模型/强化学习方向“青云计划”实习生
ICML 2025 | 乱写Prompt更给力？删几个Token，上下文学习立刻“反向觉醒”
不要ViT也不要扩散！OneCAT甩掉编码器，统一多模态自回归模型来了
华为超节点：用「一台机器」的逻辑，驱动AI万卡集群
5555被拒稿，AC接收但PC强拒，NeurIPS揭榜引争议
超强开源模型Qwen3、DeepSeek-V3.1，都被云计算一哥「收」了
攻克大模型训推差异难题，蚂蚁开源新一代推理模型Ring-flash-2.0
给大模型「精准手术」：美团智能客服提出逆向学习技术精准纠偏，风险控制提升38%
Meta新作SyncSeal：用深度学习“封印”同步信息，让数字水印不再怕裁剪和旋转
阿联酋大学CVLab IEEE Fellow团队招收2026春季/秋季全奖博士生
千禧年大奖难题有望突破？AI为流体动力学提供新思路
生物学迎来「ChatGPT时刻」：Evo构建首个AI生成的「基因组」，开启生成式基因设计时代
英伟达50亿美元入股英特尔，将发布CPU+GPU合体芯片，大结局来了？
理解帮助生成？RecA自监督训练让统一多模态模型直升SOTA
投50亿美元，英伟达联手英特尔；谷歌将Gemini加入浏览器；网约车司机平均月入过万
GPT-5攻入数学圈，证明定理快过博士生？网友热议AI新角色
阿里王牌Agent横扫SOTA，全栈开源力压OpenAI！博士级难题一键搞定
ChatGPT负责人深度复盘，爆4o复活内幕！过快下线是失误，将迭代模型人格
全球首个AI基因组诞生，35亿年生命代码重编程！生物学迎「ChatGPT时刻」
芯片大地震，黄仁勋355亿入股！英特尔要为老黄造CPU，股价狂飙30%
新思科技中国30周年，引领AI智能体工程师重塑芯片设计范式
科大讯飞发布面向东盟的多语言大模型及系列产品，布局中国—东盟AI生态大未来
Nature | 20年后你会患上哪些疾病？AI准确预测超1000种疾病患病风险，助力预防
我们还是低估了英伟达
北京内推 | 字节跳动国际电商团队招聘大模型方向算法实习生
少样本不够看？给LLM装上“学习引擎”，上下文学习迈入千样本时代
ICCV 2025 | Gap即力量！挖掘模态间隔潜力，MG-CLIP实现持续学习SOTA
谁在拖慢你的RL？别怪显卡，错的可能是你的PG-loss
OneSearch，揭开快手电商搜索「一步到位」的秘技
17.38 万的大六座 SUV，吉利用银河 M9 敲碎了友商的心
刚刚，OpenAI在ICPC 2025编程赛上满分登顶，Gemini也达到金牌水平
从一个公众号智能体说起：好用的Agent，究竟需要什么?
B站出海的强有力支柱：最新开源文本转语音模型IndexTTS-2.0标志零样本TTS进入双维度时代
腾讯企点营销云发布Magic Agent，营销工具全面AI化
带屏 AI 眼镜登场！Meta「眼镜全家桶」炸街了
通义DeepResearch震撼发布！性能比肩OpenAI，模型、框架、方案完全开源
让机器人「不只是走路」，Nav-R1引领带推理的导航新时代
刚刚，DeepSeek-R1论文登上Nature封面，通讯作者梁文锋
腾讯 AI 的新叙事
传小米 YU7 新车型曝光纽北；李飞飞放出 3D AI 新成果； 49.2%，火山引擎大模型调用份额占半壁江山
小扎豪掷143亿，却换不来AI燃料！数据之争下半场，中国冲出一匹黑马
终结数据荒！智源开源首个Deep Research数据合成框架InfoSeek
我用一张照片，生成了一个能走进去的世界
奥特曼爆料：GPT-5重构彻底一切！一人顶五个团队
最新实测GPT-5-Codex：前端能力碾压，复杂项目轻松搞定，Claude可以扔了!
TPAMI 2025 | 弱监督与自监督引领自动驾驶运动预测新范式，用场景分割“脑补”运动，仅需0.01%标注，性能媲美监督方法
南开大学等提出RAM++：从关注“降质”到关注“内容”，实现鲁棒的全能图像恢复
不改参数不重训！CARVE一招纠偏，对比注意力让视觉模型精准聚焦
ICML 2025 | AI福尔摩斯来了！LLaVA-ReID多轮发问，行人重识别一步步锁定
博士申请 | 新加坡国立大学CoSTA Lab招收人工智能全奖博士/RA/实习生
清华新作颠覆CoT！ParaThinker并行思考，终结单链推理天花板
没想到，音频大模型开源最彻底的，居然是小红书
6.1B打平40B Dense模型，蚂蚁开源最新MoE模型Ling-flash-2.0
「AI助手」真来了？谷歌牵头推进Agent支付协议AP2
腾讯AI Lab首创RL框架Parallel-R1，教大模型学会「并行思维」
阿里开源通义DeepResearch，性能超OpenAI、DeepSeek旗舰模型
华为发布4+10+N中小企业智能化方案，打通迈向智能世界「最后一公里」
LLM开源2.0大洗牌：60个出局，39个上桌，AI Coding疯魔，TensorFlow已死
Cell丨谷歌AI co-scientist联合帝国理工揭开谜团：提出并验证细菌基因转移机制假说
华为首款旅行车 1 小时订单破 5000，余承东再次「封神」？
腾讯、复旦、上海创智学院提出SwiftVideo：首个Continuous-time视频蒸馏加速框架，实现业界最快最高清视频生成
刚刚，李飞飞空间智能新成果震撼问世！3D世界生成进入「无限探索」时代
突破单链思考上限，清华团队提出原生「并行思考」scale范式
刘强东喊话王兴：尊重兴哥，不应是仇人；美机器人公司估值暴涨至390亿美元；iOS 微信支持聊天发实况图｜极客早知道
7亿人每周狂发180亿条消息！OpenAI首次揭秘ChatGPT最火用途
LLM会梦到AI智能体吗？不，是睡着了也要加班
一周休4天！老黄、盖茨站台，网友炸锅：是AI福利，还是裁员信号？
AI精神病爆发！沉迷ChatGPT把人「宠」出病，KCL心理学家实锤
谷歌DeepMind「粪坑淘金」全新方法，暗网毒数据也能训出善良模型
EMNLP 2025 | 跨风格不误判！MoSEs用职业写作风格建模，检测AI文本更稳更准
北京内推 | 微软Copilot算法团队招聘大模型推理方向研究型实习生
一招打破瓶颈！HyperTree超树规划：AI掌握层级化推理，复杂任务全面突破
高阶程序，让AI从技术可行到商业可信的最后一公里
网络顶会获奖！华为提出端网协同RDMA传输架构，解决大规模AI集群网络可扩展性问题
具身智能能力狂飙，安全却严重滞后？首个安全可信EAI框架与路线图出炉！
在端侧 AI 时代正式到来之前，联想想先做好硬件「杀手锏」
火山引擎发布PromptPilot，推动大模型应用高效落地
在「外滩大会·具身智能：从泛化到行动，重塑产业未来」上，这些大牛都说了什么？
国内首个！夸克公开覆盖全阶段医师考试的健康大模型测试集
蚂蚁百灵开源轻量级MoE语言模型Ling-mini-2.0，1.4B激活性能比肩大规模模型
浙大侯廷军团队联合IIT等发布系统综述：全景解析机器学习加持下的「增强采样」方法
BMVC 2025 | 无需源数据，Grad-CL如何利用梯度引导实现精准的眼底图像分割？
斯坦福大学提出PSI：一种通过概率结构集成，从数据中学习可控、可灵活提示的世界模型的新系统
谁说Scaling Law到头了？新研究：每一步的微小提升会带来指数级增长
从少样本到千样本！MachineLearningLM给大模型上下文学习装上「机器学习引擎」
最新披露，骑手收入真实情况揭晓
刚刚，OpenAI发布GPT-5-Codex：可独立工作超7小时，还能审查、重构大型项目
多模态BUG修复新SOTA：慕尼黑工大GUIRepair登上SWE-bench Multimodal榜单第一
15年大佬深夜痛哭半小时！氛围编程巨坑曝光，95%程序员沦为「AI保姆」
面试不是考试，是表演！新晋OpenAI员工：重磅揭秘顶级AI岗通关密码
GPT-5惨遭零分打脸，顶级AI全军覆没！奥特曼AI博士级能力神话破灭
反转！LeCun刚转发「全球最快开源推理模型」，ETH苏黎世就直接打假
新世界首富：斥巨资求永生，TikTok收购案最可能买家，得OpenAI千亿订单
博士申请 | 南京大学范琦老师课题组招收26级/27级视频生成/世界模型方向博士生
北京/杭州/西雅图内推 | 阿里通义实验室LLM Research团队招聘大模型研究科学家
EMNLP 2025 | LLM也会“装成人”？对比重写CoPA挑战AI文本检测可信度
从Muon到AdaMuon：下一代优化器能否真正取代Adam？
法天使与零一万物发布法务智能体平台，让AI成为法务部的超级员工
从「对口型」到「会表演」，刚进化的可灵AI数字人，技术公开了
数字生活的原生入口：蚂蚁集团发布AI眼镜全新技术框架gPass
OpenVision 2：大道至简的生成式预训练视觉编码器
旗舰手机、AI 拍摄眼镜、Flyme ，魅族 22 「归航」终极生态
DeepMind与牛津大学提出LayerLock：用渐进式层冻结实现高效、无崩溃的自监督视觉表征学习
超越GPT-4o，蚂蚁集团与南洋理工大学提出LaV-CoT：首个语言感知的视觉思维链
为什么说现在所有的 AI Agent，都像 3D 打印机？｜AI 上新
召回率达99%，牛津大学等开发AI工具助天文学家快准识别超新星，从亿万星海中秒抓宇宙烟火
用光学生成图像，几乎0耗电，浙大校友一作研究登Nature
告别ROS的繁琐, 易用易学的机器人学习系统: 华为诺亚面向机器人学习的开源Python框架
现货来了！火出圈！钉钉首款AI硬件DingTalk A1正式开售
苹果 iOS 26 今日发布，8 大更新；华为小米宇树入选 MIT「聪明公司 50」；中国核电催更《流浪地球 3》

告别视频“抽帧”理解，美国东北大学新算法GRT算法实现高效可扩展的高帧率密集视频理解

2025-09-21未知作者来源

52CV 2025-09-21 11:01 江苏

让视频大模型看懂高帧率密集视频

当前的视频大语言模型（VLLMs）在处理视频时，普遍面临一个核心瓶颈：为了节省巨大的计算成本，它们不得不“抽帧”处理，即只对视频中稀疏的几个关键帧进行分析，而丢弃了绝大部分的密集时序信息。这种做法在处理内容变化缓慢的视频时或许可行，但一旦遇到信息密集、需要逐帧理解的任务（如跟上快速闪过的课程字幕、分析体育比赛中的瞬时动作），就会“失明”。

为了解决这一痛点，来自东北大学、普林斯顿大学和马里兰大学的研究者们，在一篇名为 《Dense Video Understanding with Gated Residual Tokenization》 的论文中，提出了一个全新的概念和解决方案。他们首先定义了 密集视频理解（Dense Video Understanding, DVU） 这一新任务，并为此构建了首个评测基准 DIVE。更重要的是，他们提出了一种名为 门控残差标记化（Gated Residual Tokenization, GRT） 的创新框架，旨在让VLLM能够高效、可扩展地处理高帧率视频。

论文标题：Dense Video Understanding with Gated Residual Tokenization
作者团队：Haichao Zhang, Wenhao Chai, Shwai He, Ang Li, Yun Fu
机构：美国东北大学, 普林斯顿大学, 马里兰大学
论文地址：https://arxiv.org/abs/2509.14199

背景：高帧率视频理解的“不能承受之重”

为什么现有的VLLM都选择“抽帧”？根本原因在于“Tokenization”的高昂成本。将视频的每一帧都像图片一样转换成Token，会带来两大问题：

计算冗余：视频中相邻帧之间通常只有少量区域（如移动的人物）发生变化，而大量静态背景（如墙壁、天空）是重复的。对每一帧的静态背景都进行重复的Tokenization是巨大的浪费。
Token数量爆炸：Token数量会随着视频长度和帧率线性增长，这很快会超出LLM的上下文窗口限制，并因注意力机制的二次方复杂度而导致计算成本爆炸。

正是为了规避这些问题，现有模型和评测基准都走向了“稀疏理解”的道路，但这从根本上限制了VLLM在需要精细时序推理任务上的应用潜力。

GRT：高效处理高帧率视频的两阶段框架

GRT 的设计灵感来源于经典的视频压缩技术，其核心思想是 “只处理变化的部分”。它通过一个两阶段的“门控”和“融合”机制，在Token层面实现了对视频信息的智能压缩。

阶段一：运动补偿的帧间门控标记化 (Motion-Compensated Inter-Gated Tokenization)

这一阶段在像素层面减少冗余。它模仿视频编码中的I帧（关键帧）和P帧（预测帧）的概念：

识别关键帧（Key Frame）：对于一个场景的起始帧，GRT会将其作为关键帧进行完整的Tokenization，以捕捉静态的场景信息，生成“Key-token”。
门控处理P帧（P-Frame）：对于后续的帧，GRT首先进行像素级的运动估计，识别出画面中哪些区域是运动的，哪些是静止的。然后，通过一个“门控”机制，只对运动的区域（Patch）进行Tokenization，生成“P-token”，而完全跳过静止的背景区域。

通过这种方式，GRT避免了对静态背景的重复计算，使得Token数量和计算量的增长与视频帧数呈 次线性关系，极大地提升了处理效率。

阶段二：语义感知的场景内Token融合 (Semantic-Scene Intra-Tokenization Merging)

这一阶段在语义层面进一步压缩信息。它解决了视频中可能存在的“场景重复”问题：

场景相似性度量：GRT会比较不同场景的关键帧Token（Key-token）的分布，以判断两个场景在语义上是否相似（例如，一个演讲者在同一个讲台背景下讲了十分钟）。
Token融合：如果两个场景被判定为语义上等价，GRT会 将它们的Key-token进行融合（例如，通过聚类生成一个新的代表性Token），并简单地将它们各自的P-token（代表了各自场景内的独特运动）拼接起来。

这一步操作，在保留了所有动态信息的同时，进一步剔除了跨场景的静态背景冗余，使得最终输入到LLM的Token序列变得极为精简。

实验结果：小模型也能超越大模型

为了验证GRT的有效性，研究者们首先构建了首个面向密集时序推理的基准 DIVE (Dense Information Video Evaluation) 。DIVE通过利用YouTube视频的字幕流，自动生成需要逐帧推理才能正确回答的问答对。

在DIVE基准上的实验结果令人振奋：

性能超越SOTA：搭载了GRT的0.5B参数小模型，其性能（以平均意见分MOS衡量） 显著优于 多个更大规模的7B参数VLLM基线模型。这证明了GRT框架的高效性和密集时序信息的关键性。

性能随帧率正向扩展：与传统方法因帧率增加而性能下降或计算崩溃不同，GRT的性能随着输入视频FPS的增加而 持续提升。这有力地证明了GRT能够有效利用高帧率视频中的密集信息。

显著的Token压缩率：实验数据显示，在1 FPS的设置下，GRT的两阶段压缩能将Token数量减少到原始（逐帧处理）的 14% ，极大地降低了计算开销。

消融实验也证明了GRT的两个阶段对于最终性能都至关重要。

总结与贡献

这项工作直面了当前VLLM领域的核心痛点，为实现真正意义上的密集视频理解迈出了关键一步。

其主要贡献在于：

定义了密集视频理解（DVU）新任务，并创建了首个相应的评测基准 DIVE，填补了领域空白。
提出了Gated Residual Tokenization (GRT)框架，通过一个创新的、受视频压缩启发的两阶段流程，首次实现了对高帧率视频的高效、可扩展的Tokenization。
实验证明了密集时序信息的重要性，并验证了GRT能够让VLLM从小模型到大模型都能从中受益，为未来VLLM处理更复杂的动态视觉信息开辟了新的道路。

总而言之，GRT的出现，有望让VLLM摆脱“低帧率”的束缚，真正看懂、看清我们这个连续而丰富的动态世界。

了解最新 AI 进展，欢迎关注公众号:我爱计算机视觉感谢点赞支持。

阅读原文

跳转微信打开