动态列表

  • CVPR史上首次!中国车厂主讲AI大模型,自动驾驶也玩Scaling Law?
  • Nature警告:AI「数据饥渴症」引爆学术宕机潮!90%知识库濒临崩盘
  • 刚刚,谷歌AI路线图曝光:竟要抛弃注意力机制?Transformer有致命缺陷!
  • 亚马逊码农噩梦来袭!沦落「仓库工人」,每天流水线分拣「AI代码」
  • 特朗普「全政府AI计划」竟在GitHub泄密!或于7月4日「独立日」上线
  • 「人类飞机上吵架看呆袋鼠」刷屏全网,7000万人被AI耍了
  • SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?
  • Nature子刊,北大团队使用多视图GNN进行基于生态位的细胞间通信研究
  • 九章云极发布九章智算云Alaya NeW Cloud 2.0, 开创Serverless+RL技术趋势
  • AI进化三年,产业落地真拐点可能就在这场全球顶尖金融智能赛事里
  • 初赛报名截止倒计时!75万奖池+心动Offer,启元实验室重磅赛事等你来战!
  • 高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3
  • 如何选择最佳多模态大模型压缩方案?哈工大、度小满开源EFFIVLM-BENCH基准测试框架
  • Nature子刊,中国科大团队提出迁移学习指导的圆偏振磷光材料设计
  • 复旦团队让线粒体自噬「可视化」,AI-FM揪出抗阿尔茨海默病潜力药
  • 通过对话即可执行DNA、RNA和蛋白质任务,InstaDeep提出多模态智能体ChatNT
  • 大模型能否读懂真实病历?哈佛医学院发布BRIDGE大规模多语言评测基准
  • Muon作者仅用一篇博客,就被OpenAI看中了
  • ACL 2025|为什么你设计的 Prompt 会成功?新理论揭示大模型 Prompt 设计的奥秘与效能
  • 罗永浩数字人开播,GMV超 5500 万;泡泡玛特首家珠宝店正式开门;特斯拉 Robotaxi 真车曝光
  • 刚刚!陶哲轩3小时对话流出:AI抢攻菲尔兹奖倒计时
  • 《人类简史》作者怒怼硅谷:智能≠真理,AI正在走偏!
  • 12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈
  • 硅谷精英集体参军!代号「201分队」,Meta、OpenAI首席技术官入伍
  • 刚获得一亿美元融资的地瓜机器人,挑战让智能机器人变得更便宜
  • 放弃博士学位加入OpenAI,他要为ChatGPT和AGI引入记忆与人格
  • 机器人也能边想边做!清华团队OneTwoVLA让机器人煮火锅、炒菜、调酒样样精通
  • 复旦大学/上海创智学院邱锡鹏:Context Scaling,通往AGI的下一幕
  • 谢赛宁敲响学界警钟!AI研究可能陷入一场注定失败的有限游戏
  • AI记忆伪装被戳穿!GPT、DeepSeek等17款主流大模型根本记不住数字
  • CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶
  • 首个统一的图像与视频AIGC可解释性检测框架,多榜单SOTA性能
  • 特朗普或推出以其名字命名的手机品牌;百度启动最大规模 AI 人才招聘;《鱿鱼游戏》第三季预告发布|极客早知道
  • 小扎豪掷143亿美元赌新「王」!28岁华人亿万富翁入职Meta,与谷歌决裂
  • 模型遗忘不代表记忆抹除!首次系统发现「可逆性遗忘」背后规律
  • 谢赛宁开炮,现场打脸CVPR评审!Sora开山之作DiT被拒,怒斥AI学术圈畸形
  • 和AI聊太深?他们离婚、跳楼、自杀了!ChatGPT精神病正在爆发
  • LLM已能自我更新权重,自适应、知识整合能力大幅提升,AI醒了?
  • 多智能体在「燃烧」Token!Anthropic公开发现的一切
  • 苹果《思考的错觉》再挨批,Claude与人类共著论文指出其三大关键缺陷
  • 单卡4090也能高质量视频编辑!西湖AGI Lab无训练框架FlowDirector来了
  • ICCV 2025 MARS2 Workshop 多模态推理竞赛启动
  • 消息称腾讯未考虑收购 Nexon;追觅否认「断指计划」;李国庆与俞渝就财产分割达成最终和解
  • 光场显微飞跃AI时代!清华等首提SeReNet:毫秒级高分辨光场三维重建
  • 苏妈联手OpenAI,AMD发布3nm怪兽MI355X,性能碾压英伟达B200!
  • 何恺明评审,谢赛宁获奖!牛津华人博士生拿下CVPR 2025最佳论文
  • 刚刚,CVPR 2025奖项出炉:牛津&Meta博士生王建元获最佳论文,谢赛宁摘年轻研究者奖
  • ICML 2025 | 千倍长度泛化!蚂蚁新注意力机制GCA实现16M长上下文精准理解
  • 字节跳动技术副总裁洪定坤:TRAE 想做 AI Development
  • 「倒计时3天」2025 WAIC云帆奖全球征集|共青年之智,铸AGI未来
  • 2025谷歌研究学者计划名单:吴佳俊、Mamba作者Albert Gu、Tri Dao等获奖
  • 一粒「扣子」,开启了Agent的全生命周期进化
  • 聊透 Agent,它是「同事」还是「工具」,创业机会和价值究竟是什么?
  • 零训练即可实现自我演化!首个基于科学智能体架构的AI疾病生物学家发布
  • 腾讯2026青云计划启动,百余项技术课题支持青年人才挑大梁
  • AI研究人员如何节约能源?通过反向计算
  • 提前15天预测50种可能情景,谷歌DeepMind凭借新模型彻底改变了台风预报
  • 腾讯打出「AI岗位薪酬不限」的底气来自哪?
  • 1200行代码逆袭!DeepSeek工程师开源轻量级vLLM,吞吐量逼近原版
  • 刚刚,Scale AI CEO Alexandr Wang正式官宣:Meta重金投资并挖走了我
  • 统一20+多智能体方法,MASLab震撼发布
  • CVPR 2025 论文推荐 :VGGT,快速 3D 重建新范式
  • 科大讯飞最新发布!打造下一代智能交互新范式
  • AGI真方向?谷歌证明:智能体在自研世界模型,世界模型is all You Need
  • CVPR 2025 Highlight|北大联手智元发布首个基于说明书的家电操作评测基准
  • 波音 787 在印度发生首次坠毁事故;哪吒汽车通知员工居家办公;阿里发布高考志愿大模型|极客早知道
  • DeepMind首个猜想库开源,获陶哲轩力挺!
  • 1万块GPU砸向欧洲!老黄怒怼AI末日论:全球首个工业AI云来了
  • 何恺明改进了谢赛宁的REPA:极大简化但性能依旧强悍
  • CVPR 2025 多模态大一统:斯坦福 x 复旦提出符号主义建模生成式任务
  • 精度达原子级,基于深度学习的动态蛋白质设计,登Science
  • 英伟达打造全球首个工业AI云,配万块GPU,物理AI机器人集群已启动
  • 字节自研AI IDE “TRAE”,月活用户已超百万
  • 从高考到实战,豆包大模型交卷了
  • 通义实验室最新成果WebDancer:开启自主智能Deep Research的新时代
  • 256块NPU训成8B视频模型、超越Sora等一众闭源!抖音内容技术团队开源ContentV
  • 拆解火山引擎后,我看到了字节跳动的「变奏」
  • ACL 2025 | 让大模型听懂育种的语言,科学家提出首个种子科学多任务评测基准SeedBench
  • ICML 2025 | Agentic时代唤醒NAS"第二春"!智能体超网动态组队,推理成本暴降55%
  • Image Caption复兴宣言!南大港大CapArena重塑「详细图像描述」评测体系
  • 博士申请 | 上海交通大学人工智能学院刘松桦老师招收视觉生成方向博士/硕士/实习生
  • SIGGRAPH 2025奖项出炉:上科大、厦大最佳论文
  • 2D图像作中介,零训练实现3D场景生成SOTA:英伟达&康奈尔提出文本驱动新流程
  • 刚刚,LeCun亲自出镜,Meta推出新世界模型!
  • 银河通用X清华大学发布业内首款开源人形机器人全身遥操系统OpenWBT,支持多机型、跨虚实,小时内可轻松部署
  • CVPR 2025 | 多模态统一学习新范式来了,数据、模型、代码全部开源
  • 马斯克道歉,特朗普回应;阿里离职员工发万字长文,马云回应;华为发布 Pura 80 系列,余承东称对得起那四个字
  • 这届机器人太会了!百事蓝宝出道,人形机器人也开始卷情绪价值了
  • 全球首个历史基准!普林复旦打造AI历史助手,AI破圈人文学科
  • 无需上下文,MCP新机制让大模型主动“提需”:节约 98% token 开销,并保持准确率基本不变!
  • 500 万下载、ARR 400 万美元,这只「外星 AI」为何让年轻人上头?
  • 开盘暴涨 3 倍,全球化的影石给中国硬件创新立了新榜样
  • 这家日本企业,有张能跑「百万行」的飞书多维表格!
  • AutoMat:让「看见原子」成为「理解材料」的科学直通车
  • 浙大开发的荧光纳米传感器,超96.67%的准确率识别植物信号
  • 1000 亿天价,扎克伯格买下「半个天才」和 Meta AI 的未来
  • 「Next-Token」范式改变!刚刚,强化学习预训练来了
  • Mistral的首个强推理模型:开源开源,推理速度快10倍
  • 103K「硬核」题,让大模型突破数学推理瓶颈
  • 10%训练数据超越100%表现,机器人学习领域迎来重要突破
  • 建议所有博士都去学一遍,赢麻了!
  • ACL 2025 | 多维阅卷,智识觉醒:打开多模态大模型看图写作评估的认知之门
  • 20 万一台的「人脑计算机」,可能是人类战胜 AI 的唯一方式?
  • 刚刚,OpenAI正式发布o3-pro!奥特曼激动更新博客:温和的奇点
  • 时空压缩!剑桥大学提出注意力机制MTLA:推理加速5倍,显存减至1/8
  • 高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺冠,豆包DeepSeek并列第二
  • iOS 26 丑上热搜;多家车企宣布将账期统一至 60 天内;OpenAI 推出最强推理模型 o3-pro | 极客早知道
  • Ilya回归,获授「第四学位」!AI将完成人类能做的一切,毕业演讲实录
  • OpenAI新模型,被曝秘密训练中!万字硬核长文直指o4核心秘密
  • 20人团队提前实现DeepSeek构想,AI算力变天?直击大模型算力成本痛点
  • PrefixGrouper:加速GRPO训练,即插即用,长上下文场景计算效率跃升!
  • 李飞飞团队新作:DiT不训练直接改架构,模型深度减半,质量还提高了
  • 扩散语言模型真的会比自回归好?理论分析结果可能恰恰相反
  • 一个md文件收获超400 star,这份综述分四大范式全面解析了3D场景生成
  • 淘宝获2025年度苹果设计大奖 国内互联网平台首个
  • 不懂编程也可使用,能生成协同自驱动实验室的简易操作界面,开源协调器IvoryOS
  • ICML 2025 | 抗体、多肽、小分子,一网打尽:UniMoMo基于隐空间扩散模型统一生成靶向药物分子
  • 端侧模型卷王诞生!MiniCPM4长文本推理提速5倍,0.5B模型屠榜同级
  • ICML 2025 | 不靠复杂架构,经典GNN再证图级任务强基线地位
  • 地铁换乘都搞不定?ReasonMap基准揭示多模态大模型细粒度视觉推理短板
  • 博士申请 | 纽约大学(上海)计算机系谭桥宇老师招收LLM/MLLM方向全奖博士生
  • 大模型是「躲在洞穴里」观察世界? 强化学习大佬「吹哨」提醒LLM致命缺点
  • 一块4090搞定实时视频生成!Adobe黑科技来了
  • 视频生成1.3B碾压14B、图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式
  • 增速超比亚迪后,新能源狂飙 135%,这家公司做对了什么?
  • 从「互掐」到「牵手」,小鹏华为只为这块「屏」?​
  • 刚刚,苹果WWDC掀AI风暴!端侧模型全面开放、AI版Siri却成最大「鸽子」王
  • 比自回归更灵活、比离散扩散更通用,首个纯Discrete Flow Matching多模态巨兽降临
  • 苹果 iOS26 正式发布;余承东晒华为 Pura 80 Pro 真机;泡泡玛特否认进军 AI 玩具

视频理解“隐秘的角落”:多任务视频文本理解评测新基准VidText发布

让你更懂AI的 2025-06-12 12:34 北京

告别「字幕无视」时代!

视频理解是通往 AGI 的必要路径。当前视频理解的探索主要集中于视频事件内容,人物动作,关系等。然而,嵌入视频中的可视文字却往往被忽略。从视频字幕到场景文字(街头招牌,道路指示牌),这些视频文本对于推理视频的内容,人物行为等提供了重要线索。


针对于此,来自哈工大,特伦托大学,北大,中科院,北航,南理工和南开大学的研究者们联合提出了 VidText,旨在提供视频文本理解的系统性基准:


论文标题:

VidText: Towards Comprehensive Evaluation for Video Text Understanding

论文链接:

https://arxiv.org/pdf/2505.22810

项目链接:

https://github.com/shuyansy/VidText



VidText 的三大核心亮点

1. 全场景、多语言覆盖

VidText 涵盖媒体、娱乐、体育、知识、生活记录等 27 个真实视频场景,涵盖了丰富的视觉文本场景,例如场景文本和字幕。此外,它还支持多语言评测,包括英语、中文、韩语、日语和德语。

2. 多粒度任务设计

  • 视频级(Holistic Level):视频级任务涉及对全局视频内容进行整体 OCR 理解和推理。

  • 片段级(Clip Level):片段级任务需要基于特定时间片段的局部理解。

  • 实例级(Instance Level):实例级任务需要对单个文本实例进行细粒度的时间和空间定位,以支持精确的问答。

3. 感知-推理任务全链路评估

VidText 涵盖了从视觉文本感知到基于视觉语境的跨模态推理。基于精心标注的视频文本数据,我们生成了以视频文本为中心的思维链(CoT)标注,清晰地捕捉视频描述与嵌入文本之间的推理过程,包括与周围物体的空间关系以及与动作或事件相关的时间依赖关系。


通过这种方式,我们将视频文本感知任务扩展至相应的推理任务,形成一个涵盖八个任务、涵盖多个理解层面的全面配对感知推理框架。


根据以上设计原则,VidText 提出了以下 8 个子任务

1. Holistic OCR(全局文字识别)


模型需要识别视频中完整出现过的所有视觉文本,涵盖整个视频的时空范围。目标是考察模型的全局视频文字感知能力,包括跨时间整合不同帧中出现的文字实例,去重、排序后输出完整的文字列表。


2. Holistic Reasoning(全局推理)


基于 Holistic OCR 识别到的文本,结合视频全局语义信息,模型需要理解视频整体主题或事件。该任务评估模型整合跨时间文本线索与多模态背景信息进行高层语义推理的能力。


3. Local OCR(局部文字识别)


模型在指定的局部视频片段(如用户定义的片段或标注片段)中识别出现的视觉文本。考察模型在局部时间窗口内进行有效文本检测与识别的能力。


4. Local Reasoning(局部推理)


基于局部片段内识别出的文字及上下文场景,模型需回答与该局部语义相关的推理问题。主要考察模型利用局部视觉文本与场景信息完成细粒度语义理解的能力。


5. Text Localization(文本时间定位)


给定指定文本,模型需要预测该文本在视频中出现的时间段(起止时间)。该任务考察模型对视觉文本跨时间动态出现规律的检测与定位能力。


6. Temporal Causal Reasoning(时序因果推理)


在 Text Localization 的基础上,模型需推理该文本与视频事件或动作之间的时序因果关系。重点评估模型理解“文本出现”与“事件发生”之间因果逻辑的能力。


7. Text Tracking(文本空间跟踪)


针对指定的文字实例,模型需预测其在首次出现与消失时的空间位置(即空间 bounding box)。考察模型对动态视频场景中视觉文本在空间维度的持续追踪与识别能力。


8. Spatial Reasoning(空间推理)


在 Text Tracking 的基础上,模型需推理指定文本与其周围视觉对象的空间关系(如上下、左右、包含、邻近等)。评估模型对视觉文本与场景中其他元素之间空间结构关系的理解与推理能力。


详细分析 MLLMs 在 VidText 上的表现


我们在 VidText 上对 18 个主流多模态大模型(MLLM)进行了系统性评测,包括 GPT-4o、Gemini 1.5 Pro、VideoLLaMA3、Qwen2.5-VL、InternVL2.5 等,实验结果如下:

实验结果发现:


(1)视频文字理解任务极具挑战性,当前模型仍远低于人类水平。


(2)在多粒度任务中,视频级别任务和实例级别任务难度高于片段级别任务。因为前者需要视频全局理解,而后者需要细粒度的文字实例理解。


(3)扩大语言模型的规模有助于提升推理任务的效果,但对于感知任务的增益不大。


在进一步的实证研究中,我们揭示了影响视频文本理解性能的若干关键因素:


1. 输入分辨率:高分辨率输入可显著提升文本细节保留与检测能力;

2. OCR 感知能力:图像 OCR 能力是视频文本理解能力的基础。


3. 语言模型的选择:如 Qwen 系列在多语言场景下优势明显,LLaMA 系列表现稍弱;


4. 辅助信息引入:字幕、OCR 结果等外部信息可提升整体语义推理效果;


5. 链式推理(Chain-of-Thought)策略:通过逐步推理引导,有效提升模型跨模态复杂推理能力,在各类推理任务中均带来性能增益。



总结

VidText 系统性填补了视频理解领域长期缺乏“视频内文本建模与推理”能力评测的空白,它有望推动大模型在跨模态时序推理、多粒度感知、多语言理解等方面迈向新的研究方向,为多模态大模型走向实际视频分析与理解应用场景奠定基础。


更多阅读



#投 稿 通 道#

让你的文字被更多人看到



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·


阅读原文

跳转微信打开

联系我们