动态列表

  • 首个AI神作!一人分饰全角,万人围观外星人嘲讽人类灭绝
  • 申研「全拒得」的「差生」,终成PyTorch之父、Meta副总裁!今天跳槽TML
  • 图灵奖得主竟「忘了提及」中国学者成果?马库斯重锤Yann LeCun
  • 永别了,Tokenizer!何恺明师徒新作,颠覆AI生图技术
  • 年度最强AI实锤!谷歌Gemini 3全网首测震撼,一句话编码封王
  • 亚马逊云科技发布Kiro正式版:核心功能升级
  • 对话斑马口语:如何用 AI Agent 造出「超人类外教」?
  • 清华团队“密度法则”登上Nature子刊,揭示大模型高效化发展新规律
  • 点击下载!中国科研人员AI使用率全面领跑:Wiley发布全新调研报告
  • 风口浪尖中的小米汽车,创下国产新势力最快盈利速度
  • CMU新作Co-Me:无需重训,VGGT长序列迎11.3倍加速!
  • 何恺明团队再出手!将ARC视为视觉问题,ViT从零训练60.4%准确率,达到人类平均水平
  • 资深技术专家胡成文出任鼎犀智创CTO,共赴新材料智创未来
  • 如视发布空间大模型Argus1.0,支持全景图等多元输入,行业首创!
  • 登顶开源SOTA!上交大&小红书LoopTool实现工具调用任务的「数据进化」
  • NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法
  • NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测
  • 刚刚,PyTorch之父光速入职TML!离职Meta刚过一天,投身500亿估值独角兽
  • 何恺明重磅新作:Just image Transformers让去噪模型回归基本功
  • ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式
  • Gemini 3深夜来袭:力压GPT 5.1,大模型谷歌时代来了
  • 「30 秒造应用」——蚂蚁灵光点燃「所想即所得」的魔法时刻
  • Gemini 3 正式发布,多榜单断崖式领先;美安全服务商网络中断,ChatGPT、X 受牵连;苹果承认酒精擦拭可能导致手机掉色|极客早知道
  • 4万亿刀,仅3.6万人!英伟达揭残酷真相:劳动正与财富大脱钩
  • 医疗AI智能体全面综述:行业爆发,年增长130%!
  • AI「看见」实验,哈佛颠覆性突破!一副AR眼镜,新手秒变资深专家
  • 震惊电影圈!好莱坞混了10年没出头,他把AI「烂片」做成23万粉爆款
  • Anthropic CEO:最快明年,一半初级白领下岗!失业率将达10%-20%
  • 谷歌 Gemini 3.0 深夜炸场:没有悬念的最强 AI
  • 夸克全面接入千问对话助手,将发布全新AI浏览器
  • MIT何恺明团队新作:让扩散模型回归“去噪”本质,简单Transformer即可实现SOTA性能
  • Yann LeCun团队新作LeJEPA:仅一个超参数、50行代码,实现可证明、可扩展的自监督学习
  • 美团多篇论文入选NeurIPS 2025:从大模型到多模态的全线突破 | 直播预告
  • JSON刚死24小时,TOON又被网友玩坏:LLM数据格式彻底乱套了
  • 阿里千问公测,挑战 ChaGPT;京东上线独立外卖 App;贝佐斯出任 AI 初创公司 CEO
  • 抱歉了GPT-5,这次是中国AI「上岸」了
  • 你急它不急:GPT-5先判断,再决定「速答」还是「深想」
  • Meta开始用KPI考核,强迫所有员工尽可能多使用AI
  • 接招吧,GPT-5.1!
  • 「前三代定律」下,百年吸尘器如何做出新意?
  • 两个月破 300 万用户,Agnes AI 刷新 Instagram 与 Snapchat 增长纪录
  • 每天给白领发 1000 万,他成了硅谷最年轻亿万富翁
  • 2025,中国科技圈进入全面「大乱斗」时代
  • 当 AI 开始分「左右」
  • 阿里云,用全栈 AI 刷新第十七个双十一
  • AAAI 2026 Oral MiniShift+Simple3D:面向高分辨率3D异常检测的可扩展数据集与实时检测新范式
  • AAAI 2026 山大提出DiveSeg:为DINO注入“水下感知力”,实例分割性能提升显著
  • 双重隐式记忆来了!JanusVLN让视觉语言导航真正理解3D空间
  • 让千问APP当一周科研打工人:它比我想的能干,也比我想的累
  • 雷军连发多条微博回应质疑;iPhone 发布方式将在明年重大变革;年度最令人不安的研究:AI 刷多社媒会变蠢|极客早知道
  • 图灵奖得主LeCun最后警告Meta!我搞了40年AI,大模型是死路
  • AI又封神了!华人新作直出憨豆+《猫和老鼠》,平行宇宙对上戏了
  • AI「逼宫」库克?苹果秘密计划曝光,接班人竟是M芯片之父!
  • 年度最强AI压轴!谷歌Gemini 3.0下周决战OpenAI,前端要下岗了
  • 安谋科技发了一枚 NPU,要把 AIGC 算力提升 10 倍
  • ICLR 2026吃瓜现场:有人用LLM连投4版论文,竟然拿到两个8分?
  • 无人工标注、可持续扩展:AcademicEval推动长文本评测进入“自更新”阶段
  • 宇树完成上市辅导,拟境内IPO;传索尼开发Labubu电影;2699元!原道X小岛秀夫耳机限量发售
  • AAAI 2026 Oral | 清华大学等提出SpatialActor:解耦空间感知,重度噪声下机器人操作鲁棒性暴涨19.4%
  • AI不懂痛苦,却成了你的深夜知己!170位医生教ChatGPT安慰人
  • 一条短信,7年恩怨!奥特曼与马斯克决裂曝出新隐情
  • 不会说英语的母亲,教出了5万亿英伟达CEO!
  • AI「牛顿」来了!北大团队新突破,看一眼数据就能推出物理定律
  • AAAI 2026 Oral | 中科院联合港大提出ARRA:外部视觉表征对齐重塑全局一致性,让自回归大模型充分释放图像生成潜能
  • 1899 元「iPhone 袜子」上架秒光;传华为 Mate80 上 20GB 内存;微信点赞苹果小程序政策
  • 全球最大开源具身大模型!中国机器人跑完马拉松后开始学思考
  • OpenAI拆开AI「黑箱」,终于可以看懂GPT在想什么了
  • LeCun在Meta的「最后一作」
  • 视觉压缩称王?谷歌死守AI黑科技,DeepSeek一夜开源
  • 大疆 OSMO Action 6 体验:完美进化,不止运动
  • iOS 为微信小程序「正名」,腾讯移动生态的新转机
  • WACV 2026 | PALMS+:融合深度基础模型,手机室内导航的技术再突破
  • “全模态”3D视觉基础模型OmniVGGT出炉!即插即用任意几何模态,刷新3D视觉任务SOTA,赋能VLA模型
  • GPT 5.1 发布了,但西方媒体准备「讲好中国故事」
  • AI、游戏双驱动,腾讯「赚麻了」
  • 对话李彦宏:Chatbot 不是一切,我在 AI 上看到了更让人兴奋的未来
  • 杭州/北京内推 | 阿里淘天算法团队招聘多模态理解方向算法实习生
  • ACL 2025 | 用图结构让RAG学会「记忆与总结」,重塑长上下文理解
  • OpenAI把Transformer训练成「几乎全零」,黑箱首次被彻底揭开
  • 传苹果从微信小程序抽成 15%,腾讯回应;特斯拉考虑支持 CarPlay;iPhone Air 成功支持实体卡 |极客早知道
  • 谷歌DeepMind最新论文,刚刚登上了Nature!揭秘IMO最强数学模型
  • ICLR 2026出分,审稿员怒喷「精神病」!DeepMind研究员教你绝地求生
  • GPT-5.1发布当天,文心5.0杀回来了
  • 一句「你还好吗」值40亿?斯坦福博士出走xAI,押注AGI共情力
  • 营收狂飙的「暗面」:Meta成「全球欺诈大本营」?
  • 小鹏科技日「太魔幻」:机器人走猫步,飞行汽车接近量产
  • AAAI 2026 Oral 中科大联合西工大提出RSKT-Seg:专为遥感打造的高效开放词汇分割框架,推理提速2倍
  • Roboflow&CMU论文披露RF-DETR细节:首个COCO数据集突破60 AP实时目标检测,速度飙升20倍!
  • 博士申请 | 佛罗里达大学计算机系招收NLP/LLM方向全奖博士/实习生
  • 深度研究智能体真的“懂你”吗?OPPO × 浙大首发个性化深度研究评测基准
  • DeepSeek罗福莉正式亮相小米AI;「周杰伦概念股」联手宇树造 IP 机器人;乘用车百公里加速不少于5秒

视频模型真在推理,还是「表演」推理?港中文等质疑:Chain-of-Frame是真的吗?

图片

近年来,以 Veo、Sora 为代表的视频生成模型展现出惊人的合成能力,能够生成高度逼真且时序连贯的动态画面。这类模型在视觉内容生成上的进步,表明其内部可能隐含了对世界结构与规律的理解。更令人关注的是,Google 的最新研究指出,诸如 Veo 3 等模型正在逐步显现出超越单纯合成的 “涌现特性”,包括感知、建模和推理等更高层次能力。

这催生出一个与语言模型 “思维链”(Chain-of-Thought, CoT)相对应的新概念 ——Chain-of-Frame(CoF)。其核心思想是:模型通过逐帧生成视频,以连贯的视觉推演方式逐步解决问题。然而,一个关键疑问仍未解决:这些模型是否真正具备零样本推理(Zero-Shot Reasoning)的能力?抑或它们只是在模仿训练数据中出现过的表面模式?

为探究这一问题,来自香港中文大学、北京大学、东北大学的研究团队进行了系统性研究,对 Veo 3 等模型的零样本推理潜力进行了深入评估,并提出了涵盖空间、几何、物理、时间等 12 个推理维度的综合测试基准 ——MME-CoF。

图片
  • 论文题目:Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark

  • 论文链接:https://arxiv.org/pdf/2510.26802v1

  • 项目主页:https://video-cof.github.io/

图片

什么是 Chain-of-Frame(CoF)推理?

“帧链推理” 可以视作语言中 “思维链”(CoT)的视觉类比:

  • CoT 通过逐步生成文字展现推理路径。

  • CoF 则通过逐帧生成画面,使场景在视觉上不断演化,从而体现推演过程。

深入分析:12 项推理挑战

为全面揭示视频模型的推理潜力,研究团队设计了 12 个维度的测试任务,对 Veo 3 进行了系统的实证分析。以下选取其中三个典型维度进行说明(其余部分可参阅原论文)。

1. 真实世界空间推理(Real-World Spatial Reasoning)

图片
  • 任务: 评估模型在多视角自然场景中保持空间一致性的能力,包括视角变化、方位对齐与参考系稳定性。

  • 发现: 能较好处理简单场景下的空间布局与视角切换,局部场景保持合理的空间关系与方向一致。

  • 局限: 在复杂视角变化或深度理解任务中表现不稳,常出现空间错位、视角漂移或方向混乱,难以维持全局坐标一致性。

2. 3D 几何推理(3D Geometry Reasoning)

图片
  • 任务: 评估模型在三维几何变换任务中的结构理解与连续性表现,如物体折叠、旋转与立体重构。

  • 发现: 在单步、简单几何变换中可生成结构完整且视觉连贯的结果,具备初步的三维形态理解能力。

  • 局限: 多步或组合性变换中常出现结构错位、自交或崩塌,无法维持几何一致与物理合理性,整体三维推理仍脆弱。

3. 2D 几何推理(2D Geometry Reasoning)

图片
  • 任务: 评估模型在平面几何构造与图形操作任务中的准确性与约束保持能力,如点连线、形状移动和构图顺序理解。

  • 发现: 在简单几何连接任务中可识别并正确绘制基本关系,呈现初步几何构造能力。

  • 局限: 易优先生成视觉上美观的图形而非严格几何符合,常出现连线顺序错误、形状变形或持续绘制超出任务范围,缺乏稳定的几何约束意识。

其他六个推理维度概览

除上述三项外,其余九个维度同样揭示了 Veo 3 的限制:

  • 视觉细节推理(Visual Detail Reasoning):对被遮挡或微小目标的识别不稳,生成内容易偏离任务要求。

  • 视觉追踪推理(Visual Trace Reasoning):长时序依赖和规则驱动的动作链容易中断,因果一致性不足。

  • 物理推理(Physics-Based Reasoning):未能准确遵循能量、力学等物理规律,仅表现为视觉层面的 “模拟”。

  • 旋转推理(Rotation Reasoning):小角度旋转可近似实现,大角度下结构崩坏。

  • 图表推理(Table & Chart Reasoning):可模仿局部视觉模式,但缺乏对数值关系的真实理解。

  • 物体计数(Object Counting Reasoning):在静态场景下表现良好,但动态环境中常出现漏数或重复。

  • GUI 推理(GUI Reasoning):能生成点击或拖动动作,但对操作目的与逻辑缺乏认知。

  • 具身推理(Embodied Reasoning):能识别物体位置与动作,但不遵守环境规则,偶有 “作弊式” 生成。

  • 医学推理(Medical Reasoning):在放大或观察局部细节时具备表面能力,但无法保持影像逻辑一致,易出现结构性错误。

MME-CoF:首个视频推理基准

研究团队基于上述实证研究整理了 MME-CoF 基准,以标准化方式评估视频模型的推理潜能。其主要特征包括:

  • 首个系统量化视频模型推理能力的框架;

  • 覆盖 12 个维度、59 个精心设计任务;

  • 提示式设计创新:将抽象推理任务(如物理、几何、计数)转化为可视化视频生成挑战,迫使模型通过 “帧链推理” 展现过程性思考。

图片

下表展示了多种视频生成模型在 MME-CoF 基准上的评测结果,评分由 Gemini-2.5-Pro 完成,量表范围为 0–4。研究团队从五个维度进行评估。整体来看,各模型的平均得分普遍低于 2 分。

图片

结论:推理还是表演?

综合 Veo 3 的实证分析,基于对众多视频模型的定量评估结果,研究者得出以下结论:

1. 尚不具备独立的零样本推理能力 —— 模型主要依赖数据模式,而非逻辑推演。

2. 强生成 ≠ 强推理 —— 其表现更多来自模式记忆与视觉一致性,而非概念理解。

3. 注重表象而非因果 —— 模型生成的结果往往 “看起来对”,但逻辑上并不成立。

4. 未来仍具潜力 —— 可作为视觉推理系统的有力补充模块,与逻辑模型协同构建更完整的多模态智能体系。

总体而言,这项研究为学界提供了清晰系统的实证分析和评估框架,揭示了视频生成模型在从 “生成” 迈向 “推理”、实现真正的 “通用视觉模型” 的过程中尚需跨越的关键鸿沟。

]]>

联系我们