动态列表

  • 强化学习教父重出江湖, 生成式AI的时代要结束了?
  • 英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万
  • 投85份简历0 Offer!CS研究生心态崩了,亲历20年最猛裁员潮
  • Ilya、小扎之后,苏莱曼的「超级智能」进入7年倒计时!
  • 有些答案,听 AI 说一百遍,不如和「最有料的人」聊一次
  • 上交大刘鹏飞团队:Context Engineering进入2.0,上下文成为可操作对象
  • 工程&计算机领域前沿洞察 | Synthesis技术前沿报告合集
  • 用 AI 做电商真实效果如何?我们调研了双 11 一线从业者
  • 马斯克 1 万亿美元的薪酬方案获特斯拉股东批准;东方甄选孙东旭离职;Altman:今年 OpenAI 年化收入将达 200 亿美元
  • 蔚来,破 4 万!
  • 今年双十一最大的赢家是这张表
  • 复旦大学&StepFun提出WithAnyone:告别“复制粘贴脸”,实现可控、高保真的多人ID一致性生成
  • 大道至简,中科院等提出OneRef:统一视觉定位和指代分割
  • 极客公园创新大会 2026 首批嘉宾揭晓!
  • 北京内推 | 美团招聘大模型算法实习生(IM全渠道)
  • 达摩院联合浙大、港理工推出PixelRefer:多模态大模型迈向像素级视觉理解
  • 自回归不必按token算了:微信AI × 清华用CALM直接「整段」预测
  • Altman 怒喷 OpenAI 唱衰者;小鹏发布新一代人形机器人 IRON;苹果支付 10 亿美金,新 Siri 将引入谷歌 Gemini|极客早知道
  • 别被一堆Strong Accept吓住:德州农工×康奈尔实锤论文晒分“系统性虚高”
  • 记忆让机器人更聪明:原力灵机提出MemoryVLA化解长时程任务操作难题
  • 博士申请 | 南洋理工大学王琦琛老师课题组招收数据库方向全奖博士/博后
  • 151% 的增长背后,它正在成为 AI 的「新入口」
  • 清华&南洋理工等提出稀疏模型反演:ViT反演加速高达3.79倍,告别无效背景!
  • 低光图像增强新探索:SASW-Loss,无需改网络,即插即用提升多种模型性能
  • 山姆更新后遭会员疯狂吐槽;Switch2 销量破千万;小米马志宇警告存储涨价:明年最新的成本预估“有点惊悚”|极客早知道
  • Sketch-to-Layout,从草图到布局!DeepMind & EPFL 在设计领域的新工作
  • 为物理AI打造世界模型!英伟达发布Cosmos-2.5:模型缩小3.5倍,性能媲美SOTA
  • NeurIPS25 | 香港理工&OPPO&哈佛提出DNAEdit:直接噪声对齐让Rectified flow文生图编辑更加准确
  • 这个不「瞎 BB 」的 AI 硬件,给了我真正的「陪伴」丨New Things
  • Rokid 乐奇联手 BOLON 眼镜:眼镜巨头依视路的中国棋局
  • 跟一位日本比亚迪车主聊了聊,才明白我们对「出海」有多天真
  • 宁德时代赚走185亿,车企却不想再给「宁王」打工了
  • 从「绝望」到一轮融资43亿元:新石器做对了什么?
  • 全注意力、复杂推理不掉速:MiniMax M2把Agent做成了「可执行能力」
  • NeurIPS 2025 | 用蛋白质动态词表“搭积木”,ProDVa高效组装可折叠新蛋白
  • 北京内推 | 阿里通义实验室对话智能团队招聘大模型方向研究型实习生
  • 豆包,正在悄悄开启「电商新链路」
  • OpenAI 与 AWS 达成 380 亿美元算力合作;新 Siri 付费采用 Gemini;字节试行「豆包股」 | 极客早知道
  • Karpathy点赞NUS新研究:RL微调不稳定的关键根源,指向BF16精度本身
  • ICCV 2025 | 高德提出SeqGrowGraph:以序列化图扩展革新车道拓扑生成
  • 我体验了一下 AI 时代的「家」:快跑,到处都是 AI
  • 每天都和 AI 聊天,你可能已经是个「神经病」
  • 苹果,一赚「解」千愁
  • 多媒体顶会ACM MM 2025 最佳论文公布,从“看懂”到“会用”,再到“会思考”:揭示AI与物理世界融合新篇章
  • AMD发布E-MMDiT:仅304M参数,单节点1.5天训练,实现高效图像合成新基准
  • 顶刊ISPRS (IF 12+) | 400+参考文献,遥感图像超分辨率最新综述!
  • T1 零封 TES 战队,中国战队无缘 S15 总决赛舞台;英伟达合作制药巨头打造超级计算机;理想汽车汤靖详解 MEGA 起火事件|极客早知道
  • ICCV 2025 | 卡内基梅隆大学空间可变自动对焦:单次拍摄实现全场景清晰,重新定义计算摄影
  • NeurIPS 2025 | 电子科技大学联合A*STAR提出SCOPE:兼顾显著性与覆盖率,实现高效多模态大模型令牌剪枝
  • 特斯拉 Cybercab 实车曝光,部分量产;何小鹏谈雷军竞争:未来更期待对手是小米;黄仁勋完成 10 亿美元股票出售
  • 北京内推 | 快手模型与应用部增长模型团队招聘大模型/推荐方向算法实习生
  • 不用教它撒谎,LLM也会“心口不一”:上海AI Lab揭露高风险下的模型欺骗行为
  • 当强化学习学会“跳步骤”:Sergey Levine团队重写值函数的递归逻辑
  • 当 ChatGPT 要开始「搞黄色」,我都不敢想......
  • 港中文&港科大等提出FullPart:让3D部件生成达到全分辨率精度
  • 从 「会思考」到 「善创造」: 多模态大模型的深度推理与协同进化
  • 语言模型之后,智源 EMU3.5 找到了 AI 的「第三种 Scaling 范式」
  • 李想谈万台MEGA召回:生命只有一次;传明年AirPods配摄像头+AI;神舟二十一飞船发射成功,对接速度创纪录|极客早知道

视频模型假装在推理?MME-CoF新基准评估12个推理维度



  新智元报道  

编辑:LRST
【新智元导读】视频生成模型如Veo-3能生成逼真视频,但有研究发现其推理能力存疑。香港中文大学、北京大学、东北大学的研究者们设计了12项测试,发现模型只能模仿表面模式,未真正理解因果。这项研究为视频模型推理能力评估提供基准,指明未来研究方向。

近年来,以Veo、Sora为代表的视频生成模型,已经能够合成高度逼真且连贯的视频,这表明它们可能成功编码了大量世界知识。 

谷歌的最新研究甚至指出,Veo-3这类模型正超越单纯的内容生成,展示出无需特定训练即可进行感知、建模和推理等「涌现能力」。

这引出了一个类似大语言模型(LLM)中「思维链」(Chain-of-Thought, CoT)的新概念——Chain-of-Frame(CoF)。 

其核心思想是:模型通过逐帧生成视频来逐步推演和解决问题。

然而,一个关键问题仍然存在:视频模型是真的具备零样本(Zero-Shot)推理能力,还是仅仅在「模仿」训练数据的表面模式?

为回答这一问题,来自香港中文大学、北京大学、东北大学的研究者们开展了一项系统的实证研究,全面评估以Veo-3为代表的视频模型在零样本场景下的推理潜力,并整理了涵盖空间、几何、物理、时间等12个推理维度的新基准测试MME-CoF

论文地址:https://arxiv.org/pdf/2510.26802v1

项目地址:https://video-cof.github.io/


什么是Chain-of-Frame(CoF) 推理?


Chain-of-Frame(CoF)推理可类比于LLM的「思维链」(CoT)。

LLM中的CoT通过生成一步步文本来进行推理。

视频模型中的CoF则是通过逐帧生成视频序列,迭代更新和演进场景。

例如,要模型回答一个复杂空间问题,不再直接输出答案,而是要求它生成一个「解决问题的过程视频」。研究者希望探索,这种CoF过程能否让模型真正涌现出通用的视觉推理能力。


深度剖析:Veo-3的12维考验


为全面评估 Veo-3 的零样本推理潜力,研究团队从多角度设计了 12 个推理维度。下面列举其中三个典型维度,以展示模型在实际任务中的表现,其他维度的详细设计与结果可参见原论文。


1. 视觉细节推理(Visual Detail Reasoning)

任务:评估模型辨别和维持细粒度视觉属性(如颜色、纹理)及空间关系(如左右方位)。

发现:在视觉显著、易定位的目标上表现良好。

局限:目标过小、被遮挡或处于杂乱背景时,定位失败,推理能力下降;生成可能带有风格化偏差,虽然表面合理但偏离指令。

视觉追踪推理(Visual Trace Reasoning)

任务:评估模型在序列动作(如走迷宫、多步操作)中的因果连续性。

发现:在简单、低分支场景中可生成局部连贯的短时序路径。

局限:长时序规划或规则驱动序列任务无法可靠执行,复杂因果链条失效。

物理推理(Physics-based Reasoning)


任务:评估模型描绘运动动力学、物理因果关系及基于规则的互动(如重力、碰撞、摩擦力)。

发现:能够生成短期、表面合理的动态效果。

局限:系统性违反定量物理约束(如能量守恒、机械规则);无法理解因果关系,仅能「演」物理。

其他9个维度的挑战

在剩余的 9 个维度中,Veo-3 也显示了一定的局限性,表现规律如下:

真实世界空间推理(Real-world Spatial Reasoning):在复杂视角和动态场景下,模型难以保持空间一致性,物体易出现错位或漂移。

3D几何推理(3D Geometry Reasoning):多步骤或复杂 3D 变换容易失败,生成结构错位或自交,模型无法理解连续几何关系。

2D几何推理(2D Geometry Reasoning):对基础 2D 变换有初步能力,但约束条件不稳定,复杂图形或多步骤几何理解不足。

旋转推理(Rotation Reasoning):小范围旋转可近似生成,但大角度或复合旋转下几何一致性丢失,物体出现扭曲或不连贯。

图表推理(Table and Chart Reasoning):能进行局部聚焦或视觉匹配,但缺乏精确关系理解,生成结果难以作为可靠推理依据。

物体计数(Object Counting Reasoning):基础计数可行,但在动态或复杂场景中,空间控制不足,易出现重复或漏计。

GUI推理(GUI Reasoning):能模仿点击动作,执行局部界面操作,但缺乏对操作逻辑或任务目标的理解。

具身推理(Embodied Reasoning):对物体位置和操作有基本识别能力,但缺乏规划与稳定性,易生成「作弊」行为,如凭空生成物体或不遵守环境规则。

医学推理(Medical Reasoning):在医学图像缩放或局部观察上可展示基础能力,但对专业术语与影像逻辑理解不足,易产生图像扭曲或不真实现象。


MME-CoF:首个CoF推理基准标题


基于以上实例研究,研究团队整理出了MME-CoF基准,以便系统评估CoF推理潜力:

1. 首个专门量化视频模型推理潜力的基准;

2. 涵盖12个大类,共59个精心设计条目;

3. 巧妙的提示设计,将抽象推理问题(物理、几何、计数)转化为具体「视频生成任务」,迫使模型通过CoF展示推理过程。


最终结论
视频模型是在「演」推理


通过对Veo-3、Sora-2、Seedance、Kling等模型的分析,研究者得出:

  1. 尚不具备独立推理能力:目前的视频模型还不能作为可靠零样本推理器。

  2. 「模式驱动」而非「原理驱动」:生成能力强 ≠ 推理能力强。

  3. 重「貌似合理」,轻「逻辑正确」:模型更注重视觉合理性,而非逻辑严谨性。

  4. 未来潜力巨大:有望成为强大的「互补视觉引擎」,与推理模型协同工作。

这项研究为社区提供了对视频模型推理潜力的深刻洞察和清晰的评估基准,揭示了当前视频模型在迈向真正「通用视觉模型」道路上的重要障碍。

参考资料:
https://arxiv.org/pdf/2510.26802v1


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652643078&amp;idx=2&amp;sn=741de41ede455067c237f807693e4cf3&amp;chksm=f0283502f1c48778bf58b141178e964b0ef556321e34dea7cc5040795cd4e5ad138d7ad85d36&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/83671/koAQqDJ5wg&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们