动态列表

  • 零样本「即插即用」!智源开源RoboBrain-X0,一个基座模型开动不同机器人
  • AI老司机现身重庆!徐峥挑战赛车手,上演「不再囧途」
  • 强化学习之父给LLM判死刑!站队LeCun:我们全搞错了
  • 独家!DeepSeek最新模型上线,全新注意力机制基于北大ACL最佳论文
  • 4B逼近DeepSeek-R1!Bengio团队「递归聚合」刷新小模型上限
  • KDD 2025 | 看不见也能控:用“基混杂向量”打穿分布移位,交通预测稳了
  • 北京内推 | 快手可灵AI技术部招聘视频生成/数字人方向算法实习生
  • 在云栖,我们遇见了最会玩的「AI 原住民」
  • NeurIPS 2025 | Seg4Diff:无需分割头,揭示并放大扩散Transformer中的涌现分割能力
  • NeurIPS 2025 | UniPixel:首个统一对象指代与分割的像素级推理框架,让大模型看懂每一个像素
  • 做 AI 陪伴收获 1000 万用户后,前微信 AI 产品负责人,要重新定义生活里的 AI
  • 透视阿里云产品生态团队:AI 落地的「关键通道」
  • OpenAI「降配门」发酵,偷换模型遭全网实锤;小米 SU7 在日本首秀;苹果内部测试类 ChatGPT 应用|极客早知道
  • OpenAI「GPT门」事件引爆!Plus、Pro账户统统降配,偷换模型全网实锤
  • 突发,普林斯顿CS博士后猝然离世!清华本科毕业,刚完成论文答辩
  • 国内首次!8.9毫秒推理速度破纪录,1元打穿百万token
  • 惊现高管离职潮!马斯克亲信操盘xAI,千亿美元能填AGI野望?
  • 黄仁勋2小时反驳「AI泡沫帝国」论!英伟达将成全球首家十万亿市值公司
  • 云与AI,如何托举 Z 世代的创新野心
  • NeurIPS 2025 | 我奶奶都能复现?条件表征学习:矩阵一乘,表征立马“对齐”!
  • 8GB显卡的逆袭!SSD换显存,3060 Ti硬跑100k长上下文
  • 北京/杭州内推 | 阿里通义实验室招聘多模态大模型与智能体方向算法实习生
  • NeurIPS 2025 | 北大等提出C²Prompt:解耦类内与类间知识,破解联邦持续学习“双重遗忘”难题
  • InterDigital开源CompressAI-Vision:为“AI看”的视频压缩,打造一个“通用跑分平台”
  • 24.98万的理想i6,在特斯拉、小米、蔚来「后院」放了一把火
  • 小米 17 开售 5 分钟,破国产机销售纪录;Meta 研发机器人项目;国内发布「脑机接口标准」
  • Stability AI前CEO惊人预测:人类智力价值归零,只剩1000天!
  • 刚刚,奥特曼预言:人类「只剩」最后5年!
  • 免训练加速61倍!陈怡然团队新作DPad:仅关注「彩票token」
  • 估值840亿AI实验室再放大招,他们要给大模型戴上「紧箍咒」
  • 苹果掀桌!扔掉AlphaFold核心模块,开启蛋白折叠「生成式AI」时代
  • 自动驾驶进入大模型时代,主机厂寻找「联合创始人」
  • 复旦等揭秘机器人“大脑”安全漏洞:一张图就能让它“宕机”,攻击成功率76.2%
  • DASFAA 2025 | 湖大等提出SCRA-VQA:给LLM一份“精装修”的图像描述,无需训练提升VQA性能
  • 苹果官方旗舰店也放假,商品不发货;腾讯推「老年打车」服务;车主酒驾,智能驾驶「报警」|极客早知道
  • 刚刚,ChatGPT Pulse上线!私人秘书不再是富人特权
  • 颠覆算力格局!全球首个星座级太空AI算力服务,在中国诞生
  • OpenAI 3万亿美元测试,AI首战44个行业人类专家!
  • JHU教授揭秘学术潜规则:普通博士如何打破鄙视链翻盘?
  • Hinton预言错了!年薪狂飙52万美元,AI没有「干掉」放射科医生
  • 168 元一年的「小红卡」,是小红书打破本地生活红海的钥匙
  • 当 5 亿玩家涌入 AI 的 3D 新世界
  • 普林斯顿陈丹琦组新作:RLHF难支撑,RLVR有边界?RLMT开辟第三条路
  • 128k死穴被击穿!Amazon爆改长上下文:段内压缩快4×,推理不掉点还更准
  • 博士申请 | 香港中文大学(深圳)冀晓强老师课题组招收人工智能全奖博士/硕士
  • AI 到底会不会做生意?1688 的答案让人惊喜
  • 找人不求人?Lessie 让「人脉玄学」变成算法游戏|AI 上新
  • 斯坦福推出VisualMimic:让机器人“眼观六路”,零样本完成复杂任务
  • 浙大发布RS3DBench:让遥感AI看懂3D世界,首个像素级对齐的大规模基准来了!
  • 小米 17 系列发布,4499 起;追觅「库里南」图片曝光;YU7 Max 成「百万最速」车
  • 刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了
  • AI正在偷走白领工作!OpenAI狂砸10亿教AI上班,你的完美继任者即将上岗
  • Sora 2瑟瑟发抖!通义万相2.5放大招:一句话出1080P电影,音画精准同步
  • 信息熵之后,清华提出状态熵!量化分析「系统智能性」的全新视角
  • 突发!Meta刚从OpenAI挖走了清华校友宋飏
  • 北京内推 | 中科院软件所数据科学研究中心招聘大语言模型算法实习生
  • 78条打穿1万条!上交大新范式告诉你:智能体训练靠“质”,不是靠“量”
  • KV缓存不再爆!清华姚期智团队重写注意力维度,长上下文更省更强 | NeurIPS 2025 Spotlight
  • 三款骁龙芯片曝光,高通谷歌联手打造「安卓 PC」时代
  • Instagram 月活破 30 亿,靠“短视频”和“私信”;2027款iPhone曝光;女子用ChatGPT选号中百万大奖,全部捐出
  • 一年4次迭代,狂堆GPU成真!微软AI冷液灌芯,散热暴涨3倍
  • 刚刚,阿里CEO吴泳铭发布「ASI宣言」:超级智能才是终局!
  • 前Meta工程师爆料:17人团队15个H-1B!一夜之间80%对手没了?
  • 秘塔AI放大招!「边想边搜边做」,内置20+智能体,想法一键实现
  • 震撼!AI物理「双修」:亥姆霍兹方程嵌进生成器,伪影当场消失
  • 恶劣天气下的图像修复:南理工等提出LCDiff,让AI在雨雪雾天也能看得清
  • OCRBench v2 25年9月最新榜单发布!揭示多模态大模型文档智能真实水平
  • RL不再撒胡椒面!港科大 × 清华新作:只盯“规划token”,大模型推理力狂飙
  • NeurIPS 2025 | 甩掉文本CoT!FSDrive开启时空思维链,自动驾驶迈入视觉推理时代
  • 博士申请 | 加拿大麦吉尔大学智能自动化实验室招收大模型/强化学习方向全奖博士生
  • 3 天卖完今年所有产能,蔚来全新 ES8 如何实现逆风翻盘?
  • 超越 AGI,阿里剑指「超级智能」
  • Point-SSM:一种用于点云分析的极简状态空间模型,在医学点云任务上表现SOTA
  • 字节跳动OmniInsert炸场:无需掩码,任意物体“贴”进视频,效果碾压闭源SOTA!
  • ContextFlow:无需训练的视频编辑新范式,实现电影级魔改!
  • 忘了法拉利,一辆中国车正在改写游戏规则
  • 40亿投进去,换回了什么?全新问界M7的「值得」哲学
  • 华为问界新 M7,1 小时大定 3 万;李想:iPhone 17 顶配太丑,不买;防台风,腾讯「捆绑」QQ 企鹅塑像
  • 一半人明天不上班,GDP不会掉一点!耶鲁大学揭AGI残酷真相
  • 告别胶水代码,5倍飚速!无问芯穹首次揭秘,Infra智能体蜂群登场
  • Depth Anything再出新作!浙大 & 港大出品:零样本,优化任意深度图
  • H-1B「天价签证」引爆恐慌!印裔精英返乡梦碎,2800亿市场剧震
  • 突发:甲骨文CEO下台!刚和OpenAI签下3000亿美元大单,或因路线斗争
  • 年轻一代创作者,学会与 AI 共舞
  • MiniCPM-V 4.5技术报告正式出炉!首个高刷视频理解多模态模型全解析
  • KDD 2025 | 从个股偏离到市场共振:UMI挖出股市非理性因子,显著提升预测精度
  • 一套框架搞定图像定制!IC-Custom统一「位置相关/无关」,万物迁移真落地
  • 北京内推 | Apple中国招聘机器学习/AI方向研究型实习生
  • Yann LeCun团队新作LLM-JEPA:结合联合嵌入预测架构,显著提升大模型微调性能与效率,在代码生成任务上表现卓越
  • TPAMI | 数据增强还在“盲操”?南大提出IPF-RDA,让模型训练告别信息丢失
  • SilentStriker:无声击溃大模型
  • 小米 17 系列手机官宣 9 月 25 日发布;iPhone 17 标准款需求超预期,苹果已增产;罗永浩再回应债务问题:个人债务五年前就还完了,后面是主动还的公司债务|极客早知道

谷歌Veo 3论文竟无一作者来自美国!揭秘零样本「看懂」世界



  新智元报道  

编辑:元宇
【新智元导读】DeepMind公开了有关Veo 3视频模型最新论文!论文提出了「帧链」(Chain-of-Frames,CoF),认为视频模型也可能像通用大模型一样具备推理能力。零样本能力的涌现,表明视频模型的「GPT-3时刻」来了。

一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发

大模型的「零样本能力」,使自然语言处理从任务特定模型跃迁到了统一的、通用的基础模型。

这样的飞跃源于在规模数据上训练的大型生成式模型。

视频模型是否可以实现同样的飞跃,也向着具有通用视觉理解的方向发展。

在DeepMind近日发布的一篇论文中验证了这一猜想:

视频模型是「零样本学习者与推理者」,这一论点在足够强大的模型上几乎都能得到验证。


项目页面:https://video-zero-shot.github.io/ 

论文地址:https://arxiv.org/abs/2509.20328

研究证明,Veo 3可以完成大量它并未专门训练过的任务,比如:

物体分割、边缘检测、图像编辑、物理属性理解、物体可操作性识别、工具使用模拟等。

在多项视觉任务中,Veo 3涌现出零样本学习能力。这足以表明视频模型正朝着统一的、通用的「视觉基础模型」的方向发展——正如大语言模型成为语言基础模型一样。

谷歌发视觉版GPT-3模型
但无一作者来自美国

风险投资合伙人、谷歌搜索前员工、康奈尔计算机科学毕业生Deedy,对新论文推崇备至:Veo 3就是视觉推理的GPT-3时刻。

意外的是,随后Deedy发现论文作者中没有一个来自美国。

这8位研究者中,3位来自加拿大,2位来自德国,来自中国、韩国、印度各一位。

这篇「GPT-3」级别的论文的作者,没有一个来自美国,而且没有一个人在美国完成本科教育。哪怕算上博士毕业院校,美国也只有两所。

这不禁让网友怀疑:美国科研真不行了吗?

论文第一作者谷歌DeepMind实习生、在读博士生Thaddäus Wiedemer澄清道:

新论文只是评估了Veo和Gemini团队实现和训练的模型。

也就是说,Veo 3主要是由其他团队实现和训练的,新论文≠Veo 3。

这篇论文和OpenAI的GPT-3论文,在标题上具有极大的相似性,但谷歌新论文作者对Veo 3的实际贡献明显 < OpenAI论文作者对GPT-3的实际贡献。

尽管GPT-3论文的核心在于证明了语言模型的少样本学习能力,但论文作者的确训练出GPT-3。

论文链接:https://arxiv.org/abs/2005.14165

Thaddäus Wiedemer还指出,这项工作是在DeepMind多伦多完成的。

这就解释了为什么来自加拿大的作者最多——

近水楼台先得月,多伦多本地的加拿大人参与此项研究的机会更大。

不过,值得一提的是,Thaddäus Wiedemer在清华大学从事过约1年的研究实习。

此外,第二作者Yuxuan (Effie) Li来自国内;作者Shixiang Shane Gu则是华裔加拿大人。

A table listing researchers involved in the Google Veo 3 project. Columns include Name, Nationality, ID, Current Role, Current Company, Previous Work, PhD College, PhD Year, and UG College Year. Names listed are Thaddäus Wiedemann, Yuan Liu, Shuyang Gu, Kangning Liu, Kevin Swersky, and Robert Geirhos, with details such as nationalities (Germany, China, Canada, Korea) and affiliations with Google DeepMind.

视频模型是零样本学习者和推理者

大模型日益展现出「零样本学习」所衍生出的解决新任务的能力。

所谓零样本学习,即仅通过提示词指令即可完成任务,无需微调或添加任务特定模块。

研究人员通过分析18,384个Veo 3生成的视频,在62个定性任务和7个定量任务中,发现它可以完成多种未曾训练或适配的任务:

凭借感知、建模和操控视觉世界的能力,Veo 3展现出「帧链式(Chain-of-Frames, CoF)」视觉推理的初步能力。


虽然目前的任务特定模型性能仍优于零样本视频模型,但研究人员观察到Veo 3相比Veo 2在表现上有显著提升,这表明视频模型能力正在快速演进。

研究人员采用的方法很简单:向Veo模型提供提示词。


为何选择Veo?

研究人员之所以选择Veo,是因为它在text2video和image2video排行榜中表现突出。

为展现性能进步的速度,研究人员还将Veo 3与其前代Veo 2进行对比。

研究人员对多个视觉任务进行了广泛的定性研究,以评估视频模型是否具备作为视觉基础模型的潜力,并将发现归纳为四个层级能力体系,每一层都在前一层基础上演化而来(见图 1 和图 2):

  • 感知:理解视觉信息的基本能力

  • 建模:在感知物体的基础上对视觉世界进行建模

  • 操控:对已建模的视觉世界进行有意义的修改

  • 推理:跨时间与空间的视觉推理能力


建模直觉物理与世界模型

视频模型在感知视觉世界的基础上,开始尝试对其进行建模。

对世界及其运行原理(例如物理定律)进行建模,是实现有效预测与行动的关键一步。

目前,已有多项研究在深度模型中探索并量化了直觉物理能力,论文中节选了其中部分具有代表性的任务进行分析。

比如,Veo对物理规律的理解,体现在其能够建模刚体与软体的动力学以及它们之间的表面交互。

Veo还展现了对多种物理属性的认知,例如可燃性、空气阻力对下落物体的影响、浮力、光学现象等。

除了物理属性,Veo还理解抽象关系,这对于建模现实世界也至关重要。

例如,Veo能够区分玩具与笔记本电脑等其他物品

研究人员还展示了Veo在识别模式、生成变体以及将整体结构拆解为部分等方面的能力。

此外,Veo还能在视频中跨时间与镜头变化维持对世界状态的记忆。


从「思维链」到「帧链」

Veo能够感知物体,并建模它们之间以及与环境的关系,因此它也具备对视觉世界进行有意义操控的能力。

感知、建模与操控的能力相互融合,共同构建起视觉推理的基础。

与语言模型操控文字符号不同,视频模型可以在真实世界的两个关键维度——时间与空间中进行操作。

这一过程类似于语言模型中的「思维链」(Chain-of-Thought,CoT),研究人员称之为「帧链」(Chain-of-Frames,CoF)。

研究人员认为,在语言领域中,思维链使模型能够解决推理类问题;同样帧链(也即视频生成)或许也能帮助视频模型解决那些需要跨时间和空间逐步推理的复杂视觉问题。

尽管模型的表现尚不完美,但其在零样本条件下解决这些问题的能力,展示了未来更强大视频模型在视觉推理和规划方面的巨大潜力。


定量评估

在对视频模型的能力做了定性研究之后,研究人员从七个具体任务出发,对其进行定量评估。

从视觉理解的不同方面来考察模型表现:

感知能力:评估Veo在边缘检测、图像分割和目标提取方面的能力;

操控能力:测试其在图像编辑方面的表现;

推理能力:通过迷宫求解、视觉对称性和视觉类比任务来评估。


边缘检测

研究发现,即便没有专门为边缘检测任务训练,Veo 3仍然可以通过提示词实现边缘感知。

图3展示了Veo 2和Veo 3在边缘检测任务上的表现。

图4显示在LVIS数据集的一个包含50张简单场景图像(每张图像中含有1到3个大型物体)的子集上进行类别无关的实例分割。

图像分割

与经典的实例分割或可提示分割不同,研究人员提示模型分割场景中的所有物体,而不指定物体类别或位置。

如图4所示,Veo 3实现了0.74的mIoU(最佳帧 pass@10),与Nano Banana的0.73 相当。

当然,Veo 3的性能落后于像SAMv2这样的定制模型,但仍然展示了卓越的零样本分割能力。

物体提取

研究人员要求Veo提取并将所有动物排成一排,彼此之间用白色背景分隔,通过统计最后一帧中连接组件的数量,来判断提取的动物数量是否正确。

图5展示了示例和实验结果。Veo 2的表现接近随机,而Veo 3的pass@10最高可达92.6%。

图6展示了一个编辑示例和评估结果,研究人员发现Veo 3尤其擅长在编辑过程中保留细节和纹理。

迷宫求解

在图7的迷宫求解中,各种迷宫标有起点(红色)和终点(绿色)位置。

Veo 2即使在求解较小规模的迷宫时也表现不佳,这主要由于生成过程中早期出现了非法移动,Veo 3 表现得更好。

总体来看,视频模型具备对数字视觉世界进行操作与模拟的能力。

图像编辑

图像编辑,是指根据文本指令对图像进行操作(例如添加、移除物体或更改外观)。

研究人员在Emu-edit数据集的一个随机子集(共 30 个样本)上评估了Veo的图像编辑能力。

图案对称补全任务用于评估模型对空间推理的理解与应用能力。图8显示,在这方面Veo 3的表现远超Veo 2和Nano Banana。

视觉类比任务用于评估模型理解物体变换及其关系的能力,属于抽象推理的一种形式。

图9显示,尽管Veo 2在理解类比任务方面表现不佳,Veo 3能够正确完成颜色变化和尺寸变化的样例。

然而,在镜像和旋转类比上,两种模型的表现均低于猜测水平(0.33),表明存在系统性错误偏差。


视觉领域的 「GPT-3 时刻」

近年来,自然语言处理(NLP)领域的发展尤为迅猛。

这一趋势由通用型大模型的崛起所推动,其在零样本学习场景中解决新任务的能力,已使其取代了NLP中大多数的特定任务模型。

研究人员据此提出一个观点:机器视觉也正处于类似的范式转变临界点,这一变革由大规模视频模型所展现的涌现能力所驱动。

本论文的核心发现是:

Veo 3能够以零样本方式完成各类任务,涵盖从感知、建模、操控,甚至到早期的视觉推理等整个视觉技术栈。


尽管其性能尚未尽善尽美,但Veo 2到Veo 3所展现出的显著且持续的性能提升,表明视频模型很有可能像语言模型之NLP一样,成为视觉领域的通用型基础模型。

研究人员认为当前视频模型正值一个激动人心的时刻:

机器视觉可能正在经历类似NLP从特定任务模型向通用模型转型的变革,而Veo 3等视频模型凭借其完成从感知到视觉推理等多种任务的零样本能力,或将引领这一转变,带来视频模型的 「GPT-3 时刻」。

参考资料:
https://video-zero-shot.github.io/


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652630991&amp;idx=1&amp;sn=ebdabb20ffdc2f64f97c58c87ade98bc&amp;chksm=f05bfe2d9bc3e46e97c80dda5ae36f01261fef32a28ffc60a4e9552c10904a6f2d44b5008c96&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/RwowQRfngE&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们