动态列表

  • 谷歌杀入诺奖神殿,两年三冠五得主!世界TOP3重现贝尔实验室神话
  • OpenAI×英伟达,可能创造了人类史上最大万亿级泡沫
  • H-1B正在筛掉「下一个英伟达」?
  • 第二代InfLLM开源,同尺寸快三倍!零参数,可训练稀疏注意力
  • Diffusion²来袭:威斯康星大学&华盛顿大学等提出双扩散模型,“回溯历史-预测未来”,破解自动驾驶“鬼探头”难题
  • 北大等提出TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%
  • 把我的第一次日本旅行,完全交给 AI 是什么体验?
  • 英伟达将投资马斯克的 xAI;低价版Model 3/Y 「阉割」智驾功能;微信推出批量撤回信息功能
  • 刚刚,清华物理传奇Yao Shunyu,跳槽谷歌DeepMind!
  • 赚100亿,烧1万亿!OpenAI算力神话:英伟达撒钱、AMD送股、全硅谷陪跑
  • 英伟达垄断AI算力局面或将被颠覆!AMD赌上身家发起决斗,奥特曼窃喜
  • 刚刚,2025年诺贝尔化学奖揭晓!偷溜进图书馆的少年,改变了世界
  • 小心,AI依赖会让你变笨!吴恩达等专家教你如何正确使用AI
  • 无RLHF,7M小模型反超DeepSeek-R1:三星团队用递归思考取代规模堆叠
  • IROS 2025 | Waymo与谷歌DeepMind联手提出Drive&Gen:用生成视频评估自动驾驶,虚拟测试更逼真
  • 告别深度传感器!慕尼黑工业大学提出DropD-SLAM:仅用单目RGB即可实现RGB-D级的SLAM精度
  • 陶哲轩联手ChatGPT!10分钟击碎30年「无理」难题,数学圈炸裂
  • 刚刚,奥特曼官宣ChatGPT「终极OS入口」!8分钟速搭智能体,8亿人狂欢
  • 顿悟不是玄学!港科大清华等联手:撕开推理黑箱,RL让AI像人思考
  • 4万亿帝国接班人浮出水面!苹果不需要另一个库克
  • 刚刚,2025年诺贝尔物理学奖揭晓!量子计算成最大赢家
  • 告别梯度!Evolution Strategies全参微调挑战PPO/GRPO:更稳、更省、更好复现
  • NeurIPS 2025 | 北邮用“图+文”把人物检索拉满:自动合成数据 × 细粒度特征对齐
  • TPAMI 2025 | 电子科大等提出EEMFlow:从事件相机学习高效Meshflow与光流,速度提升30倍
  • MICCAI 2025 | 莱斯大学提出MetaSeg:参数减少90%,元学习隐式网络重塑医学图像分割
  • OpenAI 与 AMD 签百亿美元协议,后者股价暴涨;特斯拉廉价 Model Y 将于 7 日发布;知名旅行、听歌应用入住 ChatGPT
  • 乔纳森下一个iPhone神话,要黄了?OpenAI秘密AI硬件深陷三重困境
  • 3年手搓ChatGPT!剑桥天才少年在Minecraft游戏中爆火回归
  • 一举击败Claude Code!微软提出代码生成黑科技:一键直出36K行代码
  • 刚刚,2025年诺贝尔生理学或医学奖揭晓!三位得主点燃器官移植希望
  • OpenAI入股AMD,股价暴涨35%!奥特曼左手黄仁勋,右手苏姿丰,通吃全球算力
  • 自进化Agent的第三种可能:隐式记忆,不动模型参数,胜过GRPO
  • 真实数据、全链路、可复核:GenoMAS打造更可信的基因分析智能体
  • NeurIPS 2025 | 高通提出GCL:无需额外数据,通用多模态检索迎来“一统江湖”新范式
  • NeurIPS 2025 | 慕尼黑工业大学提出SIM(3)等变网络:让3D形状补全告别“姿态偏见”,实现跨域泛化
  • 今日迎本世纪「最晚中秋月圆」;雷军:小米17 五天销量破百万;ChatGPT 或添私信聊天功能
  • 腾讯王者归来:混元图像3.0登顶LMArena!一手实测全球最强图像AI
  • AI「学不会」竟成相变探针!UCSD华人联手谷歌等,曝光量子纠缠秘密
  • 最新,2025诺奖预测出炉!中国科学家有望拿下化学奖?
  • 奥特曼:感受不到GPT-5变强,是因为你还不够「专业」
  • GPT-6或将比GPT-5强10倍!奥特曼揭秘ChatGPT如何诞生
  • 宾大提出F³:事件相机迎来“预测性”表征新范式,光流、分割、深度全SOTA!
  • LSTM之父再出手!xLSTM挑战Transformer:一场关于Scaling Laws的正面交锋
  • NeurIPS 2025 | AI也能做数学建模?本科生携手MM-Agent勇夺美赛全球前2%
  • “移步换景”一试,大模型全乱了:OST-Bench揭示MLLM时空推理短板
  • 微软下架「炉石」等多款游戏;华为云:华为算力效能超英伟达芯片 3 倍;马斯克回应特斯拉机器人打拳:并非遥控
  • 陶哲轩联手GPT-5,1小时攻克数学难题!全程无需编码,OpenAI副总惊呼
  • 1亿签约金抢AI大神?谷歌AI元老劝退全网:别再读博了!
  • 三天逆袭,Sora登顶美榜!15秒大片玩疯奥特曼,全网直呼真假难辨
  • 10个Agent一键组队:并行智能体协作,端到端交付从24h缩减到4h!
  • 首位AI女演员出道!好莱坞「天敌」来了,下一代偶像全是代码制造?
  • 南理工提出FMC-DETR:巧用“频率解耦”,航拍小目标检测精度飙升8.2% AP50
  • 网红挑战特斯拉FSD穿越美国出车祸;小米回应「小米汽车突然自己开走」;Sora 登顶美区苹果商城免费榜
  • 刚刚,Anthropic紧急换帅!新任CTO执掌算力命脉,直面OpenAI千亿赌局
  • Gemini 3.0 Pro内测流出,编程实力惊人!下周上线
  • 刚刚,奥特曼首曝:AI取代CEO后,我想去当农民!
  • 华人主导谷歌SLED,论文登顶会!一键让模型学会自救
  • LeCun考虑辞职!Meta AI百亿豪赌引爆「内战」,逼走首席科学家
  • NeurIPS 2025 | RAD:基于大规模3DGS孪生数字世界的端到端强化学习训练策略
  • 小米 17 系列销量超百万;苹果新产品泄密源头疑为越南工厂;低价版 model Y 现身官网代码|极客早知道

全球AI视频大战升级!「中国版Sora」Vidu Q2参考生月底发布,能力对标Sora 2



  新智元报道  

编辑:KingHZ 桃子
【新智元导读】三天登顶美区App Store,Sora 2用「Cameo客串」再造狂潮;可别忘了,更早提出「Reference参考生」的国产AI视频Vidu也即将在本月底升级Vidu Q2参考生功能。在一致性、运镜理解、动作连贯三大维度上,看看谁才是下一代AI视频的领航者?

OpenAI再掀全球狂欢,Sora 2三天登顶美区App Store,再造一个ChatGPT时刻。

用户只需要输入文字提示,Sora就能生成几乎任何你能想象到的视频片段。

特别是,Sora 2 Cameo功能让奥特曼客串各种梗图,全网彻底玩疯了奥特曼。

左右滑动查看

奥特曼表示虽然信息流里出现的自己的梗图,没想象中奇怪,但仍有些迷惑。

尽管看起来这场让国外狂欢的盛宴来得突然,实际上类似Sora 2 Cameo功能,则在国内并不鲜见,以中国版「Sora」Vidu为例,作为全球「参考生」功能概念的首个提出者,它与Cameo如出一辙。

几乎同时,Vidu也被曝「参考生视频」功能,将在本月底迎来Q2版本的重大更新。

不过,该功能目前仍处于保密内测阶段。基于拿到的第一手内测,我们尝试进行同样内容制作,比如,参考奥特曼形象,Vidu Q2可生成奥特曼在工业风阁楼中作画的场景——

此前,Vidu AI在Vidu Q2图生视频发布时表示,新版本将AI视频带入了下个阶段——不仅生成视频,还能生成演技。

AI演戏时代已开启:表情更丰富,运镜更灵活,速度更快,理解更深入。

相比前一代,Vidu Q2图生视频已全球上线,在时长选择、镜头语言和语义理解上取得了明显提升。

而这一次的Vidu Q2「参考生视频」不仅是功能的迭代,更预示着在下一代AI视频生成路径上,全球已全面展开正面交锋。


Vidu:推动「视频生成」
走向「演技生成」时代到来


先看一下Vidu Q2在官方示例上的表现:

左右滑动查看

据悉,Vidu Q2参考生视频与图生视频一样,将在价格、时长选择、镜头语言支持和语义理解给予用户更多选择。

内测发现,Vidu Q2 参考生视频支持2-8秒不同时长自由选择、支持1080p高清晰度、3种宽高比。

我们先看一下为什么说Vidu才是让奥特曼火出圈的「Cameo客串」功能的开创者,为什么说Vidu在类似功能「Reference参考生」上比OpenAI领先。

Vidu:参考生视频领先OpenAI


「参考生视频」并不是Vidu Q2推出的新功能,早在去年9月Vidu 1.0版本就已推出,而且Vidu是全球最早推出参考生视频功能的,并首个做到支持7个主体参考。


简单而言,「参考生视频」是引用角色、道具、场景等更多素材内容来生成视频,从而更好地控制生成效果,而且直接从素材到视频,省去了中间的分镜脚本制作环节。

视频为Vidu Q1参考生视频的功能展示

此外,Vidu 的「参考生视频」起步更早,覆盖范畴也更广。

所谓的Sora 2 Cameo其实是类似于Vidu 参考生功能——

均可用「@」调用不同形象,并基于所选形象进行二次创作。

从行业角度看,Sora 2 Cameo就是一种「参考人物生成视频」的形式。

Vidu最多同时参考7张图片,而且万物皆可参考。

相比Vidu Q2,Sora 2有明显的局限:目前不支持对物体进行@调用;当直接上传物体图片作为参考时,最多仅能参考一个物体;最多支持三个人物客串演出。

而且Vidu不仅是引用角色,更是引用一切素材(道具、场景、物体等) 来生成视频,为创作者提供了更高的自由度和控制力,同时Vidu还可以最多支持7张参考图片,可以是7个角色,也可以是人物、道具、场景等的不同排列组合。

在Vidu中上传图片并添加描述即可创建「主体」,之后在主体库中勾选;或直接在提示词输入框中输入@上传的图片素材即可。

此外,还可以在Vidu首页「主体」广场中使用其他用户投稿的公开主体,例如可以直接使用网友「caelum mo」投稿的小男孩主体。这种用户间主体库的分享不仅降低了用户的使用门槛,而且更具互动社交属性,可玩性更高。

为了提升主体的一致性,上传图片时,可上传三视图(正面、侧面、背面)到【主体库】,也可上传多角度图片,或者立体感的图片;而提示词描述可以直接打开提示词框下面的【专业模式】,让AI直接将你的自然语言转换为更准确的提示词描述,提升识别准确性。

比如,「星辰研究所-微BT_buding」投稿的「黑暗巨龙飞行状态」,上传了三张不同角度的图片。

基于此主体,制作的「飞龙在天」视频:

除了人物等角色之外,创作者冰皓利用主体,一键复制特效:

据透露,本月底Vidu的「参考生视频」迎来更新,一致性更好,价格更优惠,速度更快,依旧全球领先。


核心技术指标正面PK:谁更胜一筹


OpenAI的Sora 2的确有不少亮点,比如:

可自动补充大量不同分镜;实现了音视频直出,并且可以控制语音内容;


在核心技术指标,比如一致性、语义理解、动作自然度上,Vidu相对优势更大。

让我们一睹这两大AI视频工具在多项技术上的正面交锋吧!

一致性:Vidu生成内容更可控


从内测效果来看,一致性方面,Vidu Q2参考生比Sora 2表现更佳。

先请奥特曼客串一下。下面的案例中,Sora 2直接改变了皇冠的样式,而Vidu Q2则能完全保持皇冠的细节特点。

Prompt:@Sam 介绍 @皇冠


没用@cameo功能时,Sora2图生视频里的人脸一致性明显较差。Sora2用了@引用功能时,一致性依旧略差于Vidu。

案例2中,输入图片:

Prompt:女孩闭上眼睛,身后的云朵飞舞,发出金光


语义理解:Sora 2对于运镜理解一般


综合而言,Sora 2与Vidu Q2在语义理解能力上差不多,多数提示词都能正确理解。

但一些常见的内容, Sora 2却无法正确理解。

例如,下列提示词Vidu Q2处理的直升飞机较好,而Sora 2逊色不少。

Prompt: 海面上空环绕着数十架直升机,远景


实际上,在运镜理解方面Sora 2表现并不稳定,多数案例下都没能正确理解运镜指令。

比如,镜头右移,Vidu Q2(下图左)完全无压力,而Sora 2却并没有理解镜头右移的意思。

Prompt: 镜头右移


Vidu Q2 参考生

Sora 2

镜头拉远同样如此:

Vidu Q2 参考生

Sora 2

Prompt:行进中的列车里,右边的男人回头向后看,镜头拉远


动态自然度:Vidu更连贯


相对而言,大部分情况下Vidu Q2生成的视频动作比Sora 2更加连贯。

例如,水晶酒杯掉地板,突然爆裂的瞬间的视频中,Sora 2生成的动作连贯性不如Vidu Q2。

在舞蹈房内,Sora 2生成的视频跳到一半静止了,而Vidu Q2生成的视频(下图左)则流畅许多。

Prompt: 四周都是镜子的舞蹈房内,女生牵着男生的手优雅旋转翩翩起舞,动作流畅一致,衣裙随舞步轻盈摆动,镜面反射出舞蹈全景,镜头缓慢环绕捕捉舞蹈细节。


Sora 2经常会出现画面内元素静止、不动的bug。

对下列演唱会场景的视频中,Vidu Q2生成的视频比较流畅,而Sora 2生成的视频有点像PPT。

Prompt:激动得满脸通红,眼睛瞪得极大,双手捂住脸,不敢相信,随后又疯狂地挥舞手中的荧光棒。


特效画面中,Vidu Q2生成的巨龙在空中喷火,特效非常真实,相比之下Sora 2生成的视频只有火在动,不够流畅自然。

Prompt:特写镜头紧紧聚焦在一条龙的下颚上。热气明显地扭曲了周围的空气,它的喉咙开始发出强烈的钴蓝色光芒。它呼气,一股闪烁着、富含粒子的蓝色火焰集中喷射而出,填满了整个画面。镜头跟随火焰,看着它猛击在一座城堡墙壁粗糙、风化的石头上。我们看到石头在热冲击下瞬间裂开,闪烁的蓝色能量在裂缝中飞速蔓延。石头表面起泡、爆裂,变成浓稠、黏滞的岩浆,像糖浆般沉甸甸地滴落下来。那声音是喷气发动机的轰鸣声与岩石熔化成液体时的嘶嘶声和爆裂声的恐怖混合。

在另一个真实案例中,面对一个流水的水龙头,Sora 的镜头从水流特写快速切换至水管开关,并以一个短暂的静止画面作结。

而Vidu Q2则采用了更为平稳的运镜,让镜头徐徐拉进,整体观感更为贴近日常,显得十分自然。

Prompt:水管里水在流动,镜头推进对焦到水管开关上


同时,Sora表情、微动态不如Vidu层次丰富,Vidu更能满足对于表情演绎有较高要求的影视、动漫行业的需求。

Prompt:二维扁平动画风格,主角神色慌张,嘴中冒出冷气,同时回头张望,看向镜头后朝镜头方向跑出画面


最后,看一下Vidu生成的丰富表情和微动态在动漫行业的应用,表情变化层次丰富,非常自然。

Prompt: 过山车在轨道上飞驰,情侣坐在第一排,女生紧紧抓住安全杆,男生试图转头看她却被惯性甩回;镜头切换到两人的面部特写,女生张大嘴巴尖叫,眼泪被风吹得贴在脸颊,男生则笑着大喊,牙齿咬得紧紧的,双手比出胜利的手势。


创作者也开始将Vidu Q2「参考生」功能玩出了花。国内创作者@陈畅用Vidu Q2「参考生」功能做了一个非常惊艳的短片:细节丰富、运镜流畅,完成度非常高。

就连钢铁侠本尊,也有了全新战甲。

参考图:

图1;图2

生成的视频:

提示词:

[@图1][@图2]

图1机器盔甲和图2的人一样大,图1贴合在它里面的图2的人

图1机器盔甲机甲外形保持不变,头盔掀起露出图2人的脸

胸甲从中间收缩打开露出人的上半身

手臂部机甲从手臂中间收缩打开露出人的手臂

腿部机甲从腿部中间收缩打开露出人的腿

除了打开的部分,机甲其他部分保持连接在一起不断开,机甲后背不变

图2人物的手臂从机甲手臂里出来,腿从机甲的腿出来,人物整体从机甲里面走出来

镜头全景

所有变形都通过机械传动装置

有创作者还让黑暗游侠NPC出场,Vidu Q2直出视频,三个镜头流畅连贯,令人惊叹。

将主角三视图输入到Vidu参考生功能的主体库中:

正面;侧面;近照侧面

生成的视频:

Prompt:

[@黑暗游侠]

0-1s镜头1,头发飘扬,拉开弓,超近特写,背景是黑暗森林闪着奇幻的光,箭射出去。切镜头

1-6s镜头2,黑暗游拿着弓在黑暗森林里快速跑动跳跃,镜头自由跟随,特写全身自由切换,在树林中穿梭,急速大幅度不断跳跃,闪烁。切镜头

6-8s镜头3,一个旋转镜头环绕人脸慢动作特写,露出邪魅的笑容

月底突袭,Sora 2真正挑战者来了


如今,AI视频生成领域,已成为科技巨头们「打得不可开交」的又一大主战场。

谷歌Veo 3、OpenAI Sora 2,以及马斯克xAI最新放出的Imagine v0.9,均在音画同步、人物一致性等方面,掀起一波又一波的创新狂潮。

左右滑动查看

反观国内,以Vidu、Wan2.5、Kling AI等自主研发的模型强势出击,不仅在技术指标上紧咬对手,更在开放性、成本控制、应用普惠上实现弯道超车。

就在本月底,Vidu Q2将重新定义「参考生视频」,该功能模型即将迎来一次重大升级。

这无疑是2025年视频生成领域,最值得期待的更新之一。

凭借更高的创作自由度、更精细的控制力、更丰富的应用,Vidu在表情变化、推拉运镜、生成速度,语义理解,视频延长方面取得突破性进展。

这场逆袭,再次证明了国产AI的全球竞争力——从跟跑走向领跑,正重塑AI版图。

这一次,我们将见证全球视频AI「大战」的下一个关键节点。

让我们拭目以待。

<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652633151&amp;idx=1&amp;sn=b7b90ace32c6c72b13ef0489bbddddc0&amp;chksm=f0ac71b52088b5aecdb5ddd97f87bb3c4956722dc620573566c6646082c9d71005c336a0a43a&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/83671/9baFL2v4YI&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们