动态列表

  • 全球95%企业AI惨败?MIT报告引硅谷恐慌!90%员工偷用ChatGPT续命
  • 全球第一!西湖大学成功登顶Science,卷赢同行背后黑科技揭秘
  • 马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?
  • 刚刚,大模型棋王诞生!40轮血战,OpenAI o3豪夺第一,人类大师地位不保?
  • 可灵AI单季营收超2.5亿,快手财报里的「AI含金量」有多高?
  • NASA、IBM打造日地物理学首个开放式 AI 基础模型,用九年观测训练提升约16%耀斑预测准确率
  • 1 个月,2 场胜仗,李斌从「斌子」变成「斌神」
  • 球首款AI原生游戏引擎再进化:GTA6再不来,我们就AI一个
  • KDD 2025 Best Paper Runner-Up | EI-BERT:超紧凑语言模型压缩框架
  • 即梦推出“智能多帧”功能 突破AI视频长镜头创作瓶颈
  • 从实验室到餐桌:Robert Langer团队杨昕博士用新材料破解全球「隐性饥饿」
  • 那些让你「活人微死」的工作日,终于有救了
  • Cursor为Blackwell从零构建MXFP8内核,MoE层提速3.5倍,端到端训练提速1.5倍
  • 谷歌Gemini一次提示能耗≈看9秒电视,专家:别太信,有误导性
  • 从繁杂技巧到极简方案:ROLL团队带来RL4LLM新实践
  • 究竟会花落谁家?DeepSeek最新大模型瞄准了下一代国产AI芯片
  • ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式
  • 对话小米 AI 眼镜负责人:20 天卖光库存,但属于产品的「长跑」才刚开始
  • DeepSeek V3.1 发布:更强的 Agent ,更贵的 API;多家网约车平台集体降抽成;影石发布 4K 画质「口袋相机」|极客早知道
  • 谷歌手机十年最狠升级,全家桶AI宣战苹果!一句话P图,100倍变焦
  • GPT-5点赞!八大顶尖机构发布「自进化智能体」全面综述
  • 打工半年后,Atlas觉醒!「大行为模型」零代码上新技能,AI工业革命来了?
  • DeepSeek-V3.1震撼发布,全球开源编程登顶!R1/V3首度合体,训练量暴增10倍
  • 摆脱遥控器,波士顿动力人形机器人,开始「长脑子」干活了
  • 微软AI CEO警告:我们需要警惕「看似有意识的AI」
  • ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力
  • 汽车业务还没盈利,小米却已找到「第三曲线」
  • 通义APP上线官方知识库,首批覆盖教育、法律、金融等五大领域
  • AI Scientist生成的论文被指「剽窃」,回应称「未引用相关研究」,AI自动化科研还靠谱吗?
  • 击败Meta登榜首:推理增强的文档排序模型ReasonRank来了
  • 千寻位置护航无人机表演,开启品牌多城联动新篇章
  • 刚刚,字节开源Seed-OSS-36B模型,512k上下文
  • 上下文记忆力媲美Genie3,且问世更早:港大和可灵提出场景一致的交互式视频世界模型
  • OpenAI 单月营收已经破 10 亿美元;马斯克的 Grok,超 37 万条用户聊天记录「裸奔」;谷歌发布 AI 手机
  • 成为「流量黑马」的老品牌,如何借拼多多秒懂 00 后?
  • AI 的终点不是对话框,这家公司想让真实世界成为 AI 的提示词
  • 网易有道发布子曰教育大模型多款AI新品,定义教育AI应用能力L1-L5分级
  • 二十余名英国青年科学家在沪参与好望角科学沙龙活动
  • 为长视频生成减负!浙大与华为提出Compact Attention,挖掘结构化稀疏加速2.5倍
  • TPAMI 2025 | 骨架动作理解大一统:东南大学等提出USDRL,一个面向密集表征学习的基础模型
  • 报名开启|中关村国际青年论坛:诚邀全球青年学者共探AI前沿
  • Sora没做到的,LongVie框架给解决了,超长视频生成SOTA
  • 「价格战」打了半年,吉利如何做到核心利润暴增102%?
  • 小鹏Q2财报「炸裂」:营收暴涨125%,毛利率反超特斯拉
  • Nature子刊 | 上智院统一框架RXNGraphormer,实现化学反应多任务精准预测,自发掌握分类规律
  • 首个面向肽分子设计的大模型平台:直接「读序列」出结合子,无需结构输入即可生成
  • 智谱推出AutoGLM 2.0:手机 Agent 的「Manus 时刻」?
  • 论坛报名已启动,速来锁定席位!解码具身智能的落地挑战与产业爆点
  • DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学
  • dLLM的「Free Lunch」!浙大&蚂蚁利用中间结果显著提升扩散语言模型
  • DeepSeek开源新基础模型,但不是V4,而是V3.1-Base
  • Meta超级智能实验室重组为四个部门,某些高管将离开
  • ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测
  • 黑神话系列第二作,《黑神话:钟馗》先导宣传片公布;小米卢伟冰:2027 年进军欧洲汽车市场;宇树预告新机器人
  • GPT-5暴写「屎山代码」!14个Prompt,看穿GPT-1到GPT-5七年智商进化史
  • 微软最新揭秘:「话痨实习生」AI助手,到底能帮人类做什么?
  • 陶哲轩「断粮」后,25年首次绝望怒吼:美国科学命脉被砍断!
  • 16岁天才少年炒掉马斯克,空降华尔街巨头!9岁上大学,14岁进SpaceX
  • 中科慧远发布CASIVIBOT,以九年积累开启AOI与机器人协同的品质检测新时代
  • CVPR 2025 | DeCLIP:解耦CLIP注意力,哈工大(深圳)、港大提出通用开放词汇密集感知新框架
  • 英伟达ViPE:任意视频一键转为3D几何数据,开源引擎与亿级帧数据集重磅发布!
  • 强化学习之父Richard Sutton最新演讲揭示OaK架构:通向超级智能的八步愿景
  • ICCV 2025 | RobustSplat: 解耦致密化与动态的抗瞬态3DGS三维重建
  • 医疗AI安全革命:全球首个医疗动态红队测试框架DAS,破解临床落地信任危机
  • 谷歌在上海办了场 AI 嘉年华,开发者们却说像逛「AI 基地」
  • 7年了,OpenAI官方给出五代GPT对比,网友却怀念起「狂野」初代
  • X-SAM:从「分割一切」到「任意分割」:统一图像分割多模态大模型,在20+个图像分割数据集上均达SoTA
  • 开源版Genie 3世界模型来了:实时+长时间交互,单卡可跑,国内公司出品
  • 图生视频新玩法刷爆外网:图上画两笔就能动起来,终于告别文本提示
  • 妙笔生维:线稿驱动的三维场景视频自由编辑
  • 一句话,性能暴涨49%!马里兰MIT等力作:Prompt才是大模型终极武器
  • Z世代生存、学习与未来宣言!伯克利学霸预言课堂,用AI设计人生
  • AI来了!记者、UP主、写手,谁能逃过这场「灭绝浪潮」?
  • Hinton预言成真!AI接管美国一半白领,牛津哈佛扎堆转行做技工
  • 为什么「游戏」是 AI 陪伴落地的好场景?
  • 新加坡 AI 办公系统 Agnes:200 个 Agent 并行研究,让 AI 主动「找茬」打磨设计
  • 机器人也会「摸鱼」了?宇树G1赛后葛优瘫刷美女视频,网友:比人还懂享受生活
  • 从GPT-2到gpt-oss,深度详解OpenAI开放模型的进化之路
  • NextStep-1:一次在图像生成上自回归范式的探索
  • KDD 2025 | UoMo来了,首个无线网络流量预测模型,一个框架搞定三类任务
  • 突破长视频生成瓶颈:南大 × TeleAI 联合推出全新 AI 生成范式 MMPL,让创意“一镜到底”
  • ICCV 2025 | MobileViCLIP:快55倍!南大等提出首个高效“视频-文本模型,让多模态AI在手机可运行!
  • 开源扩散大模型首次跑赢自回归!上交大联手UCSD推出D2F,吞吐量达LLaMA3的2.5倍
  • 一张图,开启四维时空:4DNeX让动态世界 「活」起来
  • AI发现新物理定律:纠正等离子体理论多年错误假设
  • 多模态大模型在化学与材料学的「体检表」——哪些能力靠谱,哪些还差很远?
  • Altman:希望 AGI 能提高生育率;与辉同行否认董宇辉年收入二三十亿元;今年国内智能眼镜市场同比增长121.1%
  • 刚刚!谷歌内部揭秘Genie 3:Sora后最强AI爆款,开启世界模型新时代
  • 硬核拆解!从GPT-2到gpt-oss,揭秘大模型进化关键密码
  • 黄仁勋子女逆袭上位!4万亿「皇储」成长史首曝:一个学烘培,一个开酒吧
  • GPT-5首次会推理,OpenAI联创曝AGI秘诀!超临界学习吞噬算力,2045金钱无用?
  • 400万人围观的分层推理模型,「分层架构」竟不起作用?性能提升另有隐情?
  • CoRL 2025|隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力
  • SEAgent:开启从实战经验中自我进化的GUI智能体新纪元
  • 给DiT装上“迷你”控制舵:NanoControl实现高效精准控制,参数量仅增0.024%
  • OpenAI估值达5000亿美元;「原道」联手小岛秀夫,推《死亡搁浅》耳机;苹果手表将「大幅重新设计」
  • 奥特曼神秘晚宴讲话曝出!OpenAI的CEO或将是个AI,Chrome我也想买
  • 谷歌最新「0.27B」Gemma 3开源!身板小却猛如虎,开发者直呼救命稻草
  • 最惨就业季!CS学霸GPA 3.98,投2500份简历仅10次面试,AI吞噬入门级岗位
  • Yann LeCun最新纪录片首曝!传奇AI教父的双面人生,深度学习幕后40年
  • 机器人全产业链接会 FAIR plus 2026新闻发布会在京召开
  • 大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲
  • 当AI比我们更聪明:李飞飞和Hinton给出截然相反的生存指南
  • 简单即强大:全新生成模型「离散分布网络DDN」是如何做到原理简单,性质独特?
  • ICCV 2025 | 告别“尬舞”,InterSyn交错式学习生成逼真多人交互动作
  • Sam Altman:AI存在泡沫;宇树机器人夺金,王兴兴:用遥控追求极致速度;蔡浩宇AI游戏上架,27.19元|极客早知道

刚刚,好莱坞特效师展示AI生成的中文科幻大片,成本只有330元

多模态的生成,是 AI 未来的方向。

最近,AI 领域的气氛正在发生微妙的变化。比如,刚刚推出了 Grok 4 的 xAI 却在重点宣传他们的视频生成模型 Grok Image。

与此前使用文字提示生成视频的方式不同,新一代的工具已经实现全链路覆盖:先用文字或语音生成图像,再用图像生成视频。你也可以直接上传图片来生成视频,还能自带音效,然后一键发到社交媒体疯狂转发。

图片

如果说很长一段时间里,我们印象中的 AI 还停留在写稿子、画张图,那么现在,它们已经能一键生成一部「电影级大片」了。不得不说,这就像是正在进行的一场工业革命:过去需要整支团队、大量资金和很长周期才能完成的创意性工作,现在只需要一张图片、一段文本指令就能实现。

就在今天下午,百度把视频生成 AI 技术推向了新的高度,其全球首发中文音视频一体化模型百度蒸汽机(MuseSteamer)2.0,实现了生成视频中人物口型、表情、动作的毫秒级同步。

这个 7 月初首次亮相的视频生成模型,从刚开始合成高质量音效到如今音画高度一致,完成了质的飞跃,让国产 AI 视频真正迈入到了「有声有色」的全新阶段。

图片

      百度蒸汽机全系视频模型 & 应用升级发布会现场。

在人物口型与语音毫秒级对齐之外,表情、动作同样自然流畅,连运镜都像是出自大师之手。从角色对白到镜头推进,仿佛背后真有一个经验丰富的导演在操控。

图片

此次,百度蒸汽机 2.0 对 Turbo 版、Lite 版、Pro 版及有声版本来了一波全方位升级,并全部开放给用户使用。各个模型版本在视频分辨率、生成时长以及主打特性上各有侧重,为不同创作需求提供了灵活选择,其中:

  • Turbo 版可生成分辨率 720p 和时长 5s 的视频,适合快速体验与广泛应用;

  • Lite 版是 Turbo 更轻量级的版本,生成速度更快,成本更低,适合追求效率和性价比的用户使用;

  • Pro 版输出分辨率 1080p 和时长 5s,主打高分辨率与电影级质感,适合追求高画质的创作者;

  • 最后是有声版,分辨率 720p 和时长 5s/10s,专注于音画一体的沉浸式体验,是此次的重头戏。

与此同时,百度蒸汽机 2.0 在价格这块也极具竞争力,全系价格仅为国内主流竞品的 70%,Turbo 版生成 5 秒有声视频限时价格仅为 1.4 元,这就为用户带来了更高的性价比。

图片

      百度商业体系商业研发总经理刘林在活动中

目前,用户既可以在百度搜索、百度 APP 以及各个手机浏览器的百度搜索入口直接进行体验,也可以登录百度蒸汽机的应用平台「绘想」进行创作。

绘想平台地址:https://huixiang.baidu.com/

一张图、一段话,便能生成有声视频。真的有那么神奇吗?带着这个疑问,我们对百度蒸汽机 2.0 来了波实测。

第一手实测

AI 生成的人物对话,就像在演情景剧

在「绘想」用户界面,我们可以看到,百度蒸汽机 2.0 全系模型现已正式上线。

用户上传的首帧图支持 JPEG、PNG、WEBP 等多种格式,并且可以根据自己的需求自由选择是否加入背景音。

图片

我们「牛刀小试」,来个单人吃播场景,音画同步的效果可以说是杠杠的。

动作整体保持流畅,画面清晰度和亮度都比较稳定,没有明显的闪烁或抖动;眨眼、嘴角咀嚼的一些细小动作也让人物更加地鲜活。

不过,既然百度蒸汽机 2.0 有声版的核心亮点之一是「多人对话互动」,我们重点测了一波多人场景,看看它是否能拿捏住不同角色和复杂语境。

我们先让模型复现 OpenAI 发布 o1 时的景象,将 o 系列前核心架构师 Hyung Won Chung 的介绍转换成中文,说起来还是很溜的。

最近国产动画电影《浪浪山小妖怪》大卖,我们找一个截图,让几位主角(小猪妖、蛤蟆精、黄鼠狼精和猩猩怪)来场对话。

整体看下来,动作切换没有出现明显的「卡顿」或机械感,流畅度很高;此外,各个主角的面部细节与神态转换也很自然。

打了一场大胜仗的 AI「丞相」,开心地扇着小风扇,终于可以享受享受了。

除了中文,英文语境同样可以 hold 住。多个人加上多个动物,也能表现出稳定的效果,猫头鹰的脑袋在以正确的方式转动。

侧脸场景也能稳稳拿下。最近,OpenAI 被 Meta 挖人挖麻了,双方在人才战中火药味十足。这两家 AI 巨头的 CEO 面对面坐下来之后,会发生怎样有趣的对话呢?

口型与声音的同步虽不如正脸那样严丝合缝,但保持了基本的自然衔接,两人的动作与神态演绎得相当到位,包括肢体起伏、眨眼细节,更贴近真实场景。

进一步测试中,我们尝试了不同运镜语言下的画面生成。

例如,生成一段车水马龙的延时摄影,它能精准模拟车流的动态变化和时间流逝的效果,红白交织的车灯在画面中迅速闪现,呈现出延时摄影中常见的快速移动感和光影交错的美感,画面自然连贯,几乎看不出什么瑕疵。

同时,背景音的加入也为整体画面增添了真实感。

      提示词:快速的延时摄影,熙熙攘攘的车流极快速行驶,出现一道道红白相间的灯光,车辆行驶的声音需背景音 

多个镜头语言叠加的场景中,模型同样表现出色。

比如下面这则视频,镜头一开始聚焦于男人,随后平滑转移到身后的女孩,镜头推拉与焦点切换的过程都非常流畅,画面丝毫没有出现崩坏或突兀的情况。

      提示词:聚焦于看向女孩的男人,镜头焦点随后转移到女孩身上,她自信地看向镜头并摆出姿势

经过数轮测试,我们发现百度蒸汽机 2.0 的主要优势在于一步到位 —— 相比于其他视频生成模型,它生成的内容音画俱全,而且需要再次调整的地方较少,经常能够达到直接可用的程度。

为让 AI 学会「编剧」,革新模型架构

从最初只能生成扭曲画面、配点塑料音效 bgm,到如今的电影级运镜,人物声音精准对上口型,AI 视频生成需要跨越一条艰难的技术鸿沟。要真正做到「有声有色」,模型必须同时攻克以下两大核心难题。

一是时序对齐,视频是按帧生成的,而语音是连续波形,这就导致两者的采样率和时间粒度不同。因此,音画同步首要解决的便是口型与语音的毫秒级对齐,较高的延迟会给人「口型对不上声」的不适感。二是多模态特征融合,语音不单单要对上口型,其自身还承载了节奏、情感、力度,它们与表情、动作、环境的协调决定了画面是否自然,因此模型要能理解并生成跨模态细粒度特征,比如语调对应的面部微表情变化。

此外,模型还要解决长时序生成与连贯性,数秒甚至十数秒内保持音画一致;环境音效与动作的匹配,如走路有脚步声、门开有开门声;以及多角色场景的交互,要精确定位到谁在说话、谁在听,保证不同声音与对应人物同步,避免多人口型重叠或者角色错位。

今年 5 月推出的谷歌 Veo 3 解决了音画同步面临的绝大多数挑战,但仍有不足,比如聚焦单人场景,多角色交互虽然也能生成,但规划性与自然度不足。另外,它虽支持多语言,但非英文场景体验很差。这些都限制了本土创作者的发挥空间,于是更符合「中国创作者体质」的百度蒸汽机应运而生。

作为国内首个支持声画同步的视频生成模型,蒸汽机的参数体量达到了百亿,在实现画面与音效、人声协同创作的同时,更在多角色互动、丰富运镜、跨场景表达方面深度优化。此前在权威视频生成评测基准的图生视频榜单 VBench I2V 中,蒸汽机 1.0 以 89.38% 的总分成为了全球第一。

图片

      榜单地址:https://huggingface.co/spaces/Vchitect/VBench_Leaderboard

2.0 版的成绩我们暂时还不知道,不过在实际体验上,新版本的蒸汽机相对于 1.0 版在指令遵循、运镜能力、叙事流畅度等维度上面取得了显著提升。

从数据到模型,百度蒸汽机 2.0 在技术上带来了一系列进步。

图片

在数据方面,模型利用大量多模态数据进行了训练。在构建数据集时,工程师利用多模态理解模型、语音识别模型对海量视频语料的多模信号进行抽取、数据清洗和对齐,其中包括内容、主体、人声、台词和环境音的抽取和对齐。百度重点打造了面向中文语音和语境的有声视频模型,模型训练加入了海量精选的中文语料库,实现了 Veo 3 等模型目前不支持的中文能力。

同时,百度也完成了一些数据生成工作,通过少量专业人工精标,训练出专精的镜头语言理解模型,进而产出海量的运镜训练数据。

在实现视频内容中多角色身份、情感和互动逻辑的统一规划时,我们会面临一系列的新挑战,如角色规划编排的合理性:需要让 AI 能够准确理解用户的输入,确定「谁来说」、「什么时候说」;同时也要保证生成角色形神音容的一致性,解决角色的音色、语调、动作和表情跟用户输入表达匹配度,以及多角色对话的自然度。

百度蒸汽机 2.0 重点优化了角色间交互的自然度和一致性,以保证有声视频的可用率。

在模型架构方面,蒸汽机首创了 LMMP(Latent Multi-Modal Planner),能让 AI 自行规划出生成内容里的多个角色身份、他们的台词、情感以及互动逻辑,带来协调一致的画面生成,呈现出更真实、更具表现力的多人对话互动。

作为一个基于扩散架构的规划思考模型,LMMP 在视频生成前期会先生成规划思考内容,再基于思考内容在扩散中后期完成视频生成。它最大的特点是将「思考能力」融入视频生成模型中,在叙事逻辑、镜头衔接、动作合理性等方面保持更强的一致性和可控性。

此外, 在完整的音视频一体化生成系统中,Planner 和视频生成是端到端训练优化,以多目标的方式保障规划思考与视频内容的正确性。规划层的思考与生成层的执行相互校正,保证最终输出的视频在语义和逻辑等方面更加准确与可靠。

百度工程师表示,未来他们还希望结合长视频生成技术来实现更好的故事续写和全局呈现。或许过不了多久,我们就能够欣赏到 AI 生成的长镜头视频。

需求驱动  AI 的多模态还能更实用

不同于「实验室里的模型」,蒸汽机开创了应用驱动模型研发的新范式,即由应用需求牵引、从百度自身生态里生长出来。该模型在追求技术指标之外,紧扣百度现有的搜索、内容、商业和云生态,形成了场景催生模型 —— 模型反哺业务的应用闭环。

目前,蒸汽机模型已经深度融入到百度移动生态中,还进一步强化了百度的全链路多模态体验,让搜索更具表现力,让内容更具创造力,让商业更具想象力。对于用户和企业而言,也获得了更强的创造力和生产力工具。

创作门槛进一步降低,更多中小型创作者以及普通用户都有机会参与到专业级视频的生成中,真正实现「人人皆可导演」。企业借助蒸汽机,可以在商业营销、产品推广等相关应用场景中,以更低的成本、更快的周期产出高质量视频内容。

曾参与《2012》《黑客帝国 3》《变形金刚 3》等多部好莱坞大片以及国产科幻剧《三体》视效工作的姚骐,借助百度蒸汽机 2.0,仅用一周左右就制作出一个时长 2 分钟的科幻短片《归途》。该作品共有 40 多个镜头,创作过程中每个镜头生成 3 次左右,共用 AI 生成了 120 多个片段素材。

图片

      《归途》片段

如果按照传统影视制作方式,这个科幻短片可能需要花费上百万,AI 的运用让这一成本直接降到了几百块(约 330 元),简直是降维打击。

图片

AI 视频化表达的前景已经全面铺开,百度蒸汽机正扮演着「加速器」的角色。

]]>

联系我们