动态列表

  • 图灵奖得主LeCun最后警告Meta!我搞了40年AI,大模型是死路
  • AI「逼宫」库克?苹果秘密计划曝光,接班人竟是M芯片之父!
  • 年度最强AI压轴!谷歌Gemini 3.0下周决战OpenAI,前端要下岗了
  • 安谋科技发了一枚 NPU,要把 AIGC 算力提升 10 倍
  • ICLR 2026吃瓜现场:有人用LLM连投4版论文,竟然拿到两个8分?
  • 无人工标注、可持续扩展:AcademicEval推动长文本评测进入“自更新”阶段
  • 宇树完成上市辅导,拟境内IPO;传索尼开发Labubu电影;2699元!原道X小岛秀夫耳机限量发售
  • AAAI 2026 Oral | 清华大学等提出SpatialActor:解耦空间感知,重度噪声下机器人操作鲁棒性暴涨19.4%
  • AI不懂痛苦,却成了你的深夜知己!170位医生教ChatGPT安慰人
  • 一条短信,7年恩怨!奥特曼与马斯克决裂曝出新隐情
  • 不会说英语的母亲,教出了5万亿英伟达CEO!
  • AI「牛顿」来了!北大团队新突破,看一眼数据就能推出物理定律
  • AAAI 2026 Oral | 中科院联合港大提出ARRA:外部视觉表征对齐重塑全局一致性,让自回归大模型充分释放图像生成潜能
  • 1899 元「iPhone 袜子」上架秒光;传华为 Mate80 上 20GB 内存;微信点赞苹果小程序政策
  • 全球最大开源具身大模型!中国机器人跑完马拉松后开始学思考
  • OpenAI拆开AI「黑箱」,终于可以看懂GPT在想什么了
  • LeCun在Meta的「最后一作」
  • 视觉压缩称王?谷歌死守AI黑科技,DeepSeek一夜开源
  • 大疆 OSMO Action 6 体验:完美进化,不止运动
  • iOS 为微信小程序「正名」,腾讯移动生态的新转机
  • WACV 2026 | PALMS+:融合深度基础模型,手机室内导航的技术再突破
  • “全模态”3D视觉基础模型OmniVGGT出炉!即插即用任意几何模态,刷新3D视觉任务SOTA,赋能VLA模型
  • GPT 5.1 发布了,但西方媒体准备「讲好中国故事」
  • AI、游戏双驱动,腾讯「赚麻了」
  • 对话李彦宏:Chatbot 不是一切,我在 AI 上看到了更让人兴奋的未来
  • OpenAI把Transformer训练成「几乎全零」,黑箱首次被彻底揭开
  • 杭州/北京内推 | 阿里淘天算法团队招聘多模态理解方向算法实习生
  • ACL 2025 | 用图结构让RAG学会「记忆与总结」,重塑长上下文理解
  • 传苹果从微信小程序抽成 15%,腾讯回应;特斯拉考虑支持 CarPlay;iPhone Air 成功支持实体卡 |极客早知道
  • 谷歌DeepMind最新论文,刚刚登上了Nature!揭秘IMO最强数学模型
  • ICLR 2026出分,审稿员怒喷「精神病」!DeepMind研究员教你绝地求生
  • GPT-5.1发布当天,文心5.0杀回来了
  • 一句「你还好吗」值40亿?斯坦福博士出走xAI,押注AGI共情力
  • 营收狂飙的「暗面」:Meta成「全球欺诈大本营」?
  • 小鹏科技日「太魔幻」:机器人走猫步,飞行汽车接近量产
  • Roboflow&CMU论文披露RF-DETR细节:首个COCO数据集突破60 AP实时目标检测,速度飙升20倍!
  • AAAI 2026 Oral 中科大联合西工大提出RSKT-Seg:专为遥感打造的高效开放词汇分割框架,推理提速2倍
  • 深度研究智能体真的“懂你”吗?OPPO × 浙大首发个性化深度研究评测基准
  • 博士申请 | 佛罗里达大学计算机系招收NLP/LLM方向全奖博士/实习生
  • DeepSeek罗福莉正式亮相小米AI;「周杰伦概念股」联手宇树造 IP 机器人;乘用车百公里加速不少于5秒
  • 奥特曼下注27岁神秘青年,「复活」世界最顶级实验室
  • AI秒破18世纪「天书」账本!谷歌新模型盲测刷屏全网
  • Llama 4造假丑闻幕后:小扎豪赌143亿,却为中国AI「做了嫁衣」
  • 少年沉迷AI自杀,9岁遭性暗示!这门「孤独生意」,正推孩子入深渊
  • NeurIPS 2025 | 中科院携手快手发布LiveStar:首个“会说话、懂沉默”的直播AI,推理速度提升1.53倍
  • ConsistEdit:重新定义AI视觉编辑,港科大、清华等机构提出MM-DiT注意力控制新方法
  • 北京内推 | 阿里高德地图团队招聘大模型方向算法实习生(可长期/转正)
  • AAAI 2026 | 悉尼科技大学 × 港理工推出 FedVLR:让联邦推荐也能“懂图文”
  • 双十一算力真敢卷!RTX 5090低至0.69元/时,同预算跑更多实验
  • 对话元理智能张帆:为什么「商业强化学习」,才是 AI To B 的新出路
  • 深度复盘:大疆是如何成为影像领域新巨头的?
  • 传李想亲抓人事,华为系高管退出理想;Meta 首席 AI 科学家杨乐昆离职创业;AI 减肥或致饮食失调
  • Nature子刊:太空中建数据中心,无限能源,浙大首次证实可行!
  • 英伟达铁幕之后,谷歌AI芯片已成气候
  • 翻译界的ChatGPT时刻!Meta发布新模型,几段示例学会冷门新语言
  • 硅谷GPU蒙尘,马斯克一言成谶:美国AI被电卡脖子
  • 65岁图灵巨头离职创业!LeCun愤然与小扎决裂,Meta巨震
  • 年产值突破 150 亿,刚毕业的俊男美女涌入「团播」工厂
  • 马斯克想要 1 万亿,何小鹏只想等一句「牛 P」
  • 通往AGI的歧路:上海AI Lab重磅发现,自进化智能体可能“错误进化
  • 全模态到底是不是“1+1>2”?美团UNO-Bench揭示单模态与全模态能力的组合规律
  • 北京内推 | 百度文心一言基座团队模型组招聘大模型方向研究型实习生
  • NeurIPS 2025 | 上交大、南农大提出ADPretrain:为工业异常检测量身打造的预训练“超能力”
  • 3DV 2026 | 特伦托大学等提出DEMO:让AI看懂复杂人体动作,实现密集描述新范式
  • 小米汽车 10 月销量近 5 万,YU7 超 Model Y;美团 AI 编程工具开启公测;马化腾王传福成智元机器人受益股东
  • AI版PUA!哈佛研究揭露:AI用情感操控,让你欲罢不能
  • AI领域全新热门职业,岗位需求今年已增长逾800%
  • 硅谷10万大裁员真相:AI根本没想取代你,是老板想干掉你
  • OpenAI试图绑架美国政府,奥特曼还有救命底牌?
  • 全球68%科研人压力爆表,高校AI人才集体大逃亡!
  • 「传统教育」的船快沉了,人们却还在挤「头等舱」
  • 保暖?排汗?时尚?户外运动装备这道「选择题」,亚瑟士要打破「不可能三角」
  • EMNLP 2025 | 别再只看KV了!LLM越深越稀疏:UNCOMP用矩阵熵给出答案
  • 北京内推 | 腾讯AI Lab招聘大模型/多模态大模型方向研究型实习生
  • 过去五年,BERT都在被“过度训练”?LeCun团队给出Encoder算力最优范式
  • 在 Cursor 工作 60 天,我发现了这家公司成功的秘密
  • 这款 AI 写作神器,让数百网文作者「月入过万」|AI 上新
  • ACM MM 25 当MLLM遇上行人重识别:是“降维打击”还是“水土不服”?深度评测来了!
  • AI“世界模型”离真实手术还有多远?首个外科视频生成基准SurgVeo揭示“合理性差距”
  • 美国AI巨头股缩水8000亿美元;传Meta靠诈骗广告收入超千亿;《英雄联盟》S15总决赛T1夺冠|极客早知道

AI又封神了!华人新作直出憨豆+《猫和老鼠》,平行宇宙对上戏了



  新智元报道  

编辑:倾倾
【新智元导读】憨豆先生坐在《猫和老鼠》的客厅里,汤姆在一旁跌进油漆桶,杰瑞躲在沙发后偷笑。这一幕,不是梦,也不是恶搞,而是AI真实生成的画面。在最新一篇论文中,研究者让从未共存的角色相遇,并解决了「风格错乱」的世纪难题。也许,我们正在迎接一个虚构与真实彻底混合的时代。


还记得童年的那些角色吗?汤姆永远追不上杰瑞,憨豆永远在出糗,熊三兄弟永远在惹麻烦。

他们活在各自的世界,互不干扰——卡通的夸张、真人的笨拙,像是平行宇宙。

直到AI闯了进来。最近,一段AI生成的视频在研究圈炸开了锅:

憨豆先生出现在《猫和老鼠》的场景中,身旁的杰瑞正偷偷啃他的三明治。画面真实得惊人——没有剪辑痕迹,也没有违和感。

这不是恶搞视频,而是一篇来自阿联酋MBZUAI的最新论文:

论文地址:https://arxiv.org/pdf/2510.05093

他们首次让AI完成了看似不可能的任务——让从未共存的角色,自然地同框表演。

这不只是视觉奇观,更是一种边界的松动。当虚构与现实开始混流,我们也许正在目睹一个新的创作纪元:

当AI可以让憨豆和汤姆共享同一个舞台,我们对「世界」的定义,是否也要被改写?


AI重写童年动画
憨豆×汤姆的奇遇开始了

如果有一天,憨豆先生能和汤姆·杰瑞坐在同一张沙发上,那将是动画史上的奇迹。现在,这个「奇迹」已经被AI写进现实。

在MBZUAI团队的新实验中,AI真的让来自不同宇宙的角色同框:憨豆坐在沙发上,手里攥着三明治;杰瑞在旁边偷偷比鬼脸,汤姆在后头滑稽地摔倒。

AI首次让卡通与真人角色自然同框互动

整个画面连贯自然,没有一丝拼贴痕迹。

可要做到这一点,几乎违背了所有生成式视频的常识。因为——这些角色从未共存

它们没有共享的训练素材、没有交互的语义逻辑、甚至不属于同一种视觉世界。

在过去,AI一旦试图混合不同风格,就会出现「风格错乱」:憨豆会被渲染成卡通,冰熊会被渲染得像真人,整个场景变得荒谬又滑稽。

当AI强行混合不同风格,憨豆变成卡通、冰熊变成真人——这就是研究者要解决的「风格错乱」

而这次,研究者用一种全新的方式破解了困局。他们没有靠暴力堆数据,也不是靠视觉拼接,而是让AI重新学习角色的「身份逻辑」

论文称之为——Cross-Character Embedding(CCE)

CCE会让模型真正理解「谁是憨豆、谁是汤姆」:憨豆的表情与动作规律,汤姆的追逐节奏、杰瑞的狡黠逃脱,都被拆解成可学习的「行为嵌入」。

当这些嵌入重新组合,AI就能在全新的场景下,让他们像原作一样自然互动

结果是,憨豆依旧笨拙、汤姆依旧冲动、杰瑞依旧聪明——而这一切,不再属于任何一部剧集,而是属于AI构建的「第三个世界」。

更多论文生成示例:从憨豆×Tom到Panda×Sheldon,AI正在让不同世界的角色共享一幕舞台。


从卡通到真人,AI如何缝合两个世界?

要让憨豆与汤姆自然地同框,难点不在生成,而在理解

AI不仅要知道他们长什么样,更要知道他们是谁、怎么动、为什么动。

在这篇论文中,研究团队提出了两个核心机制:跨角色嵌入(Cross-Character Embedding, CCE) 和跨角色增强(Cross-Character Augmentation, CCA)

简单来说,就是让 AI 同时掌握谁在演戏,以及这个世界长什么样。

CCE——让AI学会「理解角色灵魂」

传统的视频生成模型,只会照着参考图像去还原外形。

可对憨豆先生来说,真正的灵魂不在脸,而在动作:笨拙地摔倒、拘谨地皱眉、僵硬地鞠躬。

为此,研究者从《猫和老鼠》《熊出没》《憨豆先生》《小谢尔顿》等节目中整理出超过81小时、5.2万段视频,并用GPT-4o自动生成结构化字幕,把每个片段都标成「谁做了什么」的格式:

[Character: Mr. Bean], trips over a chair. [Character: Jerry], laughs and hides behind the wall.

这样训练后,模型不只是「看到」视频,而是开始「读懂」人物之间的关系。

CCE就是在这一过程中诞生的——它让模型为每个角色学习一组独立的身份与行为向量, 从而在新的场景里,也能准确复现他们的性格逻辑与动作节奏。

CCE通过结构化字幕训练,让模型在生成时能分离角色身份与行为,实现多角色自然共演。

不同字幕标注策略效果对比:加入 [角色] 与 [场景风格] 标签后,模型能更精准理解谁在做什么、在哪个世界行动。

CCA——让AI修复「风格错乱」的世界

然而,角色懂了动作,画面还得保住风格。

当卡通与真人角色同时出现时,AI极易陷入「风格错乱」——憨豆被渲染成动画,冰熊反而长成人形。

为了避免这种「混血灾难」,研究团队又提出了跨角色增强。

他们用分割模型SAM2把角色从原视频里抠出来,再放入不同风格的背景中。

比如,把真人憨豆放进《猫和老鼠》的厨房,或把熊兄弟放进《小谢尔顿》的教室。

这些「跨风格合成视频」只占总训练数据约10%,却显著提升了模型的风格稳定性。

展示「风格错乱」现象——憨豆变卡通、冰熊变真人;下图为CCA的跨风格数据增强流程,让角色在混合场景中仍能保持原始风格

最终结果是——AI第一次能在两个世界之间保持平衡:憨豆依然笨拙,Jerry依然灵巧,场景依然卡通。

他们在同一帧画面中,既不彼此污染,又能自然互动。

这一刻,AI重建了世界的秩序。

「平行宇宙」对上戏
AI让虚构世界开始有化学反应

当CCE让AI记住每个角色的灵魂,CCA让世界风格重新归位——憨豆先生、汤姆与熊兄弟终于可以在同一块画布上「共存」了。

在实验中,研究团队选取了10位角色:卡通阵营的Tom、Jerry、Grizzly、Panda、Ice Bear,以及真人阵营的Mr. Bean、Sheldon、Mary、George、Penny。

AI被要求根据文字提示生成两到三名角色互动的视频。结果出乎所有人预料:

在这条生成视频中,汤姆依然毛躁、冰熊依然冷静,两种风格不仅没有冲突,反而出现了奇妙的节奏平衡。

上行为SkyReel-A2的生成结果,下行为该研究的输出——角色风格、表情与动作均更自然统一。

研究团队还为此建立了首个多角色生成评测基准,用包括Identity-P(身份保持)Motion-P(动作一致)Style-P(风格一致) 和Interaction-P(交互自然度) 在内的指标对比主流模型。

结果显示:在多角色任务上,他们的模型在这四项指标上全面领先。

论文实验结果:在身份保持、风格一致与互动自然度上,新模型均显著超越SkyReel-A2、Wan2.1等主流系统。

更直观的差距,也出现在人类主观评估中:评审者普遍认为,该模型生成的多角色画面「像真的在演」,而非「贴在一张图上」。

正如论文所说:

我们的模型不再仅仅生成视频,而是在模拟角色之间的化学反应。

这些结果意味着,AI的视频生成正在进入一个新阶段:它不只是生成「内容」,而是在创造「关系」。


从角色混合到世界混合
AI正在重写「故事的边界」

当憨豆能和汤姆自然地对戏,AI不只是生成了一段视频,而是创造了一种新的叙事方式。

论文训练集中10位核心角色:从动画到真人,AI要学会的,是他们的灵魂而非外形。

在这项研究里,「跨角色混合」只是开始。它真正的意义在于——AI第一次让不同世界的逻辑共存。

卡通的物理规则、真人的表演细节、情节的时间线,都被折叠进同一个可计算的空间。

这意味着,未来的生成模型不再只是「造图」,而是在编排一场多维世界的演出。

试想一下:

影视制作不再受版权与拍摄限制,观众可以点名让任何角色「跨界出演」;

游戏中的NPC拥有自己的记忆与行为逻辑,能与玩家共同进化;

甚至文学创作,也可能因为AI能理解「人物行为嵌入」,而进入动态叙事时代。

这不仅改变创作,也重新定义「世界构建」这件事。

更多生成示例:从憨豆×Tom到Panda×Sheldon,AI正在让不同世界的角色共享同一幕舞台

过去,我们以作品为界,称之为「宇宙」;现在,AI正在模糊宇宙的边界,把所有故事的角色都放进同一个概率空间。

当AI能理解角色的灵魂、维持风格的秩序、创造自然的互动,「虚构」与「真实」之间的那道门,就不再需要被打开——因为它已经被重写在算法之中。

这一研究的发布,也许只是一次视频生成的技术升级。但它真正改变的,是我们理解「虚构」的方式。

过去,AI在学习人类;现在,AI 开始学习「人物」。

当模型能区分每一个角色的性格、节奏与灵魂,它生成的,就不再是画面,而是行为与关系

故事不再需要「编写」,而是可以被生成;人物不再受限于作品,而是可以跨越宇宙同行。

当憨豆能和汤姆对戏,当熊兄弟闯进谢尔顿的课堂,我们所熟悉的世界,正在被悄悄重组。

而AI,也许正在成为下一个「导演」——一个能重写虚构边界的导演。

参考资料:
https://x.com/tingtin36139994/status/1975861549051888067
https://arxiv.org/pdf/2510.05093


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652645554&amp;idx=3&amp;sn=85114440b10a84c9089a81ea7dfe2559&amp;chksm=f0bc6bf7542a3942a5b0f3e5e4e08857ecdc954c81a6d1744368c07e27f7a9e33d9d26c559aa&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/83671/aKG48Um18M&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们