动态列表

  • 广义智能体理论:智能时代通向「万物理论」的新路径?
  • 清华陈麟九人天团,攻克几何朗兰兹猜想!30年千页证明,冲刺菲尔兹大奖?
  • 美团王莆中:外卖「卷」没意义,全是泡沫;特斯拉中国特供加长 Model Y 曝光;钟薛高被破产立案审查,资不抵债|极客早知道
  • 黄仁勋:财务自由 30 年后,我没有梦想
  • 马斯克AI女友上线24h爆火,全球宅男连夜充值!月费30刀隐藏模式杀疯
  • 一键实现PPT演讲自由!「解说音频+视频」同步生成,效果逼近真人
  • 黄仁勋中国现场直击!假如有一个「数字黄仁勋」,我希望我们一起变聪明
  • 新加坡博士团队打造的 AI 办公产品,挑战微软 Office
  • 性能提高87%,数据需求减70%,天大等开发化学毒性预测模型,登Nature子刊
  • 维也纳ACL 2025,相聚机器之心人才晚宴,免费约饭!
  • 种子轮就估值120亿美元,她能打造另一个OpenAI吗?
  • 面对无解问题大模型竟会崩溃?港中文&华为联合提出首个大模型推理可靠性评估基准
  • AI 上新|这个 AI 浏览器,替我给女朋友打了「分手电话」
  • 亚马逊云科技入局Vibe Coding,推出Kiro重塑开发流程
  • 玻色子采样在量子人工智能领域首次找到实际应用
  • AI驱动的自主酶工程平台,底物偏好提升90倍,伊利诺伊大学新研究登Nature子刊
  • 打造全球首个强化学习云平台,九章云极是如何做到的?
  • DeepMind让AI当「上帝」,导演一场只有AI演员的「西部世界」
  • 重塑记忆架构:LLM正在安装「操作系统」
  • ICML 2025|多模态理解与生成最新进展:港科联合SnapResearch发布ThinkDiff,为扩散模型装上大脑
  • 突发|思维链开山作者Jason Wei被曝加入Meta,机器之心独家证实:Slack没了
  • 模仿学习新范式,Chain-of-Action:轨迹自回归实现动作推理
  • 基于Chrome 内核,OpenAI 浏览器被曝;网络身份证正式启用;中公推「AI 就业学习机」
  • 秘塔AI整大活,国内首个免费「深度研究」来了!搞研究证据链惊人
  • 加拿大丛林迷路五小时,ChatGPT救命神技,比地图还靠谱!
  • 一个 200 美元的 AI 浏览器,想重新教会我「上网」
  • 月活接近2亿,红果短剧即将超越优酷
  • 微软AI4S团队开发Orbformer: 告别多参考体系的「算不准」和「算不起」
  • 马斯克Grok这个二次元「小姐姐」,攻陷了整个互联网
  • MIRIX重塑AI多模态长期记忆:超Gemini 410%,节省99.9%内存,APP同步上线
  • 智能终端合辑 | WAIC 2025:AI赋能智能终端的产业革新
  • 科学智能合辑|AI会成为科学发现的同道者,还是只是统计上更聪明的螺丝刀?
  • 大模型合辑 | 主权高墙还是开源洪流,技术路线生死竞速,WAIC 2025大模型论坛亮点前瞻
  • 智能时代,同球共济!2025世界人工智能大会将于7月26日启幕
  • 央企牵头!这个AI开源社区要让大模型跑遍「中国芯」
  • ICML 2025杰出论文出炉:8篇获奖,南大研究者榜上有名
  • 什么都不做就能得分?智能体基准测试出现大问题
  • 南大等8家单位,38页、400+参考文献,物理模拟器与世界模型驱动的机器人具身智能综述
  • 元科学可以改进科学——但它也必须对社会有用
  • 精确捕捉疾病进程中细胞动力学变化,生成式平台UNAGI准确模拟药物扰动
  • 朋友圈的沉默,是我们这代人最无声的告别
  • 上海交大/上海AI Lab翟广涛:当评测不再重要,AGI就实现了
  • 内部爆料:Alexandr Wang上任第一把火,Meta大模型闭源
  • ICML 2025 | M+框架来了,增加LLM隐空间记忆,不再受上下文窗口限制
  • 突发|动荡72小时后,华人团队Cognition收购Windsurf剩余团队
  • 比Adam更有效,POET从谱不变原理出发,让LLM训练又稳又快
  • 饿了么极端补贴:倒贴 4 元;传 MiniMax 完成 3 亿美元融资,估值 300 亿;苹果或收购 Mistral,估值 58 亿欧元
  • MIT满分学霸掏空AI初创,谷歌24亿收购黑幕曝光!数百员工血本无归
  • AI进化时间表已现!LLM每7个月能力翻倍,2030年职场不复存在?
  • 史上最黑暗求职季!我,牛津硕士,失业半年、背债百万,只因AI抢了我的饭碗
  • AI下半场的「Game Changer」,直让老外惊呼「Amazing」
  • 智源RoboBrain 2.0+RoboOS 2.0双发:问鼎评测基准最强具身大脑,刷新跨本体多机协作技术范式
  • ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解
  • 谷歌 170 亿收编 Windsurf,硅谷 「AI 挖人」白热化,99% 的钱流向 1% 的人
  • 夜场预告 | WAIC UP!之夜:不是大会延长时,而是另一种打开AI的方式
  • 智能科学实验室加速未来科学发现,首版仿真智驱实验室LabUtopia发布
  • 亚洲最大的漫展,没有「AI 入侵」
  • Windsurf交易内幕疯传:24亿美元被瓜分,背刺数百员工?
  • 用动作分块突破RL极限,伯克利引入模仿学习,超越离线/在线SOTA
  • ACL 2025|自我怀疑还是自我纠正?清华团队揭示LLMs反思技术的暗面
  • ICCV 2025满分论文:一个模型实现空间理解与主动探索大统一
  • 英伟达&MIT等推出Long-RL,长视频训练速度翻倍
  • OpenAI的o3在新的「解答科学问题AI排行榜」上排名第一,DeepSeek的R1排名第二
  • 19 年来首次,今年没有新款苹果笔记本;传罗马仕老板「潜逃」马来西亚;联通 eSIM 手机业务上线,为 iPhone 17 准备|极客早知道
  • AI失忆术!只需3个注意力头,就能让大模型忘记「狗会叫」
  • OpenAI再次跳票,奥特曼:开源模型无限期推迟!
  • 奥特曼气到快失眠?OpenAI前大佬力挺:小扎砸钱挖墙脚,1亿美元很合理
  • AI编程「反直觉」调研引300万围观!开发者坚信提速20%,实测反慢19%
  • 「流匹配」成ICML 2025超热门主题!网友:都说了学物理的不准转计算机
  • VLA 推理新范式!一致性模型 CEED-VLA 实现四倍加速!
  • 美团:本月超 40 万众包骑手日入超 500 元;SpaceX 将向 X.AI 投资 20 亿美元;谷歌 24 亿美元收编 Windsurf
  • 氛围编程后,Karpathy又双叒有新「脑洞」!PDF将死,未来99%是AI氛围阅读
  • 用AI,写代码只会更慢!但一定更「快乐」
  • 突发!Manus彻底撤出中国
  • AI 上新|我让 AI「偷窥」了我的屏幕,它有机会变成我第二个大脑
  • 第一作者必须是AI!首个面向AI作者的学术会议来了,斯坦福发起
  • ICML 2025 Oral!北大和腾讯优图破解AI生成图像检测泛化难题:正交子空间分解
  • 无Tokenizer时代真要来了?Mamba作者再发颠覆性论文,挑战Transformer
  • Meta扩张继续!挖走OpenAI 2名多模态AI研发人员,收购语音初创公司PlayAI
  • EasyCache:无需训练的视频扩散模型推理加速——极简高效的视频生成提速方案
  • 深夜开源首个万亿模型K2,压力给到OpenAI,Kimi时刻要来了?
  • 刚刚,OpenAI想收购的Windsurf,被谷歌DeepMind抢走了核心团队
  • ICCV2025 | 多视图生成新范式-利用自回归模型探索多视图生成
  • 模拟大脑功能分化!北大与港中文发布Fast-in-Slow VLA,让“快行动”和“慢推理”统一协作
  • Manus 清空国内多平台账号,北京办公区目前仅剩十余人在岗;Meta 离职大牛千字怒揭「黑幕」;小米王腾将出演短剧|极客早知道
  • 用MoE打造DNA基础模型更强范式!人大实现seq2func全新突破
  • Meta离职大牛千字「血书」,怒揭黑幕!内斗、抢功、末位裁员,全是毒瘤
  • 硅谷魔幻现实:马斯克多次背刺、Grok黑化翻车,女CEO连夜提桶跑路!
  • 首个旅游行业超级智能体上线,AI Agent落地垂直领域再下一城
  • ICML 2025,相约加拿大温哥华!机器之心免费请你吃饭
  • ICML spotlight | 一种会「进化」的合成数据!无需上传隐私,也能生成高质量垂域数据
  • 拍我AI(PixVerse)上线多关键帧生成功能 ,AI视频创作从“片段”迈向“故事性表达”
  • 马斯克吹牛了吗?Grok 4第一波实测出炉:既能完虐o3,也菜到数不清6根手指
  • 实测Vidu Q1参考生功能,看到诸葛亮丘吉尔拿破仑在长城拍照留念
  • 微软研究院BioEmu登上Science,用生成式AI重塑蛋白质功能研究
  • 告别Transformer!北大、北邮、华为开源纯卷积DiC:3x3卷积实现SOTA性能,比DiT快5倍!
  • 从「一团乱麻」到清晰分型,AI精准解析肿瘤细胞多样性,助力个性化联合疗法设计
  • 首次实现「自驱动」,材料发现效率提升6倍,贝叶斯优化+CALPHAD计算的新方法
  • 是的,LeCun要向28岁的Alexandr Wang汇报!这是Meta新AI团队的一些独家内部消息
  • 打破大模型编程「数据污染」与「能力虚胖」困境,Meituan-M17团队构建新一代AI编程评测新标准——OIBench
  • 罗马仕中层曝问题充电宝内幕;传 OpenAI 计划推出浏览器产品;邓紫棋首部科幻小说预售

免剪辑直出!AI生成多角色同框对话视频,动态路由精准绑定音频



  新智元报道  

编辑:LRST

【新智元导读】Bind-Your-Avatar是一个基于扩散Transformer(MM-DiT)的框架,通过细粒度嵌入路由将语音与角色绑定,实现精准的音画同步,并支持动态背景生成。该框架还引入了首个针对多角色对话视频生成的数据集MTCC和基准测试,实验表明其在身份保真和音画同步上优于现有方法。

近年来随着视频生成基础模型的涌现,音频驱动的说话人视频生成领域也取得了显著进展。

但现有方法主要聚焦于单角色场景,现有可生成两个角色对话视频的方法仅能单独地生成两个分离的说话人视频。

针对这一挑战,研究人员提出了首个专注同场景多角色说话视频生成的框架Bind-Your-Avatar

该模型基于扩散Transformer(MM-DiT),通过细粒度的嵌入路由机制将「谁在说」与「说什么」绑定在一起,从而实现对音频–角色对应关系的精确控制。

论文地址:https://arxiv.org/abs/2506.19833

项目地址:https://yubo-shankui.github.io/bind-your-avatar

作者同时构建了首个针对多角色对话视频生成的完整数据集(MTCC)和评测基准,提供了端到端的数据处理流程。

大量实验表明,Bind-Your-Avatar在多角色场景下生成效果优异,在人脸身份保真和音画同步等指标上均显著优于现有基线方法。


Bind-Your-Avatar

方法概览

Bind-Your-Avatar基于一个多模态文本到视频扩散Transformer(MM-DiT)搭建,模型输入包括:文本提示、多路语音音频流、多个角色的人脸参考图像,以及(可选)一帧用于绘制背景的inpainting帧。

文本、音频和人脸身份特征通过特征编码器提取,并由Embedding路由引导的交叉注意力(Cross-Attention)将人脸和音频信息选择性地注入到视觉Token中,从而实现音画同步性的关联。

模型的训练分为三个阶段:第一阶段只生成带补全帧的静音角色运动视频(不使用音频),第二阶段加入单角色语音输入学习音频驱动的精细角色运动(通过LoRA轻量化微调),第三阶段引入多角色语音输入并联合训练Embedding路由(使用教师强制方法防止掩码退化)。

细粒度Embedding路由引导的音频–角色驱动

Embedding路由的作用输出是一个时空掩码矩阵M,用于指示每个视觉Token对应哪个角色(或背景),从而将说话人与具体语音绑定。

在训练时,研究人员设计了交叉熵损失监督路由输出,并结合几何先验引入时空一致性损失和层一致性损失,增强掩码的准确性和平滑性。

论文中探讨了三种路由实现方式:预去噪(Pre-Denoise,用静态2D掩码)、后去噪(Post-Denoise,两阶段生成后预测3D掩码)以及内置去噪(Intra-Denoise)路由

Intra-Denoise路由在扩散去噪过程中动态生成细粒度3D时空掩码,实现对各角色帧级独立控制。这种设计不仅提升了音频与对应角色口型的精度,还保持了角色身份的连贯性。

为了得到高质量的3D-mask,研究人员在路由的设计中提出了两个有效的方法。其中,掩码优化策略通过引入几何先验对掩码进行正则化,提高了角色与背景区域分割的准确度和时序一致性;此外,研究人员还提出了一种掩码细化流程,将初步预测的稀疏掩码进行平滑和时间一致性校正,进一步增强掩码质量。

MTCC数据集

为了支持多角色视频生成,研究人员构建了MTCC数据集(Multi-Talking-Characters-Conversations),该数据集包含200+小时的多角色对话视频。

数据处理流程包括:

视频清洗(筛选分辨率、时长、帧率;确保视频中恰有两个清晰角色;姿态差异度过滤等)、音频分离与同步筛选(使用AV-MossFormer和Sync-C指标确保音画一致)、语音与文本标注(应用Wav2Vec提取音频特征,QWen2-VL生成描述)以及SAM2生成角色区域掩码作为监督信号。

MTCC附带完整的开源处理代码,为社区提供了从原始视频到训练数据的端到端流水线。


实验与分析

定量分析

研究人员在MTCC测试集和全新基准集(Bind-Your-Avatar-Benchmark,含40组双角色人脸和双流音频)上与多种基线方法进行了对比,包括最近的Sonic、Hallo3和Ingredients等。这些方法原本设计用于单角色或无背景场景,对本任务进行了适配。

定量指标涵盖角色身份保持(Face Similarity)、音画同步(Sync-C、Sync-D)以及视觉质量(FID、FVD)等。

结果表明,Bind-Your-Avatar在人脸相似度音画同步度指标上均显著优于各基线(同步指标尤其优异),而在FID/FVD等视觉质量指标上也保持竞争力。

消融实验进一步验证:细粒度3D掩码比边界框或静态2D掩码能更好地应对角色运动和近距离互动,提升了动态场景下的生成质量。

定性分析

Bind-Your-Avatar能自然处理多角色的交叉说话场景,同时生成统一、动态的背景,无需后期拼接。

例如,Bind-Your-Avatar能生成两个角色同时讲述不同内容的对话视频,并保持每个角色的口型与对应语音高度同步,同时人物面部和表情逼真。


结语

Bind-Your-Avatar 首次提出了同场景多角色语音驱动视频生成任务,并提供了从算法到数据集的完整解决方案。

其主要贡献包括:细粒度Embedding路由机制(实现「谁在说什么」的精确绑定)、动态3D-mask路由设计(逐帧控制各角色),以及MTCC数据集和对应的多角色生成基准。

未来工作将聚焦于增强角色动作的真实感(如身体和手势动作)并优化模型实时性能,以适应更大规模和在线化的多角色视频生成需求。

研究人员后续将开源数据集和代码,方便社区进一步研究。

参考资料:
https://arxiv.org/abs/2506.19833


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652610178&amp;idx=3&amp;sn=48eabea9c018b4812d4b2e9852f14243&amp;chksm=f02f25a1b2961d7c05a5ffb602499384347dd6c668d152a7e30bd8fd1dbcc1036fd88dc890e0&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/83671/VAhRM3avD3&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们