动态列表

  • 港中文&港科大等提出FullPart:让3D部件生成达到全分辨率精度
  • 港科大(广州)等联合发布多模态空间推理综述:为大模型画下空间理解的未来蓝图
  • ReDiff:突破并行生成瓶颈,多模态扩散模型生成质量与效率双提升
  • 谢菲尔德大学提出Region-CAM:mIoU提升13.6%,破解弱监督学习中的目标定位难题
  • 英伟达开源ChronoEdit,让P图学会物理常识,时序推理颠覆图像编辑!
  • 天津大学与快手联手提出GRAG:仅需4行代码,实现图像编辑的“丝滑”微调
  • 普林斯顿大学联手谷歌DeepMind,BOB让少样本细粒度分类精度飙升7.4%
  • IROS 2025 | 大连理工等提出STG-Avatar:25分钟训练,单目视频实时生成高保真数字人
  • 中科院SNELLA:视觉模型微调新范式,性能超越SOTA,内存占用降低近40%
  • 美团开源LongCat-Video:136亿参数长视频生成,分钟级推理720p
  • 看似万能的 AI,其实比你想的更脆弱和邪恶
  • 重建超越RAE,还能做编辑!北大&通义提出UniLIP: 自蒸馏训练助力CLIP大一统
  • 世界模型是否需要显式的 3D?UT Austin 新作 PE-Field 给出答案
  • Feed-Forward 3D综述:三维视觉进入“一步到位”时代
  • CUPID:单图秒速重建3D,港大提出姿态引导新范式
  • 每周100万人与ChatGPT聊自杀;美团推全国骑手社保补贴;高通发AI芯片,股价暴涨20%
  • 美国大学排名出炉:哥大断崖式下滑,MIT稳居CS榜第一!
  • 开源即登榜!登顶全球前十AI编程智能体,UCL初创团队开源Prometheus
  • 奥特曼考虑给ChatGPT加广告了!用8亿用户,救万亿债务
  • VaseVQA:考古领域实现专家级,诊断+补弱RL框架
  • 弑母分尸案震惊世界,AI伪造语音骗过警察!
  • 一把吉他卖出 10 亿后,LiberLive 选择自我革命
  • 仅仅是 AI,并不能让硬件更「智慧」,更重要的其实是这个
  • 北京/上海/杭州内推 | 蚂蚁集团保险大模型算法团队招聘大模型算法专家(P6-P7)
  • RL记得更牢,SFT更健忘?普林斯顿陈丹琦团队改写后训练认知
  • 首个面向大模型的形式化数学竞赛正式启动:推动AI数学推理迈向可验证新高度
  • ICCV'25|开源AI3D数据集Objaverse++:更少的数据,却有更好的生成效果
  • 川大等提出LG-CD:一句话精准锁定遥感影像变化,F1分数高达91.83%
  • “压缩不减智”!EPIC让多模态大模型以更少 Token 跑得更快、更稳|NeurIPS 2025
  • ​一个对话助理,如何盘活整个「夸克宇宙」?
  • 马斯克 xAI 上新款「虚拟女友」;传小米 17 Air 明年上;996 成美国创业者美德
  • AI黑化如恶魔附体!LARGO攻心三步,潜意识种子瞬间开花 | NeurIPS 2025
  • 可攻可防,越狱成功率近90%!六大主流模型全中招 | EMNLP'25
  • 硅谷的「十万大裁员」:Meta按代码量裁员
  • 超94%类别第一!3D点云异常检测与修复新SOTA | ICCV'25
  • AI人格分裂实锤!30万道送命题,撕开OpenAI、谷歌「遮羞布」
  • 思而不学则殆:通义实验室×北大联合提出RL-PLUS,突破大模型推理边界
  • NeurIPS 2025 | 理解能否反过来教生成?VideoREPA让视频生成模型“懂物理”
  • 博士申请 | 香港中文大学陈玥老师招收人工智能/智能电网方向全奖博士生
  • NeurIPS 2025 | 港中文等提出COS3D:协同语言与分割,革新开放词汇3D分割
  • 上海交大与上海AI lab联手推出RAPO++:跨阶段提示优化,让文生视频模型“更懂你心”
  • 传OpenAI正开发新的生成式音乐工具;苹果将AirPods印度产能扩大一倍;《王者荣耀世界》官宣2026春天见

多人物也能“认得准”!阿里开源Identity-GRPO,刷新视频生成一致性上限

让你更懂AI的 2025-10-27 18:34 北京

让模型不再“认错人”

在视频生成的世界里,“认不清人”成了一个尴尬的通病。无论是两个人同框跳舞,还是多人合作演绎剧情,模型常常为了追求画面一致性而牺牲人物身份,一不留神就“串脸”“换人”。

来自阿里云的研究团队决定正面破解这一难题——他们设计出一套专为多人物视频生成打造的后训练优化算法,让模型在生成时不仅“会拍”,更能记住每一张脸。

这项名为 Identity-GRPO 的新方法,基于强化学习框架重塑了模型的对齐方式,并已完整开源代码与权重,为视频生成社区提供了新的解决思路。

论文标题:

Identity-GRPO:Optimizing Multi-Human Identity-preserving Video Generation via Reinforcement Learning

论文链接:

https://arxiv.org/abs/2510.14256

项目主页:

https://ali-videoai.github.io/identity_page

代码链接:

https://github.com/alibaba/identity-grpo

引言

随着 Diffusion Transformer 架构的发展,高质量视觉内容生成已经取得了显著进展,特别是身份保持视频生成技术——即创造具有一致人类身份的高保真度视频——已成为一个重要研究方向。

然而,当涉及到多人物身份保持视频生成(MH-IPV)任务时,即使是目前最先进的模型如 VACE 和 Phantom 也面临着严峻挑战。这些模型必须在满足复杂文本指令的同时,在整个视频序列中维护各个角色的身份一致性。

研究者们观察到,现有模型常常会为了整体构图相似性而牺牲个体身份的准确性。比如,在处理类似"两个穿着不同服装的人同步跳舞"这样的提示词时,模型可能会交换角色间的面部特征,导致运动模式连贯但身份严重错位的现象等。

Identity-GRPO

为了解决这一问题,阿里的研究团队提出了一种全新的人类反馈驱动的优化策略——Identity-GRPO,这是首个专门针对多人物身份保持的视频生成场景设计的人类偏好驱动的对齐策略。

核心技术亮点

1. 大规模偏好数据集构建

研究团队构建了一个包含约 15,000 个标注样本的大规模高质量数据集。该数据集采用了半自动化框架结合人工标注的混合流水线,通过对五个先进视频生成模型的生成视频对进行精细地筛选和标注,从而获得最终的成对的偏好数据。

这种方法的优势在于超越了人工标注的限制,同时通过质量控制的过滤方式保持了与人类偏好的严格对齐。

2. 专用奖励模型设计

传统的奖励信号如 ArcFace 在多人物场景中存在局限性,容易受到非身份相关因素的影响,产生所谓的“复制粘贴”效应(Copy-Paste Issue)。为此,研究人员基于 Qwen2.5VL 模型,训练了一个能够捕捉成对视频样本间细粒度身份一致性质量差异的专用奖励模型。

该模型采用了两阶段训练方法:先在高质量的人工标注数据集上训练初步奖励模型,然后用其对自动标注数据进行一致性过滤,最终在人工标注数据和过滤后的自动标注数据上联合训练获得最优效果。

3. Identity-GRPO 在 MH-IPV 任务上的针对性改进

Group Relative Policy Optimization(GRPO)虽然在复杂推理任务中表现出色,但在应用于 MH-IPV 任务时面临独特挑战。

不同于 T2V 任务,MH-IPV 任务的输入包含多个模态,这引入了显著的方差,使得采样的视频难以支持稳定的 GRPO 训练。为此,Identity-GRPO 引入了多项增强 GRPO 训练稳定性的策略:

初始噪声差异化:可以扩大生成视频之间的多样性。在 MH-IPV 中,由于参考图像的约束,仅依靠 SDE 引入的随机性,很难在同一组视频中创建显著的身份差异。这严重限制了强化学习训练所需的探索空间。

因此,在采样过程中,研究团队采用不同的初始化噪声来增强生成视频之间的多样性。

更大批次的视频采样:可以应对多种模态输入的方差问题。在 Identity-GRPO 中,由于不同模态之间的方差,仅使用少量视频进行单次参数更新可能导致训练不稳定甚至崩溃。

所以研究团队在 Identity-GRPO 的单次参数更新中采样更多数量的视频样本以增强训练稳定性——这类似于在标准训练中使用更大的批次大小。

提示词细化:可以确保提示词准确描述参考图像中的人物特征。在本工作中,研究团队发现不同的基础模型,如 VACE 和 Phantom,对提示词和参考图像的差异表现出不同的敏感程度。

因此研究团队采用了 Qwen2.5-VL 来细化提示词,生成包含参考图像中人物角色的准确描述的提示词以提升训练效果。

实验验证:显著的性能提升

经过广泛的消融研究和系统性评估,Identity-GRPO 展现出了令人瞩目的表现:

Identity-Consistency Reward 曲线

图中的(a)和(b)分别显示了 Identity-GRPO 在 VACE-1.3B 和 Phantom-1.3B 上的身份一致性奖励值的曲线。两者都表现出明显的上升趋势。说明了 Identity-GRPO 基于多个模型均可以取得一致的性能提升。

定量实验结果

1. 在身份一致性指标上,Identity-GRPO 相比基准方法 VACE 提升了最高 18.9%;

2. Identity-GRPO 相比 Phantom 模型提升了 6.5% 的性能;

3. 除此之外,在论文中展示的偏好准确性基准测试中,提出的身份一致性奖励模型达到了0.890 的准确率,明显优于传统方法 ArcFace,它的准确率仅有 0.772。

可视化结果对比

前两组视频展示了 Phantom-1.3B 与 Phantom-1.3B+Identity-GRPO 的对比,最后两组视频则是 VACE-1.3B 与 VACE-1.3B+Identity-GRPO 的对比。

在每一组中,第一段视频展示了基线模型的结果,第二段视频则展示了由 Identity-GRPO 优化后的生成结果。在这些情况下,基线模型生成视频中的人物明显与参考图像不匹配,而 Identity-GRPO 则始终保持着较高的身份一致性。

消融实验

由于 MH-IPV 任务中的多模态输入条件,在每次参数更新中使用更大批次的视频以及多样化的初始噪声对于实现稳定的 Identity-GRPO 训练至关重要。

如表格所示,当视频数量不足时,GRPO 训练会变得不稳定,在采样一组视频时使用相同的初始化噪声会限制 GRPO 的探索空间,从而都会阻碍身份一致性奖励分数的提升。

技术创新价值

这项研究的贡献主要体现在三个方面:

1. 数据集资源:提供了首个面向多人物身份保持视频生成的高质量人类偏好标注数据集

2. 方法论创新:设计了多人物身份一致性奖励模型,并系统研究了针对 MH-IPV 任务的 GRPO 训练配置

3. 实践指导意义:为复杂多人物生成任务中强化学习与一致性视频生成的整合提供了新的见解

小结

Identity-GRPO 工作是多人物身份保持视频生成领域的一个积极探索。通过在现有技术基础上的优化,为解决这类问题提供了一条可行的思路。这项研究为后续相关工作积累了有价值的经验。期待看到更多研究者在这个有趣的方向上进行深入的探索和改进。

参考文献

· Identity-GRPO: Optimizing Multi-Human Identity-preserving Video Generation via Reinforcement Learning

· VACE: All-in-One Video Creation and Editing

· Phantom: Subject-Consistent Video Generation via Cross-Modal Alignment

研究团队的工作:

· Tora: Trajectory-oriented Diffusion Transformer for Video Generation

· Tora2: Motion and Appearance Customized Diffusion Transformer for Multi-Entity Video Generation

· AnimateAnything: Fine Grained Open Domain Image Animation with Motion Guidance

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们