CV君 2025-11-06 17:35 江苏
全新训练范式,实现高保真、多样可控的ID生成。
最近,AI图像生成领域最头疼的问题之一,莫过于如何让生成的虚拟人物不仅长得像,还能在不同场景、姿势和表情下保持身份的一致性。很多模型生成的“写真”,仔细一看,总感觉像是把同一张脸生硬地“复制粘贴”到不同的身体上,缺乏真实感和自然感。
今天,CV君要和大家分享一项来自复旦大学和StepFun团队的最新研究成果——WithAnyone。这项工作直面“复制粘贴”这一痛点,提出了一套全新的解决方案,让AI在生成多人图像时,既能保证每个人的身份特征,又能实现丰富的变化和灵活的控制。
“WithAnyone”寓意着能够将任何人的身份(Anyone)自然、可控地融入任何新情境(With)的生成模型。
论文标题: WithAnyone: Towards Controllable and ID Consistent Image Generation
作者团队: Hengyuan Xu, Wei Cheng, Peng Xing, Yixiao Fang, Shuhan Wu, Rui Wang, Xianfang Zeng, Daxin Jiang, Gang Yu, Xingjun Ma, Yu-Gang Jiang
所属机构: 复旦大学, StepFun
“复制粘贴”的困境与破局之路
相信大家在玩各种AI绘画应用时都遇到过类似问题:想让AI画一个特定人物的不同生活照,结果发现AI只是机械地重复同一张面孔,无论换什么背景、摆什么姿势,脸部的光影、角度甚至微表情都一成不变。这种现象,研究者们称之为“复制粘贴”(Copy-Paste)伪影。
上图展示了现有方法在面对“一位金发女士,化着淡妆”这样的简单提示时,生成的图像(InstantID, PULID)与参考图(Input)过于相似,几乎是“复制粘贴”,而WithAnyone则能根据提示生成更自然、更多样化的结果。
导致这个问题的主要原因是,现有方法大多在训练时缺少高质量的“成对数据”——即同一个ID在不同情境下(不同姿势、表情、光照)的多张照片。因此,模型只能采用一种基于“重建”的训练方式,也就是让模型学习如何完美复现输入的参考图。这种训练方式虽然能提高“脸部相似度”,但本质上是让模型走了捷径,学会了“复制”,而不是真正理解和保留一个人的“身份ID”。
为了打破这种局面,WithAnyone团队从数据和算法两个层面进行了创新。
MultiID-2M:为ID一致性量身打造的大规模数据集
正所谓“工欲善其事,必先利其器”。要教会AI“神似”而非“形似”,首先需要一个强大的数据集。为此,团队构建了一个名为 MultiID-2M 的大规模成对数据集。
如上图所示,MultiID-2M的构建过程非常精细,分为四步:
收集和聚类单人ID数据:从网络收集大量单人图像,并基于人脸识别特征进行聚类,为每个ID建立一个丰富的参考图像库。
收集多人ID数据:通过特定关键词(如人名、场景)进行靶向搜索,收集包含多个ID的合影。
ID图像配对:将单人数据和多人数据中的人脸进行匹配,形成“(单人参考图,合影目标图)”这样的成对数据。
后处理:进行质量控制、美学评分和风格化处理,最终形成高质量的训练数据。
这个数据集包含了约200万张图像,其中有50万张是带有精确ID标注的成对多人图像,为模型学习“在变化中保持不变”提供了前所未有的丰富数据。
WithAnyone模型:对比学习与四阶段训练范式
有了高质量的数据,接下来就是算法的设计。WithAnyone模型的核心思想是,在训练中明确地告诉模型,哪些是“同一个人”,哪些是“不同的人”,从而引导模型学习到更鲁棒的身份表示。
核心架构与损失函数
WithAnyone的架构设计颇具巧思。对于每张参考人脸,模型会同时使用两种编码器:
人脸识别网络(Face-Recognition Network): 提取具有身份区分性的高层语义信号(即“这人是谁”)。
通用图像编码器(General Image Encoder): 捕捉补充性的中层特征(如发型、配饰等)。
在训练目标上,除了常规的扩散损失,WithAnyone引入了两个关键的ID损失函数:
GT对齐的ID损失(GT-aligned ID loss): 直接将生成图像的人脸与“真实目标图像”(Ground-Truth)的人脸进行比对,而不是与可能存在姿态、表情差异的“参考图像”比对。这避免了模型为了迁就参考图而产生“复制粘贴”。
对比身份损失(ID Contrastive Loss): 这是整个方法最核心的创新之一。它利用了MultiID-2M的成对数据,在训练时构建正负样本。简单来说,就是将“同一ID的不同照片”作为正样本,拉近它们的特征距离;将“不同ID的照片”作为负样本,推远它们的特征距离。通过这种方式,模型被“逼着”去学习那些真正能定义一个人身份的、跨越姿态和表情变化的核心特征。
四阶段训练流程
为了让模型稳定地学习,研究者设计了一个循序渐进的四阶段训练流程:
固定提示的重建预训练:初期使用固定的、简单的文本提示(如“两个人”)进行训练,让模型先专注于学习基本的ID注入能力。
带图文标题的重建预训练:引入更丰富的图文标题,使模型将ID学习与文本控制对齐。
成对数据微调(Paired Tuning):这是关键一步。将50%的训练数据换成MultiID-2M中的成对数据,迫使模型放弃“复制粘贴”的捷径,学习生成具有多样性的、身份一致的图像。
质量微调:最后在一个高质量的子集上进行微调,提升最终生成图像的质感和美学表现。
实验效果:显著优于现有方法
理论是算法的美好预期,实践才是算法的成功标准。WithAnyone的效果到底如何?
定量分析
研究团队建立了一个新的评测基准MultiID-Bench,专门用来衡量ID一致性生成中的两个关键指标:身份相似度(Sim(GT)) 和 复制粘贴程度(Copy-Paste)。
从上表的单人生成结果可以看出,WithAnyone在保持高身份相似度(Sim(GT) 0.460)的同时,获得了极低的复制粘贴分数(CP 0.144),远优于InstantID、PuLID等主流方法。
这张权衡图(Trade-off)非常直观地展示了WithAnyone的优势。其他模型几乎都落在一个“高相似度必然导致高复制粘贴”的曲线上,而WithAnyone成功地打破了这一权衡,做到了“鱼与熊掌兼得”,实现了右上角(高相似度、低复制粘贴)的理想效果。
在多人生成任务上,WithAnyone同样表现出色。
定性对比
光看数字可能不够直观,让我们直接看图(这里被公众号处理过,最好是打开论文看原高清大图)。
无论是单人还是多人场景,WithAnyone(最右列)生成的图像都展现了极高的灵活性和控制力。当提示词要求人物有特定表情或动作时,其他模型往往无法摆脱参考图的束缚,而WithAnyone则能忠实地执行指令,生成表情自然、姿态多样的图像,同时精准地保持了每个人的身份特征。
用户研究
为了验证模型的真实表现,团队还进行了一项用户研究。结果显示,在身份相似度、复制粘贴抑制、提示词遵循度和美学质量等所有维度上,WithAnyone都获得了用户的最高评价。
社区反应
这篇工作放在arXiv上和开源不到三周,获得了github star 450+,Huggingface数据集tredning次页,也收到了推特上很多大V的转发(AK Huggingface paper daily)。
最近ComfyUI社区也有人注意到这项工作,制作了相关插件ComfyUI-WithAnyone,极大降低了社区爱好者的使用难度,可谓技术快速落地了。
总结
CV君认为,WithAnyone的成功,关键在于它抓住了问题的核心:要解决ID一致性,不能只在算法上“卷”,更要从数据源头入手。通过构建MultiID-2M这样一个高质量的成对数据集,并设计出与之匹配的对比身份损失,WithAnyone为ID一致性生成任务提供了一个非常扎实且有效的范式。
这项研究不仅为我们带来了一个强大的新模型,更重要的是,它为社区提供了一个宝贵的数据集和一个全新的评测基准,无疑将推动整个领域向着更可控、更真实、更实用的方向发展。作者已经开源了代码,感兴趣的朋友可以去项目主页一探究竟。
大家对这个方法怎么看?欢迎在评论区留下你的看法!