
本文第一作者为密歇根州立大学计算机系博士生张益萌,系 OPTML 实验室成员,指导老师为刘思佳助理教授。研究工作主要完成于张益萌在字节跳动的实习期间。
扩散模型(Diffusion Models, DMs)如今已成为文本生成图像的核心引擎。凭借惊艳的图像生成能力,它们正悄然改变着艺术创作、广告设计、乃至社交媒体内容的生产方式。如今,只需一段文字,就能生成一张极具风格的个性化头像,已经不再稀奇。
但,如果我们想要的不只是 “一个人” 的照片呢?
在朋友缺席的聚会中,我们是否可以 “补全” 一张大家都在的合影?在广告场景中,我们是否可以自由组合多位虚拟角色,讲述一个多人物的故事?个性化的多人图像生成正成为新的想象力疆域。但同时,它也带来了前所未有的技术挑战。
其中最棘手的,就是身份特征泄露(ID leakage)—— 明明是两个人,却因为特征混淆,生成出面容 “融合” 的人脸,令人难以分辨谁是谁。更进一步,用户往往还希望可以精确指定每个人的位置和动作,实现更自然真实的构图和创意有趣的互动。可一旦位置错乱,原本的故事就变了味儿。
📷 从单人走向多人,挑战也随之升级
如今,个性化单人照片生成已能达到令人惊艳的视觉效果。但当我们尝试生成多人互动照片时,问题便不再简单。
最早试图解决身份混淆(ID 泄露)问题的方法之一是 OMG [1]。它采用 “两阶段” 策略:首先生成一张不含身份信息的底图,再借助分割模型识别人像区域,最后逐一注入身份特征。思路清晰,却问题频出:复杂背景下分割模型容易失效;前后阶段风格不一致,整体画面割裂;更重要的是,每个人都需要单独进行一次去噪,人数越多,生成越慢,体验越差。
另一种方法 InstantFamily [2] 则尝试通过注意力掩码(Attention mask)直接修改注意力机制,在一次生成中,让每个像素只 “看” 与其身份相关的特征向量。虽然在效率上有所突破,但 ID 泄露问题依然难以根除。其根源在于:(1)人脸掩码不够精准或人物过于靠近,易发生特征重叠;(2)注意力和卷积网络的结构本身,存在 “信息串位” 的风险。
🧩 为此,我们提出了全新方案 —— ID-Patch。
这是一个专为多人图像打造的 “身份 - 位置” 绑定机制,核心目标是:每个人都出现在对的位置,而且看起来就像自己。

📚 论文地址:https://arxiv.org/abs/2411.13632
💻 项目主页:https://byteaigc.github.io/ID-Patch/
🤖 模型下载:https://huggingface.co/ByteDance/ID-Patch
🎮 试玩demo:https://huggingface.co/spaces/ByteDance/ID-Patch-SDXL
⚓️ ID-Patch: 面向多人图像生成的身份 - 位置对齐机制
我们的设计思路很直观,将人脸信息拆解为两个关键模块:
ID Patch:将身份特征转化为小尺寸 RGB 图像块,直接贴入 ControlNet 的条件图像中,精确指定每个人的位置;
ID Embedding:作为身份细节的表达,与文本提示共同输入,增强人物面部的真实性与独特性。
特别地,ID Patch 兼具 “位置标记” 和 “身份锚点” 双重作用:不仅告诉模型 “谁在哪”,也帮助模型从多个 ID Embedding 中,正确选出对应的、包含更丰富细节的身份向量。
不仅如此,ID-Patch 还能灵活融合姿态图、边缘图、深度图等多种空间条件,轻松适配复杂场景,兼顾准确性与通用性。

🚀 实验效果:又快又准,一步到位!
如图表所示,ID-Patch 在身份还原 (identity resemblance) 与身份 - 位置匹配 (association accuracy) 两个核心指标上表现出色,分别达到了 0.751 和 0.958,充分体现出其在保持人物面部一致性和精确放置方面的强大能力。在文本对齐(text alignment)方面,各方法表现相近,差异不显著。而在生成效率上,ID-Patch 是所有方法中最快的!


值得注意的是,随着图中人脸数量的增加,OMG 和 InstantFamily 出现了明显的性能下降,主要由于 ID 泄露问题加剧;而 ID-Patch 的表现更为稳健,虽然也存在一定下降,但幅度较小。这种下降主要是由于人脸数量增多后,单张人脸在图像中的面积缩小,进而影响了 SDXL 模型对小脸部特征的还原效果。同时,更多人脸的存在也对面部特征提取提出更高的需求,因此会略微增加生成时间。
在速度方面,ID-Patch 的优势尤为突出:
⏱️ 生成 8 人合影仅需约 10 秒
🕑 相比之下,OMG 方法则需要近 2 分钟才能完成一张图像的生成
⚙️ InstantFamily 因为注意力掩码的引入,比 ID-Patch 稍慢
无论是还原度、位置精准度,还是生成效率,ID-Patch 都交出了一份令人满意的答卷!





💡 面部特征仍有提升空间,未来可期!
目前模型中的人脸特征可能仍然混杂了光照与表情变化等信息,尚未完全与身份特征解耦,这在一定程度上可能影响最终生成图像的质量与一致性。引入更多同一身份、不同光照和表情状态的图像,以丰富训练数据的多样性。这样的数据增强方式有望帮助模型更好地学习在不同条件下仍保持身份一致性的能力,从而进一步提升生成图像的真实感与细节表现力。

总结与展望
✨ 总的来说,ID-Patch 正在重新定义多人物图像生成的可能性。
我们提出的全新方法 ID-Patch,在多身份、多人物图像生成中实现了突破式提升 —— 不仅大幅增强了人物身份的还原度,还显著提高了生成图中每位人物位置的精准控制力。其核心创新在于:我们将每位人物的身份特征嵌入到一个独立的图像小块中,并借助 ControlNet 技术将这些 “身份块” 精确放置到目标位置,从根源上缓解了以往方法中常见的 ID 泄露问题。
更进一步,ID-Patch 拥有极强的兼容性和扩展性,能够与姿态控制、深度图等多种空间条件自然融合,具备良好的泛化能力。实验证明,在三人以上的复杂图像生成场景中,ID-Patch 始终保持出色表现,为生成式 AI 在合影、社交图像、虚拟人物排布等领域带来了前所未有的体验。
🔭 更精彩的未来,正在开启。
我们相信,未来可探索的方向将更加广阔:比如结合同一个人不同角度的图像进一步增强面部还原度,又或是通过 patch 技术实现对人物位置 + 表情的双重控制,从而让合成图像更加真实、生动、有温度。
参考文献
[1] Kong, Zhe, et al. "Omg: Occlusion-friendly personalized multi-concept generation in diffusion models." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2024.
[2] Kim, Chanran, et al. "Instantfamily: Masked attention for zero-shot multi-id image generation." arXiv preprint arXiv:2404.19427 (2024).
]]>