动态列表

  • 协和4+4的另一面:浙江范式用AI定义医疗未来!AI「智愈」时代来临
  • 睡觉也在卷!伯克利Letta新作「睡眠时计算」让推理效率飙升
  • 25位IT大佬亲述:AI「吃掉」程序员!码农黄金时代终结
  • i人如何在学术会议有效社交?滑铁卢大学教授Gautam Kamath亲授心得
  • 315 行代码构建编程助手,Go大佬揭开智能体的「神秘面纱」
  • 阿里云通义点金发布DianJin-R1金融领域推理大模型,32B模型荣膺榜首
  • 小米取消 SU7 Ultra 大马力限制 OTA;淘宝闪购上线,每天 2 个大红包;极客团队推《人生切割术》同款键盘
  • 1美元颠覆6000亿广告界,哥大辍学天才30天狂飙500万营收
  • 从游戏少女到AI女神!她用物理驯服AI,让飓风预测快1000倍
  • 全球首个AI科学家天团出道!007做实验碾压人类博士,生化环材圈巨震
  • 只要9美元!LoRA+强化学习,DeepSeek 1.5B推理性能暴涨20%
  • 刚刚,ICML 2025录用结果公布!好评论文惨遭拒,审稿人敷衍引全网怒喷
  • Aero-1-Audio: LMMs-Lab发布1.5B音频语言模型,长音频转录直出,性能优异!
  • ICML 2025放榜!接收率26.9%,高分被拒,低分录用惹争议
  • LoRA中到底有多少参数冗余?新研究:砍掉95%都能保持高性能
  • 浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误
  • Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
  • 马斯克怒怼特斯拉换帅报道;苹果库克称关税成本暂不转嫁给消费者,但未来难说;游戏科学获五四青年奖章集体
  • 400万token新SOTA!英伟达UIUC联手:兼顾长短上下文顶尖性能
  • AI圈惊天丑闻,Meta作弊刷分实锤?顶级榜单曝黑幕,斯坦福MIT痛斥
  • 北大出手,物理学院天才们教AI「做人」!PHYBench成大模型物理能力试金石
  • DeepSeek开源Prover-V2强推理模型,网友:奥数从没这么简单过
  • 被Transformer光芒掩盖的论文,Meta科学家回顾十年前创新之作
  • 后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
  • ScienceOne正式发布:基于科学基础大模型的智能科研平台
  • 一个月 78 块的 AI 日历,治好了我的「万事开头难」
  • DeepSeek 发布 Prover-V2 模型;小米首个推理大模型开源;饿了么宣布超百亿补贴加入外卖战局
  • 2万亿巨兽来袭,小扎亮底牌! 首次回应Llama 4风暴,开源榜单背锅
  • 清华出手,挖走美国顶尖AI研究者!前DeepMind大佬被抄底,美国人才倒流中国
  • 刚刚,DeepSeek-Prover-V2-671B开源!
  • 发布 Qwen3,阿里云拉开新一轮开源模型竞赛的序幕
  • Video-XL-Pro:端侧3B模型长视频理解新sota!性能赶超7B巨头!
  • 解决200种复杂材料,10Å尺度模拟纳米晶体,哥大团队用4万个原子结构训练AI,登Nature子刊
  • 真·开源MCP平台来了!ACI.dev能一站直连600+工具,让你的智能体秒变全能王!
  • 刚刚!OpenAI回滚了最新版本的GPT-4o,因ChatGPT「过度谄媚」
  • 只花9美元,推理能力暴涨20%!小模型Tina震撼登场,成本缩减260倍
  • 上交大推出首个AI智能体协议全面综述:从碎片化到互联互通的智能体网络
  • CVPR Oral | 南京大学李武军教授课题组推出分布式训练算法UniAP,大模型训练最高加速3.8倍
  • R1-Zero的无监督版本来了!SFT不再是必须,EMPO重新定义大模型推理微调
  • ICLR 2025 | 差分注意力机制爆火!DIFF Transformer击穿长文本建模天花板
  • 北邮-腾讯联合提出多任务提示调优推荐框架MPT-Rec,实现效率性能双突破
  • 北京内推 | 中电信人工智能公司招聘多模态大模型算法实习生
  • 沃尔玛通知中国供应商恢复供货;Meta 推独立 AI 助手,融合社交元素;因「过于奉承」,OpenAI 撤回更新
  • AI包办79%代码,程序员饭碗不保!前端开发要凉,人类只配改Bug?
  • 细思极恐,AI操控舆论达人类6倍!卧底4月无人识破,Reddit集体沦陷
  • 大模型时代,百度智能云迎来最大机会
  • 我用Qwen3实测了9道经典难题,再聪明的AI也有犯傻的时候
  • 「拍照问夸克」,从「Know-What」到「Get it Done」的跃迁
  • 终端云端三连发!无问芯穹开源大模型推理加速神器,加码构建新一代端、云推理系统
  • 小红书,不止看车,更看生活
  • 阿里千问 3 登顶全球最强开源模型,性能超越 DeepSeek-R1、OpenAI-o1
  • GPU无上限+AGI顶尖课题!蚂蚁星「Plan A」全球招募下一代AI领航者
  • 模仿or探索?LUFFY:我全都要!巧妙融合外部指导,RL推理不再死板
  • 33,000美元奖金池!Meta CRAG-MM挑战赛开启,多模态RAG巅峰对决
  • 博士申请 | 香港中文大学MMLab岳翔宇老师招收人工智能全奖博士/RA/实习生
  • ChatGPT的尽头也是「带货」:3、2、1,上链接
  • ICLR 2025|首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%
  • 淘天集团“T-Star计划”首次向实习生开放,提供转正Offer
  • 猛击OpenAI o1、DeepSeek-R1!刚刚,阿里Qwen3登顶全球开源模型王座,深夜爆火
  • 语音领域ISCA Fellow 2025公布:上海交大俞凯、台大李宏毅等三位华人入选
  • 2025 Meta CRAG-MM Challenge 赛题发布
  • 上交大等探索键值压缩的边界:MILLION开源框架定义模型量化推理新范式,入选顶会DAC 2025
  • 蚂蚁密算福州发布密态可信数据空间:高性能、低成本和全链路安全
  • 海螺+可灵、上线两个多月、5万+围观,零破绽,这支AI广告藏得太深了
  • 阿里开源新一代通义千问模型 Qwen3;传刘强东曾和王兴共聚晚餐;马斯克:5 年内机器人将超越外科医生 | 极客早知道
  • AI 2027研究揭秘美国算力真相!中国全球AI专利Top1,但美国或以算力取胜
  • 华人博士用ChatGPT治病,比医生靠谱?OpenAI联创点赞
  • 100年企业知识超10万文件,「内网版ChatGPT」血洗最卷行业!全员70%和AI共事
  • AGI幻灭,LeCun观点得证?哈佛研究实锤AI不懂因果,世界模型神话破灭
  • 52页PPT,谷歌Gemini预训练负责人首次揭秘!扩展定律最优解
  • Apple Watch 10 周年,哪些「环」直到现在也没「合上」?
  • 从「黑科技」到「量产」,爱奇艺的虚拟制作进化论
  • 打造「无所不能、无处不在」的 AI,百度为何要从「操作系统」做起?
  • 北大物院200人合作,金牌得主超50人!PHYBench:大模型究竟能不能真的懂物理?
  • ICLR 2025 Oral|差分注意力机制引领变革,DIFF Transformer攻克长序列建模难题
  • ICLR 2025 | 大模型是否能做到有效“遗忘”?从梯度视角重新审视LLM反学习方法
  • ICLR 2025 | 基于多任务学习的回归范式实现更快的灵活分子对接
  • 智象未来x商汤大装置:全栈赋能全球首个开放使用视频生成DiT模型
  • 两篇Nature Medicine,DeepSeek、GPT-4o等LLM在医学推理、临床决策中的应用评估
  • AI+量子计算:港科大等提出突破性低温存内计算方案
  • 除了Ilya、Karpathy,离职OpenAI的大牛们,竟然创立了这么多公司
  • 字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题
  • 首个系统性工具使用奖励范式,ToolRL刷新大模型训练思路
  • 模型压缩到70%,还能保持100%准确率,无损压缩框架DFloat11来了
  • 重磅发布 | 复旦《大规模语言模型:从理论到实践(第2版)》全新升级,聚焦AI前沿
  • AR智能革命!Satori系统读懂人类意图,科幻电影场景成现实
  • 受关税影响,美电商商品价格普涨;京东外卖扩招 10 万旗手;苹果 AI 智能眼镜有望 2027 年推出|极客早知道
  • 一行代码不用写,AI看论文自己「生」出代码库!科研神器再+1
  • OpenAI没说的秘密,Meta全揭了?华人一作GPT-4o同款技术,爆打扩散王者
  • 深度学习基础架构革新?通过梯度近似寻找Normalization的替代品
  • ICLR 2025 | 计算开销减半!Dynamic-LLaVA刷新多模态大模型推理加速上限
  • 迈向长上下文视频生成!FAR重塑下一帧预测范式,短视频与长视频双双登顶SOTA
  • 英伟达送钱送算力!数据过滤挑战赛开启:白嫖A100,冲击1万美金大奖!
  • 字节启动Top Seed大模型顶尖人才计划2026届校招
  • 纳米AI放大招!MCP万能工具箱,人人都能用上超级智能体
  • Devin开发团队开源DeepWiki,助你快速读懂所有GitHub代码库
  • ICLR 2025 | 无需训练加速20倍,清华朱军组提出用于图像翻译的扩散桥模型推理算法DBIM
  • 基于奖励驱动和自组织演化机制,全新框架ReSo重塑复杂推理任务中的智能协作
  • 阶跃星辰发布图像编辑模型 Step1X-Edit,性能开源最佳
  • 百度Create AI开发者大会:李彦宏发布两大新模型、多款热门AI应用,帮助开发者全面拥抱MCP
  • 清华系智谱×生数达成战略合作,专注大模型联合创新
  • 九章云极DataCanvas公司双论文入选全球顶会ICLR,推动AI解释性与动态因果推理核心进展​
  • 在介观尺度「找不同」?ML预测材料失效,使材料设计更安全
  • 阿里AI旗舰应用夸克发布全新“AI相机” 提升AI超级框多模态能力
  • 传马斯克 xAI 正寻求 200 亿美元融资;Waymo 未来或向个人销售自动驾驶汽车;贾跃亭回应「下周回国」梗

CVPR 2025 | 如何稳定且高效地生成个性化的多人图像?ID-Patch带来新解法

图片

本文第一作者为密歇根州立大学计算机系博士生张益萌,系 OPTML 实验室成员,指导老师为刘思佳助理教授。研究工作主要完成于张益萌在字节跳动的实习期间。

扩散模型(Diffusion Models, DMs)如今已成为文本生成图像的核心引擎。凭借惊艳的图像生成能力,它们正悄然改变着艺术创作、广告设计、乃至社交媒体内容的生产方式。如今,只需一段文字,就能生成一张极具风格的个性化头像,已经不再稀奇。

但,如果我们想要的不只是 “一个人” 的照片呢?

在朋友缺席的聚会中,我们是否可以 “补全” 一张大家都在的合影?在广告场景中,我们是否可以自由组合多位虚拟角色,讲述一个多人物的故事?个性化的多人图像生成正成为新的想象力疆域。但同时,它也带来了前所未有的技术挑战。

其中最棘手的,就是身份特征泄露(ID leakage)—— 明明是两个人,却因为特征混淆,生成出面容 “融合” 的人脸,令人难以分辨谁是谁。更进一步,用户往往还希望可以精确指定每个人的位置和动作,实现更自然真实的构图和创意有趣的互动。可一旦位置错乱,原本的故事就变了味儿。

📷 从单人走向多人,挑战也随之升级

如今,个性化单人照片生成已能达到令人惊艳的视觉效果。但当我们尝试生成多人互动照片时,问题便不再简单。

最早试图解决身份混淆(ID 泄露)问题的方法之一是 OMG [1]。它采用 “两阶段” 策略:首先生成一张不含身份信息的底图,再借助分割模型识别人像区域,最后逐一注入身份特征。思路清晰,却问题频出:复杂背景下分割模型容易失效;前后阶段风格不一致,整体画面割裂;更重要的是,每个人都需要单独进行一次去噪,人数越多,生成越慢,体验越差

另一种方法 InstantFamily [2] 则尝试通过注意力掩码(Attention mask)直接修改注意力机制,在一次生成中,让每个像素只 “看” 与其身份相关的特征向量。虽然在效率上有所突破,但 ID 泄露问题依然难以根除。其根源在于:(1)人脸掩码不够精准或人物过于靠近,易发生特征重叠;(2)注意力和卷积网络的结构本身,存在 “信息串位” 的风险。

🧩 为此,我们提出了全新方案 —— ID-Patch

这是一个专为多人图像打造的 “身份 - 位置” 绑定机制,核心目标是:每个人都出现在对的位置,而且看起来就像自己。

图片
  • 📚 论文地址:https://arxiv.org/abs/2411.13632 

  • 💻 项目主页:https://byteaigc.github.io/ID-Patch/

  • 🤖 模型下载:https://huggingface.co/ByteDance/ID-Patch 

  • 🎮 试玩demo:https://huggingface.co/spaces/ByteDance/ID-Patch-SDXL

⚓️ ID-Patch: 面向多人图像生成的身份 - 位置对齐机制

我们的设计思路很直观,将人脸信息拆解为两个关键模块:

  • ID Patch:将身份特征转化为小尺寸 RGB 图像块,直接贴入 ControlNet 的条件图像中,精确指定每个人的位置;

  • ID Embedding:作为身份细节的表达,与文本提示共同输入,增强人物面部的真实性与独特性。

特别地,ID Patch 兼具 “位置标记” 和 “身份锚点” 双重作用:不仅告诉模型 “谁在哪”,也帮助模型从多个 ID Embedding 中,正确选出对应的、包含更丰富细节的身份向量。

不仅如此,ID-Patch 还能灵活融合姿态图、边缘图、深度图等多种空间条件,轻松适配复杂场景,兼顾准确性与通用性

图片

🚀 实验效果:又快又准,一步到位!

如图表所示,ID-Patch 在身份还原 (identity resemblance) 与身份 - 位置匹配 (association accuracy) 两个核心指标上表现出色,分别达到了 0.7510.958,充分体现出其在保持人物面部一致性和精确放置方面的强大能力。在文本对齐(text alignment)方面,各方法表现相近,差异不显著。而在生成效率上,ID-Patch 是所有方法中最快的

图片
图片

值得注意的是,随着图中人脸数量的增加,OMG 和 InstantFamily 出现了明显的性能下降,主要由于 ID 泄露问题加剧;而 ID-Patch 的表现更为稳健,虽然也存在一定下降,但幅度较小。这种下降主要是由于人脸数量增多后,单张人脸在图像中的面积缩小,进而影响了 SDXL 模型对小脸部特征的还原效果。同时,更多人脸的存在也对面部特征提取提出更高的需求,因此会略微增加生成时间。

在速度方面,ID-Patch 的优势尤为突出:

  • ⏱️ 生成 8 人合影仅需约 10 秒

  • 🕑 相比之下,OMG 方法则需要近 2 分钟才能完成一张图像的生成

  • ⚙️ InstantFamily 因为注意力掩码的引入,比 ID-Patch 稍慢

无论是还原度、位置精准度,还是生成效率,ID-Patch 都交出了一份令人满意的答卷!

图片
图片
图片
图片
图片

💡 面部特征仍有提升空间,未来可期!

目前模型中的人脸特征可能仍然混杂了光照表情变化等信息,尚未完全与身份特征解耦,这在一定程度上可能影响最终生成图像的质量与一致性。引入更多同一身份、不同光照和表情状态的图像,以丰富训练数据的多样性。这样的数据增强方式有望帮助模型更好地学习在不同条件下仍保持身份一致性的能力,从而进一步提升生成图像的真实感与细节表现力。

图片

总结与展望

✨ 总的来说,ID-Patch 正在重新定义多人物图像生成的可能性。

我们提出的全新方法 ID-Patch,在多身份、多人物图像生成中实现了突破式提升 —— 不仅大幅增强了人物身份的还原度,还显著提高了生成图中每位人物位置的精准控制力。其核心创新在于:我们将每位人物的身份特征嵌入到一个独立的图像小块中,并借助 ControlNet 技术将这些 “身份块” 精确放置到目标位置,从根源上缓解了以往方法中常见的 ID 泄露问题

更进一步,ID-Patch 拥有极强的兼容性和扩展性,能够与姿态控制、深度图等多种空间条件自然融合,具备良好的泛化能力。实验证明,在三人以上的复杂图像生成场景中,ID-Patch 始终保持出色表现,为生成式 AI 在合影、社交图像、虚拟人物排布等领域带来了前所未有的体验。

🔭 更精彩的未来,正在开启。

我们相信,未来可探索的方向将更加广阔:比如结合同一个人不同角度的图像进一步增强面部还原度,又或是通过 patch 技术实现对人物位置 + 表情的双重控制,从而让合成图像更加真实、生动、有温度

参考文献

[1] Kong, Zhe, et al. "Omg: Occlusion-friendly personalized multi-concept generation in diffusion models." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2024.

[2] Kim, Chanran, et al. "Instantfamily: Masked attention for zero-shot multi-id image generation." arXiv preprint arXiv:2404.19427 (2024).

]]>

联系我们