动态列表

  • 强化学习教父重出江湖, 生成式AI的时代要结束了?
  • 英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万
  • 投85份简历0 Offer!CS研究生心态崩了,亲历20年最猛裁员潮
  • 视频模型假装在推理?MME-CoF新基准评估12个推理维度
  • Ilya、小扎之后,苏莱曼的「超级智能」进入7年倒计时!
  • 有些答案,听 AI 说一百遍,不如和「最有料的人」聊一次
  • 上交大刘鹏飞团队:Context Engineering进入2.0,上下文成为可操作对象
  • 工程&计算机领域前沿洞察 | Synthesis技术前沿报告合集
  • 用 AI 做电商真实效果如何?我们调研了双 11 一线从业者
  • 马斯克 1 万亿美元的薪酬方案获特斯拉股东批准;东方甄选孙东旭离职;Altman:今年 OpenAI 年化收入将达 200 亿美元
  • 蔚来,破 4 万!
  • 今年双十一最大的赢家是这张表
  • 大道至简,中科院等提出OneRef:统一视觉定位和指代分割
  • 极客公园创新大会 2026 首批嘉宾揭晓!
  • 自回归不必按token算了:微信AI × 清华用CALM直接「整段」预测
  • 北京内推 | 美团招聘大模型算法实习生(IM全渠道)
  • 达摩院联合浙大、港理工推出PixelRefer:多模态大模型迈向像素级视觉理解
  • Altman 怒喷 OpenAI 唱衰者;小鹏发布新一代人形机器人 IRON;苹果支付 10 亿美金,新 Siri 将引入谷歌 Gemini|极客早知道
  • 别被一堆Strong Accept吓住:德州农工×康奈尔实锤论文晒分“系统性虚高”
  • 博士申请 | 南洋理工大学王琦琛老师课题组招收数据库方向全奖博士/博后
  • 记忆让机器人更聪明:原力灵机提出MemoryVLA化解长时程任务操作难题
  • 151% 的增长背后,它正在成为 AI 的「新入口」
  • 清华&南洋理工等提出稀疏模型反演:ViT反演加速高达3.79倍,告别无效背景!
  • 低光图像增强新探索:SASW-Loss,无需改网络,即插即用提升多种模型性能
  • 山姆更新后遭会员疯狂吐槽;Switch2 销量破千万;小米马志宇警告存储涨价:明年最新的成本预估“有点惊悚”|极客早知道
  • Sketch-to-Layout,从草图到布局!DeepMind & EPFL 在设计领域的新工作
  • 为物理AI打造世界模型!英伟达发布Cosmos-2.5:模型缩小3.5倍,性能媲美SOTA
  • NeurIPS25 | 香港理工&OPPO&哈佛提出DNAEdit:直接噪声对齐让Rectified flow文生图编辑更加准确
  • 这个不「瞎 BB 」的 AI 硬件,给了我真正的「陪伴」丨New Things
  • Rokid 乐奇联手 BOLON 眼镜:眼镜巨头依视路的中国棋局
  • 跟一位日本比亚迪车主聊了聊,才明白我们对「出海」有多天真
  • 宁德时代赚走185亿,车企却不想再给「宁王」打工了
  • 从「绝望」到一轮融资43亿元:新石器做对了什么?
  • 全注意力、复杂推理不掉速:MiniMax M2把Agent做成了「可执行能力」
  • NeurIPS 2025 | 用蛋白质动态词表“搭积木”,ProDVa高效组装可折叠新蛋白
  • 北京内推 | 阿里通义实验室对话智能团队招聘大模型方向研究型实习生
  • 豆包,正在悄悄开启「电商新链路」
  • OpenAI 与 AWS 达成 380 亿美元算力合作;新 Siri 付费采用 Gemini;字节试行「豆包股」 | 极客早知道
  • ICCV 2025 | 高德提出SeqGrowGraph:以序列化图扩展革新车道拓扑生成
  • Karpathy点赞NUS新研究:RL微调不稳定的关键根源,指向BF16精度本身
  • 我体验了一下 AI 时代的「家」:快跑,到处都是 AI
  • 每天都和 AI 聊天,你可能已经是个「神经病」
  • 苹果,一赚「解」千愁
  • 多媒体顶会ACM MM 2025 最佳论文公布,从“看懂”到“会用”,再到“会思考”:揭示AI与物理世界融合新篇章
  • 顶刊ISPRS (IF 12+) | 400+参考文献,遥感图像超分辨率最新综述!
  • AMD发布E-MMDiT:仅304M参数,单节点1.5天训练,实现高效图像合成新基准
  • T1 零封 TES 战队,中国战队无缘 S15 总决赛舞台;英伟达合作制药巨头打造超级计算机;理想汽车汤靖详解 MEGA 起火事件|极客早知道
  • ICCV 2025 | 卡内基梅隆大学空间可变自动对焦:单次拍摄实现全场景清晰,重新定义计算摄影
  • NeurIPS 2025 | 电子科技大学联合A*STAR提出SCOPE:兼顾显著性与覆盖率,实现高效多模态大模型令牌剪枝
  • 特斯拉 Cybercab 实车曝光,部分量产;何小鹏谈雷军竞争:未来更期待对手是小米;黄仁勋完成 10 亿美元股票出售
  • 当强化学习学会“跳步骤”:Sergey Levine团队重写值函数的递归逻辑
  • 不用教它撒谎,LLM也会“心口不一”:上海AI Lab揭露高风险下的模型欺骗行为
  • 北京内推 | 快手模型与应用部增长模型团队招聘大模型/推荐方向算法实习生
  • 当 ChatGPT 要开始「搞黄色」,我都不敢想......
  • 港中文&港科大等提出FullPart:让3D部件生成达到全分辨率精度
  • 从 「会思考」到 「善创造」: 多模态大模型的深度推理与协同进化
  • 语言模型之后,智源 EMU3.5 找到了 AI 的「第三种 Scaling 范式」
  • 李想谈万台MEGA召回:生命只有一次;传明年AirPods配摄像头+AI;神舟二十一飞船发射成功,对接速度创纪录|极客早知道

复旦大学&StepFun提出WithAnyone:告别“复制粘贴脸”,实现可控、高保真的多人ID一致性生成

CV君 2025-11-06 17:35 江苏

全新训练范式,实现高保真、多样可控的ID生成。

最近,AI图像生成领域最头疼的问题之一,莫过于如何让生成的虚拟人物不仅长得像,还能在不同场景、姿势和表情下保持身份的一致性。很多模型生成的“写真”,仔细一看,总感觉像是把同一张脸生硬地“复制粘贴”到不同的身体上,缺乏真实感和自然感。

今天,CV君要和大家分享一项来自复旦大学和StepFun团队的最新研究成果——WithAnyone。这项工作直面“复制粘贴”这一痛点,提出了一套全新的解决方案,让AI在生成多人图像时,既能保证每个人的身份特征,又能实现丰富的变化和灵活的控制。

“WithAnyone”寓意着能够将任何人的身份(Anyone)自然、可控地融入任何新情境(With)的生成模型。

WithAnyone 效果示例
WithAnyone 效果示例

“复制粘贴”的困境与破局之路

相信大家在玩各种AI绘画应用时都遇到过类似问题:想让AI画一个特定人物的不同生活照,结果发现AI只是机械地重复同一张面孔,无论换什么背景、摆什么姿势,脸部的光影、角度甚至微表情都一成不变。这种现象,研究者们称之为“复制粘贴”(Copy-Paste)伪影。

上图展示了现有方法在面对“一位金发女士,化着淡妆”这样的简单提示时,生成的图像(InstantID, PULID)与参考图(Input)过于相似,几乎是“复制粘贴”,而WithAnyone则能根据提示生成更自然、更多样化的结果。

导致这个问题的主要原因是,现有方法大多在训练时缺少高质量的“成对数据”——即同一个ID在不同情境下(不同姿势、表情、光照)的多张照片。因此,模型只能采用一种基于“重建”的训练方式,也就是让模型学习如何完美复现输入的参考图。这种训练方式虽然能提高“脸部相似度”,但本质上是让模型走了捷径,学会了“复制”,而不是真正理解和保留一个人的“身份ID”。

为了打破这种局面,WithAnyone团队从数据和算法两个层面进行了创新。

MultiID-2M:为ID一致性量身打造的大规模数据集

正所谓“工欲善其事,必先利其器”。要教会AI“神似”而非“形似”,首先需要一个强大的数据集。为此,团队构建了一个名为 MultiID-2M 的大规模成对数据集。

如上图所示,MultiID-2M的构建过程非常精细,分为四步:

  1. 收集和聚类单人ID数据:从网络收集大量单人图像,并基于人脸识别特征进行聚类,为每个ID建立一个丰富的参考图像库。

  2. 收集多人ID数据:通过特定关键词(如人名、场景)进行靶向搜索,收集包含多个ID的合影。

  3. ID图像配对:将单人数据和多人数据中的人脸进行匹配,形成“(单人参考图,合影目标图)”这样的成对数据。

  4. 后处理:进行质量控制、美学评分和风格化处理,最终形成高质量的训练数据。

这个数据集包含了约200万张图像,其中有50万张是带有精确ID标注的成对多人图像,为模型学习“在变化中保持不变”提供了前所未有的丰富数据。

WithAnyone模型:对比学习与四阶段训练范式

有了高质量的数据,接下来就是算法的设计。WithAnyone模型的核心思想是,在训练中明确地告诉模型,哪些是“同一个人”,哪些是“不同的人”,从而引导模型学习到更鲁棒的身份表示。

核心架构与损失函数

WithAnyone的架构设计颇具巧思。对于每张参考人脸,模型会同时使用两种编码器:

  • 人脸识别网络(Face-Recognition Network): 提取具有身份区分性的高层语义信号(即“这人是谁”)。

  • 通用图像编码器(General Image Encoder): 捕捉补充性的中层特征(如发型、配饰等)。

在训练目标上,除了常规的扩散损失,WithAnyone引入了两个关键的ID损失函数:

  1. GT对齐的ID损失(GT-aligned ID loss): 直接将生成图像的人脸与“真实目标图像”(Ground-Truth)的人脸进行比对,而不是与可能存在姿态、表情差异的“参考图像”比对。这避免了模型为了迁就参考图而产生“复制粘贴”。

  2. 对比身份损失(ID Contrastive Loss): 这是整个方法最核心的创新之一。它利用了MultiID-2M的成对数据,在训练时构建正负样本。简单来说,就是将“同一ID的不同照片”作为正样本,拉近它们的特征距离;将“不同ID的照片”作为负样本,推远它们的特征距离。通过这种方式,模型被“逼着”去学习那些真正能定义一个人身份的、跨越姿态和表情变化的核心特征。

四阶段训练流程

为了让模型稳定地学习,研究者设计了一个循序渐进的四阶段训练流程:

  1. 固定提示的重建预训练:初期使用固定的、简单的文本提示(如“两个人”)进行训练,让模型先专注于学习基本的ID注入能力。

  2. 带图文标题的重建预训练:引入更丰富的图文标题,使模型将ID学习与文本控制对齐。

  3. 成对数据微调(Paired Tuning):这是关键一步。将50%的训练数据换成MultiID-2M中的成对数据,迫使模型放弃“复制粘贴”的捷径,学习生成具有多样性的、身份一致的图像。

  4. 质量微调:最后在一个高质量的子集上进行微调,提升最终生成图像的质感和美学表现。

实验效果:显著优于现有方法

理论是算法的美好预期,实践才是算法的成功标准。WithAnyone的效果到底如何?

定量分析

研究团队建立了一个新的评测基准MultiID-Bench,专门用来衡量ID一致性生成中的两个关键指标:身份相似度(Sim(GT))复制粘贴程度(Copy-Paste)

从上表的单人生成结果可以看出,WithAnyone在保持高身份相似度(Sim(GT) 0.460)的同时,获得了极低的复制粘贴分数(CP 0.144),远优于InstantID、PuLID等主流方法。

这张权衡图(Trade-off)非常直观地展示了WithAnyone的优势。其他模型几乎都落在一个“高相似度必然导致高复制粘贴”的曲线上,而WithAnyone成功地打破了这一权衡,做到了“鱼与熊掌兼得”,实现了右上角(高相似度、低复制粘贴)的理想效果。

在多人生成任务上,WithAnyone同样表现出色。

定性对比

光看数字可能不够直观,让我们直接看图(这里被公众号处理过,最好是打开论文看原高清大图)。

无论是单人还是多人场景,WithAnyone(最右列)生成的图像都展现了极高的灵活性和控制力。当提示词要求人物有特定表情或动作时,其他模型往往无法摆脱参考图的束缚,而WithAnyone则能忠实地执行指令,生成表情自然、姿态多样的图像,同时精准地保持了每个人的身份特征。

用户研究

为了验证模型的真实表现,团队还进行了一项用户研究。结果显示,在身份相似度、复制粘贴抑制、提示词遵循度和美学质量等所有维度上,WithAnyone都获得了用户的最高评价。

社区反应

这篇工作放在arXiv上和开源不到三周,获得了github star 450+,Huggingface数据集tredning次页,也收到了推特上很多大V的转发(AK Huggingface paper daily)。

最近ComfyUI社区也有人注意到这项工作,制作了相关插件ComfyUI-WithAnyone,极大降低了社区爱好者的使用难度,可谓技术快速落地了。

总结

CV君认为,WithAnyone的成功,关键在于它抓住了问题的核心:要解决ID一致性,不能只在算法上“卷”,更要从数据源头入手。通过构建MultiID-2M这样一个高质量的成对数据集,并设计出与之匹配的对比身份损失,WithAnyone为ID一致性生成任务提供了一个非常扎实且有效的范式。

这项研究不仅为我们带来了一个强大的新模型,更重要的是,它为社区提供了一个宝贵的数据集和一个全新的评测基准,无疑将推动整个领域向着更可控、更真实、更实用的方向发展。作者已经开源了代码,感兴趣的朋友可以去项目主页一探究竟。

大家对这个方法怎么看?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

联系我们