动态列表

  • 港中文&港科大等提出FullPart:让3D部件生成达到全分辨率精度
  • 港科大(广州)等联合发布多模态空间推理综述:为大模型画下空间理解的未来蓝图
  • ReDiff:突破并行生成瓶颈,多模态扩散模型生成质量与效率双提升
  • 谢菲尔德大学提出Region-CAM:mIoU提升13.6%,破解弱监督学习中的目标定位难题
  • 英伟达开源ChronoEdit,让P图学会物理常识,时序推理颠覆图像编辑!
  • 天津大学与快手联手提出GRAG:仅需4行代码,实现图像编辑的“丝滑”微调
  • IROS 2025 | 大连理工等提出STG-Avatar:25分钟训练,单目视频实时生成高保真数字人
  • 中科院SNELLA:视觉模型微调新范式,性能超越SOTA,内存占用降低近40%
  • 美团开源LongCat-Video:136亿参数长视频生成,分钟级推理720p
  • 看似万能的 AI,其实比你想的更脆弱和邪恶
  • 重建超越RAE,还能做编辑!北大&通义提出UniLIP: 自蒸馏训练助力CLIP大一统
  • 世界模型是否需要显式的 3D?UT Austin 新作 PE-Field 给出答案
  • Feed-Forward 3D综述:三维视觉进入“一步到位”时代
  • CUPID:单图秒速重建3D,港大提出姿态引导新范式
  • 每周100万人与ChatGPT聊自杀;美团推全国骑手社保补贴;高通发AI芯片,股价暴涨20%
  • 美国大学排名出炉:哥大断崖式下滑,MIT稳居CS榜第一!
  • 开源即登榜!登顶全球前十AI编程智能体,UCL初创团队开源Prometheus
  • 奥特曼考虑给ChatGPT加广告了!用8亿用户,救万亿债务
  • VaseVQA:考古领域实现专家级,诊断+补弱RL框架
  • 弑母分尸案震惊世界,AI伪造语音骗过警察!
  • 一把吉他卖出 10 亿后,LiberLive 选择自我革命
  • 仅仅是 AI,并不能让硬件更「智慧」,更重要的其实是这个
  • 北京/上海/杭州内推 | 蚂蚁集团保险大模型算法团队招聘大模型算法专家(P6-P7)
  • 多人物也能“认得准”!阿里开源Identity-GRPO,刷新视频生成一致性上限
  • RL记得更牢,SFT更健忘?普林斯顿陈丹琦团队改写后训练认知
  • 首个面向大模型的形式化数学竞赛正式启动:推动AI数学推理迈向可验证新高度
  • ICCV'25|开源AI3D数据集Objaverse++:更少的数据,却有更好的生成效果
  • 川大等提出LG-CD:一句话精准锁定遥感影像变化,F1分数高达91.83%
  • “压缩不减智”!EPIC让多模态大模型以更少 Token 跑得更快、更稳|NeurIPS 2025
  • ​一个对话助理,如何盘活整个「夸克宇宙」?
  • 马斯克 xAI 上新款「虚拟女友」;传小米 17 Air 明年上;996 成美国创业者美德
  • AI黑化如恶魔附体!LARGO攻心三步,潜意识种子瞬间开花 | NeurIPS 2025
  • 可攻可防,越狱成功率近90%!六大主流模型全中招 | EMNLP'25
  • 硅谷的「十万大裁员」:Meta按代码量裁员
  • 超94%类别第一!3D点云异常检测与修复新SOTA | ICCV'25
  • AI人格分裂实锤!30万道送命题,撕开OpenAI、谷歌「遮羞布」
  • 思而不学则殆:通义实验室×北大联合提出RL-PLUS,突破大模型推理边界
  • NeurIPS 2025 | 理解能否反过来教生成?VideoREPA让视频生成模型“懂物理”
  • 博士申请 | 香港中文大学陈玥老师招收人工智能/智能电网方向全奖博士生
  • NeurIPS 2025 | 港中文等提出COS3D:协同语言与分割,革新开放词汇3D分割
  • 上海交大与上海AI lab联手推出RAPO++:跨阶段提示优化,让文生视频模型“更懂你心”
  • 传OpenAI正开发新的生成式音乐工具;苹果将AirPods印度产能扩大一倍;《王者荣耀世界》官宣2026春天见

普林斯顿大学联手谷歌DeepMind,BOB让少样本细粒度分类精度飙升7.4%

CV君 2025-10-29 13:08 江苏

少样本学习新范式:解耦并边缘化上下文,让合成数据超越真实样本。

最近,来自普林斯顿大学和谷歌DeepMind的研究团队联手,为我们带来了一项非常有趣的研究。他们提出了一种名为BOB(Beyond Objects)的新方法,旨在解决一个困扰业界已久的难题:如何利用文生图(T2I)模型,为细粒度分类任务生成高质量的训练数据,尤其是在只有少量真实样本(即“少样本学习”)的情况下。

这项工作不仅思路巧妙,效果也相当惊人。简单来说,通过教会AI模型“超越物体本身”,关注其所处的环境和姿态,BOB方法生成的合成数据,在多个基准测试中都取得了当前最佳性能。

超越物体本身:当T2I模型学会了“看”上下文

让我们先来聊聊背景。细粒度分类,顾名思义,就是要做非常精细的识别,比如区分不同型号的飞机、不同品种的鸟类。这类任务通常需要大量的标注数据才能训练出好模型。但在现实世界中,为每个细分类别都收集成百上千张图片,成本高昂且耗时。

真实数据与由不同方法(Diff-II, DataDream, BOB)生成的合成数据在视觉上的对比。可以看出,BOB生成的飞机图像在背景和姿态上更多样,更接近真实世界中的情况。

近年来,像Stable Diffusion这样的T2I模型发展迅猛,大家自然会想到:我们能不能用它来“凭空”生成训练数据呢?想法很美好,但实践起来却有两大挑战:

  1. 过拟合:如果只用几张真实图片去微调T2I模型,模型很容易“死记硬背”,只会生成和那几张训练样本高度相似的图片,失去了多样性。

  2. 虚假关联:模型可能会学到一些“错误”的知识。比如,训练数据里所有A型号的飞机都在地面上,B型号的都在天上飞。模型就会错误地认为“地面”是A型号的特征,“天空”是B型号的特征。这种由上下文信息引起的虚假关联,会严重影响分类器的泛化能力。

为了解决这些问题,研究者们提出了BOB。

BOB:解耦上下文,释放T2I生成潜力

BOB的核心思想非常直观:在微调和生成阶段,将物体的“类别”与其“上下文”(如背景、姿态)分离开来,从而打破虚假关联,提升生成数据的多样性。

BOB方法的整体流程图。

整个过程可以分为四步:

  1. 属性提取:首先,利用一个强大的图像描述模型(Captioning Model),从少量真实训练图片中,自动提取出与类别无关的上下文属性,主要是“背景”和“物体姿态”。例如,一张“波音737在雪山前”的图片,会被分解为类别“波音737”,背景“雪山”,姿态“侧视图”。

  2. 上下文保留(微调):在微调T2I模型时,使用包含上下文信息的“增强描述”作为训练提示。例如,提示语不再是简单的“一张波音737的照片”,而是“一张波音737的照片,背景是雪山,从侧面拍摄”。通过这种方式,模型学会了将类别与多样的上下文进行组合。

  3. 上下文边缘化(生成):这是BOB最巧妙的一步。在生成某个类别(比如“波音737”)的合成图片时,并不使用该类别在训练集中出现过的背景和姿态。相反,它会从整个数据集的所有类别中,随机 抽取背景和姿态属性来组合。

  4. 生成合成数据:最后,使用随机组合的提示(如“一张波音737的照片,背景是海洋,正在起飞”)来生成新的、多样化的合成图片。

生成过程的因果图。BOB通过在生成阶段阻断从类别(C)到上下文(A)的直接路径,来消除虚假关联。

通过“上下文边缘化”这一步,BOB有效地打破了“特定类别”与“特定上下文”之间的虚假绑定,迫使模型去真正理解和生成物体本身,而不是依赖于环境线索。

效果如何?“5+100”超越“10”

口说无凭,实验为证。研究团队在飞机、汽车、鸟类和宠物四个经典的细粒度分类数据集上进行了大量实验。

少样本分类准确率对比。在多个数据集和分类器上,BOB(表格中的Ours)都取得了最好的性能。

结果非常亮眼:

  • 性能大幅领先:在绝大多数设置下,使用BOB生成的合成数据来增强训练,其分类准确率都显著超过了之前最好的方法(如DataDream)。在飞机分类任务上,当使用5张真实图片和100张合成图片时,BOB将CLIP分类器的准确率从50.0%提升到了 57.4%,实现了 7.4% 的巨大提升。

  • 数据效率更高:一个更惊人的发现是,在四个基准测试中的三个,“5张真实图片 + BOB合成数据” 的训练效果,甚至超过了 “仅使用10张真实图片(不加合成数据)”!这意味着BOB生成的合成数据质量非常高,能够有效替代甚至超越部分真实数据的作用。

在长尾分布的数据集上,BOB同样表现出色,尤其是在样本稀少的“Few”类上。

消融实验:两大模块缺一不可

为了验证BOB方法中每个组件的有效性,研究者还进行了消融实验。

消融实验结果表明,上下文保留(Context Preservation)和上下文边缘化(Context Marginalization)对于最终性能都至关重要。

结果表明,“上下文保留”和“上下文边缘化”两个核心步骤缺一不可。去掉任何一个,模型性能都会出现明显下滑。这证明了BOB设计的合理性和完整性。

总结

CV君认为,这项工作为我们提供了一个非常优雅且有效的思路,来解决T2I模型在数据生成应用中的核心痛点。它不仅仅是简单地生成图片,而是通过因果干预的思想,从根本上提升了合成数据的质量和多样性,对于推动AIGC技术在严肃的科研和工业场景中的落地,具有非常重要的价值。

作者已经开源了代码,感兴趣的朋友可以去他们的项目主页一探究竟。

大家对这个方法怎么看?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

联系我们