ToolsAi

CV君 2025-10-29 13:08 江苏

少样本学习新范式：解耦并边缘化上下文，让合成数据超越真实样本。

最近，来自普林斯顿大学和谷歌DeepMind的研究团队联手，为我们带来了一项非常有趣的研究。他们提出了一种名为BOB（Beyond Objects）的新方法，旨在解决一个困扰业界已久的难题：如何利用文生图（T2I）模型，为细粒度分类任务生成高质量的训练数据，尤其是在只有少量真实样本（即“少样本学习”）的情况下。

这项工作不仅思路巧妙，效果也相当惊人。简单来说，通过教会AI模型“超越物体本身”，关注其所处的环境和姿态，BOB方法生成的合成数据，在多个基准测试中都取得了当前最佳性能。

论文标题: Beyond Objects: Contextual Synthetic Data Generation for Fine-Grained Classification
作者: William Yang, Xindi Wu, Zhiwei Deng, Esin Tureci, Olga Russakovsky
机构: 普林斯顿大学；谷歌DeepMind
论文地址: https://arxiv.org/abs/2510.24078
项目主页: https://github.com/princetonvisualai/BeyondObjects

超越物体本身：当T2I模型学会了“看”上下文

让我们先来聊聊背景。细粒度分类，顾名思义，就是要做非常精细的识别，比如区分不同型号的飞机、不同品种的鸟类。这类任务通常需要大量的标注数据才能训练出好模型。但在现实世界中，为每个细分类别都收集成百上千张图片，成本高昂且耗时。

真实数据与由不同方法（Diff-II, DataDream, BOB）生成的合成数据在视觉上的对比。可以看出，BOB生成的飞机图像在背景和姿态上更多样，更接近真实世界中的情况。

近年来，像Stable Diffusion这样的T2I模型发展迅猛，大家自然会想到：我们能不能用它来“凭空”生成训练数据呢？想法很美好，但实践起来却有两大挑战：

过拟合：如果只用几张真实图片去微调T2I模型，模型很容易“死记硬背”，只会生成和那几张训练样本高度相似的图片，失去了多样性。
虚假关联：模型可能会学到一些“错误”的知识。比如，训练数据里所有A型号的飞机都在地面上，B型号的都在天上飞。模型就会错误地认为“地面”是A型号的特征，“天空”是B型号的特征。这种由上下文信息引起的虚假关联，会严重影响分类器的泛化能力。

为了解决这些问题，研究者们提出了BOB。

BOB：解耦上下文，释放T2I生成潜力

BOB的核心思想非常直观：在微调和生成阶段，将物体的“类别”与其“上下文”（如背景、姿态）分离开来，从而打破虚假关联，提升生成数据的多样性。

BOB方法的整体流程图。

整个过程可以分为四步：

属性提取：首先，利用一个强大的图像描述模型（Captioning Model），从少量真实训练图片中，自动提取出与类别无关的上下文属性，主要是“背景”和“物体姿态”。例如，一张“波音737在雪山前”的图片，会被分解为类别“波音737”，背景“雪山”，姿态“侧视图”。
上下文保留（微调）：在微调T2I模型时，使用包含上下文信息的“增强描述”作为训练提示。例如，提示语不再是简单的“一张波音737的照片”，而是“一张波音737的照片，背景是雪山，从侧面拍摄”。通过这种方式，模型学会了将类别与多样的上下文进行组合。
上下文边缘化（生成）：这是BOB最巧妙的一步。在生成某个类别（比如“波音737”）的合成图片时，并不使用该类别在训练集中出现过的背景和姿态。相反，它会从整个数据集的所有类别中，随机抽取背景和姿态属性来组合。
生成合成数据：最后，使用随机组合的提示（如“一张波音737的照片，背景是海洋，正在起飞”）来生成新的、多样化的合成图片。

生成过程的因果图。BOB通过在生成阶段阻断从类别（C）到上下文（A）的直接路径，来消除虚假关联。

通过“上下文边缘化”这一步，BOB有效地打破了“特定类别”与“特定上下文”之间的虚假绑定，迫使模型去真正理解和生成物体本身，而不是依赖于环境线索。

效果如何？“5+100”超越“10”

口说无凭，实验为证。研究团队在飞机、汽车、鸟类和宠物四个经典的细粒度分类数据集上进行了大量实验。

少样本分类准确率对比。在多个数据集和分类器上，BOB（表格中的Ours）都取得了最好的性能。

结果非常亮眼：

性能大幅领先：在绝大多数设置下，使用BOB生成的合成数据来增强训练，其分类准确率都显著超过了之前最好的方法（如DataDream）。在飞机分类任务上，当使用5张真实图片和100张合成图片时，BOB将CLIP分类器的准确率从50.0%提升到了 57.4%，实现了 7.4% 的巨大提升。
数据效率更高：一个更惊人的发现是，在四个基准测试中的三个，“5张真实图片 + BOB合成数据” 的训练效果，甚至超过了 “仅使用10张真实图片（不加合成数据）”！这意味着BOB生成的合成数据质量非常高，能够有效替代甚至超越部分真实数据的作用。