ToolsAi

原创让你更懂AI的 2025-10-17 17:14 北京

首个“构图 × 推理”全维基准

文本生成图像已从“能画出来”进入“要想明白”的时代。快手可灵团队发布的 T2I-CoReBench，用 12 个维度、1080 个高难 Prompt 与 13,500+ 精细化问题，首次系统揭示 T2I 模型“会画但不会想”的推理短板。

当前文本生成图像（T2I）技术早已不是画出来就行。从 Stable Diffusion 到最新的 Nano Banana，模型能轻松生成指令一致的简单画面，但要生成繁忙厨房中的 30 余种物品或绳索断裂后特技演员引发连锁反应这类复杂场景，却常犯漏东西和逻辑错的毛病。问题出在哪？

近日，快手可灵团队提出 T2I-CoReBench。首个同时覆盖“构图能力”与“推理能力”的全面性、高复杂度基准，用 1080 个挑战性 prompt 和 13,500+ 个精细评测问题，戳破了当前 T2I 模型的 “能力假象”。

论文题目：

Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

论文地址：

https://arxiv.org/abs/2509.03516

代码地址：

https://github.com/KwaiVGI/T2I-CoReBench

项目主页：

https://t2i-corebench.github.io/

研究背景与动机

T2I 模型要生成 “靠谱” 的图像，靠两大核心能力：

1. 构图能力（Composition）：把 prompt 里明确提到的元素（比如冰箱、菜板、岛台等）全部画对，包括物体、属性、位置关系。

2. 推理能力（Reasoning）：把 prompt 里隐含的结果（比如用力挤压一个番茄→ 番茄挤出汁）推断出来，生成合理画面。

但当前的评测基准仍然存在两个关键问题：

1. 不全面：要么只评构图，要么只考推理，没法整体评估模型又能画全、又能想对的能力。且推理维度也相对局限，多集中在常识或简单因果，缺乏对逻辑、归纳、溯因等推理维度的全面覆盖。

2. 太简单：构图场景一般只包含少量的视觉元素，且推理只考察单步的简单推理（比如挤番茄→ 出汁），完全达不到真实世界多物体、多因果的复杂度。

为了解决这两个问题，研究团队提出了 T2I-CoReBench，聚焦于评估 T2I 模型两种基本能力：构图（Composition）与推理（Reasoning）。不仅要“测全”，还要 “测难”，让基准的评估结果真正反映 T2I 模型在实际场景中的表现。

T2I-CoReBench: 12 维评估体系 + 高复杂度场景

T2I-CoReBench 聚焦于评估 T2I 模型两种基本能力：构图（Composition）与推理（Reasoning）。不同于过去工作靠“主观经验” 设计评测维度，研究团队从两个经典分类框架出发，构建了严谨的评估体系，共计12 个维度，把 “构图” 和 “推理” 拆解得明明白白。

构图能力基于场景图理论：物体、属性、关系是共同构成画面的核心要素。同时考虑到文本内容在 T2I 应用中的重要性（如包装文字与商标），因而一共定义了多实例（MI）、多属性（MA）、多关系（MR）以及文本渲染（TR）四个维度。

推理能力基于哲学领域经典的“三大推理框架”：演绎推理、归纳推理、溯因推理，细分出 T2I 场景下的关键任务：

演绎推理的核心逻辑是前提为真，则结论必为真。在 T2I 场景中表现为模型需严格依据 prompt 给定的规则、状态或步骤，生成确定性的视觉画面。具体定义了逻辑推理（LR）、行为推理（BR）、假设推理（HR）以及过程推理（PR）四个维度。

归纳推理的核心是从具体例子中提炼通用规则，再将规则应用到新场景。在 T2I 中表现为模型需先从 prompt 给出的示例中学会规律，再基于规律生成未被明确描述的视觉元素。具体定义了泛化推理（GR）和类比推理（AR）两个维度。

溯因推理的核心是从已知观察出发，重建最可能的隐含原因或背景。在 T2I 中表现为 prompt 仅描述 “结果状态” 或 “局部线索”，模型需调用常识、物理规律或因果逻辑，补全画面中 “未被提及但必须存在的元素”。包括常识推理（CR）和重构推理（RR）两个维度。

为避免模型在简单场景中“刷分”，T2I-CoReBench 在 prompt 设计上特意 “加难度”，使其更贴近真实世界，从而倒逼模型暴露短板：

（1）构图更密集：构图类 prompt 平均包含 20 个实例/属性/关系。例如“拥挤教室”需呈现铅笔、剪刀、胶棒等 35 个实例。

（2）推理更复杂：推理类 prompt 均为“密集推理场景”。如火柴烧断弹性绳 → 绳子弹倒多米诺骨牌 → 弹珠滚进红水烧杯，需同时呈现 8 个结果，而非“一因一果”的简单逻辑。

（3）评测更精细：每个 prompt 配套 checklist，例如“拥挤教室”含 35 个是/否问题（如“图中有铅笔吗？”、“图中有剪刀吗？”），逐项独立评分，避免粗粒度评估带来的模糊性。

最终，T2I-CoReBench 形成 1080 个 prompt 与 13536 个评测问题的规模，平均 prompt 长度为 170 tokens，checklist 中平均有 12.5 个问题，足够全面考验模型在复杂场景中的真实能力。

评测结果：构图有进步，推理仍是“致命短板”

研究团队在 T2I-CoReBench 上评测了 28 个主流 T2I 模型（21 个开源 + 7 个闭源，涵盖扩散、自回归、统一架构），结果既暴露了行业现状，也给出了明确方向。

关键发现 1：T2I 模型构图能力稳步提升，但复杂构图仍远未解决

在 T2I-CoReBench 的测试中，各模型的构图能力整体稳步提升：闭源最优模型 Seedream 4.0 得分 86.1，开源最优 Qwen-Image 亦达到 78.0，已接近先进闭源水平。

然而在复杂场景下，即便是 Seedream 4.0，在多属性绑定（MA：84.5）和多关系生成（MR：75.0）方面仍显吃力，复杂构图控制依旧是亟待突破的难题。

关键发现 2：推理能力仍是 T2I 模型的主要瓶颈

尽管构图能力稳步提升，但推理仍显薄弱：Imagen 4 Ultra 推理得分最高，但也仅为 72.9，比构图低 9.5 分，在逻辑与行为推理等维度表现不佳；开源模型差距更为明显，Qwen-Image 构图达 78.0，却仅在推理上得 49.3（落后 28.7 分）。这表明当前模型仍难以从提示词中正确推断隐含的视觉元素。

关键发现 3：扩散模型略占优势，指令理解是关键

在开源模型中，扩散模型整体表现略优于自回归和统一范式，但差异不大。更强的指令编码器显著提升模型在构图与推理上的表现，例如 Qwen-Image 借助 Qwen2.5-VL 编码器取得最佳成绩。这表明未来应优先强化编码器端的指令理解与文本–图像对齐，同时保持解码范式的灵活性。

关键发现 4：提示词重写能缓解推理瓶颈，但仍不足以解决多模态难题

研究团队评估了提示词重写（prompt rewriting）对 T2I 推理的作用，来补偿 T2I 模型的原生推理不足。采用 OpenAI o3 在生成前重写提示词，显式补充属性变化、动作结果与隐含线索。

结果显示重写确可提升推理，原生推理能力较弱的模型受益更大；但仅靠文本推理仍不足：强模型（如 GPT-Image）在多项推理维度依然未过 80。鉴于 T2I 本质为多模态任务，文本重写难以克服视觉偏差与文本–图像耦合（如生成方形轮子的汽车），未来应探索更紧密的多模态交互。