动态列表

  • 重磅!DeepSeek再开源:视觉即压缩,100个token干翻7000个
  • 全球首个「长肌腱」AI机器人量产!Nature盛赞的中国方案惊艳IROS现场
  • 甲骨文推出全球最大AI超算,作为OpenAI「星际之门」算力核心
  • MagicOS已成世界「第三极」,荣耀拿下AI大战叙事权
  • 美国拟减40%国际生,留学风向要变?Nature曝全球高校大洗牌
  • 美 NSA 被曝网攻中国「时间心脏」;微博王高飞:企业别把批评和黑公关混为一谈;传运营艰难,安世中国发公开信回应
  • 扎克伯格急了!Meta内部文件曝光:宁用竞品,也要废掉祖传系统
  • 浙大推出首个「多图应用题」基准GSM8K-V,全面评估 VLM数学推理能力
  • 英伟达4段简短提示词,IOI夺金!开源模型也能征服最难编程竞赛
  • 超越纯视觉模型!不改VLM标准架构,实现像素级深度预测
  • 5万美元筛选「超级婴儿」, 智商提升15点?马斯克被曝是客户!
  • NeurIPS 2025 | KAUST与MetaAI提出Vgent:图增强RAG,长视频理解性能超越SOTA 8.6%
  • TPAMI 2025 OccScene:联合扩散框架,同时推进感知与生成进步,3D场景生成新突破!
  • 不靠RL、不用训练:哈佛「Power Sampling」让基座模型推理媲美GRPO
  • 不用微调!像打方向盘一样“操控”大模型思考:Steering正在改写推理范式
  • 中国AIGC用户破5亿,增长1倍;今年超7成外卖低于15元;新能源事故,「破窗锤」被网友买爆|极客早知道
  • AI芯片战争关键一役!英伟达最强Blackwell首次「美国造」
  • 数学界地震!GPT-5连破10道「百年悬案」,陶哲轩:AI革命才刚开始
  • 前OpenAI研究员跨界做文创:Ilya发型帽子走红,AI成潮牌!
  • 训练成本暴降99%,35秒出1分钟高清视频!英伟达MIT等引爆视频AI革命
  • Karpathy泼冷水:AGI要等10年!根本没有「智能体元年」
  • 早鸟票倒计时2天!全国大模型智能生成大会:推理、多模态、智能体前沿集结
  • First Try Matters,不是Aha Moment:邴立东团队揭示推理模型靠首答,不靠反思
  • 一致性轨迹强化学习登场:上海AI Lab让扩散语言模型实现全并行少步数推理
  • 传 iPhone 17 Air 表现不佳,砍百万产量;黄仁勋:英伟达中国份额从 95% 降到 0%;AI 致维基百科访问显著下降
  • 马普所&谷歌等提出AnyUp:无需再训练的通用特征上采样,推理即用,效果SOTA!
  • 北大等提出MaskDCPT:通用图像修复预训练新范式,PSNR提升3.77dB
  • 可处理上万变量,攻克高维时序预测难题!华人团队开源模型、基准
  • Bengio推AGI「高考」,GPT-5单项0分
  • Hassabis官宣用AI点燃「人造太阳」!无限能源时代加速到来
  • 全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA
  • 太狠了,四条腿被锯掉也能爬!通用大脑开启机器人「无休」时代
  • 零跑,不再「摸着理想过河」
  • 硬刚 Sora 2,谷歌的 Veo 3.1 确实有小惊喜|AI 上新
  • NeurIPS 2025 | 上交大提出MM-UPT:多模态大模型的“无监督后训练”范式
  • Meta花了420万美元、烧掉40万GPU·小时,只为验证一条Sigmoid曲线
  • 张鹏对谈朱啸虎、储瑞松、傅盛:Agentic AI 时代,不要什么东西都自己闷头做
  • Identity-GRPO:阿里开源多人物定制化视频生成的后训练优化算法
  • Real-world Video Super-Resolution | VSR的十字路口
  • 蔚来回应外国基金投诉:无事实依据;零跑推D19旗舰SUV,配超大电池;卡西欧推《回到未来》40周年联名表
  • 你的下一个「爱豆」不一定是真人,也可以是AI豆
  • 刚刚,谷歌深夜上新Veo 3.1!网友狂刷2.75亿条,Sora 2要小心了
  • 谷歌142页报告首发揭秘:90%码农每天用AI超2小时!
  • RL微调,关键在前10%奖励!基于评分准则,Scale AI等提出新方法
  • 谷歌×耶鲁联手发布抗癌神器!AI推理精准狙击「隐身」癌细胞
  • GPT越来越保守?斯坦福Manning团队提出Verbalized Sampling,让模型重新“多想一点”
  • ACL 2025 | 北大提出动态焦点解码:让开放生成既“靠谱”又“好看”
  • 统一高效来了!清华发布RLinf-VLA:把VLA+RL的训练与部署“一网打尽”
  • AI 时代,用一场「快闪」改变命运|IF 2026「AI 产品快闪」启动召集!
  • IF 2026 启动:来看看 AI 面前,谁在掌握主动权?
  • NeurIPS 2025 | 为Sora视频加上“隐形身份证”:清华大学等提出Safe-Sora,时空频率感知水印新框架
  • 从DNN到MLLM的异常之旅:视频异常检测(VAD)范式大迁徙
  • 苹果发布 M5 芯片笔记本和 iPad;微信:长时间不用账号,不再强行回收; 乔布斯登上一美元硬币
  • 马斯克的作业还是被奥特曼「抄走了」
  • 苏姿丰出手!Oracle下单5万颗AMD芯片,英伟达王座撼动
  • 具身智能算法哪家强?RoboChallenge见真章!全球首个大规模真机算法评测平台来了
  • NTU等联合提出A-MemGuard:为AI记忆上锁,投毒攻击成功率暴降95%
  • 苹果M5「夜袭」高通英特尔!AI算力狂飙400%,Pro三剑客火速上新
  • TPAMI 2025 | 华中科大与大疆等提出LLF-LUT++:4K照片增强仅需13ms,PSNR提升2.64dB!
  • IDEA提出Rex-Omni:将目标检测变为“下一个点预测”,零样本性能超越DINO
  • 下周见!Wiley Advanced主编论坛@IROS 2025:从审稿人视角重塑论文表达
  • AAAI 2026联合会议征稿开启:大语言模型中的深度逻辑推理
  • 罗福莉担任通讯作者,小米 × 北大联合发布R3:让MoE强化学习从崩盘回归可控
  • Altman:ChatGPT将支持成人内容;港版iPhone Air无法用内地eSIM;传雷军一夜掉粉30万|极客早知道
  • Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」
  • 英伟达AI超算3999开售,「掌心之中」可部署所有大参数开源模型!
  • 登顶Hugging Face GAIA全球榜首!中兴超级智能体终结「AI黑盒」时代
  • AI圈再颠覆!中国AI翻译耳机通话翻译,实测震撼
  • 一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军
  • vivo X300 Pro:以「水桶旗舰」之躯,重登旗舰山巅
  • 直到毕业我才懂:原来延期的博士,不止我一个
  • 让论文自己讲!Paper2Video一键生成论文讲解视频,赶顶会DDL不慌了
  • 8美元“驯服”DeepSeek-V3.2?Training-Free GRPO把RL成本打到地板
  • NeurIPS 2025 | PPFN:渐进式提示融合,让红外图像增强在复杂场景下性能提升8.76%
  • NeurIPS 2025 | 让AIGC视频变为可探索场景:Instant4D实现单目动态场景的分钟级重建
  • 库克抖音带货 iPhone 17 Air,22 日开售;小米客服回应「SU7 门把手」;「丐版」特斯拉明年国内投产

从会画画到会思考:快手可灵提出T2I-CoReBench,最强模型也难逃推理瓶颈

原创 让你更懂AI的 2025-10-17 17:14 北京

首个“构图 × 推理”全维基准

图片

文本生成图像已从“能画出来”进入“要想明白”的时代。快手可灵团队发布的 T2I-CoReBench,用 12 个维度、1080 个高难 Prompt 与 13,500+ 精细化问题,首次系统揭示 T2I 模型“会画但不会想”的推理短板。

当前文本生成图像(T2I)技术早已不是画出来就行 Stable Diffusion 到最新的 Nano Banana,模型能轻松生成指令一致的简单画面,但要生成繁忙厨房中的 30 余种物品绳索断裂后特技演员引发连锁反应这类复杂场景,却常犯漏东西逻辑错的毛病。问题出在哪?

近日,快手可灵团队提出 T2I-CoReBench。首个同时覆盖“构图能力”与“推理能力”的全面性、高复杂度基准 1080 个挑战性 prompt 和 13,500+ 个精细评测问题,戳破了当前 T2I 模型的 “能力假象”。

论文题目:

Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

论文地址:

https://arxiv.org/abs/2509.03516

代码地址:

https://github.com/KwaiVGI/T2I-CoReBench

项目主页:

https://t2i-corebench.github.io/

图片

研究背景与动机

T2I 模型要生成 “靠谱” 的图像,靠两大核心能力:

1. 构图能力(Composition): prompt 里明确提到的元素(比如冰箱、菜板、岛台等)全部画对,包括物体、属性、位置关系。

2. 推理能力(Reasoning): prompt 里隐含的结果(比如用力挤压一个番茄→ 番茄挤出汁)推断出来,生成合理画面。

但当前的评测基准仍然存在两个关键问题:

1. 不全面:要么只评构图,要么只考推理,没法整体评估模型又能画全、又能想对的能力。且推理维度也相对局限,多集中在常识或简单因果缺乏对逻辑、归纳、溯因等推理维度的全面覆盖。

2. 太简单:构图场景一般只包含少量的视觉元素,且推理只考察单步的简单推理(比如挤番茄→ 出汁),完全达不到真实世界多物体、多因果的复杂度。

为了解决这两个问题,研究团队提出了 T2I-CoReBench,聚焦于评估 T2I 模型两种基本能力:构图(Composition)推理(Reasoning)不仅要“测全”,还要 “测难”,让基准的评估结果真正反映 T2I 模型在实际场景中的表现。

图片

T2I-CoReBench: 12 维评估体系 + 高复杂度场景

T2I-CoReBench 聚焦于评估 T2I 模型两种基本能力:构图(Composition)推理(Reasoning)不同于过去工作靠“主观经验” 设计评测维度,研究团队从两个经典分类框架出发,构建了严谨的评估体系,共计12 个维度,把 “构图” 和 “推理” 拆解得明明白白。

构图能力基于场景图理论:物体、属性、关系是共同构成画面的核心要素。同时考虑到文本内容在 T2I 应用中的重要性(如包装文字与商标),因而一共定义了多实例(MI)多属性(MA)多关系(MR)以及文本渲染(TR)四个维度。

推理能力基于哲学领域经典的“三大推理框架”演绎推理、归纳推理、溯因推理细分出 T2I 场景下的关键任务:

演绎推理的核心逻辑是前提为真,则结论必为真 T2I 场景中表现为模型需严格依据 prompt 给定的规则、状态或步骤,生成确定性的视觉画面。具体定义了逻辑推理(LR)、行为推理(BR)、假设推理(HR)以及过程推理(PR)四个维度。

归纳推理的核心是从具体例子中提炼通用规则,再将规则应用到新场景 T2I 中表现为模型需先从 prompt 给出的示例中学会规律,再基于规律生成未被明确描述的视觉元素。具体定义了泛化推理(GR)类比推理(AR)两个维度。

溯因推理的核心是从已知观察出发,重建最可能的隐含原因或背景。 T2I 中表现为 prompt 仅描述 “结果状态” 或 “局部线索”,模型需调用常识、物理规律或因果逻辑,补全画面中 “未被提及但必须存在的元素”。包括常识推理(CR)重构推理(RR)两个维度。

为避免模型在简单场景中“刷分”,T2I-CoReBench 在 prompt 设计上特意 “加难度”,使其更贴近真实世界,从而倒逼模型暴露短板:

1)构图更密集:构图类 prompt 平均包含 20 个实例/属性/关系。例如“拥挤教室”需呈现铅笔、剪刀、胶棒等 35 个实例。

2)推理更复杂:推理类 prompt 均为“密集推理场景”。如 火柴烧断弹性绳 → 绳子弹倒多米诺骨牌 → 弹珠滚进红水烧杯,需同时呈现 8 个结果,而非“一因一果”的简单逻辑。

3)评测更精细:每个 prompt 配套 checklist,例如“拥挤教室”含 35 个是/否问题(如“图中有铅笔吗?”、“图中有剪刀吗?”),逐项独立评分,避免粗粒度评估带来的模糊性。

最终,T2I-CoReBench 形成 1080 个 prompt 与 13536 个评测问题的规模,平均 prompt 长度为 170 tokenschecklist 中平均有 12.5 个问题足够全面考验模型在复杂场景中的真实能力。

图片

评测结果:构图有进步,推理仍是“致命短板”

研究团队在 T2I-CoReBench 上评测了 28 个主流 T2I 模型(21 个开源 + 7 个闭源,涵盖扩散、自回归、统一架构),结果既暴露了行业现状,也给出了明确方向。

关键发现 1:T2I 模型构图能力稳步提升,但复杂构图仍远未解决

T2I-CoReBench 的测试中,各模型的构图能力整体稳步提升:闭源最优模型 Seedream 4.0 得分 86.1,开源最优 Qwen-Image 亦达到 78.0,已接近先进闭源水平。

然而在复杂场景下,即便是 Seedream 4.0,在多属性绑定(MA:84.5)和多关系生成(MR:75.0)方面仍显吃力,复杂构图控制依旧是亟待突破的难题。

关键发现 2:推理能力仍是 T2I 模型的主要瓶颈

尽管构图能力稳步提升,但推理仍显薄弱:Imagen 4 Ultra 推理得分最高,但也仅为 72.9,比构图低 9.5 分,在逻辑与行为推理等维度表现不佳;开源模型差距更为明显,Qwen-Image 构图达 78.0,却仅在推理上得 49.3(落后 28.7 分)。这表明当前模型仍难以从提示词中正确推断隐含的视觉元素。

关键发现 3:扩散模型略占优势,指令理解是关键

在开源模型中,扩散模型整体表现略优于自回归和统一范式,但差异不大。更强的指令编码器显著提升模型在构图与推理上的表现,例如 Qwen-Image 借助 Qwen2.5-VL 编码器取得最佳成绩。这表明未来应优先强化编码器端的指令理解与文本–图像对齐,同时保持解码范式的灵活性。

关键发现 4:提示词重写能缓解推理瓶颈,但仍不足以解决多模态难题

研究团队评估了提示词重写(prompt rewriting)对 T2I 推理的作用,来补偿 T2I 模型的原生推理不足。采用 OpenAI o3 在生成前重写提示词,显式补充属性变化、动作结果与隐含线索。

结果显示重写确可提升推理,原生推理能力较弱的模型受益更大;仅靠文本推理仍不足:强模型(如 GPT-Image)在多项推理维度依然未过 80。鉴于 T2I 本质为多模态任务,文本重写难以克服视觉偏差与文本–图像耦合(如生成方形轮子的汽车),未来应探索更紧密的多模态交互。

图片

未来方向:让 T2I 模型从 “会画画” 到 “会思考”

基于评测结果,研究团队提出四个关键研究方向,为后续发展指明路径:

1. 补充复杂场景数据:现有训练集多为简单场景,亟需增加“高密度物体 + 多步推理” 的标注数据,以拓展模型的见识与泛化能力;

2. 深度融合 LLM/MLLM:将大模型的文本理解与推理能力嵌入 T2I 流程,例如先解析 prompt 的逻辑,再驱动图像生成;

3. 引入 LLM 式推理范式:借鉴 CoT 思想,让模型逐步推演逻辑链(如 “水杯掉地 → 水渍 → 杯子倾斜”),再生成对应画面;

4. 探索多模态交错推理机制:在生成过程中交替利用文本与视觉模态的推理能力,实现跨模态信息的相互补充与一致性推理,从而提升生成结果的逻辑性与逼真度。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们