动态列表

  • 清华&南洋理工等提出稀疏模型反演:ViT反演加速高达3.79倍,告别无效背景!
  • 低光图像增强新探索:SASW-Loss,无需改网络,即插即用提升多种模型性能
  • 为物理AI打造世界模型!英伟达发布Cosmos-2.5:模型缩小3.5倍,性能媲美SOTA
  • NeurIPS25 | 香港理工&OPPO&哈佛提出DNAEdit:直接噪声对齐让Rectified flow文生图编辑更加准确
  • AMD发布E-MMDiT:仅304M参数,单节点1.5天训练,实现高效图像合成新基准
  • 顶刊ISPRS (IF 12+) | 400+参考文献,遥感图像超分辨率最新综述!
  • 多媒体顶会ACM MM 2025 最佳论文公布,从“看懂”到“会用”,再到“会思考”:揭示AI与物理世界融合新篇章
  • NeurIPS 2025 | 电子科技大学联合A*STAR提出SCOPE:兼顾显著性与覆盖率,实现高效多模态大模型令牌剪枝
  • ICCV 2025 | 卡内基梅隆大学空间可变自动对焦:单次拍摄实现全场景清晰,重新定义计算摄影
  • 港中文&港科大等提出FullPart:让3D部件生成达到全分辨率精度
  • 从 「会思考」到 「善创造」: 多模态大模型的深度推理与协同进化
  • 英伟达开源ChronoEdit,让P图学会物理常识,时序推理颠覆图像编辑!
  • 谢菲尔德大学提出Region-CAM:mIoU提升13.6%,破解弱监督学习中的目标定位难题
  • ReDiff:突破并行生成瓶颈,多模态扩散模型生成质量与效率双提升
  • 港科大(广州)等联合发布多模态空间推理综述:为大模型画下空间理解的未来蓝图

Sketch-to-Layout,从草图到布局!DeepMind & EPFL 在设计领域的新工作

CV君 2025-11-04 20:16 江苏

草图秒变专业级海报,设计从未如此简单。

大家好,我是CV君。今天想和大家聊一篇非常有意思的新工作,它来自谷歌DeepMind和洛桑联邦理工学院(EPFL),发表在ICCV 2025的研讨会上。这篇论文叫《Sketch-to-Layout: Sketch-Guided Multimodal Layout Generation》,它提出了一个让人眼前一亮的想法:用最直观的“草图”来指挥AI进行设计布局

想象一下,当我们需要设计一张海报、一份文档或一页PPT时,如果不再需要和复杂的软件参数打交道,只需随手画一个草稿,告诉AI“标题放在这里,图片放在那里”,然后AI就能心领神会地生成一个既美观又专业的布局,这将是多么酷的体验!这正是这篇论文试图解决的问题。

在深入技术细节之前,我们先来看看这篇论文的基本信息:

  • 论文标题: Sketch-to-Layout: Sketch-Guided Multimodal Layout Generation

  • 作者团队: Riccardo Brioschi, Aleksandr Alekseev, Emanuele Nevali, Berkay Döner, Omar El Malki, Blagoj Mitrevski, Leandro Kieliger, Mark Collier, Andrii Maksai, Jesse Berent, Claudiu Musat, Efi Kokiopoulou

  • 所属机构: 洛桑联邦理工学院(EPFL)、谷歌DeepMind

  • 论文地址: https://arxiv.org/abs/2510.27632

  • 项目主页: https://github.com/google-deepmind/sketch_to_layout

  • 录用会议: ICCV 2025 Workshop (HiGen)

设计师的“痛点”与AI的新思路

平面设计布局(Graphic layout generation)的核心任务是合理地组织文本、图片等多种元素,使其在视觉上和谐且信息传达清晰。传统的设计软件功能强大,但学习曲线陡峭。近年来,AI布局生成技术发展迅速,但大多依赖于复杂的约束条件,比如用户需要用代码或精确的坐标来指定元素位置,这无疑降低了普通用户的可用性。

有没有一种更自然、更符合人类直觉的交互方式呢?作者们认为,“草图”就是答案。Sketch-to-Layout这篇工作首次探索了“从草图到布局”(sketch-to-layout)这一全新的研究方向,旨在让用户通过简单的手绘草图来指导多模态内容的布局生成,极大地提升了设计的直观性和便捷性。

核心方法:从草图到布局的“炼金术”

为了实现从草图到布局的转换,研究者们提出了一套基于多模态大模型的解决方案。

模型架构:多模态Transformer的力量

整个方法的核心是一个基于Transformer的视觉语言模型(VLM),具体来说,是微调后的PaliGemma模型。这个模型接收两样东西作为输入:

  1. 用户手绘的草图:一张包含了大致布局意图的图片。

  2. 内容资产(Content Assets):一系列需要被排版的具体内容,比如文本片段和图片。

模型会对这些输入进行分析和理解,然后输出一种结构化的文本表示。这种表示精确地描述了每一个内容资产的类别、位置(边界框坐标)和尺寸。最后,这个结构化文本可以被渲染成我们最终看到的布局图像。整个流程就像一位能看懂草图的设计师,精准地将你的想法变为现实。

数据难题的巧妙破解:合成草图生成

要训练这样一个模型,一个巨大的挑战是去哪里找大量的“草图-布局”配对数据。让真人设计师来画成千上万张草图显然成本太高,不具备可扩展性。

为此,研究者们提出了一个非常聪明的合成草图生成管线(Synthetic Sketch Generation Pipeline)。他们从已有的布局数据集(如PubLayNet, DocLayNet)出发,对每个布局中的元素(如标题、段落、图片)进行分析,并根据其类别和形状,用预设的笔画基元(stroke primitives)来替换它。例如,用一个矩形框代表图片,用几条横线代表文本段落。

通过这种方式,他们成功地为现有的公开数据集大规模地生成了对应的合成草图,总数高达约20万份。这些合成数据虽然简单,但足以让模型学会理解草图中的空间关系和布局意图。为了验证合成数据的有效性,他们还专门收集了一小部分由人类绘制的草图用于测试,结果证明,用合成数据训练出的模型在真实草图上也表现优异。

实验效果:直观、高效、全面领先

口说无凭,实验为证。作者们在PubLayNet、DocLayNet和SlidesVQA三个主流的布局数据集上对他们的方法进行了全面评估。

定量分析:数据不说谎

研究者们将他们的方法(Content-Aware FT-PaliGemma)与多种基线模型进行了比较,包括LayoutTransformer++、BLT等经典的布局生成模型,以及一些基于约束的方法。评估指标主要包括对齐度(Alignment)、重叠度(Overlap)和FID等,这些指标分别衡量生成布局与目标布局的相似度、元素之间的重叠情况以及生成质量。

从上表可以看出,无论是在哪个数据集上,Sketch-to-Layout方法在各项关键指标上都显著优于之前的SOTA方法。这证明了草图作为一种引导信号,其有效性远超于传统的、更复杂的约束。CV君认为,这充分说明了“好的人机交互,本身就是一种强大的信息输入”。

更有趣的是,作者还对比了不同的引导方式在“效果-时间”上的权衡。结果显示,草图引导不仅效果最好,而且从用户的角度来看,画一个草图所花费的时间也远少于编写复杂的JSON约束。

定性展示:眼见为实

除了冰冷的数字,生成的效果图更能直观地展示该方法的实力。下面的例子展示了对于同一组内容资产,不同方法的生成结果。

可以看到,其他方法(如LayoutTransformer++)虽然能生成布局,但可能无法很好地理解内容的语义和层次。而Sketch-to-Layout不仅遵循了草图的指示,还能更好地处理内容的逻辑关系,生成了更符合人类审美的布局。

上图进一步展示了模型如何根据草图、预测结果以及最终的目标布局进行对齐。即使草图非常潦草,模型也能够准确捕捉到用户的核心意图。

总结

总的来说,Sketch-to-Layout不仅开创了一个新的研究方向,还通过巧妙的合成数据策略和强大的多模态模型,提供了一个非常实用且高效的解决方案。更重要的是,作者们还公开了他们生成的约20万份合成草图数据集,无疑将极大地推动后续相关研究的发展。

大家对这种“画图指挥”的设计方式怎么看?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

联系我们