ToolsAi

CV君 2025-11-04 20:16 江苏

草图秒变专业级海报，设计从未如此简单。

大家好，我是CV君。今天想和大家聊一篇非常有意思的新工作，它来自谷歌DeepMind和洛桑联邦理工学院（EPFL），发表在ICCV 2025的研讨会上。这篇论文叫《Sketch-to-Layout: Sketch-Guided Multimodal Layout Generation》，它提出了一个让人眼前一亮的想法：用最直观的“草图”来指挥AI进行设计布局。

想象一下，当我们需要设计一张海报、一份文档或一页PPT时，如果不再需要和复杂的软件参数打交道，只需随手画一个草稿，告诉AI“标题放在这里，图片放在那里”，然后AI就能心领神会地生成一个既美观又专业的布局，这将是多么酷的体验！这正是这篇论文试图解决的问题。

在深入技术细节之前，我们先来看看这篇论文的基本信息：

论文标题: Sketch-to-Layout: Sketch-Guided Multimodal Layout Generation
作者团队: Riccardo Brioschi, Aleksandr Alekseev, Emanuele Nevali, Berkay Döner, Omar El Malki, Blagoj Mitrevski, Leandro Kieliger, Mark Collier, Andrii Maksai, Jesse Berent, Claudiu Musat, Efi Kokiopoulou
所属机构: 洛桑联邦理工学院（EPFL）、谷歌DeepMind
论文地址: https://arxiv.org/abs/2510.27632
项目主页: https://github.com/google-deepmind/sketch_to_layout
录用会议: ICCV 2025 Workshop (HiGen)

设计师的“痛点”与AI的新思路

平面设计布局（Graphic layout generation）的核心任务是合理地组织文本、图片等多种元素，使其在视觉上和谐且信息传达清晰。传统的设计软件功能强大，但学习曲线陡峭。近年来，AI布局生成技术发展迅速，但大多依赖于复杂的约束条件，比如用户需要用代码或精确的坐标来指定元素位置，这无疑降低了普通用户的可用性。

有没有一种更自然、更符合人类直觉的交互方式呢？作者们认为，“草图”就是答案。Sketch-to-Layout这篇工作首次探索了“从草图到布局”（sketch-to-layout）这一全新的研究方向，旨在让用户通过简单的手绘草图来指导多模态内容的布局生成，极大地提升了设计的直观性和便捷性。

核心方法：从草图到布局的“炼金术”

为了实现从草图到布局的转换，研究者们提出了一套基于多模态大模型的解决方案。

模型架构：多模态Transformer的力量

整个方法的核心是一个基于Transformer的视觉语言模型（VLM），具体来说，是微调后的PaliGemma模型。这个模型接收两样东西作为输入：

用户手绘的草图：一张包含了大致布局意图的图片。
内容资产（Content Assets）：一系列需要被排版的具体内容，比如文本片段和图片。

模型会对这些输入进行分析和理解，然后输出一种结构化的文本表示。这种表示精确地描述了每一个内容资产的类别、位置（边界框坐标）和尺寸。最后，这个结构化文本可以被渲染成我们最终看到的布局图像。整个流程就像一位能看懂草图的设计师，精准地将你的想法变为现实。

数据难题的巧妙破解：合成草图生成

要训练这样一个模型，一个巨大的挑战是去哪里找大量的“草图-布局”配对数据。让真人设计师来画成千上万张草图显然成本太高，不具备可扩展性。

为此，研究者们提出了一个非常聪明的合成草图生成管线（Synthetic Sketch Generation Pipeline）。他们从已有的布局数据集（如PubLayNet, DocLayNet）出发，对每个布局中的元素（如标题、段落、图片）进行分析，并根据其类别和形状，用预设的笔画基元（stroke primitives）来替换它。例如，用一个矩形框代表图片，用几条横线代表文本段落。

通过这种方式，他们成功地为现有的公开数据集大规模地生成了对应的合成草图，总数高达约20万份。这些合成数据虽然简单，但足以让模型学会理解草图中的空间关系和布局意图。为了验证合成数据的有效性，他们还专门收集了一小部分由人类绘制的草图用于测试，结果证明，用合成数据训练出的模型在真实草图上也表现优异。

实验效果：直观、高效、全面领先

口说无凭，实验为证。作者们在PubLayNet、DocLayNet和SlidesVQA三个主流的布局数据集上对他们的方法进行了全面评估。

定量分析：数据不说谎

研究者们将他们的方法（Content-Aware FT-PaliGemma）与多种基线模型进行了比较，包括LayoutTransformer++、BLT等经典的布局生成模型，以及一些基于约束的方法。评估指标主要包括对齐度（Alignment）、重叠度（Overlap）和FID等，这些指标分别衡量生成布局与目标布局的相似度、元素之间的重叠情况以及生成质量。