52CV 2025-11-15 11:31 江苏
论文标题:Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment
作者:Xing Xie, Jiawei Liu, Ziyue Lin, Huijie Fan, Zhi Han, Yandong Tang, Liangqiong Qu
机构: 中国科学院沈阳自动化研究所, 香港大学
论文地址:arXiv:2503.07334
录用会议: AAAI 2026 Oral
随着大模型在文本到图像生成(T2I)任务中的不断进化,一个长期被忽视的问题正在逐渐浮出水面:自回归大语言模型(LLMs)虽然在文本生成中表现卓越,却在生成图像时普遍缺乏“全局一致性”。它们“沉迷”于局部的Next Token Prediction,难以捕获图像中跨区域的整体语义结构,从而导致生成内容割裂、语义偏移、形状结构不连贯等问题。
为了突破这一关键瓶颈,中国科学院沈阳自动化研究所与香港大学的研究团队提出了一个全新的训练框架ARRA(Autoregressive Representation Alignment。不同于以往依赖架构重设计或模型堆叠的复杂方案,ARRA 的核心理念十分巧妙:在不改变 LLM 架构和推理范式的前提下,通过训练阶段引入预训练视觉编码器的全局视觉表征,对齐 LLM 的隐藏状态,提升生成图像的全局一致性。
这一轻量的对齐策略有效弥合了语言表征与视觉表征之间的模态鸿沟,让自回归大模型在图像生成上充分释放潜力。
Next Token Prediction的局限性:强语言,却弱视觉
自回归 LLM 基于“Next Token Prediction”的范式,在语言任务中天然契合语序结构,因此表现出色。但当它们被应用于文本到图像生成(T2I)时,却面临根本性挑战:
局部依赖限制了视觉全局建模能力:自回归模型通过预测下一标记对序列施加局部约束,难以弥合语言与图像之间显著的跨模态差距。如图(c)所示,仅优化局部下一标记预测迫使模型专注于孤立的标记级特征。这会导致模型忽略空间结构化视觉内容所需的全局一致性,使生成的图像存在语义不匹配,视觉内容不连贯的问题。这在医学影像等对准确性要求极高的专业领域尤为突出,如图(e) (f)所示。
现有解决方案通常需要复杂的架构修改,例如添加跨模态注意力层或集成扩散模块。这些方法虽有成效,但代价高昂,也破坏了 LLM 原本的训练缩放规律和推理简洁性。这种实际限制提出了一个关键问题:我们是否可以在不改变模型架构和推理机制的情况下,充分释放大型语言模型的图像生成潜力?
论文作者提出了一种名为自回归表征对齐Autoregressive Representation Alignment (ARRA) 的全新训练框架。通过在训练过程中引入外部全局视觉表示来对齐 LLM 的隐藏状态,从而在不改变模型架构和推理机制的情况下,解决自回归语言模型(LLMs)在文本到图像生成任务中的全局一致性问题。
自回归表征对齐框架(ARRA)
ARRA 的核心思想是在不改变 LLM 原始架构和推理机制的前提下,通过在训练过程中引入外部全局视觉表征来对齐 LLM 的隐藏状态,从而提升其在文本到图像生成任务中的表现。整体框架包含以下核心设计:
混合令牌(Hybrid Token <HYBNEXT>)
为桥接局部下一个标记预测与全局语义对齐,ARRA 引入混合令牌 <HYBNEXT> ,它在训练期间同时受到具有双重约束:
局部约束:
<HYBNEXT>通过标准代码簿索引预测下一个标记,保持局部依赖性;全局约束:
<HYBNEXT>的隐藏状态 通过 与 对齐,确保全局语义一致性。
全局视觉对齐(Global Visual Alignment )
ARRA 在标准的自回归损失()基础上,以混合令牌<HYBNEXT>为锚点,引入了一个全局视觉对齐损失(GVA loss)。通过将<HYBNEXT>的隐藏状态与外部预训练视觉模型(如 CLIP,BioMedCLIP,MedSAM)提取的全局视觉表征对齐来捕获全局一致性。
预训练全局视觉表征提取:给定目标图像 ,使用预训练视觉编码器 将其编码为全局视觉表示 :
其中, 表示特征聚合操作(如
<CLS>token 或平均池化)。全局视觉对齐损失:在训练过程中,将 LLM 中
<HYBNEXT>的隐藏状态 与全局视觉表示 对齐。对齐通过投影层 实现,以匹配维度。损失函数定义为:其中, 表示余弦相似度损失。
联合损失函数:
推理范式保持
在推理阶段,ARRA移除对齐模块, 保持 LLM 本身Next token Prediction的推理范式生成图像token序列,不引入额外计算开销。
三种通用应用模式
ARRA 的即插即用特性使其能够实现多种不同的部署场景,作者提供了三种代表性的模型变体:
ARRA-Base:从零开始训练T2I AR 模型,采用随机初始化
ARRA:将预训练的仅能生成文本的 LLM 转换为T2I生成器
ARRA-Adapt:使用特定领域视觉先验将现有多模态LLM适应到专业领域
这种多功能性允许使用者在不同场景下利用 ARRA,同时保持架构完整性。
如何构建高效的对齐架构?
作者首先围绕对齐机制提出了三个关键问题并进行系统分析,得到多条指导自回归生成模型设计的见解:
1️⃣ 对齐机制:标记级对齐(提出的 <HYBNEXT>)是否优于固定位置对齐<REP>)?
作者比较了两种视觉对齐策略,结果表明在每个生成步骤引入的混合标记 [HYBNEXT] 能显著提升模型对视觉表征的利用效率,优于传统的固定位置对齐 [REP]。
❝见解 1: 将视觉表示与在每个生成步骤交错的混合标记
<HYBNEXT>比使用固定标记<REP>更有效,因为它可以防止注意力衰减并确保外部表示的一致约束。
2️⃣ 特征聚合策略:从同一视觉编码器提取的不同类型的特征如何影响生成性能?
作者探索了视觉编码器内部特征的聚合方式如何影响生成性能。结果显示,使用 [CLS] 标记表示能带来最佳效果。
❝见解 2: 基础模型中的[CLS]令牌表示有效地聚合了全局视觉信息,为跨模态对齐提供了全面的指导。
3️⃣ 视觉编码器选择:跨模态还是领域专属,谁更有助于对齐?
对于仅具文本生成能力的语言模型(ARRA),跨模态编码器如 CLIP 与 BioMedCLIP 能有效弥合文本与图像间的模态鸿沟,使模型“知道生成什么”;
而在具备图像生成能力的模型(ARRA-Adapt)中,领域特定的视觉编码器表现更优——BioMedCLIP 注入医学语义,MedSAM 提供结构先验,从而提升领域适应性。
❝见解 3: 当LLM缺乏图像生成能力时,跨模态编码器对于语义基础至关重要。然而,对于具有图像生成功能的LLM,域特定编码器更有效,因为它们提供了域特定自适应所需的细粒度特征。
在多种基线上实现有效且稳定的提升
作者的实验证明了ARRA框架在自然和医学图像生成任务中的多功能性:
(1)ARRA-Base促进从头开始训练T2I LLM的过程。在 LlamaGen 的不同规模上都取得稳定提升,保持优秀的可扩展性。
(2)ARRA有效地将只具有文本生成能力的预训练LLM转换为T2I生成器。无需改动架构,即可让 LLM 拥有强大的 T2I 能力。
(3)ARRA-Adapt有助于通用生成模型适应至特定专业领域。通过将特定领域的先验(例如BioMedCLIP、MedSAM)集成到具有图像生成能力的LLM中,ARRA的性能优于直接微调。
这些功能证实了ARRA框架的即插即用灵活性。
❝见解 4: ARRA-Base能够从头开始高效地训练T2I LLM,同时保持强大的模型可扩展性。
❝见解 5: ARRA 支持将仅具有文本生成能力的 LLMs 更有效地转换为图像生成器,而 ARRA-Adapt 显著提升了领域适应性,更有效地将通用的图像生成 LLMs 与特定领域对齐,两者均在基线方法上表现出色。
总结与展望:从对齐出发,重新审视自回归生成
总的来说,ARRA 通过提出一种全新的 “训练阶段对齐” 的设计思想,为自回归模型的图像生成能力打开了新的方向。它不依赖扩散模型,不修改架构,不改变推理方式,却有效提升图像的整体语义一致性。这为多模态生成开辟了一条轻量、通用的路径。无论是自然图像还是医学影像,ARRA 都展示了自回归范式的新潜力。