动态列表

  • AI不懂痛苦,却成了你的深夜知己!170位医生教ChatGPT安慰人
  • 一条短信,7年恩怨!奥特曼与马斯克决裂曝出新隐情
  • 不会说英语的母亲,教出了5万亿英伟达CEO!
  • AI「牛顿」来了!北大团队新突破,看一眼数据就能推出物理定律
  • 1899 元「iPhone 袜子」上架秒光;传华为 Mate80 上 20GB 内存;微信点赞苹果小程序政策
  • 全球最大开源具身大模型!中国机器人跑完马拉松后开始学思考
  • OpenAI拆开AI「黑箱」,终于可以看懂GPT在想什么了
  • LeCun在Meta的「最后一作」
  • 视觉压缩称王?谷歌死守AI黑科技,DeepSeek一夜开源
  • iOS 为微信小程序「正名」,腾讯移动生态的新转机
  • “全模态”3D视觉基础模型OmniVGGT出炉!即插即用任意几何模态,刷新3D视觉任务SOTA,赋能VLA模型
  • WACV 2026 | PALMS+:融合深度基础模型,手机室内导航的技术再突破
  • GPT 5.1 发布了,但西方媒体准备「讲好中国故事」
  • AI、游戏双驱动,腾讯「赚麻了」
  • 对话李彦宏:Chatbot 不是一切,我在 AI 上看到了更让人兴奋的未来
  • ACL 2025 | 用图结构让RAG学会「记忆与总结」,重塑长上下文理解
  • OpenAI把Transformer训练成「几乎全零」,黑箱首次被彻底揭开
  • 杭州/北京内推 | 阿里淘天算法团队招聘多模态理解方向算法实习生
  • 传苹果从微信小程序抽成 15%,腾讯回应;特斯拉考虑支持 CarPlay;iPhone Air 成功支持实体卡 |极客早知道
  • 谷歌DeepMind最新论文,刚刚登上了Nature!揭秘IMO最强数学模型
  • ICLR 2026出分,审稿员怒喷「精神病」!DeepMind研究员教你绝地求生
  • GPT-5.1发布当天,文心5.0杀回来了
  • 一句「你还好吗」值40亿?斯坦福博士出走xAI,押注AGI共情力
  • 营收狂飙的「暗面」:Meta成「全球欺诈大本营」?
  • 小鹏科技日「太魔幻」:机器人走猫步,飞行汽车接近量产
  • AAAI 2026 Oral 中科大联合西工大提出RSKT-Seg:专为遥感打造的高效开放词汇分割框架,推理提速2倍
  • Roboflow&CMU论文披露RF-DETR细节:首个COCO数据集突破60 AP实时目标检测,速度飙升20倍!
  • 博士申请 | 佛罗里达大学计算机系招收NLP/LLM方向全奖博士/实习生
  • 深度研究智能体真的“懂你”吗?OPPO × 浙大首发个性化深度研究评测基准
  • DeepSeek罗福莉正式亮相小米AI;「周杰伦概念股」联手宇树造 IP 机器人;乘用车百公里加速不少于5秒
  • 奥特曼下注27岁神秘青年,「复活」世界最顶级实验室
  • AI秒破18世纪「天书」账本!谷歌新模型盲测刷屏全网
  • Llama 4造假丑闻幕后:小扎豪赌143亿,却为中国AI「做了嫁衣」
  • 少年沉迷AI自杀,9岁遭性暗示!这门「孤独生意」,正推孩子入深渊
  • ConsistEdit:重新定义AI视觉编辑,港科大、清华等机构提出MM-DiT注意力控制新方法
  • NeurIPS 2025 | 中科院携手快手发布LiveStar:首个“会说话、懂沉默”的直播AI,推理速度提升1.53倍
  • 北京内推 | 阿里高德地图团队招聘大模型方向算法实习生(可长期/转正)
  • AAAI 2026 | 悉尼科技大学 × 港理工推出 FedVLR:让联邦推荐也能“懂图文”
  • 双十一算力真敢卷!RTX 5090低至0.69元/时,同预算跑更多实验
  • 对话元理智能张帆:为什么「商业强化学习」,才是 AI To B 的新出路
  • 深度复盘:大疆是如何成为影像领域新巨头的?
  • 传李想亲抓人事,华为系高管退出理想;Meta 首席 AI 科学家杨乐昆离职创业;AI 减肥或致饮食失调
  • Nature子刊:太空中建数据中心,无限能源,浙大首次证实可行!
  • 英伟达铁幕之后,谷歌AI芯片已成气候
  • 翻译界的ChatGPT时刻!Meta发布新模型,几段示例学会冷门新语言
  • 硅谷GPU蒙尘,马斯克一言成谶:美国AI被电卡脖子
  • 65岁图灵巨头离职创业!LeCun愤然与小扎决裂,Meta巨震
  • 年产值突破 150 亿,刚毕业的俊男美女涌入「团播」工厂
  • 马斯克想要 1 万亿,何小鹏只想等一句「牛 P」
  • 通往AGI的歧路:上海AI Lab重磅发现,自进化智能体可能“错误进化
  • 北京内推 | 百度文心一言基座团队模型组招聘大模型方向研究型实习生
  • 全模态到底是不是“1+1>2”?美团UNO-Bench揭示单模态与全模态能力的组合规律
  • 3DV 2026 | 特伦托大学等提出DEMO:让AI看懂复杂人体动作,实现密集描述新范式
  • NeurIPS 2025 | 上交大、南农大提出ADPretrain:为工业异常检测量身打造的预训练“超能力”
  • 小米汽车 10 月销量近 5 万,YU7 超 Model Y;美团 AI 编程工具开启公测;马化腾王传福成智元机器人受益股东
  • AI版PUA!哈佛研究揭露:AI用情感操控,让你欲罢不能
  • AI领域全新热门职业,岗位需求今年已增长逾800%
  • 硅谷10万大裁员真相:AI根本没想取代你,是老板想干掉你
  • OpenAI试图绑架美国政府,奥特曼还有救命底牌?
  • 全球68%科研人压力爆表,高校AI人才集体大逃亡!
  • 「传统教育」的船快沉了,人们却还在挤「头等舱」
  • 保暖?排汗?时尚?户外运动装备这道「选择题」,亚瑟士要打破「不可能三角」
  • 北京内推 | 腾讯AI Lab招聘大模型/多模态大模型方向研究型实习生
  • EMNLP 2025 | 别再只看KV了!LLM越深越稀疏:UNCOMP用矩阵熵给出答案
  • 过去五年,BERT都在被“过度训练”?LeCun团队给出Encoder算力最优范式
  • 在 Cursor 工作 60 天,我发现了这家公司成功的秘密
  • 这款 AI 写作神器,让数百网文作者「月入过万」|AI 上新
  • AI“世界模型”离真实手术还有多远?首个外科视频生成基准SurgVeo揭示“合理性差距”
  • ACM MM 25 当MLLM遇上行人重识别:是“降维打击”还是“水土不服”?深度评测来了!
  • 美国AI巨头股缩水8000亿美元;传Meta靠诈骗广告收入超千亿;《英雄联盟》S15总决赛T1夺冠|极客早知道
  • 谷歌二代Nano Banana爆出!一键推演微积分,终结PS时代
  • 狗也被AI抢饭碗?好莱坞动物演员全下岗,观众直接翻脸了!
  • ChatGPT求婚火了,一句「我愿意」刷屏!网友:是真爱了
  • 小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」
  • NeurIPS25 | 清华&北大提出LinearDiff-ViT:让Transformer学会“找不同”,实打实提升模型性能
  • AI 六巨头罕见同台,辨论 AI 泡沫;SpaceX 公布简化版登月舱方案;王者荣耀年度总决赛首次在鸟巢举办

AAAI 2026 Oral | 中科院联合港大提出ARRA:外部视觉表征对齐重塑全局一致性,让自回归大模型充分释放图像生成潜能

52CV 2025-11-15 11:31 江苏

  • 论文标题:Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment

  • 作者:Xing Xie, Jiawei Liu, Ziyue Lin, Huijie Fan, Zhi Han, Yandong Tang, Liangqiong Qu

  • 机构: 中国科学院沈阳自动化研究所, 香港大学

  • 论文地址:arXiv:2503.07334

  • 代码地址https://github.com/HKU-HealthAI/ARRA

  • 录用会议: AAAI 2026 Oral

随着大模型在文本到图像生成(T2I)任务中的不断进化,一个长期被忽视的问题正在逐渐浮出水面:自回归大语言模型(LLMs)虽然在文本生成中表现卓越,却在生成图像时普遍缺乏“全局一致性”。它们“沉迷”于局部的Next Token Prediction,难以捕获图像中跨区域的整体语义结构,从而导致生成内容割裂、语义偏移、形状结构不连贯等问题。

为了突破这一关键瓶颈,中国科学院沈阳自动化研究所与香港大学的研究团队提出了一个全新的训练框架ARRA(Autoregressive Representation Alignment。不同于以往依赖架构重设计或模型堆叠的复杂方案,ARRA 的核心理念十分巧妙:在不改变 LLM 架构和推理范式的前提下,通过训练阶段引入预训练视觉编码器的全局视觉表征,对齐 LLM 的隐藏状态,提升生成图像的全局一致性

这一轻量的对齐策略有效弥合了语言表征与视觉表征之间的模态鸿沟,让自回归大模型在图像生成上充分释放潜力。

Next Token Prediction的局限性:强语言,却弱视觉

自回归 LLM 基于“Next Token Prediction”的范式,在语言任务中天然契合语序结构,因此表现出色。但当它们被应用于文本到图像生成(T2I)时,却面临根本性挑战:

局部依赖限制了视觉全局建模能力:自回归模型通过预测下一标记对序列施加局部约束,难以弥合语言与图像之间显著的跨模态差距。如图(c)所示,仅优化局部下一标记预测迫使模型专注于孤立的标记级特征。这会导致模型忽略空间结构化视觉内容所需的全局一致性,使生成的图像存在语义不匹配,视觉内容不连贯的问题。这在医学影像等对准确性要求极高的专业领域尤为突出,如图(e) (f)所示。

现有解决方案通常需要复杂的架构修改,例如添加跨模态注意力层或集成扩散模块。这些方法虽有成效,但代价高昂,也破坏了 LLM 原本的训练缩放规律和推理简洁性。这种实际限制提出了一个关键问题:我们是否可以在不改变模型架构和推理机制的情况下,充分释放大型语言模型的图像生成潜力?

论文作者提出了一种名为自回归表征对齐Autoregressive Representation Alignment (ARRA) 的全新训练框架。通过在训练过程中引入外部全局视觉表示来对齐 LLM 的隐藏状态,从而在不改变模型架构和推理机制的情况下,解决自回归语言模型(LLMs)在文本到图像生成任务中的全局一致性问题


自回归表征对齐框架(ARRA)

ARRA 的核心思想是在不改变 LLM 原始架构和推理机制的前提下,通过在训练过程中引入外部全局视觉表征来对齐 LLM 的隐藏状态,从而提升其在文本到图像生成任务中的表现。整体框架包含以下核心设计:

混合令牌(Hybrid Token <HYBNEXT>

为桥接局部下一个标记预测与全局语义对齐,ARRA 引入混合令牌 <HYBNEXT> ,它在训练期间同时受到具有双重约束:

  • 局部约束:<HYBNEXT> 通过标准代码簿索引预测下一个标记,保持局部依赖性;

  • 全局约束:<HYBNEXT> 的隐藏状态 通过 对齐,确保全局语义一致性。

全局视觉对齐(Global Visual Alignment

ARRA 在标准的自回归损失()基础上,以混合令牌<HYBNEXT>为锚点,引入了一个全局视觉对齐损失(GVA loss)。通过<HYBNEXT>的隐藏状态与外部预训练视觉模型(如 CLIPBioMedCLIPMedSAM)提取的全局视觉表征对齐来捕获全局一致性。

  • 预训练全局视觉表征提取:给定目标图像 ,使用预训练视觉编码器 将其编码为全局视觉表示

    其中, 表示特征聚合操作(如 <CLS> token 或平均池化)。

  • 全局视觉对齐损失:在训练过程中,将 LLM 中<HYBNEXT>的隐藏状态 与全局视觉表示 对齐。对齐通过投影层 实现,以匹配维度。损失函数定义为:

    其中, 表示余弦相似度损失。

  • 联合损失函数:

推理范式保持

在推理阶段,ARRA移除对齐模块, 保持 LLM 本身Next token Prediction的推理范式生成图像token序列,不引入额外计算开销。

三种通用应用模式

ARRA 的即插即用特性使其能够实现多种不同的部署场景,作者提供了三种代表性的模型变体:

  • ARRA-Base:从零开始训练T2I AR 模型,采用随机初始化

  • ARRA:将预训练的仅能生成文本的 LLM 转换为T2I生成器

  • ARRA-Adapt:使用特定领域视觉先验将现有多模态LLM适应到专业领域

这种多功能性允许使用者在不同场景下利用 ARRA,同时保持架构完整性。

如何构建高效的对齐架构?

作者首先围绕对齐机制提出了三个关键问题并进行系统分析,得到多条指导自回归生成模型设计的见解:

1️⃣ 对齐机制:标记级对齐(提出的 <HYBNEXT>)是否优于固定位置对齐<REP>)?

作者比较了两种视觉对齐策略,结果表明在每个生成步骤引入的混合标记 [HYBNEXT] 能显著提升模型对视觉表征的利用效率,优于传统的固定位置对齐 [REP]。

见解 1: 将视觉表示与在每个生成步骤交错的混合标记 <HYBNEXT>比使用固定标记<REP>更有效,因为它可以防止注意力衰减并确保外部表示的一致约束。

2️⃣ 特征聚合策略:从同一视觉编码器提取的不同类型的特征如何影响生成性能?

作者探索了视觉编码器内部特征的聚合方式如何影响生成性能。结果显示,使用 [CLS] 标记表示能带来最佳效果。

见解 2: 基础模型中的[CLS]令牌表示有效地聚合了全局视觉信息,为跨模态对齐提供了全面的指导。


3️⃣ 视觉编码器选择:跨模态还是领域专属,谁更有助于对齐?

对于仅具文本生成能力的语言模型(ARRA),跨模态编码器如 CLIP 与 BioMedCLIP 能有效弥合文本与图像间的模态鸿沟,使模型“知道生成什么”;

而在具备图像生成能力的模型(ARRA-Adapt)中,领域特定的视觉编码器表现更优——BioMedCLIP 注入医学语义,MedSAM 提供结构先验,从而提升领域适应性。

见解 3: 当LLM缺乏图像生成能力时,跨模态编码器对于语义基础至关重要。然而,对于具有图像生成功能的LLM,域特定编码器更有效,因为它们提供了域特定自适应所需的细粒度特征。

在多种基线上实现有效且稳定的提升

作者的实验证明了ARRA框架在自然和医学图像生成任务中的多功能性:

(1)ARRA-Base促进从头开始训练T2I LLM的过程。在 LlamaGen 的不同规模上都取得稳定提升,保持优秀的可扩展性。

(2)ARRA有效地将只具有文本生成能力的预训练LLM转换为T2I生成器。无需改动架构,即可让 LLM 拥有强大的 T2I 能力。

(3)ARRA-Adapt有助于通用生成模型适应至特定专业领域。通过将特定领域的先验(例如BioMedCLIP、MedSAM)集成到具有图像生成能力的LLM中,ARRA的性能优于直接微调。

这些功能证实了ARRA框架的即插即用灵活性。

见解 4: ARRA-Base能够从头开始高效地训练T2I LLM,同时保持强大的模型可扩展性。

见解 5: ARRA 支持将仅具有文本生成能力的 LLMs 更有效地转换为图像生成器,而 ARRA-Adapt 显著提升了领域适应性,更有效地将通用的图像生成 LLMs 与特定领域对齐,两者均在基线方法上表现出色。

总结与展望:从对齐出发,重新审视自回归生成

总的来说,ARRA 通过提出一种全新的 “训练阶段对齐” 的设计思想,为自回归模型的图像生成能力打开了新的方向。它不依赖扩散模型,不修改架构,不改变推理方式,却有效提升图像的整体语义一致性。这为多模态生成开辟了一条轻量、通用的路径。无论是自然图像还是医学影像,ARRA 都展示了自回归范式的新潜力。

阅读原文

跳转微信打开

联系我们