CV君 2025-09-22 11:51 江苏
本文介绍来自苹果今天发布的 Manzano 模型,这是一个简单且可扩展的统一多模态框架。它通过创新的 混合视觉Tokenizer ,成功地缓解了多模态大语言模型(LLM)在同时执行视觉理解和生成任务时的性能冲突,在多个基准测试中取得了与专业模型相当甚至更优的SOTA结果。Manzano这个名字在西班牙语中是“苹果树”的意思,这也巧妙地呼应了作者的所属机构。
有意思的是,该工作几乎清一色华人团队,作者Bowen Zhang、Ruoming Pang目前均已从苹果离职投奔Meta。
标题: MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer
作者: Yanghao Li , Rui Qian , Bowen Pan , Haotian Zhang , Haoshuo Huang , Bowen Zhang , Jialing Tong , Haoxuan You , Xianzhi Du , Zhe Gan , Hyunjik Kim , Chao Jia , Zhenbang Wang , Yinfei Yang , Mingfei Gao, Zi-Yi Dou, Wenze Hu, Chang Gao, Dongxu Li, Philipp Dufter, Zirui Wang,Guoli Yin, Zhengdong Zhang, Chen Chen, Yang Zhao, Ruoming Pang, Zhifeng Chen
机构: Apple
研究背景与意义
近年来,能够同时理解和生成视觉内容的统一多模态大语言模型(MLLM)展现出巨大潜力。然而,现有的开源模型在试图兼顾这两种能力时,往往会遇到性能上的“跷跷板”效应:提升生成能力可能会损害理解能力,反之亦然。
这种冲突的一个关键原因在于 视觉表示(Tokenization)的内在矛盾 :
视觉理解任务 (如VQA、文档分析)通常受益于连续的、丰富的视觉嵌入(continuous embeddings),因为这能保留更多细节信息。
视觉生成任务 (如文生图)则更适合使用离散的视觉Token(discrete tokens),这使得模型可以像处理文本一样,以自回归的方式来预测和生成图像内容。
以往的方案,如采用双编码器(一个用于理解,一个用于生成)或将预训练好的MLLM与一个独立的扩散解码器连接,虽然在一定程度上缓解了问题,但前者会引入异构Token导致的冲突,后者则限制了模型端到端学习和扩展的潜力。
为了解决这一核心挑战,苹果的研究团队提出了Manzano模型,旨在设计一个能够和谐统一理解与生成任务的简洁、可扩展的架构。
Manzano的核心方法
Manzano的核心在于其创新的 混合视觉Tokenizer (Hybrid Vision Tokenizer) 和一个精心设计的三阶段训练流程。
混合视觉Tokenizer
与之前使用两个独立视觉编码器的方案不同,Manzano采用 单一共享的视觉编码器 ,但为其配备了两个轻量级的专用适配器(Adapter):
连续适配器 (Continuous Adapter): 专为理解任务设计,将图像编码为连续的嵌入向量。
离散适配器 (Discrete Adapter): 专为生成任务设计,将图像编码为离散的Token序列。
如上图所示,这种设计的巧妙之处在于,两个适配器产生的特征流虽然类型不同(连续 vs. 离散),但它们源自同一个视觉编码器,因此处于一个 共同的语义空间 中。这极大地减少了LLM在处理两种任务时可能遇到的冲突。在训练Tokenizer时,模型会随机采样其中一个适配器的输出,并与一个小型LLM解码器对齐,从而让图像特征与LLM的特征空间预先对齐。
统一的自回归架构与训练流程
Manzano的整体架构包含三个主要部分:
混合视觉Tokenizer: 负责将输入图像转化为连续或离散的表示。
统一的自回归LLM: 负责处理文本和视觉Token,并自回归地预测高级语义(文本或图像Token)。
辅助的扩散解码器: 负责将LLM生成的离散图像Token渲染成最终的像素图像。
训练过程如上图所示,分为两个主要部分:
统一LLM训练: LLM在一个包含纯文本、图文理解和图文生成数据的混合数据集上进行训练。对于理解任务,使用连续适配器的输出计算文本损失;对于生成任务,使用离散适配器的输出作为目标来计算图像损失。
图像解码器训练: 在视觉编码器和适配器被冻结后,训练一个图像解码器(基于DiT架构),使其能够根据离-散图像Token重建高质量图像。
这种解耦的设计使得LLM可以专注于高级语义的建模,而将高保真图像渲染的细节交给专门的解码器,从而简化了训练并有利于独立扩展各个组件。
实验结果与分析
Manzano在广泛的理解和生成基准测试中都表现出色。
定量比较
上图的雷达图直观展示了Manzano 3B和30B模型与其他SOTA统一多模态LLM的性能对比。可以看出,Manzano在多个理解(如DocVQA, ChartQA)和生成(如GenEval)基准上均取得了 卓越或极具竞争力的性能 。
Tokenizer策略消融实验
为了验证混合Tokenizer的有效性,研究者们比较了三种不同的Tokenizer策略:纯离散、双编码器和混合Tokenizer。
实验结果(如上表)明确表明, 混合Tokenizer在所有任务上都优于其他两种方案 ,尤其是在需要丰富视觉细节的文本密集型理解任务上,优势更为明显。这证明了该设计的优越性。
统一训练 vs. 单任务训练
研究者还探索了统一训练是否会导致任务间的性能下降。
结果显示(如上图),与仅为理解或生成任务训练的专门模型相比,统一训练的Manzano模型性能只有非常轻微的下降,并且这种差距在模型规模扩大到3B时几乎可以忽略不计。这有力地证明了Manzano架构能够 有效缓解任务冲突 。
模型扩展性分析
Manzano的简洁设计带来了良好的扩展性。
如上图所示,随着LLM解码器的参数从300M扩展到30B,模型在所有理解和生成基准上的性能都得到了 单调且显著的提升 。这验证了该架构的可扩展性。
从上方的生成质量对比可以看出,随着LLM解码器规模的增大,生成图像的质量、文本渲染能力和创造力也随之提高。例如,30B模型能够准确地描绘和整合提示中的所有复杂概念。
与SOTA模型的详细比较
在更详细的基准比较中,Manzano同样表现出色。
在上表中,与包括GPT-4o、Gemini-1.5-Pro在内的顶尖模型相比,Manzano在通用、知识和文本密集型基准测试中展现了强大的竞争力,尤其是在 文本密集型任务上表现最佳 。
在生成任务评估中(上表),Manzano在GenEval和WISE基准上同样取得了 SOTA 结果,证实了其强大的指令遵循和生成能力。
图像编辑能力
除了文生图,Manzano还自然地支持多种图像编辑任务。通过将参考图像同时提供给LLM和扩散解码器,模型能够实现精确的语义指令遵循和像素级控制。
上图展示了Manzano在指令引导编辑、风格迁移、图像修复、图像扩展和深度估计等多种编辑任务中的出色能力。
总结与贡献
Manzano的提出为统一多模态大模型的发展提供了重要的思路和范例。其主要贡献可以总结为:
提出Manzano框架: 一个简单、可扩展且高效的统一多模态模型,通过“混合Tokenizer + 统一自回归骨干 + 图像解码器”的配方,成功地结合了视觉理解和生成。
创新的混合视觉Tokenizer: 该设计是缓解理解-生成任务冲突的关键,它使用单一编码器和两个专用适配器,在统一的语义空间中产生两种不同的视觉表示,被证明非常有效。
SOTA性能: Manzano在多个理解和生成基准上达到了SOTA水平,尤其是在文本丰富的理解任务上,其性能甚至超过了许多专业模型。
验证了可扩展性: 实验证明,该架构具有良好的扩展性,模型性能随着参数规模的增加而稳定提升。
总而言之,Manzano的研究表明,通过精心的架构设计和训练策略,统一多模态模型不必在理解和生成能力之间做出牺牲。一个简单、可扩展的模型完全可以同时擅长两者,并达到顶尖水平。CV君认为,这项工作为未来构建更强大的多功能AI系统铺平了道路。
了解最新 AI 进展,欢迎关注公众号:我爱计算机视觉感谢点赞支持。