李涵 2025-09-19 22:35 北京
从Patch到像素,一路自回归
©PaperWeekly 原创· 作者 | 李涵
单位 | 上海交通大学博士生
研究方向 | 多模态理解生成一体化
动机
近年来,多模态领域的主流做法是将不同功能的模型“组合”起来使用。一个模型负责理解图像,另一个负责生成图像,还有一个专门用于编辑。
这种“模块化”的设计虽然功能强大,但暴露了两个核心痛点:
第一,流程复杂且缓慢,信息需要在不同模块间传递,导致了严重的延迟;
第二,信息损失严重,图像在被“理解”模块压缩后进行,很多精细的视觉细节就丢失了。即便后续的“统一模型”尝试整合这些功能,但大多仍保留着独立的视觉编码器等组件,没有从根本上摆脱这种信息瓶颈。
为了彻底解决这些问题,我们提出了一个全新的、更符合第一性原理的思路,并基于此构建了 OneCAT 模型。
论文题目:
OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation
项目主页:
代码地址:
https://github.com/onecat-ai/onecat
Huggingface地址:
https://huggingface.co/onecat-ai/OneCAT-3B
我们认为,一个真正强大的多模态 AI,不应该依赖外部的、零散的组件。因此,OneCAT 采用了极简的纯解码器架构,将语言理解、视觉理解、视觉生成的处理完全统一在同一个基于自回归的 Transformer 内部。
这意味着,它不再需要一个独立的“视觉编码器”来预编码图片或一个独立的 diffusion 来生成图像。
OneCAT 的模态混合专家(Modality MoE)设计,让模型可以智能地理不同类型的信息。另外,我们在 LLM 内部引入了多尺度生成机制,让 OneCAT 在生成图片时能由粗到细、由宏观到微观地逐级构建画面,这不仅极大地提升了生成速度,也保证了最终的图像质量。
OneCAT 探索了一个新的方向:通过更纯粹、更一体化的架构,我们或许能构建出更高效、更强大的下一代通用多模态智能。
▲ 图1. OneCAT 文生图样例,支持多种风格、分辨率、比例的图像生成
OneCAT架构设计:统一而简洁,精准而高效
▲ 图2 OneCAT 架构图
OneCAT 以 Qwen2.5 LLM 为基座,通过四大核心组件实现多模态统一建模:
1. Decoder-only 的统一自回归架构:端到端处理多模态输入
OneCAT 是一个 Decoder-only 的结构,推理阶段摒弃了视觉编码器(ViT)与 VAE tokenizer,转而采用轻量级 Patch Embedding 层直接将原始图像映射为视觉 Token,与文本 Token 共同输入 LLM,实现跨模态的早期融合。
除此之外,OneCAT 采用统一的 LLM 主干网络,基于自回归方式同时处理文本与图像生成,无需额外接入或嵌入 Diffusion 模型即可完成视觉生成任务。
该架构使用统一的基于自回归的负对数似然(NLL)损失函数,实现对文本与图像生成任务的联合训练,保证任务间的一致性。
文本生成沿用标准的下一词元预测(Next Token Prediction,NTP),而图像生成则引入“下一尺度预测”(Next Scale Prediction,NSP)机制,以实现高效的多尺度视觉自回归生成。
理解任务:Patch Embedding 层通过一个 14×14 卷积对图像分块,再经 2×2 像素重组(pixel unshuffle)压缩 Token 数量,最后通过两层 MLP 将通道数对齐至 LLM 隐藏层维度,获得连续视觉 Token;
生成任务:训练阶段使用多尺度 VAE 将目标图像转换为多尺度离散视觉 Token(推理时无需 VAE Tokenizer,仅需 Detokenizer 进行图像重建);
编辑任务:参考图像同样仅通过 Patch Embedding 处理,无需 ViT 或 VAE tokenizer 编码。该设计使视觉 Token 在 LLM 浅层更关注与原始像素相关的 low-level 特征,确保编辑中的像素级一致性;在深层则更偏向高级语义信息,从而实现更准确的指令遵循与语义编辑。
2. 模态专家网络(Modality-MoE)
每个 Transformer 块中的前馈网络(FFN)被扩展为一组模态专属专家:
文本专家(Text. FFN):处理离散视觉 Token,负责语言理解与文本生成;
视觉理解专家(Und. FFN):处理连续视觉 Token,提取视觉相关特征;
视觉生成专家(Gen. FFN):处理离散视觉 Token,负责视觉内容生成。
通过硬路由机制,不同模态的 Token 被定向至对应专家,而共享 QKV 和 Attention 层,既保证模型表达效率,又促进跨模态对齐。
3. 内嵌的多尺度视觉生成能力
OneCAT 引入视觉自回归(Visual AutoRegressive,VAR)中的“下一尺度预测”(Next-Scale Prediction,NSP)机制,实现高效的视觉图像生成。
与 VARGPT 等现有统一模型不同——VARGPT将预训练好的、基于 NSP 的 Transformer 作为视觉解码器嫁接在基于下一词元预测(NTP)的 LLM 之后,并未真正缓解推理阶段的效率瓶颈(视觉 Token 仍需在 LLM 中逐词解码)。
OneCAT 首次将 NSP 机制完全内化于 LLM 中,使原本仅支持 NTP 文本生成的模型同时具备多尺度视觉生成能力,显著提升了推理效率。
此外,OneCAT 提出尺度感知适配器(Scale-Aware Adapter,SAA),使视觉生成专家(Gen. FFN)能够区分并提取不同尺度视觉 Token 的独立信息。该模块动机在于,不同尺度 Token 承载不同粒度信息:低尺度 Token 关注全局光照、色调等低频信息,高尺度 Token 则捕捉局部纹理等细节。
SAA 在 Gen. FFN 基础上引入一组低秩适配器(数量与视觉尺度数一致),实现对多尺度 Token 的区分性处理,支持从粗到细的精准图像生成。
4. 灵活多模态注意力机制:适配不同多模态的任务
OneCAT 为不同模态定制注意力模式,并采用 FlexAttention 来实现训练加速:
文本 Token 使用因果注意力,保持自回归生成一致性;
连续视觉 Token 使用双向注意力,充分捕捉全局的视觉特征;
多尺度离散视觉 Token 使用分块因果注意力,同尺度 Token 可互相可见,不同尺度间则保持因果约束。
▲ 图3 灵活多模态注意力机制
训练策略
OneCAT 的训练面临一个核心挑战:由于模型去除了前置的视觉编码器,转由理解专家(Und. FFN)负责提取视觉特征,而该模块是由文本专家(Text FFN)初始化而来,并不具备像预训练 ViT 那样强大的视觉先验知识。
因此,必须借助大规模图文配对数据对 Und. FFN 进行预训练,以注入足够的视觉感知能力。
类似其他 Encoder-free 的方法中, Mono-InternVL 使用了超过十亿图文对样本(>1B)专门训练视觉理解专家,数据需求极大。
而 EvE 和 VoRA 等方法则通过将 LLM 的中间层特征与预训练的 ViT 进行对齐,以实现视觉知识蒸馏,然而这类方法使用参数量较小(300~500M)的 ViT 作为教师模型去蒸馏参数量更大(3B~7B)的 LLM 时,LLM 的参数空间未能被充分激活,导致蒸馏效率较低。
为解决这一问题,OneCAT 提出了一种基于定制化 MLLM 教师模型的理解能力蒸馏策略。
具体而言,其训练了一个两层的 MLP,将预训练且冻结的 LLM(Qwen2.5)与 ViT(InternViT)连接起来,构成一个 MLLM 作为教师模型。
该教师模型仅需约 10M 图文对即可获得良好的视觉感知能力。之后,冻结整个教师模型,用于蒸馏 OneCAT 中的理解模块——包括 Patch Embedding 层和 Und. FFN,通过对齐教师和学生 LLM 中每一个 Transformer Block 的隐藏层的特征,将视觉知识更高效地注入学生模型。
那么基于此,OneCAT 的整体训练策略分为三个阶段:
1. 第一阶段,先使用 10M 图文对数据训练教师 MLLM 中的 MLP 层,随后进行OneCAT中 expert 的预热训练。使用约 436M 图文对数据对理解部分的 Und. FFN 和 Patch Embedding 进行视觉理解蒸馏,以及 52M 文生图数据对生成部分的 Gen. FFN 进行生成预训练。
该训练阶段中,Text. FFN、Attention、QKV 层均冻结,保证模型原有的文本能力不受影响
2. 第二阶段,解锁 OneCAT 全部参数,在文生图、图像编辑、图像理解、纯文本等多个任务下进行联合训练。总共约 70M 多模态指令数据、60M 图像生成数据和 40M 纯文本数据。
3. 第三阶段,进行高质量微调,使用了约 11M 多模态指令数据、3M 图像生成数据和 2M 纯文本数据,以进一步提升模型整体性能。
▲ 图4 三阶段训练示意图
▲ 表1 三阶段训练参数
性能验证
1. 多模态理解
▲ 表2 多模态理解性能对比. A-LLM 为 LLM 激活参数,Vis 为视觉编码器或 VAE tokenizer 参数
▲ 表3 多模态理解性能对比. A-LLM 为 LLM 激活参数,Vis 为视觉编码器或 VAE tokenizer 参数
在多项多模态理解任务中,与现有其他 Encoder-free 理解模型相比,OneCAT-3B 在多个基准测试中均取得了最先进的性能表现。
在 OCR 相关任务中,其在 AI2D(77.8)、ChartQA(81.2)、InfoVQA(64.8)和 DocVQA(91.2)等数据集上表现优异;在通用多模态理解任务中,如 MME-S(2051)、MMBench-en(78.8)、MM-Vet(52.2)和 MathVista(61.7)上也均达到领先水平。
同时,与当前主流的多模态统一模型相比,OneCAT-3B 在激活参数量更少的情况下,依然在多项基准测试中表现优于依赖视觉编码器或 VAE tokenizer 的模型,例如基于 SigLIP 的 Janus-Pro-7B 和 SigLIP2 的 Tar-7B。
相比基于视觉编码器的理解模型(如 Qwen2.5-VL),OneCAT-3B 在 MMBench-en(78.8 vs 79.1)、MathVista(61.7 vs 62.3)和 DocVQA(91.2 vs 93.9)等任务上的表现与其较为接近,但在其他部分基准上仍存在一定差距。
这主要源于 OneCAT 在多模态理解任务中所使用的预训练与微调数据在规模和质量上仍显不足——总训练 token 量为 0.5T,而 Qwen2.5-VL 则达到了 4T。我们相信,通过后续扩大高质量训练数据规模,这一差距有望得到弥补。
2. 多模态视觉生成
在文生图基准上,OneCAT 在 GenEval、DPG 上进行了验证。OneCAT-3B 在不进行 prompt 重写的情况下在 GenEval 上取得了 SOTA 的分数(0.90),同时在 DPG 取得了 84.53 的优秀分数,优于 Janus-Pro-7B,Tar-7B,BLIP3o-8B 等模型。
在图像编辑基准 ImgEdit 上,OneCAT-3B 取得了 3.43 的评分,其中在背景替换(Background),风格迁移(Style),属性调节(Adjust)等子项上取得了领先表现。
▲ 表4 文生图 GenEval 性能对比
▲ 表5 文生图 DPG-Bench 性能对比
▲ 表6 图像编辑 ImgEdit-Bench 性能对比
效率分析
相比于其他统一多模态模型,OneCAT 的核心优势在于其高效推理设计:通过移除视觉编码器以加速视觉理解,并引入多尺度视觉自回归生成机制,同时在推理阶段省去 VAE tokenizer,显著提升文本到图像生成与编辑的效率。
在图像理解方面,相比于 Qwen2.5-VL-3B,OneCAT-3B 在不同分辩率图像输入的情况下,首 token 生成时间(TTFT)大幅缩短,特别是高分辨率输入(1792×1792)下,延迟从 0.583 秒降至 0.225 秒,降幅达 61.4%,提速效果尤为显著。
在视觉生成方面,无论是文本到图像生成还是图像编辑,OneCAT 均实现了显著的推理加速。
相比 BAGEL-7B 生成 512×512 和 1024×1024 图像分别所需的 8.76 秒和 26.29 秒,OneCAT-3B 仅需 1.40 秒和 2.85 秒,耗时约为前者的 1/6 至 1/9。
此外,从 512 到 1024 分辨率的生成时间仅增加约一倍,展现出良好的可扩展性,为未来支持更高分辨率图像生成奠定了基础。
▲ 表7 多模态理解效率对比
▲ 表8 图像生成效率对比
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·