动态列表

  • 比思维链准43%!逻辑脑+大模型直觉,推理可靠性大幅提升
  • 陶哲轩官宣AI数学基金首轮名单:29个项目瓜分1.3亿,数学界沸腾!
  • GPT-5仅23.3%,全球AI集体挂科!地狱级编程考试,夺金神话破灭
  • 一手奶瓶一手键盘!新手宝妈产假氛围编程,自研实用家庭App
  • 刚刚,DeepSeek-V3.1「终极版」重磅发布!最大提升超36%,V4/R2还远吗?
  • 为了千元机用户的「流畅权」,OPPO 为安卓换了个「引擎」
  • ​一年卖出 10 个亿,这是年轻人真正的「户外神器」
  • Teable 宣布完成数百万美元天使轮融资,让数据库「长出耳朵和手」
  • 不到两千块,我拍到了专业级别的月全食|New Things
  • 字节跳动SAIL-VL2登顶OpenCompass,开源高效多模态新标杆
  • 博后年薪40万到90万 | 东方理工朱文韬课题组招聘AI方向博士后、研究助理教授、访问学生、实习生
  • 黄仁勋出手,50 亿美元入股英特尔,英伟达一统「GPU+x86」生态
  • 巴菲特清仓比亚迪,期间股价上涨 38 倍;苹果折叠屏手机细节曝光;雷军年度演讲定档 9 月 25 日
  • 刚刚,Gemini「灵魂人物」官宣加盟xAI!马斯克火速转推背书
  • 靠10万+粉丝,北漂插画师秒贷款!华为全栈AI加速,让银行及时看见
  • 醒醒,LLM根本没有性格!加州理工华人揭开AI人格幻觉真相
  • 哈佛大佬都哭了!H-1B签证飙至10万刀,微软谷歌连夜召回全球员工
  • 马斯克xAI百天血战,100天狂招100人!联创实权被削,豪言干掉微软
  • 全球双榜SOTA!明略科技专有大模型 Mano开启GUI智能操作新时代
  • 谷歌Gemini IMO和ICPC夺金功臣之一被xAI挖走,马斯克直呼:起飞
  • 工业级3D世界构建提速90倍!全新框架LatticeWorld让虚拟世界「一句话成真」
  • 集合通信库VCCL释放GPU极致算力,创智、基流、智谱、联通、北航、清华、东南重磅开源
  • 【招生招聘】阿卜杜拉国王科技大学孟彦达博士组全奖博士、博后、实习、交流生
  • 告别视频“抽帧”理解,美国东北大学新算法GRT算法实现高效可扩展的高帧率密集视频理解
  • iPhone17 卖爆,官网发货延至双 11;比亚迪仰望 U9 赛道版开启预定;网友玩坏 iPhone「舌头刷抖音」
  • 「逆龄大脑药」首次人体试验!奥特曼押注RTR242,返老还童将要成真?
  • 终结CMU霸权,清华首次登顶CSRankings世界第一!北大AI领域夺冠
  • 大模型训练新突破!Meta提出LSP:无数据也能实现能力飞升
  • OpenAI最新硬件2026年底亮相!狂挖苹果20+老将,首款神秘设备或将颠覆iPhone
  • 小扎AI眼镜当场死机,CTO自曝灾难级演示内幕:一个指令干趴自家服务器
  • 当大厂「卷」Agent,腾讯选择「下产线」
  • 陈天桥旗下AI公司MiroMind打造全球顶尖预测型大模型,性能登顶行业基准
  • OpenAI从苹果挖了20多人搞硬件,知情人士:苹果创新缓慢、官僚主义令人厌倦
  • Mini-Omni-Reasoner:实时推理,定义下一代端到端对话模型
  • 北大等提出BEVUDA++,首次解决BEV感知跨域难题,夜间检测性能提升12.9%
  • TPAMI 2025 | DiffMVS/CasDiffMVS:一种置信度感知的扩散模型,实现轻量且准确的多视图立体三维重建
  • iPhone 17 Pro 首日即现划痕;传 OpenAI 联手立讯做 AI 硬件;2025 年搞笑诺贝尔出炉
  • 史上最大升级!7亿周活ChatGPT逼宫,谷歌慌了,这次要把AI整个塞进Chrome
  • 谷歌AI或摘千禧年大奖!华人博士破解百年数学难题,首次捕获奇点
  • 登顶多模态推理榜MMMU!UCSD新方法超越GPT-5、Gemini
  • DeepSeek-R1登顶Nature,8位专家严审通过, 大模型「交卷时刻」来了
  • 18岁天才少年,登上Nature封面!
  • 扩散大语言模型也能飞?DPad免训练加速61倍,全局规划照样稳
  • 北京内推 | 腾讯混元大模型X团队招聘大模型/强化学习方向“青云计划”实习生
  • ICML 2025 | 乱写Prompt更给力?删几个Token,上下文学习立刻“反向觉醒”
  • 不要ViT也不要扩散!OneCAT甩掉编码器,统一多模态自回归模型来了
  • 华为超节点:用「一台机器」的逻辑,驱动AI万卡集群
  • 5555被拒稿,AC接收但PC强拒,NeurIPS揭榜引争议
  • 超强开源模型Qwen3、DeepSeek-V3.1,都被云计算一哥「收」了
  • 攻克大模型训推差异难题,蚂蚁开源新一代推理模型Ring-flash-2.0
  • 给大模型「精准手术」:美团智能客服提出逆向学习技术精准纠偏,风险控制提升38%
  • Meta新作SyncSeal:用深度学习“封印”同步信息,让数字水印不再怕裁剪和旋转
  • 阿联酋大学CVLab IEEE Fellow团队招收2026春季/秋季全奖博士生
  • 千禧年大奖难题有望突破?AI为流体动力学提供新思路
  • 生物学迎来「ChatGPT时刻」:Evo构建首个AI生成的「基因组」,开启生成式基因设计时代
  • 英伟达50亿美元入股英特尔,将发布CPU+GPU合体芯片,大结局来了?
  • 理解帮助生成?RecA自监督训练让统一多模态模型直升SOTA
  • 投50亿美元,英伟达联手英特尔;谷歌将Gemini加入浏览器;网约车司机平均月入过万
  • GPT-5攻入数学圈,证明定理快过博士生?网友热议AI新角色
  • 阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定
  • ChatGPT负责人深度复盘,爆4o复活内幕!过快下线是失误,将迭代模型人格
  • 全球首个AI基因组诞生,35亿年生命代码重编程!生物学迎「ChatGPT时刻」
  • 芯片大地震,黄仁勋355亿入股!英特尔要为老黄造CPU,股价狂飙30%
  • 新思科技中国30周年,引领AI智能体工程师重塑芯片设计范式
  • 科大讯飞发布面向东盟的多语言大模型及系列产品,布局中国—东盟AI生态大未来
  • Nature | 20年后你会患上哪些疾病?AI准确预测超1000种疾病患病风险,助力预防
  • 我们还是低估了英伟达
  • 谁在拖慢你的RL?别怪显卡,错的可能是你的PG-loss
  • ICCV 2025 | Gap即力量!挖掘模态间隔潜力,MG-CLIP实现持续学习SOTA
  • 少样本不够看?给LLM装上“学习引擎”,上下文学习迈入千样本时代
  • 北京内推 | 字节跳动国际电商团队招聘大模型方向算法实习生
  • OneSearch,揭开快手电商搜索「一步到位」的秘技
  • 17.38 万的大六座 SUV,吉利用银河 M9 敲碎了友商的心
  • 刚刚,OpenAI在ICPC 2025编程赛上满分登顶,Gemini也达到金牌水平
  • 从一个公众号智能体说起:好用的Agent,究竟需要什么?
  • B站出海的强有力支柱:最新开源文本转语音模型IndexTTS-2.0标志零样本TTS进入双维度时代
  • 腾讯企点营销云发布Magic Agent,营销工具全面AI化
  • 带屏 AI 眼镜登场!Meta「眼镜全家桶」炸街了
  • 通义DeepResearch震撼发布!性能比肩OpenAI,模型、框架、方案完全开源
  • 让机器人「不只是走路」,Nav-R1引领带推理的导航新时代
  • 刚刚,DeepSeek-R1论文登上Nature封面,通讯作者梁文锋
  • 腾讯 AI 的新叙事
  • 传小米 YU7 新车型曝光纽北;李飞飞放出 3D AI 新成果; 49.2%,火山引擎大模型调用份额占半壁江山
  • 小扎豪掷143亿,却换不来AI燃料!数据之争下半场,中国冲出一匹黑马
  • 终结数据荒!智源开源首个Deep Research数据合成框架InfoSeek
  • 我用一张照片,生成了一个能走进去的世界
  • 奥特曼爆料:GPT-5重构彻底一切!一人顶五个团队
  • 最新实测GPT-5-Codex:前端能力碾压,复杂项目轻松搞定,Claude可以扔了!
  • TPAMI 2025 | 弱监督与自监督引领自动驾驶运动预测新范式,用场景分割“脑补”运动,仅需0.01%标注,性能媲美监督方法
  • 南开大学等提出RAM++:从关注“降质”到关注“内容”,实现鲁棒的全能图像恢复
  • 博士申请 | 新加坡国立大学CoSTA Lab招收人工智能全奖博士/RA/实习生
  • ICML 2025 | AI福尔摩斯来了!LLaVA-ReID多轮发问,行人重识别一步步锁定
  • 不改参数不重训!CARVE一招纠偏,对比注意力让视觉模型精准聚焦
  • 清华新作颠覆CoT!ParaThinker并行思考,终结单链推理天花板
  • 没想到,音频大模型开源最彻底的,居然是小红书
  • 6.1B打平40B Dense模型,蚂蚁开源最新MoE模型Ling-flash-2.0
  • 「AI助手」真来了?谷歌牵头推进Agent支付协议AP2
  • 腾讯AI Lab首创RL框架Parallel-R1,教大模型学会「并行思维」
  • 阿里开源通义DeepResearch,性能超OpenAI、DeepSeek旗舰模型
  • 华为发布4+10+N中小企业智能化方案,打通迈向智能世界「最后一公里」
  • LLM开源2.0大洗牌:60个出局,39个上桌,AI Coding疯魔,TensorFlow已死
  • Cell丨谷歌AI co-scientist联合帝国理工揭开谜团:提出并验证细菌基因转移机制假说
  • 华为首款旅行车 1 小时订单破 5000,余承东再次「封神」?
  • 腾讯、复旦、上海创智学院提出SwiftVideo:首个Continuous-time视频蒸馏加速框架,实现业界最快最高清视频生成
  • 刚刚,李飞飞空间智能新成果震撼问世!3D世界生成进入「无限探索」时代
  • 突破单链思考上限,清华团队提出原生「并行思考」scale范式
  • 刘强东喊话王兴:尊重兴哥,不应是仇人;美机器人公司估值暴涨至390亿美元;iOS 微信支持聊天发实况图|极客早知道
  • 7亿人每周狂发180亿条消息!OpenAI首次揭秘ChatGPT最火用途
  • LLM会梦到AI智能体吗?不,是睡着了也要加班
  • 一周休4天!老黄、盖茨站台,网友炸锅:是AI福利,还是裁员信号?
  • AI精神病爆发!沉迷ChatGPT把人「宠」出病,KCL心理学家实锤
  • 谷歌DeepMind「粪坑淘金」全新方法,暗网毒数据也能训出善良模型
  • EMNLP 2025 | 跨风格不误判!MoSEs用职业写作风格建模,检测AI文本更稳更准
  • 一招打破瓶颈!HyperTree超树规划:AI掌握层级化推理,复杂任务全面突破
  • 北京内推 | 微软Copilot算法团队招聘大模型推理方向研究型实习生
  • 高阶程序,让AI从技术可行到商业可信的最后一公里
  • 网络顶会获奖!华为提出端网协同RDMA传输架构,解决大规模AI集群网络可扩展性问题
  • 具身智能能力狂飙,安全却严重滞后?首个安全可信EAI框架与路线图出炉!
  • 在端侧 AI 时代正式到来之前,联想想先做好硬件「杀手锏」
  • 火山引擎发布PromptPilot,推动大模型应用高效落地
  • 在「外滩大会·具身智能:从泛化到行动,重塑产业未来」上,这些大牛都说了什么?
  • 国内首个!夸克公开覆盖全阶段医师考试的健康大模型测试集
  • 蚂蚁百灵开源轻量级MoE语言模型Ling-mini-2.0,1.4B激活性能比肩大规模模型
  • 浙大侯廷军团队联合IIT等发布系统综述:全景解析机器学习加持下的「增强采样」方法
  • 斯坦福大学提出PSI:一种通过概率结构集成,从数据中学习可控、可灵活提示的世界模型的新系统
  • BMVC 2025 | 无需源数据,Grad-CL如何利用梯度引导实现精准的眼底图像分割?
  • 谁说Scaling Law到头了?新研究:每一步的微小提升会带来指数级增长
  • 从少样本到千样本!MachineLearningLM给大模型上下文学习装上「机器学习引擎」
  • 最新披露,骑手收入真实情况揭晓
  • 刚刚,OpenAI发布GPT-5-Codex:可独立工作超7小时,还能审查、重构大型项目
  • 多模态BUG修复新SOTA:慕尼黑工大GUIRepair登上SWE-bench Multimodal榜单第一

苹果发布Manzano:一种简单可扩展的统一多模态大模型,其混合视觉Tokenizer统一了理解与生成任务,性能SOTA

CV君 2025-09-22 11:51 江苏

本文介绍来自苹果今天发布的 Manzano 模型,这是一个简单且可扩展的统一多模态框架。它通过创新的 混合视觉Tokenizer ,成功地缓解了多模态大语言模型(LLM)在同时执行视觉理解和生成任务时的性能冲突,在多个基准测试中取得了与专业模型相当甚至更优的SOTA结果。Manzano这个名字在西班牙语中是“苹果树”的意思,这也巧妙地呼应了作者的所属机构。

有意思的是,该工作几乎清一色华人团队,作者Bowen Zhang、Ruoming Pang目前均已从苹果离职投奔Meta。

  • 标题: MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

  • 作者: Yanghao Li , Rui Qian , Bowen Pan , Haotian Zhang , Haoshuo Huang , Bowen Zhang , Jialing Tong , Haoxuan You , Xianzhi Du , Zhe Gan , Hyunjik Kim , Chao Jia , Zhenbang Wang , Yinfei Yang , Mingfei Gao, Zi-Yi Dou, Wenze Hu, Chang Gao, Dongxu Li, Philipp Dufter, Zirui Wang,Guoli Yin, Zhengdong Zhang, Chen Chen, Yang Zhao, Ruoming Pang, Zhifeng Chen

  • 机构: Apple

  • 论文地址: https://arxiv.org/abs/2509.16197

研究背景与意义

近年来,能够同时理解和生成视觉内容的统一多模态大语言模型(MLLM)展现出巨大潜力。然而,现有的开源模型在试图兼顾这两种能力时,往往会遇到性能上的“跷跷板”效应:提升生成能力可能会损害理解能力,反之亦然。

这种冲突的一个关键原因在于 视觉表示(Tokenization)的内在矛盾

  • 视觉理解任务 (如VQA、文档分析)通常受益于连续的、丰富的视觉嵌入(continuous embeddings),因为这能保留更多细节信息。

  • 视觉生成任务 (如文生图)则更适合使用离散的视觉Token(discrete tokens),这使得模型可以像处理文本一样,以自回归的方式来预测和生成图像内容。

以往的方案,如采用双编码器(一个用于理解,一个用于生成)或将预训练好的MLLM与一个独立的扩散解码器连接,虽然在一定程度上缓解了问题,但前者会引入异构Token导致的冲突,后者则限制了模型端到端学习和扩展的潜力。

为了解决这一核心挑战,苹果的研究团队提出了Manzano模型,旨在设计一个能够和谐统一理解与生成任务的简洁、可扩展的架构。

Manzano的核心方法

Manzano的核心在于其创新的 混合视觉Tokenizer (Hybrid Vision Tokenizer) 和一个精心设计的三阶段训练流程。

混合视觉Tokenizer

与之前使用两个独立视觉编码器的方案不同,Manzano采用 单一共享的视觉编码器 ,但为其配备了两个轻量级的专用适配器(Adapter):

  • 连续适配器 (Continuous Adapter): 专为理解任务设计,将图像编码为连续的嵌入向量。

  • 离散适配器 (Discrete Adapter): 专为生成任务设计,将图像编码为离散的Token序列。

如上图所示,这种设计的巧妙之处在于,两个适配器产生的特征流虽然类型不同(连续 vs. 离散),但它们源自同一个视觉编码器,因此处于一个 共同的语义空间 中。这极大地减少了LLM在处理两种任务时可能遇到的冲突。在训练Tokenizer时,模型会随机采样其中一个适配器的输出,并与一个小型LLM解码器对齐,从而让图像特征与LLM的特征空间预先对齐。

统一的自回归架构与训练流程

Manzano的整体架构包含三个主要部分:

  1. 混合视觉Tokenizer: 负责将输入图像转化为连续或离散的表示。

  2. 统一的自回归LLM: 负责处理文本和视觉Token,并自回归地预测高级语义(文本或图像Token)。

  3. 辅助的扩散解码器: 负责将LLM生成的离散图像Token渲染成最终的像素图像。

训练过程如上图所示,分为两个主要部分:

  • 统一LLM训练: LLM在一个包含纯文本、图文理解和图文生成数据的混合数据集上进行训练。对于理解任务,使用连续适配器的输出计算文本损失;对于生成任务,使用离散适配器的输出作为目标来计算图像损失。

  • 图像解码器训练: 在视觉编码器和适配器被冻结后,训练一个图像解码器(基于DiT架构),使其能够根据离-散图像Token重建高质量图像。

这种解耦的设计使得LLM可以专注于高级语义的建模,而将高保真图像渲染的细节交给专门的解码器,从而简化了训练并有利于独立扩展各个组件。

实验结果与分析

Manzano在广泛的理解和生成基准测试中都表现出色。

定量比较

上图的雷达图直观展示了Manzano 3B和30B模型与其他SOTA统一多模态LLM的性能对比。可以看出,Manzano在多个理解(如DocVQA, ChartQA)和生成(如GenEval)基准上均取得了 卓越或极具竞争力的性能

Tokenizer策略消融实验

为了验证混合Tokenizer的有效性,研究者们比较了三种不同的Tokenizer策略:纯离散、双编码器和混合Tokenizer。

实验结果(如上表)明确表明, 混合Tokenizer在所有任务上都优于其他两种方案 ,尤其是在需要丰富视觉细节的文本密集型理解任务上,优势更为明显。这证明了该设计的优越性。

统一训练 vs. 单任务训练

研究者还探索了统一训练是否会导致任务间的性能下降。

结果显示(如上图),与仅为理解或生成任务训练的专门模型相比,统一训练的Manzano模型性能只有非常轻微的下降,并且这种差距在模型规模扩大到3B时几乎可以忽略不计。这有力地证明了Manzano架构能够 有效缓解任务冲突

模型扩展性分析

Manzano的简洁设计带来了良好的扩展性。

如上图所示,随着LLM解码器的参数从300M扩展到30B,模型在所有理解和生成基准上的性能都得到了 单调且显著的提升 。这验证了该架构的可扩展性。

从上方的生成质量对比可以看出,随着LLM解码器规模的增大,生成图像的质量、文本渲染能力和创造力也随之提高。例如,30B模型能够准确地描绘和整合提示中的所有复杂概念。

与SOTA模型的详细比较

在更详细的基准比较中,Manzano同样表现出色。

在上表中,与包括GPT-4o、Gemini-1.5-Pro在内的顶尖模型相比,Manzano在通用、知识和文本密集型基准测试中展现了强大的竞争力,尤其是在 文本密集型任务上表现最佳

在生成任务评估中(上表),Manzano在GenEval和WISE基准上同样取得了 SOTA 结果,证实了其强大的指令遵循和生成能力。

图像编辑能力

除了文生图,Manzano还自然地支持多种图像编辑任务。通过将参考图像同时提供给LLM和扩散解码器,模型能够实现精确的语义指令遵循和像素级控制。

上图展示了Manzano在指令引导编辑、风格迁移、图像修复、图像扩展和深度估计等多种编辑任务中的出色能力。

总结与贡献

Manzano的提出为统一多模态大模型的发展提供了重要的思路和范例。其主要贡献可以总结为:

  1. 提出Manzano框架: 一个简单、可扩展且高效的统一多模态模型,通过“混合Tokenizer + 统一自回归骨干 + 图像解码器”的配方,成功地结合了视觉理解和生成。

  2. 创新的混合视觉Tokenizer: 该设计是缓解理解-生成任务冲突的关键,它使用单一编码器和两个专用适配器,在统一的语义空间中产生两种不同的视觉表示,被证明非常有效。

  3. SOTA性能: Manzano在多个理解和生成基准上达到了SOTA水平,尤其是在文本丰富的理解任务上,其性能甚至超过了许多专业模型。

  4. 验证了可扩展性: 实验证明,该架构具有良好的扩展性,模型性能随着参数规模的增加而稳定提升。

总而言之,Manzano的研究表明,通过精心的架构设计和训练策略,统一多模态模型不必在理解和生成能力之间做出牺牲。一个简单、可扩展的模型完全可以同时擅长两者,并达到顶尖水平。CV君认为,这项工作为未来构建更强大的多功能AI系统铺平了道路。

了解最新 AI 进展,欢迎关注公众号:我爱计算机视觉感谢点赞支持。

阅读原文

跳转微信打开

联系我们