动态列表

比思维链准43%！逻辑脑+大模型直觉，推理可靠性大幅提升
陶哲轩官宣AI数学基金首轮名单：29个项目瓜分1.3亿，数学界沸腾！
GPT-5仅23.3%，全球AI集体挂科！地狱级编程考试，夺金神话破灭
一手奶瓶一手键盘！新手宝妈产假氛围编程，自研实用家庭App
刚刚，DeepSeek-V3.1「终极版」重磅发布！最大提升超36%，V4/R2还远吗？
为了千元机用户的「流畅权」，OPPO 为安卓换了个「引擎」
一年卖出 10 个亿，这是年轻人真正的「户外神器」
Teable 宣布完成数百万美元天使轮融资，让数据库「长出耳朵和手」
不到两千块，我拍到了专业级别的月全食｜New Things
字节跳动SAIL-VL2登顶OpenCompass，开源高效多模态新标杆
博后年薪40万到90万 | 东方理工朱文韬课题组招聘AI方向博士后、研究助理教授、访问学生、实习生
黄仁勋出手，50 亿美元入股英特尔，英伟达一统「GPU+x86」生态
巴菲特清仓比亚迪，期间股价上涨 38 倍；苹果折叠屏手机细节曝光；雷军年度演讲定档 9 月 25 日
刚刚，Gemini「灵魂人物」官宣加盟xAI！马斯克火速转推背书
靠10万+粉丝，北漂插画师秒贷款！华为全栈AI加速，让银行及时看见
醒醒，LLM根本没有性格！加州理工华人揭开AI人格幻觉真相
哈佛大佬都哭了！H-1B签证飙至10万刀，微软谷歌连夜召回全球员工
马斯克xAI百天血战，100天狂招100人！联创实权被削，豪言干掉微软
全球双榜SOTA！明略科技专有大模型 Mano开启GUI智能操作新时代
谷歌Gemini IMO和ICPC夺金功臣之一被xAI挖走，马斯克直呼：起飞
工业级3D世界构建提速90倍！全新框架LatticeWorld让虚拟世界「一句话成真」
集合通信库VCCL释放GPU极致算力，创智、基流、智谱、联通、北航、清华、东南重磅开源
【招生招聘】阿卜杜拉国王科技大学孟彦达博士组全奖博士、博后、实习、交流生
告别视频“抽帧”理解，美国东北大学新算法GRT算法实现高效可扩展的高帧率密集视频理解
iPhone17 卖爆，官网发货延至双 11；比亚迪仰望 U9 赛道版开启预定；网友玩坏 iPhone「舌头刷抖音」
「逆龄大脑药」首次人体试验！奥特曼押注RTR242，返老还童将要成真？
终结CMU霸权，清华首次登顶CSRankings世界第一！北大AI领域夺冠
大模型训练新突破！Meta提出LSP：无数据也能实现能力飞升
OpenAI最新硬件2026年底亮相！狂挖苹果20+老将，首款神秘设备或将颠覆iPhone
小扎AI眼镜当场死机，CTO自曝灾难级演示内幕：一个指令干趴自家服务器
当大厂「卷」Agent，腾讯选择「下产线」
陈天桥旗下AI公司MiroMind打造全球顶尖预测型大模型，性能登顶行业基准
OpenAI从苹果挖了20多人搞硬件，知情人士：苹果创新缓慢、官僚主义令人厌倦
Mini-Omni-Reasoner：实时推理，定义下一代端到端对话模型
北大等提出BEVUDA++，首次解决BEV感知跨域难题，夜间检测性能提升12.9%
TPAMI 2025 | DiffMVS/CasDiffMVS：一种置信度感知的扩散模型，实现轻量且准确的多视图立体三维重建
iPhone 17 Pro 首日即现划痕；传 OpenAI 联手立讯做 AI 硬件；2025 年搞笑诺贝尔出炉
史上最大升级！7亿周活ChatGPT逼宫，谷歌慌了，这次要把AI整个塞进Chrome
谷歌AI或摘千禧年大奖！华人博士破解百年数学难题，首次捕获奇点
登顶多模态推理榜MMMU！UCSD新方法超越GPT-5、Gemini
DeepSeek-R1登顶Nature，8位专家严审通过，大模型「交卷时刻」来了
18岁天才少年，登上Nature封面！
扩散大语言模型也能飞？DPad免训练加速61倍，全局规划照样稳
北京内推 | 腾讯混元大模型X团队招聘大模型/强化学习方向“青云计划”实习生
ICML 2025 | 乱写Prompt更给力？删几个Token，上下文学习立刻“反向觉醒”
不要ViT也不要扩散！OneCAT甩掉编码器，统一多模态自回归模型来了
华为超节点：用「一台机器」的逻辑，驱动AI万卡集群
5555被拒稿，AC接收但PC强拒，NeurIPS揭榜引争议
超强开源模型Qwen3、DeepSeek-V3.1，都被云计算一哥「收」了
攻克大模型训推差异难题，蚂蚁开源新一代推理模型Ring-flash-2.0
给大模型「精准手术」：美团智能客服提出逆向学习技术精准纠偏，风险控制提升38%
Meta新作SyncSeal：用深度学习“封印”同步信息，让数字水印不再怕裁剪和旋转
阿联酋大学CVLab IEEE Fellow团队招收2026春季/秋季全奖博士生
千禧年大奖难题有望突破？AI为流体动力学提供新思路
生物学迎来「ChatGPT时刻」：Evo构建首个AI生成的「基因组」，开启生成式基因设计时代
英伟达50亿美元入股英特尔，将发布CPU+GPU合体芯片，大结局来了？
理解帮助生成？RecA自监督训练让统一多模态模型直升SOTA
投50亿美元，英伟达联手英特尔；谷歌将Gemini加入浏览器；网约车司机平均月入过万
GPT-5攻入数学圈，证明定理快过博士生？网友热议AI新角色
阿里王牌Agent横扫SOTA，全栈开源力压OpenAI！博士级难题一键搞定
ChatGPT负责人深度复盘，爆4o复活内幕！过快下线是失误，将迭代模型人格
全球首个AI基因组诞生，35亿年生命代码重编程！生物学迎「ChatGPT时刻」
芯片大地震，黄仁勋355亿入股！英特尔要为老黄造CPU，股价狂飙30%
新思科技中国30周年，引领AI智能体工程师重塑芯片设计范式
科大讯飞发布面向东盟的多语言大模型及系列产品，布局中国—东盟AI生态大未来
Nature | 20年后你会患上哪些疾病？AI准确预测超1000种疾病患病风险，助力预防
我们还是低估了英伟达
谁在拖慢你的RL？别怪显卡，错的可能是你的PG-loss
ICCV 2025 | Gap即力量！挖掘模态间隔潜力，MG-CLIP实现持续学习SOTA
少样本不够看？给LLM装上“学习引擎”，上下文学习迈入千样本时代
北京内推 | 字节跳动国际电商团队招聘大模型方向算法实习生
OneSearch，揭开快手电商搜索「一步到位」的秘技
17.38 万的大六座 SUV，吉利用银河 M9 敲碎了友商的心
刚刚，OpenAI在ICPC 2025编程赛上满分登顶，Gemini也达到金牌水平
从一个公众号智能体说起：好用的Agent，究竟需要什么?
B站出海的强有力支柱：最新开源文本转语音模型IndexTTS-2.0标志零样本TTS进入双维度时代
腾讯企点营销云发布Magic Agent，营销工具全面AI化
带屏 AI 眼镜登场！Meta「眼镜全家桶」炸街了
通义DeepResearch震撼发布！性能比肩OpenAI，模型、框架、方案完全开源
让机器人「不只是走路」，Nav-R1引领带推理的导航新时代
刚刚，DeepSeek-R1论文登上Nature封面，通讯作者梁文锋
腾讯 AI 的新叙事
传小米 YU7 新车型曝光纽北；李飞飞放出 3D AI 新成果； 49.2%，火山引擎大模型调用份额占半壁江山
小扎豪掷143亿，却换不来AI燃料！数据之争下半场，中国冲出一匹黑马
终结数据荒！智源开源首个Deep Research数据合成框架InfoSeek
我用一张照片，生成了一个能走进去的世界
奥特曼爆料：GPT-5重构彻底一切！一人顶五个团队
最新实测GPT-5-Codex：前端能力碾压，复杂项目轻松搞定，Claude可以扔了!
TPAMI 2025 | 弱监督与自监督引领自动驾驶运动预测新范式，用场景分割“脑补”运动，仅需0.01%标注，性能媲美监督方法
南开大学等提出RAM++：从关注“降质”到关注“内容”，实现鲁棒的全能图像恢复
博士申请 | 新加坡国立大学CoSTA Lab招收人工智能全奖博士/RA/实习生
ICML 2025 | AI福尔摩斯来了！LLaVA-ReID多轮发问，行人重识别一步步锁定
不改参数不重训！CARVE一招纠偏，对比注意力让视觉模型精准聚焦
清华新作颠覆CoT！ParaThinker并行思考，终结单链推理天花板
没想到，音频大模型开源最彻底的，居然是小红书
6.1B打平40B Dense模型，蚂蚁开源最新MoE模型Ling-flash-2.0
「AI助手」真来了？谷歌牵头推进Agent支付协议AP2
腾讯AI Lab首创RL框架Parallel-R1，教大模型学会「并行思维」
阿里开源通义DeepResearch，性能超OpenAI、DeepSeek旗舰模型
华为发布4+10+N中小企业智能化方案，打通迈向智能世界「最后一公里」
LLM开源2.0大洗牌：60个出局，39个上桌，AI Coding疯魔，TensorFlow已死
Cell丨谷歌AI co-scientist联合帝国理工揭开谜团：提出并验证细菌基因转移机制假说
华为首款旅行车 1 小时订单破 5000，余承东再次「封神」？
腾讯、复旦、上海创智学院提出SwiftVideo：首个Continuous-time视频蒸馏加速框架，实现业界最快最高清视频生成
刚刚，李飞飞空间智能新成果震撼问世！3D世界生成进入「无限探索」时代
突破单链思考上限，清华团队提出原生「并行思考」scale范式
刘强东喊话王兴：尊重兴哥，不应是仇人；美机器人公司估值暴涨至390亿美元；iOS 微信支持聊天发实况图｜极客早知道
7亿人每周狂发180亿条消息！OpenAI首次揭秘ChatGPT最火用途
LLM会梦到AI智能体吗？不，是睡着了也要加班
一周休4天！老黄、盖茨站台，网友炸锅：是AI福利，还是裁员信号？
AI精神病爆发！沉迷ChatGPT把人「宠」出病，KCL心理学家实锤
谷歌DeepMind「粪坑淘金」全新方法，暗网毒数据也能训出善良模型
EMNLP 2025 | 跨风格不误判！MoSEs用职业写作风格建模，检测AI文本更稳更准
一招打破瓶颈！HyperTree超树规划：AI掌握层级化推理，复杂任务全面突破
北京内推 | 微软Copilot算法团队招聘大模型推理方向研究型实习生
高阶程序，让AI从技术可行到商业可信的最后一公里
网络顶会获奖！华为提出端网协同RDMA传输架构，解决大规模AI集群网络可扩展性问题
具身智能能力狂飙，安全却严重滞后？首个安全可信EAI框架与路线图出炉！
在端侧 AI 时代正式到来之前，联想想先做好硬件「杀手锏」
火山引擎发布PromptPilot，推动大模型应用高效落地
在「外滩大会·具身智能：从泛化到行动，重塑产业未来」上，这些大牛都说了什么？
国内首个！夸克公开覆盖全阶段医师考试的健康大模型测试集
蚂蚁百灵开源轻量级MoE语言模型Ling-mini-2.0，1.4B激活性能比肩大规模模型
浙大侯廷军团队联合IIT等发布系统综述：全景解析机器学习加持下的「增强采样」方法
斯坦福大学提出PSI：一种通过概率结构集成，从数据中学习可控、可灵活提示的世界模型的新系统
BMVC 2025 | 无需源数据，Grad-CL如何利用梯度引导实现精准的眼底图像分割？
谁说Scaling Law到头了？新研究：每一步的微小提升会带来指数级增长
从少样本到千样本！MachineLearningLM给大模型上下文学习装上「机器学习引擎」
最新披露，骑手收入真实情况揭晓
刚刚，OpenAI发布GPT-5-Codex：可独立工作超7小时，还能审查、重构大型项目
多模态BUG修复新SOTA：慕尼黑工大GUIRepair登上SWE-bench Multimodal榜单第一

苹果发布Manzano：一种简单可扩展的统一多模态大模型，其混合视觉Tokenizer统一了理解与生成任务，性能SOTA

2025-09-22未知作者来源

CV君 2025-09-22 11:51 江苏

本文介绍来自苹果今天发布的 Manzano 模型，这是一个简单且可扩展的统一多模态框架。它通过创新的 混合视觉Tokenizer ，成功地缓解了多模态大语言模型（LLM）在同时执行视觉理解和生成任务时的性能冲突，在多个基准测试中取得了与专业模型相当甚至更优的SOTA结果。Manzano这个名字在西班牙语中是“苹果树”的意思，这也巧妙地呼应了作者的所属机构。

有意思的是，该工作几乎清一色华人团队，作者Bowen Zhang、Ruoming Pang目前均已从苹果离职投奔Meta。

标题： MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer
作者： Yanghao Li , Rui Qian , Bowen Pan , Haotian Zhang , Haoshuo Huang , Bowen Zhang , Jialing Tong , Haoxuan You , Xianzhi Du , Zhe Gan , Hyunjik Kim , Chao Jia , Zhenbang Wang , Yinfei Yang , Mingfei Gao, Zi-Yi Dou, Wenze Hu, Chang Gao, Dongxu Li, Philipp Dufter, Zirui Wang,Guoli Yin, Zhengdong Zhang, Chen Chen, Yang Zhao, Ruoming Pang, Zhifeng Chen
机构： Apple
论文地址： https://arxiv.org/abs/2509.16197

研究背景与意义

近年来，能够同时理解和生成视觉内容的统一多模态大语言模型（MLLM）展现出巨大潜力。然而，现有的开源模型在试图兼顾这两种能力时，往往会遇到性能上的“跷跷板”效应：提升生成能力可能会损害理解能力，反之亦然。

这种冲突的一个关键原因在于 视觉表示（Tokenization）的内在矛盾 ：

视觉理解任务 （如VQA、文档分析）通常受益于连续的、丰富的视觉嵌入（continuous embeddings），因为这能保留更多细节信息。
视觉生成任务 （如文生图）则更适合使用离散的视觉Token（discrete tokens），这使得模型可以像处理文本一样，以自回归的方式来预测和生成图像内容。

以往的方案，如采用双编码器（一个用于理解，一个用于生成）或将预训练好的MLLM与一个独立的扩散解码器连接，虽然在一定程度上缓解了问题，但前者会引入异构Token导致的冲突，后者则限制了模型端到端学习和扩展的潜力。

为了解决这一核心挑战，苹果的研究团队提出了Manzano模型，旨在设计一个能够和谐统一理解与生成任务的简洁、可扩展的架构。

Manzano的核心方法

Manzano的核心在于其创新的 混合视觉Tokenizer (Hybrid Vision Tokenizer) 和一个精心设计的三阶段训练流程。

混合视觉Tokenizer

与之前使用两个独立视觉编码器的方案不同，Manzano采用 单一共享的视觉编码器 ，但为其配备了两个轻量级的专用适配器（Adapter）：

连续适配器 (Continuous Adapter): 专为理解任务设计，将图像编码为连续的嵌入向量。
离散适配器 (Discrete Adapter): 专为生成任务设计，将图像编码为离散的Token序列。

如上图所示，这种设计的巧妙之处在于，两个适配器产生的特征流虽然类型不同（连续 vs. 离散），但它们源自同一个视觉编码器，因此处于一个 共同的语义空间 中。这极大地减少了LLM在处理两种任务时可能遇到的冲突。在训练Tokenizer时，模型会随机采样其中一个适配器的输出，并与一个小型LLM解码器对齐，从而让图像特征与LLM的特征空间预先对齐。

统一的自回归架构与训练流程

Manzano的整体架构包含三个主要部分：

混合视觉Tokenizer： 负责将输入图像转化为连续或离散的表示。
统一的自回归LLM： 负责处理文本和视觉Token，并自回归地预测高级语义（文本或图像Token）。
辅助的扩散解码器： 负责将LLM生成的离散图像Token渲染成最终的像素图像。

训练过程如上图所示，分为两个主要部分：

统一LLM训练： LLM在一个包含纯文本、图文理解和图文生成数据的混合数据集上进行训练。对于理解任务，使用连续适配器的输出计算文本损失；对于生成任务，使用离散适配器的输出作为目标来计算图像损失。
图像解码器训练： 在视觉编码器和适配器被冻结后，训练一个图像解码器（基于DiT架构），使其能够根据离-散图像Token重建高质量图像。

这种解耦的设计使得LLM可以专注于高级语义的建模，而将高保真图像渲染的细节交给专门的解码器，从而简化了训练并有利于独立扩展各个组件。

实验结果与分析

Manzano在广泛的理解和生成基准测试中都表现出色。

定量比较

上图的雷达图直观展示了Manzano 3B和30B模型与其他SOTA统一多模态LLM的性能对比。可以看出，Manzano在多个理解（如DocVQA, ChartQA）和生成（如GenEval）基准上均取得了 卓越或极具竞争力的性能 。

Tokenizer策略消融实验

为了验证混合Tokenizer的有效性，研究者们比较了三种不同的Tokenizer策略：纯离散、双编码器和混合Tokenizer。

实验结果（如上表）明确表明， 混合Tokenizer在所有任务上都优于其他两种方案 ，尤其是在需要丰富视觉细节的文本密集型理解任务上，优势更为明显。这证明了该设计的优越性。

统一训练 vs. 单任务训练

研究者还探索了统一训练是否会导致任务间的性能下降。

结果显示（如上图），与仅为理解或生成任务训练的专门模型相比，统一训练的Manzano模型性能只有非常轻微的下降，并且这种差距在模型规模扩大到3B时几乎可以忽略不计。这有力地证明了Manzano架构能够 有效缓解任务冲突 。

模型扩展性分析

Manzano的简洁设计带来了良好的扩展性。

如上图所示，随着LLM解码器的参数从300M扩展到30B，模型在所有理解和生成基准上的性能都得到了 单调且显著的提升 。这验证了该架构的可扩展性。

从上方的生成质量对比可以看出，随着LLM解码器规模的增大，生成图像的质量、文本渲染能力和创造力也随之提高。例如，30B模型能够准确地描绘和整合提示中的所有复杂概念。

与SOTA模型的详细比较

在更详细的基准比较中，Manzano同样表现出色。

在上表中，与包括GPT-4o、Gemini-1.5-Pro在内的顶尖模型相比，Manzano在通用、知识和文本密集型基准测试中展现了强大的竞争力，尤其是在 文本密集型任务上表现最佳 。

在生成任务评估中（上表），Manzano在GenEval和WISE基准上同样取得了 SOTA 结果，证实了其强大的指令遵循和生成能力。

图像编辑能力

除了文生图，Manzano还自然地支持多种图像编辑任务。通过将参考图像同时提供给LLM和扩散解码器，模型能够实现精确的语义指令遵循和像素级控制。

上图展示了Manzano在指令引导编辑、风格迁移、图像修复、图像扩展和深度估计等多种编辑任务中的出色能力。

总结与贡献

Manzano的提出为统一多模态大模型的发展提供了重要的思路和范例。其主要贡献可以总结为：

提出Manzano框架： 一个简单、可扩展且高效的统一多模态模型，通过“混合Tokenizer + 统一自回归骨干 + 图像解码器”的配方，成功地结合了视觉理解和生成。
创新的混合视觉Tokenizer： 该设计是缓解理解-生成任务冲突的关键，它使用单一编码器和两个专用适配器，在统一的语义空间中产生两种不同的视觉表示，被证明非常有效。
SOTA性能： Manzano在多个理解和生成基准上达到了SOTA水平，尤其是在文本丰富的理解任务上，其性能甚至超过了许多专业模型。
验证了可扩展性： 实验证明，该架构具有良好的扩展性，模型性能随着参数规模的增加而稳定提升。

总而言之，Manzano的研究表明，通过精心的架构设计和训练策略，统一多模态模型不必在理解和生成能力之间做出牺牲。一个简单、可扩展的模型完全可以同时擅长两者，并达到顶尖水平。CV君认为，这项工作为未来构建更强大的多功能AI系统铺平了道路。

了解最新 AI 进展，欢迎关注公众号:我爱计算机视觉感谢点赞支持。

阅读原文

跳转微信打开