动态列表

一半人明天不上班，GDP不会掉一点！耶鲁大学揭AGI残酷真相
告别胶水代码，5倍飚速！无问芯穹首次揭秘，Infra智能体蜂群登场
Depth Anything再出新作！浙大 & 港大出品：零样本，优化任意深度图
H-1B「天价签证」引爆恐慌！印裔精英返乡梦碎，2800亿市场剧震
突发：甲骨文CEO下台！刚和OpenAI签下3000亿美元大单，或因路线斗争
年轻一代创作者，学会与 AI 共舞
KDD 2025 | 从个股偏离到市场共振：UMI挖出股市非理性因子，显著提升预测精度
一套框架搞定图像定制！IC-Custom统一「位置相关/无关」，万物迁移真落地
北京内推 | Apple中国招聘机器学习/AI方向研究型实习生
Yann LeCun团队新作LLM-JEPA：结合联合嵌入预测架构，显著提升大模型微调性能与效率，在代码生成任务上表现卓越
SilentStriker：无声击溃大模型
TPAMI | 数据增强还在“盲操”？南大提出IPF-RDA，让模型训练告别信息丢失
小米 17 系列手机官宣 9 月 25 日发布；iPhone 17 标准款需求超预期，苹果已增产；罗永浩再回应债务问题：个人债务五年前就还完了，后面是主动还的公司债务｜极客早知道
比思维链准43%！逻辑脑+大模型直觉，推理可靠性大幅提升
陶哲轩官宣AI数学基金首轮名单：29个项目瓜分1.3亿，数学界沸腾！
GPT-5仅23.3%，全球AI集体挂科！地狱级编程考试，夺金神话破灭
一手奶瓶一手键盘！新手宝妈产假氛围编程，自研实用家庭App
刚刚，DeepSeek-V3.1「终极版」重磅发布！最大提升超36%，V4/R2还远吗？
为了千元机用户的「流畅权」，OPPO 为安卓换了个「引擎」
一年卖出 10 个亿，这是年轻人真正的「户外神器」
Teable 宣布完成数百万美元天使轮融资，让数据库「长出耳朵和手」
北京内推 | 智源研究院多模态交互研究中心招聘多模态/具身智能方向研究型实习生
博士申请 | 复旦大学魏龙老师课题组招收AI4Science方向博士/硕士/RA/实习生
Lumos-1登场！自回归 + 离散扩散合体：让大模型真正“构造”动态世界！
RLHF要下岗？Meta × 牛津搞出新套路：用算力教算力，大模型训练新范式来了！
不到两千块，我拍到了专业级别的月全食｜New Things
苹果发布Manzano：一种简单可扩展的统一多模态大模型，其混合视觉Tokenizer统一了理解与生成任务，性能SOTA
博后年薪40万到90万 | 东方理工朱文韬课题组招聘AI方向博士后、研究助理教授、访问学生、实习生
字节跳动SAIL-VL2登顶OpenCompass，开源高效多模态新标杆
黄仁勋出手，50 亿美元入股英特尔，英伟达一统「GPU+x86」生态
巴菲特清仓比亚迪，期间股价上涨 38 倍；苹果折叠屏手机细节曝光；雷军年度演讲定档 9 月 25 日
刚刚，Gemini「灵魂人物」官宣加盟xAI！马斯克火速转推背书
靠10万+粉丝，北漂插画师秒贷款！华为全栈AI加速，让银行及时看见
醒醒，LLM根本没有性格！加州理工华人揭开AI人格幻觉真相
哈佛大佬都哭了！H-1B签证飙至10万刀，微软谷歌连夜召回全球员工
马斯克xAI百天血战，100天狂招100人！联创实权被削，豪言干掉微软
全球双榜SOTA！明略科技专有大模型 Mano开启GUI智能操作新时代
谷歌Gemini IMO和ICPC夺金功臣之一被xAI挖走，马斯克直呼：起飞
工业级3D世界构建提速90倍！全新框架LatticeWorld让虚拟世界「一句话成真」
集合通信库VCCL释放GPU极致算力，创智、基流、智谱、联通、北航、清华、东南重磅开源
【招生招聘】阿卜杜拉国王科技大学孟彦达博士组全奖博士、博后、实习、交流生
告别视频“抽帧”理解，美国东北大学新算法GRT算法实现高效可扩展的高帧率密集视频理解
iPhone17 卖爆，官网发货延至双 11；比亚迪仰望 U9 赛道版开启预定；网友玩坏 iPhone「舌头刷抖音」
「逆龄大脑药」首次人体试验！奥特曼押注RTR242，返老还童将要成真？
终结CMU霸权，清华首次登顶CSRankings世界第一！北大AI领域夺冠
大模型训练新突破！Meta提出LSP：无数据也能实现能力飞升
OpenAI最新硬件2026年底亮相！狂挖苹果20+老将，首款神秘设备或将颠覆iPhone
小扎AI眼镜当场死机，CTO自曝灾难级演示内幕：一个指令干趴自家服务器
当大厂「卷」Agent，腾讯选择「下产线」
陈天桥旗下AI公司MiroMind打造全球顶尖预测型大模型，性能登顶行业基准
OpenAI从苹果挖了20多人搞硬件，知情人士：苹果创新缓慢、官僚主义令人厌倦
Mini-Omni-Reasoner：实时推理，定义下一代端到端对话模型
TPAMI 2025 | DiffMVS/CasDiffMVS：一种置信度感知的扩散模型，实现轻量且准确的多视图立体三维重建
北大等提出BEVUDA++，首次解决BEV感知跨域难题，夜间检测性能提升12.9%
iPhone 17 Pro 首日即现划痕；传 OpenAI 联手立讯做 AI 硬件；2025 年搞笑诺贝尔出炉
史上最大升级！7亿周活ChatGPT逼宫，谷歌慌了，这次要把AI整个塞进Chrome
谷歌AI或摘千禧年大奖！华人博士破解百年数学难题，首次捕获奇点
登顶多模态推理榜MMMU！UCSD新方法超越GPT-5、Gemini
DeepSeek-R1登顶Nature，8位专家严审通过，大模型「交卷时刻」来了
18岁天才少年，登上Nature封面！
ICML 2025 | 乱写Prompt更给力？删几个Token，上下文学习立刻“反向觉醒”
北京内推 | 腾讯混元大模型X团队招聘大模型/强化学习方向“青云计划”实习生
扩散大语言模型也能飞？DPad免训练加速61倍，全局规划照样稳
不要ViT也不要扩散！OneCAT甩掉编码器，统一多模态自回归模型来了
华为超节点：用「一台机器」的逻辑，驱动AI万卡集群
5555被拒稿，AC接收但PC强拒，NeurIPS揭榜引争议
超强开源模型Qwen3、DeepSeek-V3.1，都被云计算一哥「收」了
攻克大模型训推差异难题，蚂蚁开源新一代推理模型Ring-flash-2.0
给大模型「精准手术」：美团智能客服提出逆向学习技术精准纠偏，风险控制提升38%
Meta新作SyncSeal：用深度学习“封印”同步信息，让数字水印不再怕裁剪和旋转
阿联酋大学CVLab IEEE Fellow团队招收2026春季/秋季全奖博士生
千禧年大奖难题有望突破？AI为流体动力学提供新思路
生物学迎来「ChatGPT时刻」：Evo构建首个AI生成的「基因组」，开启生成式基因设计时代
英伟达50亿美元入股英特尔，将发布CPU+GPU合体芯片，大结局来了？
理解帮助生成？RecA自监督训练让统一多模态模型直升SOTA
投50亿美元，英伟达联手英特尔；谷歌将Gemini加入浏览器；网约车司机平均月入过万
GPT-5攻入数学圈，证明定理快过博士生？网友热议AI新角色
阿里王牌Agent横扫SOTA，全栈开源力压OpenAI！博士级难题一键搞定
ChatGPT负责人深度复盘，爆4o复活内幕！过快下线是失误，将迭代模型人格
全球首个AI基因组诞生，35亿年生命代码重编程！生物学迎「ChatGPT时刻」
芯片大地震，黄仁勋355亿入股！英特尔要为老黄造CPU，股价狂飙30%
新思科技中国30周年，引领AI智能体工程师重塑芯片设计范式
科大讯飞发布面向东盟的多语言大模型及系列产品，布局中国—东盟AI生态大未来
Nature | 20年后你会患上哪些疾病？AI准确预测超1000种疾病患病风险，助力预防
我们还是低估了英伟达
北京内推 | 字节跳动国际电商团队招聘大模型方向算法实习生
少样本不够看？给LLM装上“学习引擎”，上下文学习迈入千样本时代
ICCV 2025 | Gap即力量！挖掘模态间隔潜力，MG-CLIP实现持续学习SOTA
谁在拖慢你的RL？别怪显卡，错的可能是你的PG-loss
OneSearch，揭开快手电商搜索「一步到位」的秘技
17.38 万的大六座 SUV，吉利用银河 M9 敲碎了友商的心
刚刚，OpenAI在ICPC 2025编程赛上满分登顶，Gemini也达到金牌水平
从一个公众号智能体说起：好用的Agent，究竟需要什么?
B站出海的强有力支柱：最新开源文本转语音模型IndexTTS-2.0标志零样本TTS进入双维度时代
腾讯企点营销云发布Magic Agent，营销工具全面AI化
带屏 AI 眼镜登场！Meta「眼镜全家桶」炸街了
通义DeepResearch震撼发布！性能比肩OpenAI，模型、框架、方案完全开源
让机器人「不只是走路」，Nav-R1引领带推理的导航新时代
刚刚，DeepSeek-R1论文登上Nature封面，通讯作者梁文锋
腾讯 AI 的新叙事
传小米 YU7 新车型曝光纽北；李飞飞放出 3D AI 新成果； 49.2%，火山引擎大模型调用份额占半壁江山
小扎豪掷143亿，却换不来AI燃料！数据之争下半场，中国冲出一匹黑马
终结数据荒！智源开源首个Deep Research数据合成框架InfoSeek
我用一张照片，生成了一个能走进去的世界
奥特曼爆料：GPT-5重构彻底一切！一人顶五个团队
最新实测GPT-5-Codex：前端能力碾压，复杂项目轻松搞定，Claude可以扔了!
南开大学等提出RAM++：从关注“降质”到关注“内容”，实现鲁棒的全能图像恢复
TPAMI 2025 | 弱监督与自监督引领自动驾驶运动预测新范式，用场景分割“脑补”运动，仅需0.01%标注，性能媲美监督方法
博士申请 | 新加坡国立大学CoSTA Lab招收人工智能全奖博士/RA/实习生
不改参数不重训！CARVE一招纠偏，对比注意力让视觉模型精准聚焦
ICML 2025 | AI福尔摩斯来了！LLaVA-ReID多轮发问，行人重识别一步步锁定
清华新作颠覆CoT！ParaThinker并行思考，终结单链推理天花板
没想到，音频大模型开源最彻底的，居然是小红书
6.1B打平40B Dense模型，蚂蚁开源最新MoE模型Ling-flash-2.0
「AI助手」真来了？谷歌牵头推进Agent支付协议AP2
腾讯AI Lab首创RL框架Parallel-R1，教大模型学会「并行思维」
阿里开源通义DeepResearch，性能超OpenAI、DeepSeek旗舰模型
华为发布4+10+N中小企业智能化方案，打通迈向智能世界「最后一公里」
LLM开源2.0大洗牌：60个出局，39个上桌，AI Coding疯魔，TensorFlow已死
Cell丨谷歌AI co-scientist联合帝国理工揭开谜团：提出并验证细菌基因转移机制假说
华为首款旅行车 1 小时订单破 5000，余承东再次「封神」？
腾讯、复旦、上海创智学院提出SwiftVideo：首个Continuous-time视频蒸馏加速框架，实现业界最快最高清视频生成
刚刚，李飞飞空间智能新成果震撼问世！3D世界生成进入「无限探索」时代
突破单链思考上限，清华团队提出原生「并行思考」scale范式
刘强东喊话王兴：尊重兴哥，不应是仇人；美机器人公司估值暴涨至390亿美元；iOS 微信支持聊天发实况图｜极客早知道

MiniCPM-V 4.5技术报告正式出炉！首个高刷视频理解多模态模型全解析

2025-09-23未知作者来源

让你更懂AI的 2025-09-23 18:12 北京

全面解构 MiniCPM-V 4.5 高效密码

自 OpenAI 发布 GPT-4 以来，多模态大模型深刻地改变了人工智能研究和产业的基本范式，在理解和推理图文语义信息方面展现出革命性能力，但其庞大的参数量和高昂的计算成本，使其严重依赖云端高性能服务器部署。这极大地限制了模型在移动设备、离线环境、能源敏感场景或注重隐私保护场景中的广泛使用。

上个月，面壁小钢炮带来了最新的多模态模型 MiniCPM-V 4.5，成为行业首个具备“高刷”视频理解能力的多模态模型。在高刷视频理解、长视频理解、图片理解、OCR、文档解析等能力上达到同级 SOTA 水平，且超越 Qwen2.5-VL 72B 实现越级领先。

模型一经开源广受社区好评，直接登上 HuggingFace Trending TOP2，截至目前在 HuggingFace、ModelScope 两大平台合计下载量超 22 万。

今天，MiniCPM-V 4.5技术报告正式出炉。报告从模型结构、训练数据和训练策略三个维度探索了高效多模态大模型的实现路径，以解决多模态大模型的训练和推理的效率瓶颈。提出统一的 3D-Resampler 架构实现高密度视频压缩、面向文档的统一 OCR 和知识学习范式、可控混合快速/深度思考的多模态强化学习三大技术。

基于这些关键技术，MiniCPM-V 4.5 在视频理解、图像理解、OCR、文档解析等多项任务上取得显著突破，不仅以 8B 的参数规模超越 GPT-4o-latest 和 Qwen2.5-VL-72B，更在推理速度上具有显著优势。

技术报告地址：

https://github.com/OpenBMB/MiniCPM-V/blob/main/docs/MiniCPM_V_4_5_Technical_Report.pdf

GitHub地址：

https://github.com/OpenBMB/MiniCPM-o

模型地址 - Hugging Face:

https://huggingface.co/openbmb/MiniCPM-V-4_5

模型地址 - ModelScope:

https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5

简介

随着多模态大模型的迅速发展，其在模型架构、数据工程和训练方法上的高昂成本和效率瓶颈，正成为其广泛应用和技术迭代的核心障碍。尤其在移动设备和边缘计算场景中，如何在保持出色性能的同时实现高效推理，给多模态模型研究和应用提出了更加严峻的挑战。

MiniCPM-V4.5 通过系统性的技术创新攻克三大效率难题：

针对模型架构：为解决处理图像与视频时产生的海量视觉 Token，我们采用了统一 3D-Resampler 架构，大幅降低了视觉编码的 Token 开销，实现最高 96 倍的压缩率。在 VideoMME 上，我们以相比 Qwen2.5-VL 7B 仅 46.7% 的显存和 8.7% 的时间开销，获得了 30B 以下参数量模型的最优性能。

针对训练数据：为解决多模态文档处理中对不可靠外部解析工具的依赖和 OCR 数据工程设计难题，我们提出了统一文档 OCR 与知识学习的新范式，使模型能直接从复杂文档图像中学习，显著降低了数据噪声和数据工程复杂度。最终在 OmniDocBench 上取得了通用 MLLM 中的最好表现。

针对训练方法：为平衡深度思考与日常即时使用两种需求，我们使用了混合强化学习策略。该策略在节省 30% 训练开销的同时实现了强大的思考能力，并且推理耗时仅为同规格深度思考模型的 42.9%-68.2%，在快速响应与全面分析间取得了可控平衡。

技术创新

2.1 高效模型架构：统一的3D-Resampler架构实现高密度视频压缩

Takeaways

1. 时间-空间统一联合压缩可充分挖掘多模态数据的冗余性，实现更的高视觉压缩率。

2. 统一的视觉架构可促进感知能力从图像到视频的无缝迁移。

传统多模态模型在处理视频时面临的核心挑战是性能与效率的权衡。为突破这一困境，MiniCPM-V 4.5 引入了创新的 3D-Resampler 架构。它不再将视频视为独立的静态帧序列，而是同时在时空方向上压缩，利用连续帧间的高度冗余信息，实现了革命性的效率提升。

该架构能将6 个连续的视频帧（448×448 分辨率）高效压缩为仅 64 个视觉 Token，实现了惊人的 96 倍视觉压缩率，而多数主流模型处理同等数据需消耗 1,536 Token。这一设计让模型在不增加语言模型计算成本的前提下，能够感知和处理更多视频帧，且能获得更好的视频理解能力。

▲ 3D-Resampler在VideoMME（含有无字幕两种评测方式）上的性能和处理效率对比

更重要的是，3D-Resampler 实现了图像与视频处理的统一编码，确保了知识和能力的无缝迁移。一个有力的证明是，尽管没有经过专门的视频 OCR 数据训练，模型依然展现出良好的视频 OCR 能力。同时，由于统一的架构设计和参数共享，从 2D 扩展至 3D-Resampler 仅需一个轻量化的 SFT 阶段，极大地降低了训练成本。

2.2 高效知识学习：面向文档的统一OCR和知识学习范式

Takeaways

对文档图像文本进行不同程度的可见性扰动，即可将知识学习、OCR 能力高效地统一到单个学习目标中。

多模态模型在处理文档时，普遍采用两种独立的低效方法。一方面，文档知识学习高度依赖脆弱的外部解析工具，不仅效率低下，解析错误还常常引入噪声，需要大量数据工程进行修复。另一方面，OCR 能力学习虽受益于数据增强，但过度的图像扰动又会导致文字无法辨认，反而诱发模型产生幻觉。

对于以上困难，我们提出一条核心洞察：文档知识获取和文字识别的关键区别，仅在于图像中文字的可见度。

基于此，MiniCPM-V 4.5 使用了一种统一的 OCR 和知识学习范式：对文档图像中的文字区域施加不同程度的损坏，利用“从损坏图像中重建原文”这一学习目标同时学习两种任务。如下图所示，通过控制损坏程度，我们创造了三种任务：

1. 轻微损坏 (可靠 OCR 训练)：文字尚可辨认，模型专注于学习准确、鲁棒的文字识别。

2. 中度损坏 (综合推理)：字符变得模糊，模型可以结合框内视觉线索和上下文进行综合推理和重建原文。

3. 高度损坏 (知识学习)：文字被完全抹除，模型被强制依赖上下文图表和文字以及模型内部知识来重建原文，从而实现真正的文档级理解。

这一方法彻底摆脱了对外部解析器的依赖，杜绝了其引入的噪声和工程负担。同时，它智能地将知识学习和 OCR 目标无缝融合在同一训练批次中，极大地提升了数据利用率和训练效率。

我们在轻量训练设置下对该学习范式进行了消融验证，结果说明面向文档的统一 OCR 和知识学习范式有效提升了模型在文档理解、知识推理、文字识别上的能力：

▲ 统一OCR和知识学习范式有效提升了模型在MMMU, AI2D, OCRBench上的性能

2.3 高效强化学习：可控混合快速/深度思考的多模态强化学习

Takeaways

1. 困难样本是深思考冷启动的关键。

2. 混合思考模式强化学习可产生交叉泛化，显著降低训练开销。

3. 基于概率的奖励信号（PR）可以有效拓宽奖励信号覆盖面，提升强化学习训练收益。

MiniCPM-V 4.5 通过混合强化学习方法，实现了快速思考和深度思考两种模式的平衡优化。快速思考模式面向高频日常使用场景，提供高效的推理体验；深度思考模式则专注于复杂任务的深入分析。

模型通过少量高难度、高质量的推理样本进行冷启动，快速掌握深度思考所必需的反思与回溯能力。进入强化学习阶段，两种模式被同时优化，不仅显著增强了深度思考模式的性能，更实现了两种模式间推理能力的交叉泛化。模型在节省约 30% 采样开销的前提下，仍能达到和仅深思考强化学习的模型相当的表现。

▲ 不同强化学习策略的OpenCompass得分和训练采样开销

同时，我们引入了 RLPR 与 RLAIF-V 两项技术：

RLPR 解决了通用域问题的开放式回答（如答案表述相对复杂、含物理单位等）难以获得可靠奖励信号的痛点，从模型生成正确答案的概率中获得奖励信号（probability-based reward, PR）。随着训练步数增加，结合 PR 训练相比常规训练方法的优势会逐渐扩大。

▲ RLPR在训练过程中OpenCompass的性能增长曲线

RLAIF-V 有效抑制了模型的幻觉现象，通过逐个检验模型输出答案中事实陈述的可靠度并构建偏好数据用于 DPO，提升了多种多模态理解任务的可靠性。

▲ RLAIF-V有效提升模型在ObjHalBench和MMHal-Bench上的性能

评测结果

3.1 多模态综合能力评测

MiniCPM-V 4.5 在 OpenCompass 综合评测中取得了 77.0 的平均分。该评测涵盖了 8 个主流多模态基准的综合指标。尽管仅有 8B 参数规模，模型在视觉语言能力上超越了 GPT-4o-latest 等广泛使用的专有模型，以及 Qwen2.5-VL 72B 等强大的开源模型，成为 30B 参数以下性能最佳的开源多模态大模型。

▲ MiniCPM-V 4.5多模态综合能力评测结果

3.2 推理开销

MiniCPM-V 4.5 在提供 SOTA 级多模态表现的同时，具有最佳的推理效率和最低的推理开销。在混合思考模式下，MiniCPM-V 4.5 在推理耗时仅为同规格深度思考模型的 42.9%-68.2% 的同时获得了更好的 OpenCompass 分数。

同时，得益于高密度视频压缩技术，在覆盖短、中、长三种类型的视频理解评测集 Video-MME 上，MiniCPM-V 4.5 时间开销（未计算模型抽帧时间）仅为同级模型的 1/10。

▲ MiniCPM-V 4.5推理开销

模型实测效果展示

总结

作为 MiniCPM-V 系列的最新成果，MiniCPM-V 4.5 系统性地从架构、数据和训练三大维度为解决多模态大模型的效率瓶颈提供了一条可行路径。

模型通过统一 3D-Resampler 架构，实现了卓越的视频编码效率，在有限的计算预算下处理高帧率长视频；依靠统一的 OCR 和知识学习范式，其能直接从文档中学习多种能力，摆脱了对脆弱外部解析工具的依赖，降低了数据工程的复杂性；而混合式强化学习策略，则在提升训练与推理效率的同时，促进了模型在快速与深度思考模式间的平衡与泛化。

MiniCPM-V 4.5 不仅在 OpenCompass 评测中取得了超越众多大参数量开源模型和专有模型的 77.0 分优异成绩，证明了其技术路线的有效性。

作为清华大学自然语言处理实验室和面壁智能联合开发的系列模型，MiniCPM-V 和 MiniCPM-o 系列已经获得了广泛的学术和产业认可。系列模型下载量超过 1300 万次，GitHub 星标超过 2 万次，相关技术论文发表在国际著名期刊 Nature Communications 上，谷歌学术引用超过 600 次。

系列模型曾连续多天在 HuggingFace Trending、GitHub Trending 和 Papers With Code Trending Research 榜单排名第一，入选 HuggingFace 2024 年度最受欢迎和下载开源模型榜单、中关村论坛年会 10 项重大科技成果、英特尔中国学术成就奖。这些成就充分体现了小钢炮系列在推动多模态人工智能技术发展方面的重要贡献。

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

阅读原文

跳转微信打开

动态列表

MiniCPM-V 4.5技术报告正式出炉！首个高刷视频理解多模态模型全解析

2.1 高效模型架构：统一的3D-Resampler架构实现高密度视频压缩

2.2 高效知识学习：面向文档的统一OCR和知识学习范式

2.3 高效强化学习：可控混合快速/深度思考的多模态强化学习

3.1 多模态综合能力评测

3.2 推理开销

类别

资源

联系我们