让你更懂AI的 2025-09-30 14:03 北京
让“文档智能”不再躲在Demo里
现有多模态大模型(LMMs)在复杂多样的 OCR 任务中表现如何?华中科技大学、华南理工大学、阿德莱德大学和字节跳动联合推出新一代 OCR 评测基准 OCRBench v2,并发布最新私有数据榜单(2025 年 9 月)。
Seed1.6-vision、Qwen3-Omni-30B-A3B-Instruct 和 Gemini-2.5-Pro 包揽了中英榜单前三名,但即便是这些最先进的模型,其平均分也仅勉强达到 “60 分”的及格线,这表明它们仍难以完全满足复杂多样的真实应用需求。
最新榜单发布
OCRBench v2 榜单测试范围广泛,囊括了从 2023 年至 2025 年间的全球 58 个主流 LMMs。
其中既有来自谷歌(Gemini 2.5 Pro)、字节跳动(Seed1.6-vision)、OpenAI(GPT-5)的闭源模型,也有来自阿里巴巴(Qwen-VL)、上海人工智能实验室(InternVL)的优秀开源 LMMs,可以看到 LMMs 在 OCR 任务上的表现有着显著进步。
与此同时,榜单还给出了 LMMs 在文本定位、知识推理等 8 个核心能力维度的细分指标,直观量化了模型在各类应用场景上的真实表现。此外,榜单也收到了包括 NVIDIA 等前沿研究团队的重视,并进行了深度测评合作。
榜单将按季度更新,持续追踪领域的前沿进展。最新榜单结果如下:
▲ 图1. OCRBench v2私有数据英文榜单(25年9月)
▲ 图2. OCRBench v2私有数据中文榜单(25年9月)
什么是OCRBench v2?
以往针对 LMMs 的 OCR 评测基准主要关注基础的文字识别任务,但随着大模型的普及,现实世界的 OCR 需求已超越简单的“读出文字”。文档中的表格、图表、手写笔记、复杂的版式,文字图像的文本定位,以及基于文本的推理,都是 LMMs 面临的挑战。
然而,现有评测基准大多任务单一、场景有限,导致模型得分迅速饱和,难以真实反映其在复杂应用中的能力。为此,OCRBench v2 旨在提出一个综合全面的 OCR 测评基准,评估 LMMs 在面对文字定位、复杂场景理解与推理等广泛 OCR 任务时的真实表现。
OCRBench v2 涵盖 23 种细分任务,图 3 展示了这些任务的典型样例,覆盖了实际应用中常见的 OCR 需求场景。
OCRBench v2 将这些任务精心划分为 8 个核心能力维度:文本识别、文本定位、文本检测识别、关系抽取、元素解析、数学计算、视觉文本理解和知识推理。评价榜单中分别展示了模型在各个能力维度上的具体表现。
OCRBench v2 的公开数据集包含来自 80 余个学术数据集及部分自有数据的 1 万条高质量 QA,并经过人工审核,确保覆盖真实 OCR 应用中的多样化场景。
此外,OCRBench v2 还包括了独立的私有数据,这部分数据包含人工采集并标注的 1500 条 QA,其任务设置和场景覆盖范围均与公开数据保持一致。
实验发现,公开数据与私有数据榜单排名具有较高的一致性(详见论文分析),这证明了 OCRBench v2 任务设计、数据构造和评价指标的合理性,体现了其在衡量 LMMs 现有局限方面的重要价值。
▲ 图3. OCRBench v2涵盖任务的典型样例
榜单深度解析
观察表格可见,国产大模型正在快速进步。国产模型首次登顶 OCRBench v2 榜单,Seed1.6-vision 超越 Gemini-2.5-Pro 等顶尖商用模型,获英文榜冠军、中文榜亚军。
而开源阵营中,Qwen3-Omni-30B-A3B-Instruct 分别取得英文榜第二名和中文榜第三名的好成绩,此外,InternVL、Qwen-VL、SAIL-VL、Ovis 等系列国产模型也表现突出,与顶尖模型差距不大。
通过分析模型的各项核心能力表现可以发现,LMMs 普遍存在“偏科”现象,没有一个模型能在所有核心能力上都表现出色,即便是排名靠前的模型,在英文和中文任务中的平均分也仅约为 60 分(满分 100)。
此外,各个模型的擅长方面也略有不同,例如 Gemini-2.5-Pro 等商用模型在计算类题目上,具有明显优势,展示出其强大逻辑推理能力;Llama-3.1-Nemotron-Nano-VL-8B-V1 则凭借其强大的文字定位能力,取得英文榜单第四名的成绩。
而大多数模型在基础的文本识别上表现尚可,但在文本定位(Referring)、文本检测识别(Spotting)和元素解析(Parsing)等对细粒度空间感知与结构化理解要求高的任务上,得分普遍偏低。
例如,即使是榜单冠军 Seed1.6-vision,在 Spotting 得分也仅为 38.0,这也限制了其在场景文字、图文混杂文档等真实场景下的应用效果。
此外,通过对比中英文榜单,可以发现许多模型的多语言能力并不均衡。例如 Llama-3.1-Nemotron-Nano-VL-8B-V1 在英文榜单上高居第四名(平均分 56.4),但在中文榜单上仅排第 31 名(平均分 40.1),显示其在英文场景更具优势,这可能与数据分布或训练策略相关。
相对地,中文榜单前 10 名中,有 8 个国产模型,体现了国产模型在中文理解方面具有一定优势。
与此同时,尽管闭源模型保持领先,但优秀开源模型已具备强大竞争力。从榜单来看,Gemini 系列、GPT5、Seed1.6-vision 等闭源模型的整体性能更胜一筹。
但 Qwen-Omni、InternVL、SAIL-VL、Ovis 等系列的开源模型已具备强劲竞争力,英文榜单前 10 的模型中有 5 个为开源模型,而中文榜单前 10 的模型中,有 7 个为开源模型。开源模型在诸如文字定位、元素提取、视觉文字理解等类型任务上也能够达到顶尖水平。
OCRBench v2 现已收录于 NeurIPS 2025(Datasets and Benchmarks Track)。OCR 能力已成为 LMMs 在处理实际应用时的“识别+理解+推理”一体化能力的重要组成部分,因此,端到端地评测各类文字相关的任务,才能够更真实反映 LMMs 在富文本场景中的实际表现。
此外,OCRBench v2 已集成到 LMM-eval(https://github.com/EvolvingLMMs-Lab/lmms-eval)和 VLMEvalKit(https://github.com/open-compass/VLMEvalKit)等权威 LMMs 测评平台,帮助社区研究者快速完成评测与结果对比。
OCRBench v2 的前作 OCRBench 是首个大规模的文字大模型评测基准,自发布以来就有着广泛的社区影响力,被图灵奖得主 Yann LeCun(Cambrian-1,NIPS 2024 Oral)、Serge Belongie 等知名学者引用,并被收录于司南、LMMs-Eval 等多个权威评测榜单,全球研究团队访问使用超过11万次。
未来展望
该工作展示了现有 LMMs 在复杂多样的 OCR 任务上的表现,但值得一提的是,目前该数据集的研究对象仍未涵盖多页、多文档、长视频等超长文字内容数据,这类数据更加考验模型的长上下文理解能力。
此外,当前工作未纳入交互式智能体任务,这类任务衡量模型在网页或APP等富文本交互环境中,主动对任务进行分解与执行的能力。
与此同时,后续评估工作也应考量模型的可解释性,帮助衡量模型在输出视觉证据、展现完整推理链条,和表达不确定性等方面的能力,以提升模型在决策过程的可靠性。在全球化的背景下,模型对小语种文字内容的识别与理解能力,也应被视为重要的评价指标。
相关资源:
论文链接(arXiv):
https://arxiv.org/abs/2501.00321
项目主页(GitHub):
https://github.com/Yuliang-Liu/MultimodalOCR
OCRBench v2 私有数据榜单:
https://99franklin.github.io/ocrbench_v2
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·