原创 52CV 2025-09-25 00:02 江苏
尽管闭源模型保持领先,但优秀开源模型已具备强大竞争力
导读:现有多模态大模型(LMMs)在复杂多样的OCR任务中表现如何?华中科技大学白翔团队联合华南理工大学、阿德莱德大学和字节跳动联合推出新一代OCR评测基准OCRBench v2,并发布最新私有数据榜单(2025年9月)。
Seed1.6-vision、Qwen3-Omni-30B-A3B-Instruct和Gemini-2.5-Pro包揽了中英榜单前三名,但即便是这些最先进的模型,其平均分也仅勉强达到“60分”的及格线,这表明它们仍难以完全满足复杂多样的真实应用需求。
最新榜单发布
OCRBench v2榜单测试范围广泛,囊括了从2023年至2025年间的全球58个主流LMMs。其中既有来自谷歌(Gemini 2.5 Pro)、字节跳动(Seed1.6-vision)、OpenAI(GPT-5)的闭源模型,也有来自阿里巴巴(Qwen-VL)、上海人工智能实验室(InternVL)的优秀开源LMMs,可以看到LMMs在OCR任务上的表现有着显著进步。
与此同时,榜单还给出了LMMs在文本定位、知识推理等8个核心能力维度的细分指标,直观量化了模型在各类应用场景上的真实表现。此外,榜单也受到了包括NVIDIA等前沿研究团队的重视,并进行了深度测评合作。
榜单将按季度更新,持续追踪领域的前沿进展。最新榜单结果如下:
什么是OCRBench v2?
以往针对LMMs的OCR评测基准主要关注基础的文字识别任务,但随着大模型的普及,现实世界的OCR需求已超越简单的“读出文字”。文档中的表格、图表、手写笔记、复杂的版式,文字图像的文本定位,以及基于文本的推理,都是LMMs面临的挑战。
然而,现有评测基准大多任务单一、场景有限,导致模型得分迅速饱和,难以真实反映其在复杂应用中的能力。为此,OCRBench v2旨在提出一个综合全面的OCR测评基准,评估LMMs在面对文字定位、复杂场景理解与推理等广泛OCR任务时的真实表现。
OCRBench v2涵盖23种细分任务,图3展示了这些任务的典型样例,覆盖了实际应用中常见的OCR需求场景。OCRBench v2将这些任务精心划分为8个核心能力维度:文本识别、文本定位、文本检测识别、关系抽取、元素解析、数学计算、视觉文本理解和知识推理。评价榜单中分别展示了模型在各个能力维度上的具体表现。
OCRBench v2的公开数据集包含来自80余个学术数据集及部分自有数据的1万条高质量QA,并经过人工审核,确保覆盖真实OCR应用中的多样化场景。
此外,OCRBench v2还包括了独立的私有数据,这部分数据包含人工采集并标注的1500条QA,其任务设置和场景覆盖范围均与公开数据保持一致。
实验发现,公开数据与私有数据榜单排名具有较高的一致性(详见论文分析),这证明了OCRBench v2任务设计、数据构造和评价指标的合理性,体现了其在衡量LMMs现有局限方面的重要价值。
榜单深度解析
观察表格可见,国产大模型正在快速进步。国产模型首次登顶OCRBench v2榜单,Seed1.6-vision超越Gemini-2.5-Pro等顶尖商用模型,获英文榜冠军、中文榜亚军。
而开源阵营中,Qwen3-Omni-30B-A3B-Instruct分别取得英文榜第二名和中文榜第三名的好成绩,此外,InternVL、Qwen-VL、SAIL-VL、Ovis等系列国产模型也表现突出,与顶尖模型差距不大。
通过分析模型的各项核心能力表现可以发现,LMMs普遍存在“偏科”现象,没有一个模型能在所有核心能力上都表现出色,即便是排名靠前的模型,在英文和中文任务中的平均分也仅约为 60分(满分100)。
此外,各个模型的擅长方面也略有不同,例如Gemini-2.5-Pro等商用模型在计算类题目上,具有明显优势,展示出其强大逻辑推理能力;Llama-3.1-Nemotron-Nano-VL-8B-V1则凭借其强大的文字定位能力,取得英文榜单第四名的成绩。而大多数模型在基础的文本识别上表现尚可,但在文本定位(Referring)、文本检测识别(Spotting)和元素解析(Parsing)等对细粒度空间感知与结构化理解要求高的任务上,得分普遍偏低。例如,即使是榜单冠军Seed1.6-vision,在Spotting得分也仅为38.0,这也限制了其在场景文字、图文混杂文档等真实场景下的应用效果。
此外,通过对比中英文榜单,可以发现许多模型的多语言能力并不均衡。例如Llama-3.1-Nemotron-Nano-VL-8B-V1在英文榜单上高居第四名(平均分56.4),但在中文榜单上仅排第31名(平均分40.1),显示其在英文场景更具优势,这可能与数据分布或训练策略相关。相对地,中文榜单前10名中,有8个国产模型,体现了国产模型在中文理解方面具有一定优势。
与此同时,尽管闭源模型保持领先,但优秀开源模型已具备强大竞争力。从榜单来看,Gemini系列、GPT5、Seed1.6-vision等闭源模型的整体性能更胜一筹,但Qwen-Omni、InternVL、SAIL-VL、Ovis等系列的开源模型已具备强劲竞争力,英文榜单前10的模型中有5个为开源模型,而中文榜单前10的模型中,有7个为开源模型。开源模型在诸如文字定位、元素提取、视觉文字理解等类型任务上也能够达到顶尖水平。
OCRBench v2现已收录于NeurIPS 2025(Datasets and Benchmarks Track)。OCR能力已成为LMMs在处理实际应用时的“识别+理解+推理”一体化能力的重要组成部分,因此,端到端地评测各类文字相关的任务,才能够更真实反映LMMs在富文本场景中的实际表现。
此外,OCRBench v2已集成到LMM-eval(https://github.com/EvolvingLMMs-Lab/lmms-eval)和VLMEvalKit(https://github.com/open-compass/VLMEvalKit)等权威LMMs测评平台,帮助社区研究者快速完成评测与结果对比。
OCRBench v2的前作OCRBench是首个大规模的文字大模型评测基准,自发布以来就有着广泛的社区影响力,被图灵奖得主Yann LeCun(Cambrian-1,NIPS 2024 Oral)、Serge Belongie等知名学者引用,并被收录于司南、LMMs-Eval等多个权威评测榜单,全球研究团队访问使用超过11万次。
未来展望
该工作展示了现有LMMs在复杂多样的OCR任务上的表现,但值得一提的是,目前该数据集的研究对象仍未涵盖多页、多文档、长视频等超长文字内容数据,这类数据更加考验模型的长上下文理解能力。此外,当前工作未纳入交互式智能体任务,这类任务衡量模型在网页或APP等富文本交互环境中,主动对任务进行分解与执行的能力。
与此同时,后续评估工作也应考量模型的可解释性,帮助衡量模型在输出视觉证据、展现完整推理链条,和表达不确定性等方面的能力,以提升模型在决策过程的可靠性。在全球化的背景下,模型对小语种文字内容的识别与理解能力,也应被视为重要的评价指标。
相关资源:
论文链接 (arXiv):
https://arxiv.org/abs/2501.00321
项目主页 (GitHub):
https://github.com/Yuliang-Liu/MultimodalOCR
OCRBench v2私有数据榜单: