原创 让你更懂AI的 2025-11-11 13:34 北京
全模态不是加法,是协同能否成立的科学验证。
全模态协同究竟是确实存在的能力交互,还是一种看上去更像自然叠加的错觉?UNO-Bench 的意义不在于新增一个榜单,而是第一次把这个争论多年的问题,转成了可以被量化检验的对象。
全模态协同究竟是确实存在的能力交互,还是一种看上去更像自然叠加的错觉?UNO-Bench 的意义不在于新增一个榜单,而是第一次把这个争论多年的问题,转成了可以被量化检验的对象。
过去两年,多模态模型的对比越来越多,但一直有个关键点悬着:分数变高到底在指什么?是模型真的用到了跨模态协同,还是其它因素带来的自然提升,比如模型体量、数据分布、上下文露出等等?
如果一道题只靠文本就能推出来,那全模态加分就不具备证据含量——它没有在验证协同本身。也正因为如此,很多 benchmark 历史上其实从来没回答过 1+1 是否大于 2。
这一次,美团 LongCat 团队提出的 UNO-Bench,是把这个问题转成可以被直接验证的科学对象。
它构建了一套可复现、可量化、可对照、可证伪的一站式全模态大模型评测基准:统一能力体系、跨模态依赖控制、MO 多步开放式问题、通用评分模型这几条机制共同对齐的目标,是把全模态能力从概念讨论,推进到可以直接用数据得出结论的层面。
▲ 图1. UNO-Bench 的核心数据与性能趋势总览
更重要的是,UNO-Bench 首次量化地验证了全模态的组合定律(Compositional Law):当能力较弱时表现类似短板效应,而当能力强到一定阈值后,会出现明显的协同增益。这条曲线,为不同规模模型之间建立了一条统一、可复用的分析坐标。
论文标题:
UNO-Bench: A Unified Benchmark for Exploring the Compositional Law Between Uni-modal and Omni-modal in Omni Models
论文地址:
https://arxiv.org/abs/2510.18915
GitHub地址:
https://github.com/meituan-longcat/UNO-Bench
Hugging Face地址:
https://huggingface.co/datasets/meituan-longcat/UNO-Bench
行业命题:协同是否成立
如果协同真实存在,它应该体现为能力交互带来的组合效应,而非模型容量更大、信息更多这类自然累加。目前真正的挑战点不在于有没有模型够强,而在于:现有 benchmark 无法把协同单独挑出来验证。
多模态 benchmark 的数量在近期迅速膨胀,但背后的设计逻辑大多有一个共同特性:只要模型有足够的语言能力,就能在不少样本上仅凭单模态猜出答案。这种问题分类大致可以分为两类:
第一类:表现榜单型(performance leaderboard):代表如 MMBench、MVBench、MathVision。这些基准可以测模型总体表现,但题目本身并不严格依赖跨模态,文本线索往往已经足够推断出来。因此它们无法将协同能力与单模态能力拆开。
第二类:全模态尝试型(omni-model oriented):代表如 OmniBench、WorldSense。它们确实在关注全模态视角,但由于没有统一能力定义体系,也缺少消融与多步开放式链式问题机制,很难判断分数差异究竟来自协同,还是来自上下文暴露、结构偏置、样本分布等因素。
因此,这些基准都能测强不强,却无法测为什么强。行业长期没有一套可以直接验证协同是否成立的设计。UNO-Bench解决的正是这一段缺口:它不是让我们感受协同可能存在,而是把协同本体拉到统计检验层面。
▲ 表1. 现有主流多模态 benchmark 的覆盖与缺口对照表
方法:UNO-Bench 如何验证协同?
让协同变成可验证对象,不是把评测规模做大,而是让协同成为问题成立本身的必要条件。UNO-Bench 的做法,是在能力定义、数据成立性、推理链呈现、统一评分体系之间形成闭环。每一步都是在排除侥幸,强化可证伪。
2.1 统一能力体系(Unified Taxonomy)
LongCat 团队将全模态智能拆成两条能力轴:感知(perception)与推理(reasoning)。感知面向视觉、语音、语言三个输入通道;推理对应跨模态语义融合、逻辑链构建和多步思考。这不是任务类别,而是模型在每一步究竟在做什么的抽象层。
团队进一步将识别、定位、因果判断、关系链抽取等细粒度能力映射到同一 taxonomy,使不同模态组合能够落在同一能力坐标系上比较。如果能力轴缺失,协同就只能从结果倒推,这很难排除模型规模、数据分布等其它干扰因素。统一能力体系,是协同能够被直接观察的前提。
▲ 图2. UNO-Bench 统一能力体系
2.2 多模态依赖数据构建
协同能否被验证,首先取决于题目本身是否成立为跨模态才能解的问题。如果一个问题脱掉视觉或语音仍然可解,那么所谓全模态增益就不具备证据意义。基于这一原则,UNO-Bench 构建了一套标准化数据生产线:精选素材 → 专家标注 → 多轮严格质检。
关键语音内容由真人独立录制(覆盖普通话、四川话等),视觉素材则大量来自众包实拍。一方面避免模型因为训练集覆盖而见过,另一方面打破原始视频声画天然同步带来的冗余,使每种模态各自承担不可替代的信息。
最核心的验证环节是逐题做模态消融:分别移除视觉、语音、文本后重新验证题目是否仍然可解。只有在任一单模态条件下都无法回答的问题,才进入最终数据池。最终,超过 98% 的样本具备严格意义上的跨模态可解性。
▲ 图3. 跨模态可解性示例:对比 a/b/c 三种场景,展示哪些问题只能在跨模态条件下成立
2.3 数据补全与压缩一致
在自建数据之外,UNO-Bench 还从 AV-Odyssey、WorldSense 等公开数据集中筛选了约 11% 的高质量样本用于补全。但这不是拼接式混合,而是以能力覆盖缺口为导向的 targeted sampling:在不破坏协同链的前提下扩展能力空间。
为了使 UNO-Bench 的评测成为行业可以常态化使用的环节,针对样本规模较大的单模态评测集,团队提出了聚类引导的分层抽样:先做语义聚类,再在 cluster 级做分层抽取,用代表性样本替代全量测试。
实验验证表明,在保持模型排序一致性的前提下,这种策略将评测成本降低超过 90%。协同既能被测出来,也能以低成本被持续追踪。
▲ 图4. UNO-Bench 数据构建与压缩流程示意:展示数据池构建、公开数据补全、聚类抽样压缩的闭环流程
此外,团队还验证了聚类引导抽样(CGHS)的排序一致性:在压缩超过 90% 样本量的情况下,模型排序仍然保持稳定(SRCC / PLCC > 0.98)。这意味着这一套评测流程不只能测协同,也能在成本可控的前提下常态化运行评测。
▲ 图5. UNO-Bench 聚类抽样压缩后 SRCC/PLCC 保持 >0.98
2.4 多步开放式问题(MO)
传统选择题只能检验:有没有选对一次。它不能揭示模型在推理链条中的衰减。
UNO-Bench 因此引入多步开放式问题(MO, Multi-step Open-ended question):一个复杂任务被拆成多级递进的子问题,模型在每一步都要生成自由文本回答;评分根据每一步的难度和重要性加权,满分 10 分。这让推理变成一个可被逐步观察的过程,而不只是最终回答的一次命中。
▲ 图6. 多步开放式问题构建示例:展示复杂任务拆解为多个依赖递进 node 的路径结构
为了让 MO 能够规模化评估,UNO-Bench 还配套训练了通用评分模型。它先将问题类型细分为六类,再结合人工与自动标注多轮迭代的数据集训练,使该评分模型在分布外模型与 benchmark 上依然维持约 95% 的准确率。
MO 的意义因此不仅在于提出链条,而在于它能够被稳定量化。
▲ 图7. 通用评分模型训练流程图:展示通用评分模型的训练 pipeline
▲ 图8. 通用评分模型的问题类型定义:展示评分模型中更细粒度的问题类型颗粒度
实验:协同呈现组合定律
LongCat团队在 UNO-Bench 上对 Qwen、Baichuan、MiniCPM 以及 Gemini 系列等主流全模态大模型展开了系统评测。
评测目标不只是比谁更高分,而是验证一个根本问题:单模态与全模态之间是否存在可被量化的协同规律。同时,也检验 UNO-Bench 是否真的能够把这种模态融合效率测出来,而不是做成另一张 leaderboard。
3.1 模型覆盖范围与统一评测配置
本次实验覆盖了当前最主流的全模态体系:开源(Qwen 系列、Baichuan、MiniCPM 等)与闭源(Gemini 系列)。
所有模型均在统一输入协议与一致思考预算下评测,从而使单模态(A/V)与全模态(Omni-MC/Omni-MO)的结果可以在同一坐标系中直接对比,避免提示差异带来的偏移。
▲ 表2. 各全模态大模型在 UNO-Bench 上的评测结果
如表 2 所示,在开源模型中,LongCat-Flash-Omni 给出了一条清晰的性能上限:音频 80.20、视觉 67.06、全模态选择题 49.90、全模态多步开放题 42.68,在四个核心维度上均处于开源阵营的领先位置。
同时,闭源的 Gemini 系列在各项指标上仍保持行业高位,其中 Gemini-2.5-Pro 被视为标杆;面对难度更高的 Omni-MO,各模型分数整体走低,反映出长链条、跨模态推理仍是当前研究的发力方向。
▲ 表3. 基于能力体系的跨模态表现分析
基于能力维度的拆解可见两点:其一,在感知层面,跨模态同步对齐比单一模态识别更具挑战;其二,在推理层面,空间推断最为困难,即便是表现最佳的 Gemini-2.5-Pro,该子任务得分也仅 45。
综合观测,模型在感知上的差距并不决定胜负,真正拉开差距的是推理:以 Qwen-3-Omni-30B 对比 Gemini-2.5-Pro,二者在感知维度相差 23 分,而在推理维度差距扩大到 33分,说明推理能力是区分强弱的关键分水岭。
▲ 图9. Gemini-2.5-Pro 推理过程示例
▲ 图10. 人类专家 vs Gemini-2.5-Pro 表现差异
从人机对照可以直观看到这一点:Gemini-2.5-Pro 在跨模态感知上已接近人类专家,但在复杂推理链条上仍存在差距。整体而言,决定上限的不在“看见”与“听见”,而在能否把信息稳健地推进到后续推理步骤。
3.2 单模态 vs 全模态:协同差异是否真实出现
如果把模型的单模态能力(只看音频或只看视觉)和它在全模态任务里的表现放在同一个坐标系里,会出现一个非常鲜明的规律:全模态能力的提升,并不是两个单模态简单相加。
把所有模型的 A 分(听力)与 V 分(视力)相乘形成散点后可以看到:这些点不是线性分布,而是明显向上弯曲。当单模态都足够强以后,全模态的增长会突然加速——这就是 UNO-Bench 在实证上揭示的组合定律。
▲ 图11. 组合定律:全模态性能 vs 单模态乘积关系
经过拟合后,这条曲线给出的趋势非常清晰:拟合度接近 97.6%,指数大约 2.19,也就是说——全模态并不是 A 分+V 分=更高分,而是 A×V 被放大成一个带加速效应的函数。
指数大于 1,本质代表一种越往后越明显的增长:能力弱的时候,两个模态互相帮不上太多;能力跨过某个阈值之后,互相之间反而会推得更快。
这个现象在具体样本上也能直接看到。LongCat-Flash-Omni 在音频与视觉两个单模态上都已经属于开源模型中的高段位,但它一旦落在曲线的加速区,就能逼近 Gemini-2.5-Flash 的全模态表现;而一些在单模态上有局部优势的模型,却会停在曲线的前半段,长期徘徊,不会自然升格到更高的全模态能力层级。
简单讲,协同来自融合本身,而不是模态的堆叠。真正的强弱分界线,是模型能不能把两条信息线索合成一条可持续推进的推理链。
这条组合定律的意义,还不只是一条好看的拟合曲线。它把不同规模、不同架构的模型拉回同一个坐标:不是比较谁分数更高,而是比较谁离这条曲线更近。落在曲线之上的模型,说明它的模态融合效率更高;落在曲线之下,就可能存在融合瓶颈。
这等于是第一次把全模态融合变成一个可以跨体系、跨规模直接对照的坐标系,而不是靠主观判断的印象结论。
3.3 多步任务场景下的性能变化
当问题从单步问答升级成连续追问后,所有模型都会掉分,而且掉得非常一致——不是微跌,是整体性下降。尤其在 Omni-MO 这种长链条场景里,分层现象会被放大:Gemini-2.5-Pro 仍维持相对高位,而开源第一梯队 Qwen-3-Omni-30B 在这里掉得更明显。
这说明一个关键差异:模型知道答案(单步)不等于模型能维持推理链(多步)。难点不在把两条模态接上,而在能否沿着同一条推理链持续推进。
▲ 表4. 各模型在多步开放式问题 MO 的表现差异
这一点与 UNO-Bench 的数据成立性互为印证 —— 在全模态题中,有 98% 的问题必须跨模态才能解。
这意味着 MO 的链式衰减现象不是模型没看到特征造成的,而是模型无法把已识别出的视听信息真正串联起来。这也解释为什么在人类对照中,专家依然可以保持优势:人类不会因为进入第二问就忘掉第一问。
▲ 图12. UNO-Bench 与其他全模态基准的区分度对照
MO 的意义不在于换一种问法,而在于它把能不能把信息沿一条推理链往下推进这件事变成了可以直接量化的指标。
3.4 模态消融:移除即失效
当视觉或音频其中之一被摘掉,再喂给同一个模型时,现象非常直接:大部分模型的正确率会掉到接近随机——说明它们之前给出的答案,确实来自两路信息的融合,而不是依赖某一条捷径。
▲ 表5. 视觉理解能力消融实验结果:多数模型在移除视觉后倾向依赖 caption,反而比直接看 encoder 得分更高
▲ 表6. 音频理解能力消融实验结果:只有顶线模型能从原始音频里提取比 ASR 文本更丰富的信号
这说明,真正能把两条模态一起用起来的模型,其实并不多。一旦把视觉或音频其中之一拿掉,很多模型就几乎答不动了,之前的表现更多是依赖某个可以替代的线索在撑着,而不是在做跨模态思考。
LongCat 团队的消融实验,也正是在这里确认了一个关键点:能不能真正把两条模态一起用上,基本就决定了这个模型能走到哪个高度。
结语:全模态从概念争议回到可证伪科学
UNO-Bench 的意义不在多一个榜单,而在把“协同”从印象判断变成可以直接验证的对象。数据给出的曲线很清晰:全模态并非线性相加,而是遵循乘积规律——弱时受限,强时加速——这条组合定律真正建立起了一个跨模型规模、跨框架都能通用的分析坐标。
LongCat 团队的系统评测也指出了阶段性分界:闭源模型(代表是 Gemini)在感知层面已经逼近人类专家,但在长链条推理上仍存在明显落差;开源阵营则更早卡在协同加速前的瓶颈区。
换句话说,决定差距的不是能不能看见、能不能听见,而是两条模态能不能一起推下去。
这些发现并不是主观判断,而是 UNO-Bench 严格的数据成立性、MO 链式问题与模态消融共同指向的结果:它确实把融合效率从一句描述变成了可检验的指标。
面向下一阶段,全模态的重点也因此发生了偏移:不是再把模态往里堆,而是把能否维持推理链这一能力底座做厚——协同要建立在推得动,而不是看得更多。
这是全模态第一次,从概念争论回到可以被证伪的科学。
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·