ToolsAi

纸鸢 2025-10-13 12:33 江苏

在电影“流浪地球2”中，尽管刘培强用冷静的语气掩盖内心的不安，但是人工智能MOSS还是通过他微表情识破了其隐藏的秘密。类似的，当一个人嘴上说“没事”，但表情却写满了失望，如今的多模态大模型能读懂这其中的“口是心非”吗？在多模态情感理解任务中，这种来自不同模态（如视觉、音频）的情感信息不一致的现象非常普遍，我们称之为情感冲突。然而，现有的大多数多模态大语言模型（MLLM）往往在这些冲突场景下表现不佳。

来自中国科学技术大学和南洋理工大学的研究者们，针对这一挑战进行了深入探索。他们的研究成果 "Benchmarking and Bridging Emotion Conflicts for Multimodal Emotion Reasoning" 已被 ACM Multimedia 2025 接收并被AC推荐为Oral Presentation。

在这项工作中，作者们不仅首次系统地揭示了现有MLLM在情感冲突中存在严重的“音频偏见”，还提出了一个全新的评测基准和一个创新的解决方案，旨在让多模态大模型告别“偏听偏信”。

论文标题: Benchmarking and Bridging Emotion Conflicts for Multimodal Emotion Reasoning
作者: Zhiyuan Han、Beier Zhu、Yanlong Xu、Peipei Song、Xun Yang
机构: 中国科学技术大学，南洋理工大学
论文地址: https://arxiv.org/abs/2508.01181
代码地址: https://github.com/ZhiyuanHan-Aaron/MoSEAR
项目主页: https://zhiyuanhan-aaron.github.io/MoSEAR-page/

打破“一致性”假设：我们需要一个直面冲突的新基准

为了准确评估模型在真实情感场景下的能力，现有的评测基准存在明显不足。例如，一些主流数据集会有意地过滤掉情感不一致的样本，这种做法很难评价模型在现实世界复杂情景的表现。

为此，研究者们构建了一个全新的冲突感知多模态情感推理基准（CA-MER）。该基准旨在系统性地评测模型处理现实世界中情感信息不一致问题的能力，它包含三个精心设计的子集：

视频对齐 (Video-aligned) ：真实情感由视觉模态主导，音频为冲突信息。
音频对齐 (Audio-aligned) ：真实情感由音频模态主导，视觉为冲突信息。
一致性 (Consistent) ：所有模态情感表达一致，作为参照基准。

图1 CA-MER基准的构建流程与样本示例，直观展示了不同模态下的情感冲突与一致性

这个基准的建立，为评估模型在信息冲突下的推理与决策能力提供了有效的测试平台。

“听觉”压倒“视觉”？揭秘 MLLM 隐藏的音频偏见

基于 CA-MER 基准，研究者们对现有模型进行了全面的评估，发现了一个值得关注的普遍现象：当前最先进的情感 MLLM 普遍存在对音频信息的过度依赖。

实验数据显示，即便是顶尖的模型（如 Emotion-LLaMA），在“视频对齐”子集上的性能也远低于“音频对齐”子集，差距高达 12% 。这表明当视觉表情传达真实情感时，模型却更容易被音频信号误导。

图2 一个典型的“视频对齐”样本。人物表情透露出失望和悲伤，但语气却很平静。Emotion-LLaMA 被平静的语气误导，做出了错误判断；而本文提出的 MoSEAR 则能准确捕捉到视觉中的真实情感

作者进一步深入分析，指出了导致这种“音频偏见”的一个关键原因：音视频特征的Token数量极度不平衡。通常，一段视频产生的视觉Token数量远超音频Token。例如，在Emotion-LLaMA中，视觉Token有256个，而音频Token仅有1个。

为了验证这一不平衡如何导致偏见，研究者们对模型的内部注意力机制进行了定量分析。他们引入了单模态注意力占比（Unimodal Attention Proportion, UAP） 指标，用以衡量模型在生成回复时，对视觉和音频两种模态的关注程度。分析结果清晰地表明：

在处理情感冲突且模型出错的样本时，其内部中间层对音频Token的注意力占比，显著高于视觉Token。
从更细粒度的单个Token来看，音频Token获得的注意力权重极高，而数量庞大的视觉Token的注意力分布却呈现出“稀疏且微弱”的特点。

这种现象背后符合一个直观的假设：尽管视觉Token数量多，但其承载的信息维度高、分布稀疏且可能包含噪声。相比之下，数量少但信息高度浓缩的音频Token，成为了模型进行推理决策的“捷径”。为了最终验证这一假设，作者们通过实验逐步增加音频Token的数量（通过复制）直至与视觉Token持平。实验结果（如下图c所示）证实，随着音频Token数量的增加，模型在视频对齐任务上的性能确实得到了提升，这有力地证明了Token数量不平衡是导致音频偏见的核心因素之一。

图3 音频偏见的量化分析。(a) UAP分析显示中间层对音频的注意力远高于视觉；(b) 单个Token的注意力权重显示音频Token权重极高，而视觉Token权重微弱；(c) 增加音频Token数量可以缓解偏见，验证了Token不平衡是关键原因。

双管齐下：MoSEAR 的偏见修正设计

为了解决上述问题，作者们提出了一个框架 MoSEAR。该框架包含两大核心模块，分别在训练和推理阶段“双管齐下”，有效缓解模型的模态偏见。

1. MoSE (Modality-Specific Experts): 训练时平衡模态学习

MoSE 旨在通过参数高效微调的方式，引导模型平衡地学习不同模态的特征。它不是单一模块，而是一个精心设计的模态专属专家网络。

专家分工：框架设计了三种专家：

视觉专家：专门处理视觉Token
非视觉专家：处理音频和文本Token
全局专家：处理所有Token

参数高效的设计：为了在增强模型能力的同时不引入大量参数，每个专家模块都实现了"非对称软混合LoRA"。所有专家共享共同的降维矩阵A，但各自拥有独立的升维矩阵B。这种设计既保证了专家的特异性，又实现了显著的参数节省。
正则化门控机制：为了动态整合不同专家的输出，MoSE引入了门控机制。该机制根据当前样本的视觉和非视觉特征计算路由权重（λ），决定视觉专家和非视觉专家的贡献比例。关键的是，这个权重被超参数（ε）正则化，确保其在特定范围内波动（如0.4-0.6），防止模型在训练过程中完全偏向某一模态。

2. AR (Attention Reallocation): 推理时动态重塑注意力

AR 是一种无需训练的注意力重分配机制，在模型推理时生效。它能智能地识别出那些过度关注音频信息的注意力头（head），并将一部分注意力动态地重分配给视觉信息，从而在推理的源头纠正偏见。最关键的是，这种调整是精细化的，它在强化视觉信号的同时，并不会损害模型在音频主导场景下的性能，避免了冲突场景之间的trade-off。

第一步：精准定位偏见头：AR首先逐层扫描模型，通过计算"音视频注意力比例"（分配给音频Token与视觉Token的注意力比例）来识别偏见，这个比例在层级别和单个注意力头级别都会被计算。只有当某一层的整体比例超过预设阈值（τ），且该层中某个注意力头的比例显著高于该层平均水平时，该注意力头才会被标记为"偏见头"。这种精细的两级过滤机制确保了干预的最小化和精准性。
第二步：保持比例的重分配：对于识别出的"偏见头"，AR将其部分音频注意力重分配给视觉Token。这个过程不是简单的权重转移，而是遵循严格约束：首先，分配给音视频Token的总注意力保持不变；其次，每个模态内的权重按比例缩放，这意味着原本在视觉模态内获得更多注意力的Token，在接收额外权重后仍保持相对较高的注意力。这种设计保持了模态内原始注意力结构，这对于在提升视频对齐任务性能的同时不损害音频对齐任务性能（避免trade-off）至关重要。

图4 MoSE模块结构图和AR算法流程

多项基准验证 MoSEAR 性能

MoSEAR 在多个权威基准上都取得了十分出色的性能，证明了其有效性和泛化能力。

在 CA-MER 上：MoSEAR 不仅在所有子集上均达到最佳，还将“视频对齐”和“音频对齐”之间的性能差距从 12% 缩小到了 6%，有效缓解了音频偏见。同时，在“一致性”子集上的性能也有显著提升，证明其具备普适性。在CA-MER基准上的性能对比。MoSEAR在所有情境下均取得了最优异的平均性能
在 EMER, MER2023, DFEW 等多个基准上：无论是情感推理任务还是传统的情感识别任务，MoSEAR 都取得了SOTA或极具竞争力的结果。例如，在MER2023上，其F1分数比先前的最佳模型提升了 9.4% 。在多模态情感识别数据集MER23和DFEW数据集上的性能对比。

为进一步验证 MoSEAR 框架中各个组件的有效性，作者进行了一系列详尽的消融实验。

实验结果表明，MoSE模块的三个核心设计——模态专属的专家网络、参数高效的非对称LoRA结构以及动态门控路由机制——均为最终的性能提升做出了积极贡献。
对于AR模块，消融实验着重将其与之前的注意力干预方法（如PAI）进行了对比。一个关键的发现是，先前的方法存在明显的场景权衡(trade-off) 问题：它们在提升"视频对齐"场景性能的同时，往往会损害模型在"音频对齐"场景下的表现。然而，本文提出的AR机制通过其精准的偏见定位和保持比例的重分配策略，成功地避免了这一缺陷。实验数据显示，AR不仅显著提升了模型在视频主导场景下的性能，也为音频主导和模态一致的场景带来了稳定的增益，在不同场景之间没有出现性能trade-off，证明了该方法在复杂多模态情境下的鲁棒性和优越性。表3 MoSE和AR模块的消融实验结果对比