动态列表

  • Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」
  • 英伟达AI超算3999开售,「掌心之中」可部署所有大参数开源模型!
  • 登顶Hugging Face GAIA全球榜首!中兴超级智能体终结「AI黑盒」时代
  • AI圈再颠覆!中国AI翻译耳机通话翻译,实测震撼
  • 一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军
  • vivo X300 Pro:以「水桶旗舰」之躯,重登旗舰山巅
  • 直到毕业我才懂:原来延期的博士,不止我一个
  • 让论文自己讲!Paper2Video一键生成论文讲解视频,赶顶会DDL不慌了
  • 8美元“驯服”DeepSeek-V3.2?Training-Free GRPO把RL成本打到地板
  • NeurIPS 2025 | PPFN:渐进式提示融合,让红外图像增强在复杂场景下性能提升8.76%
  • NeurIPS 2025 | 让AIGC视频变为可探索场景:Instant4D实现单目动态场景的分钟级重建
  • 库克抖音带货 iPhone 17 Air,22 日开售;小米客服回应「SU7 门把手」;「丐版」特斯拉明年国内投产
  • 他用一生证明AI没有意识!「中文屋」提出者逝世,享年93岁
  • 今年诺奖成果曾遭质疑无用,但华人团队用它研制了未来芯片的「钥匙」
  • 剑桥揭开大模型翻车黑箱!别再怪它不懂推理,是行动出错了
  • ICLR神秘论文曝光!SAM3用「概念」看世界,重构视觉AI新范式
  • 硅谷爆发反AI「起义」!程序员拒用Cursor被一周解雇
  • 强化学习再迎范式切换:Sergey Levine团队把目标改写成“到达时间”
  • 如果RL可预测,我们还需要把训练跑满吗?中科大揭示参数更新的线性秘密
  • 国行 eSIM 尘埃落定,iPhone Air「下周见」
  • 为什么谷歌搜不到「没有条纹的衬衫」|AI 上新
  • SAM 3揭开面纱:不止分割万物,更能理解概念,交互式分割迎来新篇章!
  • 雷军亲自测试,小米YU9实车谍照曝光;宇树获「秧歌机器人」专利;微团开卖「Win XP」蓝天白云拖鞋
  • 永别了,人类冠军!AI横扫天文奥赛,GPT-5得分远超金牌选手2.7倍
  • 濒死3次,医生判他死刑!宾大教授奇迹自救,誓用AI攻克14000种绝症
  • 告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星
  • Bug变奖励:AI的小失误,揭开创造力真相!
  • 复旦张军平:人类是硅基生命过渡体?
  • Meta Ray-Ban Display 首发体验合集:悬浮在现实中的一张便签
  • OriginOS 6 深度体验:当操作系统回归「体验为王」
  • Mamba-3惊现ICLR 2026投稿:三重升级打满“推理优先”范式
  • 93%成功率!从“改提示”到“写剧情”:STaR-Attack用叙事推理攻破大模型防线
  • NeurIPS 2025 | Latent Harmony:潜空间和谐共生,实现UHD图像修复新SOTA
  • NeurIPS 2025 | NTN-Diff:一石二鸟,利用空文本与频率感知破解图像修复难题
  • 马斯克脑机公司展示脑机控制机械臂;三星中国发布折叠屏新机,16999 元起售;滴滴自动驾驶获 20 亿元融资 | 极客早知道
  • 77岁「AI教父」Hinton:AI早有意识!我们打造的智能,可能终结人类文明
  • 全球首款1.8nm芯片亮相!华人CEO打响关键一战,英特尔杀回来了
  • 清华万引教授:万倍加速催化剂设计,AI突破DFT瓶颈!
  • 陶哲轩亲测!GPT-5 Pro 40分钟破解3年难题,登顶最难数学考试
  • 刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人
  • Attention is NOT All You Need:让“深度”重新流入时间,而非堆叠在参数之上
  • NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!
  • OpenAI 卖货做视频,Anthropic 专心写代码,谁能赢?
  • 一颗 1.8 纳米芯片,成了英特尔「最后的救赎」
  • 这款 AI 调研神器,让我一键产生 1000 个「种子用户」|AI 上新
  • 都用 GPT,为什么你没法中「百万大奖」?
  • ChatGPT 变身 App Store,「对话即应用」时代到了
  • IROS 2025 Oral | RAG-6Dpose:三大创新模块,利用 CAD 作为知识库进行检索增强 6D 姿态估计
  • IROS 2025 | 速度飙升24倍!巴黎萨克雷大学等提出HARP-NeXt:实时3D激光雷达分割新标杆
  • 「丐中丐」版特斯拉来了,Model 3/Y降价超3.5万元
  • 高德扫街榜的 23 天奇袭
  • 张一鸣近年来首次公开亮相;微软上海开始新一轮裁员,补偿N+4;罗永浩锐评 iPhone 17
  • GPT-5王者归来?奥特曼称AI已跨科学门槛,三大学科正迎来实质性突破
  • 老黄押宝「美版DeepSeek」!谷歌天才叛将创业,一夜吸金20亿美元
  • 任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码
  • 13万被引!ImageNet作者苏昊或将加盟复旦
  • 250份文档投毒,一举攻陷万亿LLM!Anthropic新作紧急预警
  • 和两位 CEO 聊 Sora: 应用层爆发的里程碑事件,创业者的机会来了
  • 新一代短剧人,涌向郑州「淘金」
  • 社交媒体的黄金时代,结束了
  • U-Bench:U-Net十年“大乱斗”终结者,100个变体、28个数据集的终极对决
  • 东京大学、牛津大学等联合发布VLA万字综述:机器人迈向通用智能的全栈指南
  • 北京/上海内推 | 阶跃星辰招聘RL for AIGC方向算法研究员/实习生
  • EMNLP 2025 | 拨云见日:知识电路分析揭示大语言模型“知识遮蔽”幻觉之源
  • DeepSeek苦练1T,清华只用5B?InfLLM-V2把稀疏注意力玩明白了
  • Sora 下载量破 100 万次;国庆中秋假期国内游总花费超过 8000 亿元;智驾多位核心高管离职,蔚来回应|极客早知道
  • 谷歌杀入诺奖神殿,两年三冠五得主!世界TOP3重现贝尔实验室神话
  • OpenAI×英伟达,可能创造了人类史上最大万亿级泡沫
  • H-1B正在筛掉「下一个英伟达」?
  • 全球AI视频大战升级!「中国版Sora」Vidu Q2参考生月底发布,能力对标Sora 2
  • 第二代InfLLM开源,同尺寸快三倍!零参数,可训练稀疏注意力
  • 腾讯推出TRM:让大模型像人类一样批判性思考,从文本依赖到事实正确
  • 马毅团队重磅发布新书:从MCR²到白盒Transformer,重构深度学习的第一性原理
  • 稳住训练、跑出泛化:STAGE重写「自回归图像生成」的强化学习范式
  • Diffusion²来袭:威斯康星大学&华盛顿大学等提出双扩散模型,“回溯历史-预测未来”,破解自动驾驶“鬼探头”难题
  • 北大等提出TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%
  • 把我的第一次日本旅行,完全交给 AI 是什么体验?
  • 英伟达将投资马斯克的 xAI;低价版Model 3/Y 「阉割」智驾功能;微信推出批量撤回信息功能
  • 刚刚,清华物理传奇Yao Shunyu,跳槽谷歌DeepMind!
  • 赚100亿,烧1万亿!OpenAI算力神话:英伟达撒钱、AMD送股、全硅谷陪跑
  • 英伟达垄断AI算力局面或将被颠覆!AMD赌上身家发起决斗,奥特曼窃喜
  • 刚刚,2025年诺贝尔化学奖揭晓!偷溜进图书馆的少年,改变了世界
  • 小心,AI依赖会让你变笨!吴恩达等专家教你如何正确使用AI
  • 无RLHF,7M小模型反超DeepSeek-R1:三星团队用递归思考取代规模堆叠
  • 告别深度传感器!慕尼黑工业大学提出DropD-SLAM:仅用单目RGB即可实现RGB-D级的SLAM精度
  • IROS 2025 | Waymo与谷歌DeepMind联手提出Drive&Gen:用生成视频评估自动驾驶,虚拟测试更逼真

ACM MM2025 Oral | MoSEAR:为多模态情感推理补齐“冲突场景”的短板

纸鸢 2025-10-13 12:33 江苏

在电影“流浪地球2”中,尽管刘培强用冷静的语气掩盖内心的不安,但是人工智能MOSS还是通过他微表情识破了其隐藏的秘密。类似的,当一个人嘴上说“没事”,但表情却写满了失望,如今的多模态大模型能读懂这其中的“口是心非”吗?在多模态情感理解任务中,这种来自不同模态(如视觉、音频)的情感信息不一致的现象非常普遍,我们称之为情感冲突。然而,现有的大多数多模态大语言模型(MLLM)往往在这些冲突场景下表现不佳。

来自中国科学技术大学和南洋理工大学的研究者们,针对这一挑战进行了深入探索。他们的研究成果 "Benchmarking and Bridging Emotion Conflicts for Multimodal Emotion Reasoning" 已被 ACM Multimedia 2025 接收并被AC推荐为Oral Presentation。

在这项工作中,作者们不仅首次系统地揭示了现有MLLM在情感冲突中存在严重的“音频偏见”,还提出了一个全新的评测基准和一个创新的解决方案,旨在让多模态大模型告别“偏听偏信”。

打破“一致性”假设:我们需要一个直面冲突的新基准

为了准确评估模型在真实情感场景下的能力,现有的评测基准存在明显不足。例如,一些主流数据集会有意地过滤掉情感不一致的样本,这种做法很难评价模型在现实世界复杂情景的表现。

为此,研究者们构建了一个全新的冲突感知多模态情感推理基准(CA-MER)。该基准旨在系统性地评测模型处理现实世界中情感信息不一致问题的能力,它包含三个精心设计的子集:

  • 视频对齐 (Video-aligned) :真实情感由视觉模态主导,音频为冲突信息。

  • 音频对齐 (Audio-aligned) :真实情感由音频模态主导,视觉为冲突信息。

  • 一致性 (Consistent) :所有模态情感表达一致,作为参照基准。

图1 CA-MER基准的构建流程与样本示例,直观展示了不同模态下的情感冲突与一致性

这个基准的建立,为评估模型在信息冲突下的推理与决策能力提供了有效的测试平台。

“听觉”压倒“视觉”?揭秘 MLLM 隐藏的音频偏见

基于 CA-MER 基准,研究者们对现有模型进行了全面的评估,发现了一个值得关注的普遍现象:当前最先进的情感 MLLM 普遍存在对音频信息的过度依赖

实验数据显示,即便是顶尖的模型(如 Emotion-LLaMA),在“视频对齐”子集上的性能也远低于“音频对齐”子集,差距高达 12% 。这表明当视觉表情传达真实情感时,模型却更容易被音频信号误导。

图2 一个典型的“视频对齐”样本。人物表情透露出失望和悲伤,但语气却很平静。Emotion-LLaMA 被平静的语气误导,做出了错误判断;而本文提出的 MoSEAR 则能准确捕捉到视觉中的真实情感

作者进一步深入分析,指出了导致这种“音频偏见”的一个关键原因:音视频特征的Token数量极度不平衡。通常,一段视频产生的视觉Token数量远超音频Token。例如,在Emotion-LLaMA中,视觉Token有256个,而音频Token仅有1个。

为了验证这一不平衡如何导致偏见,研究者们对模型的内部注意力机制进行了定量分析。他们引入了单模态注意力占比(Unimodal Attention Proportion, UAP) 指标,用以衡量模型在生成回复时,对视觉和音频两种模态的关注程度。分析结果清晰地表明:

  • 在处理情感冲突且模型出错的样本时,其内部中间层对音频Token的注意力占比,显著高于视觉Token。

  • 从更细粒度的单个Token来看,音频Token获得的注意力权重极高,而数量庞大的视觉Token的注意力分布却呈现出“稀疏且微弱”的特点。

这种现象背后符合一个直观的假设:尽管视觉Token数量多,但其承载的信息维度高、分布稀疏且可能包含噪声。相比之下,数量少但信息高度浓缩的音频Token,成为了模型进行推理决策的“捷径”。为了最终验证这一假设,作者们通过实验逐步增加音频Token的数量(通过复制)直至与视觉Token持平。实验结果(如下图c所示)证实,随着音频Token数量的增加,模型在视频对齐任务上的性能确实得到了提升,这有力地证明了Token数量不平衡是导致音频偏见的核心因素之一。

图3 音频偏见的量化分析。(a) UAP分析显示中间层对音频的注意力远高于视觉;(b) 单个Token的注意力权重显示音频Token权重极高,而视觉Token权重微弱;(c) 增加音频Token数量可以缓解偏见,验证了Token不平衡是关键原因。

双管齐下:MoSEAR 的偏见修正设计

为了解决上述问题,作者们提出了一个框架 MoSEAR。该框架包含两大核心模块,分别在训练和推理阶段“双管齐下”,有效缓解模型的模态偏见。

1. MoSE (Modality-Specific Experts): 训练时平衡模态学习

MoSE 旨在通过参数高效微调的方式,引导模型平衡地学习不同模态的特征。它不是单一模块,而是一个精心设计的模态专属专家网络。

  • 专家分工:框架设计了三种专家:

    • 视觉专家:专门处理视觉Token

    • 非视觉专家:处理音频和文本Token

    • 全局专家:处理所有Token

  • 参数高效的设计:为了在增强模型能力的同时不引入大量参数,每个专家模块都实现了"非对称软混合LoRA"。所有专家共享共同的降维矩阵A,但各自拥有独立的升维矩阵B。这种设计既保证了专家的特异性,又实现了显著的参数节省。

  • 正则化门控机制:为了动态整合不同专家的输出,MoSE引入了门控机制。该机制根据当前样本的视觉和非视觉特征计算路由权重(λ),决定视觉专家和非视觉专家的贡献比例。关键的是,这个权重被超参数(ε)正则化,确保其在特定范围内波动(如0.4-0.6),防止模型在训练过程中完全偏向某一模态。

2. AR (Attention Reallocation): 推理时动态重塑注意力

AR 是一种无需训练的注意力重分配机制,在模型推理时生效。它能智能地识别出那些过度关注音频信息的注意力头(head),并将一部分注意力动态地重分配给视觉信息,从而在推理的源头纠正偏见。最关键的是,这种调整是精细化的,它在强化视觉信号的同时,并不会损害模型在音频主导场景下的性能,避免了冲突场景之间的trade-off。

  • 第一步:精准定位偏见头:AR首先逐层扫描模型,通过计算"音视频注意力比例"(分配给音频Token与视觉Token的注意力比例)来识别偏见,这个比例在层级别和单个注意力头级别都会被计算。只有当某一层的整体比例超过预设阈值(τ),且该层中某个注意力头的比例显著高于该层平均水平时,该注意力头才会被标记为"偏见头"。这种精细的两级过滤机制确保了干预的最小化和精准性。

  • 第二步:保持比例的重分配:对于识别出的"偏见头",AR将其部分音频注意力重分配给视觉Token。这个过程不是简单的权重转移,而是遵循严格约束:首先,分配给音视频Token的总注意力保持不变;其次,每个模态内的权重按比例缩放,这意味着原本在视觉模态内获得更多注意力的Token,在接收额外权重后仍保持相对较高的注意力。这种设计保持了模态内原始注意力结构,这对于在提升视频对齐任务性能的同时不损害音频对齐任务性能(避免trade-off)至关重要。

图4 MoSE模块结构图和AR算法流程

多项基准验证 MoSEAR 性能

MoSEAR 在多个权威基准上都取得了十分出色的性能,证明了其有效性和泛化能力。

  • 在 CA-MER 上:MoSEAR 不仅在所有子集上均达到最佳,还将“视频对齐”和“音频对齐”之间的性能差距从 12% 缩小到了 6%,有效缓解了音频偏见。同时,在“一致性”子集上的性能也有显著提升,证明其具备普适性。在CA-MER基准上的性能对比。MoSEAR在所有情境下均取得了最优异的平均性能

  • 在 EMER, MER2023, DFEW 等多个基准上:无论是情感推理任务还是传统的情感识别任务,MoSEAR 都取得了SOTA或极具竞争力的结果。例如,在MER2023上,其F1分数比先前的最佳模型提升了 9.4%在多模态情感识别数据集MER23和DFEW数据集上的性能对比。

为进一步验证 MoSEAR 框架中各个组件的有效性,作者进行了一系列详尽的消融实验。

  • 实验结果表明,MoSE模块的三个核心设计——模态专属的专家网络、参数高效的非对称LoRA结构以及动态门控路由机制——均为最终的性能提升做出了积极贡献。

  • 对于AR模块,消融实验着重将其与之前的注意力干预方法(如PAI)进行了对比。一个关键的发现是,先前的方法存在明显的场景权衡(trade-off) 问题:它们在提升"视频对齐"场景性能的同时,往往会损害模型在"音频对齐"场景下的表现。然而,本文提出的AR机制通过其精准的偏见定位和保持比例的重分配策略,成功地避免了这一缺陷。实验数据显示,AR不仅显著提升了模型在视频主导场景下的性能,也为音频主导和模态一致的场景带来了稳定的增益,在不同场景之间没有出现性能trade-off,证明了该方法在复杂多模态情境下的鲁棒性和优越性。MoSEAR表3 MoSE和AR模块的消融实验结果对比

总结

本文的主要贡献包括:

  • 提出了首个关注多模态情感冲突的评测基准CA-MER

  • 识别并分析了现有MLLM中普遍存在的音频偏见及其成因。

  • 提出了一个由MoSEAR组成的框架MoSEAR,有效缓解了模态偏见且无性能权衡。

  • 实验证明MoSEAR在多个情感推理与识别基准上均取得了SOTA性能。

这项工作为解决多模态情感冲突问题提供了新的基准和方法,为构建更鲁棒、更准确的多模态情感理解系统提供了坚实的基础。

本文为粉丝投稿,投稿请发邮件amos@52cv.net

阅读原文

跳转微信打开

联系我们