组委会 2025-09-06 11:38 江苏
大赛简介
第七届 长时视频目标分割挑战赛(Large-Scale Video Object Segmentation Challenge, LSVOS) 将于 ICCV 2025 期间在美国夏威夷举办!
Workshop网站:https://lsvos.github.io/
作为视频理解领域最具影响力的赛事之一,LSVOS 致力于推动 像素级视频目标分割 的研究与应用。今年比赛共设立 三个赛道:
赛道1 [NEW🔥] Complex VOS (MOSEv2)
赛道2 Classic VOS (MOSEv1 + LSVOS)
赛道3 Referring VOS (MeViS)
其中,全新推出的 MOSEv2 赛道是本届赛事的最大亮点,将大幅提升挑战难度,更贴近真实世界应用。目前,三个挑战赛的数据集均已开放下载,测试提交入口也已开放,欢迎参赛者自由测试各种方法!
赛道1:MOSEv2(More Complex VOS, 新赛道🔥🔥🔥)
背景与动机
随着深度学习技术的进步,视频目标分割(VOS)方法在 DAVIS 等传统基准上已取得超过 90%的性能,SAM2 等基础模型的出现进一步提升了显著目标的分割能力。然而,这是否意味着现有方法已能有效处理真实场景中的复杂目标?为了回答这一问题,我们在MOSEv1 基础上提出了更具挑战性的视频分割基准 MOSEv2 [1]。该数据集包含 5024 个视频和超过 70 万帧高质量标注,涵盖 200 个目标类别,系统引入了目标消失与重现、严重遮挡、小目标、恶劣天气、低光照、伪装和非实体目标、场景切换、知识依赖等复杂挑战。实验表明,包括 SAM2 在内的先进方法在该数据集上性能显著下降(仅 50.9%),揭示了现有模型在真实复杂场景中的局限性。
新挑战场景
如上所示,MOSEv2 延续了 MOSEv1 的 遮挡、目标消失与重现、拥挤小物体 等难点,同时对更加深刻了这一些属性,此外还引入了更多真实世界中的复杂因素:
🌧️ 恶劣天气(雨、雪、雾)
🌙 低光环境(夜晚、水下)
🎬 多镜头序列(跨场景视频)
🥷 伪装目标(与背景高度融合)
🪞 非物理目标(阴影、反射)
📖 知识依赖场景(需要 OCR、物理常识才能理解)
通过引入上述的挑战,使得 MOSEv2 成为了用于评估分割模型在真实场景中的“试金石”。
数据集具体分析
总体分析
MOSEv2 在现有视频分割数据集中(除 SA-V 外)拥有 最大的数据规模,视频数量相比 MOSEv1 提升近 两倍。同时,它具有 最高的目标消失率(61.8%) 与 再现率(50.3%)。此外,我们还统计了每个目标在首帧中对应的相似干扰物(#Distractors)平均数量高达 13.6,这一数值远超其他数据集,进一步凸显了 MOSEv2 在复杂场景建模上的挑战性。
物体类别
如上图所示,MOSEv2 (200) 相较于 MOSEv1 (36) 引入了更多的类别,包含更多困难类别,例如伪装物体 (98),影子 (125)等非实体目标类别。
遮挡程度
在评估目标遮挡程度时,传统的 BOR 指标在某些情况下存在不足,例如当物体边缘仅发生相切时,它并不能准确刻画遮挡程度。为此,MOSEv2 中引入了两个新的衡量指标:
AOR:基于 amodal segmentation,利用预测的 amodal mask 外推物体的不可见部分;
MLLMOR:基于多模态大模型(MLLM),通过自然语言 prompt 来评估 mask 的遮挡程度。
实验结果显示,MOSEv2 在 mBOR、mAOR 和 mMLLMOR 三项指标上均显著高于其他所有数据集。相较于 MOSEv1 的 36.4,MOSEv2 的遮挡水平提升至 47.0,充分证明了其在遮挡复杂性上的显著增强。
掩码大小以及视频长度
MOSEv2 的目标整体更加微小,其中约 **50.2% 的掩码面积不足图像的 1%**,对检测与分割提出更大挑战。视频时长方面,MOSEv2 的平均长度达到 93.2 帧/视频,显著长于 MOSEv1 的 60.6 帧/视频,而最长的视频更是达到 7,825 帧(约 26 分钟),充分体现了其在长时序建模上的难度。
复杂天气
MOSEv2 引入了更多极端天气与复杂场景,补充了 MOSEv1 中未曾涵盖的环境因素。其中包括 暴雨(142 )、雪天(73 )、雾天(60 ) 以及 灾害场景(50 ),显著提升了数据集在真实世界条件下的多样性与挑战性。
挑战属性分析
我们在 MOSEv2 中定义了 15 种实例序列属性,以系统刻画数据集的多样性和复杂性。与 MOSEv1 相比,MOSEv2 在多种挑战场景下的覆盖度大幅提升:例如,包含 遮挡(OCC) 的视频从 2,100 增至 4,931,消失-重现(DR) 从 1,243 增至 5,076,复杂环境(CE) 从 330 增至 1,462,长时序(LD) 从 23 增至 224。此外,MOSEv2 还引入了全新的属性:新类别(NC,609 个实例)、多镜头序列(MS,277) 以及 知识依赖(KD,256)。这些属性的组合不仅全面提升了任务的复杂度,也更贴近真实世界的应用场景,为研究者提供了更严格的基准,用于评估模型在多样化复杂条件下的鲁棒性。
评价指标
在 MOSEv2 中,我们针对真实复杂场景的特点,对传统指标进行了扩展和改进,使评估更加公平、全面:
Ḟ(改进的边界一致性指标):在传统 F score 的基础上引入 自适应边界阈值,根据目标面积动态调整,避免小目标被过度膨胀。例如,在评估像筷子这样的小物体时,传统 F score 即使预测完全错误也可能得到较高分数,而 Ḟ 能够更准确地反映预测质量,从而更公平地评估不同尺度目标的边界精度。
J&Ḟ:结合区域和边界表现,被选为 MOSEv2 的主要评估指标,更能体现模型在复杂环境下的整体能力。
此外,考虑到 MOSEv2 中目标频繁 消失(Disappear) 与 重现(Reappear) 的特性,我们进一步设计了专门的子指标:
J&Ḟ_d:评估模型在目标消失时是否能正确抑制预测;
J&Ḟ_r:评估模型在目标重现时能否成功重新识别。
这一设计的动机在于,有些模型在遇到困难场景时倾向于预测 空 mask,从而在标准 J、F 评估中“钻空子”,获得虚高分数。通过将 消失 与 重现 解耦评估,MOSEv2 能更有效地区分模型的真实表现,防止“空预测”攻击,同时考察其在 遮挡抑制 与 目标恢复 两方面的综合能力。
实验分析
我们对5种不同设置下的20种代表性VOS方法进行了基准测试,并观察到一致的性能下降。其中对于 Mask 作为初始化情况下的 VOS 结果如下所示:
在 MOSEv2 上,几乎所有方法的性能相比 DAVIS、MOSEv1 等传统基准都出现了大幅下降,其中传统基准上普遍超过 80–90% 的 J&F 分数,在 MOSEv2 上通常只有 30–50%。其中,即便是目前最强大的基础模型 SAM2-L,综合指标 J&Ḟ 也仅有 50.9,远低于其在其他数据集上的表现。尤其在 目标重现(J&F_r) 场景下,所有方法得分都不足 35%,凸显出现有模型在频繁消失与再现的复杂场景中仍存在显著短板。这些结果充分说明了 MOSEv2 的高难度与挑战性,也是检验模型鲁棒性和泛化能力的重要基准。同时我们在论文中也给出来在其他的 setting 以及任务上的分析,欢迎读者前去阅读。
参赛模型建议
针对当前方法的不足,本次参赛的用户以及未来的研究人员可以考虑以下潜在的优化路径:
鲁棒的再识别机制:提升在目标消失与再次出现情况下的稳定性。
遮挡处理能力:增强模型对部分或严重遮挡目标的跟踪效果。
拥挤与小目标场景适应性:优化在密集人群和微小目标条件下的追踪性能。
罕见类别的泛化能力:提高对长尾类别或罕见目标的识别与跟踪表现。
环境鲁棒性:增强在光照、天气、背景变化等复杂环境下的稳健性。
多镜头视频处理:支持跨镜头、跨场景的连续跟踪。
知识驱动的跟踪:结合先验知识或外部知识库,以提升复杂语义目标的识别能力。
数据集相关链接
数据集主页:https://mose.video/
数据集下载:https://drive.google.com/drive/folders/17qelPZ2gnBJ3kGgKKRo8YW0l5tjCfCOx?usp=sharing
赛道2:复杂场景视频目标分割(VOS)
MOSE(复杂场景视频目标分割)聚焦于复杂环境下的视频目标分割问题,旨在推动这一领域的研究与应用。
本次大聚焦于配套的MOSE数据集。该大规模数据集包含2149个视频片段和5200个目标,共有431,725个高质量的目标分割掩码。视频分辨率为1920×1080,视频长度从5秒到60秒不等。MOSE数据集的显著特点是其复杂的场景,包括目标的消失和重现、不显眼的小物体、严重的遮挡以及拥挤的环境等。同时,该赛道也包含长时间分割数据集LVOS的内容,专注于长时间视频的分割。
相比于上一届比赛,本届比赛的测试数据中将会有全新场景加入,提供更加丰富、更加有挑战性的数据。
赛道3:基于动作描述的指向性视频分割(MeViS)
MeViS(基于动作描述的指向性视频分割)赛道也同期举行。
本次挑战赛的重点是基于动作描述的指向性视频分割,即根据描述物体运动的句子来识别并分割视频内容中的目标物体。
MeViS数据集是此次比赛的重要组成部分,包含2006个视频片段和443,000个高质量的目标分割掩码,共有28,570句描述8,171个复杂环境下物体运动的句子。
在本届赛事中,MeViS赛道也会加入更加有挑战性的全新的场景和视频类别。