CV君 2025-09-22 11:51 江苏
近日,字节跳动 Douyin SAIL 团队与新加坡国立大学 LV-NUS 实验室联合发布了其最新的开源视觉语言基础模型(LVM)—— SAIL-VL2。作为其前代 SAIL-VL 的强力续作,SAIL-VL2 在 2B 和 8B 的参数规模下,于涵盖图像和视频的众多基准测试中均达到了当前最先进(SOTA)的水平,展现了从细粒度感知到复杂推理的全面且强大的能力。
值得一提的是,SAIL-VL2-2B 模型在权威的多模态评测基准 OpenCompass 上,于 4B 参数规模以下的官方开源模型中 排名第一,为开源社区提供了一个兼具高效与强大性能的可扩展基础模型。
论文标题: SAIL-VL2 Technical Report
机构: Douyin SAIL Team,LV-NUS Lab
项目地址:
研究背景与意义
在大型视觉语言模型(LVM)领域,通过扩大模型参数和训练数据来提升性能已成为主流趋势。然而,这种“大力出奇迹”的范式也带来了巨大的计算和部署成本。
与此不同,SAIL-VL 系列模型从一开始就致力于探索如何在有限的计算资源下,通过高效的架构和训练策略来注入知识,实现“小模型,大能量”的目标。SAIL-VL2 正是在这一理念下,对其前代进行的全面升级,旨在为开源社区提供一个既强大又高效的多模态基石。
SAIL-VL2 的三大核心创新
SAIL-VL2 的卓越性能主要得益于其在数据、训练和架构三个层面的核心创新。
上图展示了 SAIL-VL2 的整体框架,其由一个强大的视觉编码器(SAIL-ViT)、一个轻量级适配器和一个语言模型(LLM)主干构成,保证了模型的灵活性和可扩展性。
1. 数据为王:大规模、高质量的数据策管流程
高质量的数据是训练高性能模型的基石。SAIL-VL2 设计了一套大规模的数据策管与分级流程,如下图所示。该流程结合了精密的评分和过滤策略,系统性地提升了图像描述(captioning)、光学字符识别(OCR)、问答(QA)以及视频数据的质量和分布,极大地提高了训练效率。
例如,团队训练了专门的“裁判模型”(Judge Model)来自动评估和筛选海量数据,确保用于训练的数据是最高质量的。
2. 循序渐进:创新的渐进式训练框架
SAIL-VL2 采用了一种渐进式的训练框架,分阶段、系统性地增强模型能力。
第一步:强大的视觉编码器。 训练始于一个强大的预训练视觉编码器 SAIL-ViT,它能高效地将视觉输入对齐到语言模型的表示空间。
第二步:多模态预训练。 在 SAIL-ViT 的基础上,进行大规模的多模态预训练,让模型学会理解图文关系。
第三步:“思维-融合”混合范式。 最后,模型在一个创新的 “思维-融合”(thinking-fusion)SFT-RL 混合范式 中进行微调。这一阶段结合了监督微调(SFT)和强化学习(RL),特别是引入了思想链(Chain-of-Thought)策略,显著提升了模型在复杂推理任务上的表现,使其成为一个“深度思考者”。
3. 架构革新:高效的稀疏专家混合(MoE)架构
为了在扩大模型规模的同时保持计算效率,SAIL-VL2 在架构上超越了传统的密集型 LLM,采用了先进的稀疏 专家混合(Mixture-of-Experts, MoE) 设计。MoE 架构允许模型在推理时只激活一小部分“专家”(即模型参数),从而在不牺牲性能的前提下,大幅降低了计算成本。这使得 SAIL-VL2 能够在更大的参数规模(如30B)上进行扩展,同时保持高效。
实验结果与分析
凭借上述三大创新,SAIL-VL2 在极其广泛的评测中展现了其强大的实力。
1. 全面领先的性能
如下图所示,SAIL-VL2 在与众多开源及闭源模型的对比中,无论是在通用的 OpenCompass 基准上,还是在专门的数学推理基准上,都表现出极强的竞争力。
模型在多任务预训练阶段的扩展曲线(Scaling curves)也显示,随着数据量的增加,模型性能在各项任务上都获得了稳定且显著的提升,证明了其数据策管和训练策略的有效性。
2. 数据质量的重要性
实验分析表明,高质量的指令数据对模型性能至关重要。如下图所示,使用团队精心构建的 SAIL-Instruction-v2
数据集进行训练,相比其他数据集,在同等数据量下能带来更显著的性能提升。
3. 视觉与文本特征的对齐
通过可视化词元嵌入(token embedding)的分布,可以发现 SAIL-ViT 提取的视觉特征(绿色)与文本特征(蓝色)在空间上更加紧凑且重叠度更高,这直观地证明了 SAIL-ViT 在实现多模态特征对齐方面的优越性。
总结与展望
SAIL-VL2 技术报告展示了一个在效率和性能上取得卓越平衡的开源多模态基础模型。通过在 数据策管、渐进式训练 和 MoE 架构 上的三大核心创新,SAIL-VL2 在 2B 和 8B 参数规模上均达到了 SOTA 水平,并在权威榜单上证明了其领先地位。
作为 SAIL-VL 系列的最新力作,SAIL-VL2 不仅为多模态研究领域贡献了一个强大的基础模型,更重要的是,它通过开源模型和推理代码,赋能了更广泛的开发者和研究者社区。CV君相信,SAIL-VL2 的发布将进一步推动开源多模态生态的繁荣发展,并启发未来关于如何构建更高效、更强大的人工智能系统的思考。
了解最新 AI 进展,欢迎关注公众号:我爱计算机视觉感谢点赞支持。