让你更懂AI的 2025-09-22 14:17 北京
从语言到视频的统一大模型
摘要
当大语言模型(LLM)在文本世界大放异彩时,我们不禁要问:能否用同样简洁、统一的自回归架构,来驾驭更加复杂的视频生成任务?
现有的自回归视频生成方法,或多或少都面临着架构不统一、依赖笨重外部文本编码器、或生成速度过慢等挑战。为此,我们提出自回归离散扩散视频生成模型 Lumos-1 方法,一个在统一模型视角下构建的自回归视频生成器。
自回归离散扩散视频生成模型 Lumos-1 的核心理念是尽可能使用原生的 LLM 架构,仅通过最小的改动,就让语言模型“学会”视频生成。我们主要解决了两大关键问题:
如何让模型更好理解时空?我们深入研究了旋转位置编码技术(RoPE),发现传统的 3D RoPE 存在频谱不均衡的问题。为此,我们提出了创新的 MM-RoPE,它为视觉数据设计了更均衡、更全面的时空位置编码,同时保留了模型原有的文本处理能力。
如何有效学习动态变化?为了解决视频帧间信息冗余导致的“学习捷径”问题,我们提出了自回归离散扩散强制(Autoregressive Discrete Diffusion Forcing,AR-DF)。
该技术在训练时采用“时间管道掩码”(Temporal Tube Masking),迫使模型真正理解和预测动态变化;在推理时则采用配套策略,确保生成视频的质量和连贯性。
我们在主流的图像生成(GenEval)和视频生成(VBench-I2V,VBench-T2V)测试基准上测试了自回归离散扩散视频生成模型 Lumos-1,得到的性能媲美 EMU3、COSMOS-Video2World 和 OpenSoraPlan 等知名开源模型。
论文链接:
https://arxiv.org/abs/2507.08801
代码链接:
https://github.com/alibaba-damo-academy/Lumos
模型链接:
https://huggingface.co/Alibaba-DAMO-Academy/Lumos-1
研究背景与现有方案的缺陷
自回归大语言模型(LLM)通过将广泛的自然语言任务统一到单一的生成式框架中,取得了显著的进展。这一成功范式激发了学界与业界在自回归视觉生成领域的初步探索,其最终目标在于构建一个能够统一视觉理解与生成的单一模型(Unified Model),从而推动 LLM 向通用多模态智能体演进。
然而,一个能与现有 LLM 架构完全兼容、并能实现高效训练推理的自回归视频生成范式,仍是一个未被充分探索的领域。当前的技术路径主要有以下的缺陷:
架构异构性。现有的部分自回归视频生成器在架构设计上与标准的 LLM 存在显著差异。这种架构上的不统一性阻碍了 LLM 向统一多模态模型的平滑扩展,增加了技术整合的复杂性与难度。
对外部文本编码器的依赖。许多主流方法依赖于庞大的、预训练的外部文本编码器来获取文本条件的语义信息。这种设计不仅增加了模型的参数量和系统的复杂度,也与构建一个端到端的统一模型的目标相悖。
推理延迟较大。传统的自回归模型采用逐词元的解码方式。当这一策略应用于高维、长序列的视频数据时,其串行生成的特性会导致极高的推理延迟,使得模型在实际应用中缺乏可行性。
为应对上述挑战,我们着手设计并实现了自回归离散扩散视频生成模型 Lumos-1 模型。我们的核心目标是:在尽可能保留 LLM 原生架构的基础上,构建一个不依赖外部文本编码器、并能实现高效训练推理的自回归视频生成器,从而为构建统一基础模型提供一个坚实且可行的技术路径。
Lumos-1:生成理解统一模型视角下的视频生成模型
自回归离散扩散视频生成模型 Lumos-1 的设计扎根于视频数据的特性:时空关联性和时间因果性。
由于视频数据时空关联性的存在,导致了原生大语言模型的简单位置编码不能充分有效得对时空进行建模;而时间因果性则导致了,当自回归模型使用基于掩码的方案进行训练时,很容易产生误入一个“学习捷径”,导致视频生成时序训练不佳。
因此,面对这两个挑战,我们提出了下述的核心技术:MM-RoPE 与 AR-DF。
▲ 图1(a)3D RoPE 诊断的基础方案。(b)MM-RoPE 的具体细节。
1. MM-RoPE:面向多模态时空数据的旋转位置编码
原始方案的诊断:为了在 LLM 中有效注入时空相关性,我们对旋转位置编码(RoPE)进行了深入研究(如图 1a、2a 所示)。标准 RoPE 为一维文本序列设计,直接应用于视频数据时存在明显局限,简单的 3D RoPE 扩展方案存在频率谱分配不均衡的问题(图 2b、2c)。
具体而言,分配给时间维度的通道占据了过高频段,而空间维度则被分配到近零频段。这导致模型对时间变化过度敏感,而对空间细节的捕捉能力不足,从而限制了生成质量。
▲ 图2(a)不同 3D RoPE 方案的验证损失曲线。(b)最原始 3D RoPE 方案的频率谱分布。(c)时间和高度维度的第一个通道的旋转速度对比。
技术方案:我们提出技术方案 MM-RoPE,该技术在保留原始文本 RoPE 的同时,为视觉部分提供了更优的时空先验,且无需修改 Transformer 核心模块,保持了架构的统一性。其核心改进在于:
分布式频谱分配:我们将整个通道维度划分为多个元组(meta MM-RoPE),在每个元组内按比例(如 T:H:W = 2:3:3)分配给时、空维度,并对称地交错排布高、宽通道。
这确保了每个维度都能在完整且均衡的频率谱上进行编码,从而实现对时空信息的精细化建模。通过实验证实,这种频谱分配的方案,比其他方案显著有效。
时空尺度缩放:为平衡文本和视觉两种模态在序列长度上的差异,我们根据视觉 Tokenization 的压缩比,对时空坐标进行尺度缩放。
这一操作确保了两种模态的位置编码处于一个相对均衡的范围内,有利于模型进行跨模态对齐学习,从另一个角度来说,这样的做法也增加了坐标位置的分辨率。
2. AR-DF:自回归离散扩散强制
为规避传统 next-token 预测的低效,我们采用基于离散扩散(基于掩码)的并行解码范式。然而,视频数据存在帧间信息冗余的问题,为自回归训练带来了帧间损失不平衡的问题。
问题诊断:在自回归设定下,模型可以轻易地通过注意力机制“窥视”前一帧的未遮蔽区域,来预测当前帧的被遮蔽词元,导致对后续帧的预测任务变得过于简单。这种“空间信息泄露”使得模型倾向于优化简单的复制任务,而非学习真正的时序动态。
技术方案:我们提出 AR-DF(Autoregressive Discrete Diffusion Forcing),AR-DF 通过一种新颖的掩码策略,强制模型学习时间维度的信息变化:
在训练阶段:我们提出使用时间管道掩码(Temporal Tube Masking)。对于一个视频样本,我们首先为其第一帧生成一个随机的 2D 掩码模式,然后将此模沿时间轴重复应用到所有后续帧。
这样,同一空间位置的词元在所有帧中要么同时可见,要么同时被遮蔽,从而有效切断了空间信息泄露的“捷径”,迫使模型依赖时序上下文进行预测。
在推理阶段:我们提出与训练对齐的掩码策略。在推理时,我们模拟训练过程中的部分历史观测条件。具体地,在生成下一帧前,对已生成的历史帧进行部分遮蔽再输入模型。这种训练-推理一致性的设计,有效避免了因分布偏移导致的生成质量下降问题。
通过 AR-DF,自回归离散扩散视频生成模型 Lumos-1 能够在保持帧内双向依赖和帧间时序因果性的同时,实现高效且有效的自回归视频生成训练与推理。
实验结果与分析
1. 基础任务对比(文生图、文生视频、图生视频)
定量对比:图 3 的结果展示了我们的模型在 3 个任务上的性能。
文生图能力:在权威的 GenEval 评测基准上,自回归离散扩散视频生成模型 Lumos-1 展现了强大的图文对齐能力。与自回归模型对比,我们的 3.6B 模型性能与拥有 8B 参数的 EMU3 旗鼓相当。与扩散模型对比,性能优于同等规模的 SD-XL,甚至可以媲美参数量更大的 FLUX 模型。
更值得一提的是,自回归离散扩散视频生成模型 Lumos-1 在物体位置关系和属性绑定等细分项上得分尤为突出。这证明了我们提出的 MM-RoPE 等设计,使得模型即便没有经过文本预训练,也具备了对复杂语言描述的深刻理解能力。
文生视频能力:虽然没有专门针对这项任务进行训练,但自回归离散扩散视频生成模型 Lumos-1 的自回归特性使其天然支持图生视频。在 VBench-I2V 基准测试中,Lumos-1 的表现与顶尖模型 COSMOS-Video2World 不相上下。
令人印象深刻的是,COSMOS-Video2World 使用了1亿视频数据进行训练,而我们仅使用了 1000万,并且计算资源也远少于对方。这充分展示了自回归离散扩散视频生成模型 Lumos-1 架构的强大效率和潜力。
文生视频能力:在 VBench-T2V 基准上,自回归离散扩散视频生成模型 Lumos-1 同样表现出色:即使我们没有依赖一个庞大且预训练好的文本编码器,自回归离散扩散视频生成模型 Lumos-1 的性能依然能与 OpenSoraPlan 等依赖强大文本理解能力的先进扩散模型效果相当。
由于我们的自回归生成范式保证了第一帧的质量,自回归离散扩散视频生成模型 Lumos-1 在物体类别和颜色等以物体为中心的指标上表现优异,视频内容的一致性更强。
▲ 图3 文生图、文生视频、图生视频的定量性能对比
定性展示:由于模型在训练的过程中使用了多分辨率的数据,并且 token 序列中编码了分辨率信息,因此,自回归离散扩散视频生成模型 Lumos-1 可以很简单得进行多分辨率得生成,包括横屏和竖屏分辨率。
▲ 图4 3 种任务的样例可视化
2. 核心技术消融实验
MM-RoPE:我们通过消融实验证明,相比传统的 RoPE 或 M-RoPE,我们提出的 MM-RoPE 能够让模型:
收敛更快,最终的验证损失更低,证明了其在建模时空信息上的优越性(如图5(b)所示)。
几乎不增加额外的推理开销,实现了几乎零成本的性能增长(如图 6 所示)。
▲ 图5(a)时间管状掩码的使用对于验证集损失的影响;(b)MM-RoPE 中两个关键设计的有效性。
▲ 图6 不同类型的 RoPE 对于推理速度的影响
AR-DF:
训练阶段:实验证明,我们提出的“时间管状掩码”策略有效解决了信息泄露问题,不会造成验证集损失在不同帧之间差距过大,迫使模型学习真正的时间动态,而非简单地从相邻帧“抄作业” (如图 5(a)所示)。
推理阶段:我们发现,推理时必须采用与训练时相匹配的掩码策略。否则,生成的视频会出现明显的伪影和闪烁。AR-DF 推理策略保证了视频的连贯性和高质量,且几乎没有明显的额外开销(如图 7 所示)。
▲ 图7(a)AR-DF 推理阶段使用的掩码比例对于 VBench 指标的影响;(b)AR-DF 推理阶段使用的掩码与否对于可视化结果的影响。
更详细的实验和可视化展示在论文中,欢迎阅读论文。
总结
自回归离散扩散视频生成模型 Lumos-1 成功地将 LLM 的简洁架构应用于自回归视频生成任务。通过创新的 MM-RoPE 和 AR-DF 技术,它在保持架构统一性的同时,高效地解决了时空建模和训练不平衡两大难题。
实验证明,自回归离散扩散视频生成模型 Lumos-1 是一个构建下一代视觉-语言统一基础模型的一条极具潜力的技术路径,我们希望有更多基于 Lumos-1 的工作涌现。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·