CV君 2025-09-15 14:56 江苏
在自监督学习领域,如何让模型在没有标签的情况下学到有用的视觉表征,一直是核心挑战。其中,掩码自编码(MAE)是一个明星方法,但它依赖于繁重的像素重建任务。另一条路是预测网络自身的“潜在特征”,这更高效,却极易陷入“表征崩溃”的陷阱——即模型学会了一个无用的、平凡的解。
本文介绍一篇来自 Google DeepMind 和 牛津大学 的最新研究,该研究已被 ICCV 2025 接收。论文提出了一种名为 LayerLock 的方法,它通过一个简单而巧妙的“渐进式层冻结”策略,成功解决了潜在预测中的表征崩溃问题,同时提升了训练效率。简而言之,LayerLock就像一个聪明的课程表,引导模型从“学习像素”平滑过渡到“学习特征”,最终培养出更强大的视觉能力。该方法已成功扩展至 40亿参数 的大模型。
论文标题: LayerLock: Non-collapsing Representation Learning with Progressive Freezing
作者: Goker Erdogan, Nikhil Parthasarathy, Catalin Ionescu, Drew Hudson, Alexander Lerchner, Andrew Zisserman, Mehdi Sajjadi, Joao Carreira
机构: Google DeepMind, 牛津大学
录用信息: ICCV 2025
研究背景与动机
自监督学习旨在让模型从无标签数据中“自我教育”。其中,掩码自编码(Masked Auto-Encoding, MAE) 是一种主流范式,它随机遮挡输入(如视频帧)的一部分,然后让模型去重建被遮挡的内容。这种“完形填空”式的任务迫使模型学习到底层视觉规律。然而,直接重建像素计算成本高,且可能过于关注低级纹理细节。
一个更高效的替代方案是 潜在预测(Latent Prediction),即不预测原始像素,而是预测网络自身在某个中间层产生的特征(潜在表征)。这种方法的挑战在于极易发生 “表征崩溃”(Representation Collapse)。想象一下,如果模型的“学生”部分(解码器)要预测“老师”部分(编码器)的输出,最简单的“作弊”方法就是让老师输出一个常数,学生也跟着输出一个常数,损失函数瞬间降为零,但模型什么有用的东西都没学到。
为了防止这种“躺平”现象,现有方法通常需要引入复杂的机制,如非对称架构、停止梯度、目标编码器等。而LayerLock则提出,或许只需要一个更聪明的训练流程。
LayerLock:从一个惊人发现到优雅解决方案
LayerLock的灵感来源是一个简单而关键的观察:在训练基于ViT的视频MAE模型时,网络层的收敛存在明确的先后顺序——浅层网络总是比深层网络更早收敛。
上图清晰地展示了这一点:横轴是冻结操作开始的训练步数,纵轴是最终的损失。可以看到,浅层(如Layer 3)即使在训练早期(如2000步)就被冻结,最终的性能也几乎不受影响。而深层(如Layer 12)如果过早冻结,性能就会大打折扣。这说明浅层特征学习得非常快。
基于这一观察,研究者提出了 LayerLock 策略,其核心思想是设计一个课程学习(Curriculum Learning)方案:
初始阶段:预测像素。 训练开始时,模型执行标准的MAE任务,即重建被遮挡的像素。这为模型提供了一个稳定且有意义的初始学习信号,使其学到基础的视觉特征。
渐进冻结与目标切换。 根据一个预设的时间表(schedule),在训练的特定阶段,逐步冻结已经收敛的浅层网络。关键操作是:每当冻结网络的某一层(比如第k层)时,就将预测目标从原始像素切换为该层(第k层)的输出特征。
持续推进。 随着训练的进行,冻结的层数越来越多,预测的目标也越来越“深入”网络内部,从低级特征平滑过渡到高级、抽象的语义特征。
上图直观地展示了这个过程:
左图:初始状态,无冻结层,模型预测像素
x
。中图:冻结第一层后,模型转而预测第一层的输出
h1
。右图:继续冻结前两层,模型的目标变为预测第二层的输出
h2
。
这个过程不断持续,直到大部分编码器层都被冻结。CV君认为,LayerLock的巧妙之处在于,它将“层收敛的先后顺序”这一经验观察,转化为了一个动态的、从易到难的学习课程。通过先让模型稳定地学会预测浅层特征,再逐步增加难度去预测深层特征,自然而然地避免了“表征崩溃”的发生,因为模型在任何阶段都有一个非平凡(non-trivial)的学习目标。
LayerLock前向传播伪代码
实验结果与分析
研究者在高达10亿视频片段的数据集上,对最大 40亿参数 的4DS模型家族应用了LayerLock,并在动作识别(SSv2, Kinetics-700)和深度估计(ScanNet)等任务上进行了评估。
1. LayerLock显著提升性能
实验结果(下表)表明,无论是在基于像素预测的MAE模型(4DS-G, 4DS-e)上,还是在基于潜在预测的V-JEPA模型上,应用LayerLock都带来了显著的性能提升,尤其是在需要高级语义理解的动作识别任务上。
2. 渐进式冻结是防止崩溃的关键
为了证明“渐进式冻结”的必要性,研究者进行了一项关键的消融实验:在标准的MAE模型上,不使用冻结策略,而是直接添加潜在损失(即同时预测像素和中间层特征)。结果如下表所示,模型的性能急剧下降,出现了明显的“表征崩溃”现象。这有力地证明了LayerLock中的渐进式冻结和目标切换机制是防止崩溃的核心所在。
3. 提升训练效率,节省计算和内存
除了提升性能,LayerLock还带来了实实在在的效率增益。由于网络层被逐渐冻结,反向传播需要计算的梯度越来越少。实验表明,简单的逐层冻结策略可以在性能几乎无损的情况下,节省9%的总计算量(FLOPs)和16%的峰值内存占用。对于动辄需要数百上千卡时训练的大模型而言,这是非常可观的优化。
4. 其他消融研究
研究者还进行了详尽的消融实验,探讨了冻结时间表、目标选择、损失函数加温等超参数的影响,为方法的有效性提供了坚实支撑。例如,实验发现:
3D RoPE位置编码:新颖的3D旋转位置编码能独立地提升基线和LayerLock的性能。
单一预测目标足够:在每个阶段只预测最新冻结层的输出,就足以达到良好性能,无需同时预测多个历史目标。
冻结时间表:更平滑、渐进的冻结计划通常比激进的计划效果更好。
总结与贡献
LayerLock 提出了一种简单、通用且高效的自监督视觉表征学习方法。其核心贡献在于:
揭示了ViT层序贯收敛的现象:首次明确指出并利用了视频MAE训练中“浅层先收敛,深层后收敛”的规律。
提出了渐进式冻结的学习框架:通过动态地将预测目标从像素平滑过渡到不同深度的潜在特征,有效解决了潜在预测中的“表征崩溃”问题,增强了训练的稳定性。
提升了训练效率:通过冻结部分网络,减少了反向传播的计算量和内存占用,为训练更大、更深的视频模型开辟了道路。
验证了其通用性和可扩展性:该方法不仅适用于多种模型(MAE, V-JEPA),还在高达40亿参数的大模型上取得了成功,并在多个下游任务上超越了基线性能。
总而言之,LayerLock为自监督学习社区提供了一个优雅而实用的新“配方”,有时候解决棘手的“表征崩溃”问题,并不需要复杂的模型设计,而可能只需要一个更懂模型学习动态的训练策略。
了解最新 AI 进展,欢迎关注公众号:我爱计算机视觉感谢点赞支持。