CV君 2025-11-23 11:38 江苏
从“一步到位”到“分步思考”
今天我们来聊一篇非常有意思的新工作,来自清华大学和华为诺亚方舟实验室的研究者们提出了一个名为Step by Step Network (StepsNet)的通用网络架构。它的核心思想非常直观,就是让神经网络像人一样“分步解决问题”,通过一种巧妙的渐进式学习策略,成功解锁了深度模型的巨大潜力。
理论上,神经网络越深,其表达能力越强。自从ResNet的残差连接(Residual Connection)解决了深度网络的梯度消失问题后,模型层数飙升至数百层已是常态。但一个尴尬的现实是,当网络深到一定程度后,性能提升往往会停滞不前,甚至出现下降。这背后究竟是什么在“作祟”?
论文: Step by Step Network
作者: Dongchen Han, Tianzhu Ye, Zhuofan Xia, Kaiyi Chen, Yulin Wang, Hanting Chen, Gao Huang
机构: 清华大学、华为诺亚方舟实验室
成功背后,深度模型的两大“绊脚石”
作者通过深入分析,指出了当前残差网络在走向“更深”时遇到的两个核心障碍:
1. 捷径退化(Shortcut Degradation)
在标准的残差结构 中,每一层的输出都是前一层输出与一个残差块(Residual Block)输出的相加。当网络非常深时,这个累加过程可以展开为 。这里的 是初始输入(或浅层特征),我们称之为主干道上的“捷径”信号;而 则是不断叠加的“残差信号”。
在训练初期,由于网络参数是随机初始化的,残差信号 几乎等同于“噪声”。随着层数 的增加,这些“噪声”不断累积,导致原始的“捷径”信号 被严重稀释。
上图就直观地展示了这一现象。作者定义了一个“捷径率” 来衡量输入信号在第 层输出中的保留程度(其中 代表特征的标准差)。在一个超过400层的DeiT模型中,捷径率在训练初期迅速趋近于0。这意味着深层网络几乎接收不到来自输入的有效信息,梯度也无法有效回传,优化自然变得异常困难。
2. 有限的宽度(Limited Width)
在计算资源(FLOPs)固定的前提下,网络的设计存在一个固有的“深度-宽度”权衡。一个模型的计算复杂度通常与 成正比(为宽度/通道数,为深度)。这意味着,如果你想让模型变得更深,就必须牺牲其宽度,以维持相似的计算开销。然而,理论早已证明,宽度不足的网络即使再深,其函数逼近能力也受限。因此,当模型为了追求深度而变得“又瘦又长”时,其表达能力反而可能受损。
如上图(a)所示,为了将一个2层的网络加深到3层,宽度不得不被压缩,这无疑限制了模型的潜力。
StepsNet:让网络“分步思考”
为了同时解决上述两个问题,研究者们提出了StepsNet,其设计哲学可以概括为“分而治之,渐进学习”。
上图(b)和(c)清晰地展示了StepsNet的构造。以一个2步(2-step)网络为例:
分离(Split): 首先,将输入特征 沿通道维度拆分成两部分, 和 。
第一步(Step 1): 将 送入第一个子网络 进行处理,得到中间结果 。这个子网络可以是一个较窄的残差网络。
第二步(Step 2): 将第一步的结果 与之前未处理的 拼接起来,形成一个新的、更宽的特征 ,然后将其送入第二个子网络 进行处理,得到最终输出 。
这个过程可以递归地扩展到n步,形成一个由多个宽度递增的子网络堆叠而成的“窄-宽”结构。
步网络的通用公式可以表示为:
这种设计精妙地解决了前面的两个难题:
缓解捷径退化: 在StepsNet中, 这些特征被直接“护送”到了更深的子网络(),没有经过浅层残差块的“污染”。这相当于为输入信息开辟了多条“绿色通道”,确保深层网络也能接收到纯净的原始信号。从前面的捷径率对比图(图2)中可以看到,482层的Steps-DeiT依然保持了非常健康的捷径率,堪比只有122层的标准DeiT。
打破深宽权衡: StepsNet通过将一个宽而浅的块替换为多个窄而深的块,实现了在保持总计算量和最终输出宽度不变的情况下,显著增加模型的有效深度。这种“窄-宽”堆叠策略让模型既能“深”又能“宽”,鱼与熊掌兼得。
实验效果:不仅稳定超越,而且多面开花
StepsNet作为一个通用的宏观设计,可以轻松地应用于各种现有的CNN和Transformer模型,如ResNet、DeiT和Swin Transformer。
实验结果令人信服。在ImageNet-1K图像分类任务上,无论是ResNet、DeiT还是Swin,在换上StepsNet“内核”后,层数翻倍,性能都得到了一致性的提升,而参数量和计算量几乎不变。例如,Steps-Swin-T在相似的计算成本下,将Swin-T的Top-1准确率从81.3%提升到了82.4%。
上图展示了当固定宽度、不断加深模型时,标准DeiT的性能在超过200层后开始饱和,而Steps-DeiT则能持续从深度中获益,一路高歌猛进,训练和测试准确率都遥遥领先。
更重要的是,StepsNet的优势并不仅限于图像分类。在COCO目标检测、ADE20K语义分割以及WikiText-103语言建模等多种任务上,StepsNet都展现出了优越的泛化能力,全面超越了基线模型。
此外,在推理速度和内存方面,StepsNet也表现出色。上图显示,在相似精度下,StepsNet在CPU和GPU上均实现了1.3x至1.4x的加速,并且在构建极深模型时,内存占用更低。
总结
总的来说,StepsNet通过一种优雅的“分步思考”机制,试图从宏观架构层面缓解了深度残差网络面临的“捷径退化”和“深宽权衡”两大瓶颈。
这项工作为如何构建更深、更强大的神经网络提供了新的思路。目前还未发现相关开源代码,期待作者开源,更多的实验验证和进一步的探索。