第 5 章 初始化时预激活的有效理论

深度学习的关键定义特征是将组件堆叠在一起以获得深度神经网络架构。尽管经验上偏爱更深的网络,但为什么深度有利于学习的机理并不明确。对于每层固定数量的神经元,深度意味着更多参数,而在深度学习中,更多参数通常会带来更好的性能。但还有其他方法可以包含更多参数,例如,使用一个非常宽的隐藏层。事实上,在严格的无限宽极限下,这种单层模型可以具有与任何更深层次多层感知机相同数量的参数:无穷大。

考虑深度影响的正确方法不仅仅是计算模型参数的数量,而是了解当向多层感知机添加额外层时会发生什么。在 第 4 章 中,我们开发了一种形式化方法,通过对可观测量的递归来精确解答这个问题,使我们在添加新层后,能够计算初始网络输出的分布会发生什么变化。下一步就需要寻找能够从递归中有效地提取显式深度依赖性的一种工具。

基于 第 4 章 中开发的有效理论形式化方法,我们将在本章中把 第 3 章 中执行的 临界性分析扰动分析 扩展到具有任何非线性激活函数的多层感知机。受前一章在宽层 ( n1n \gg 1)中找到简化方法的成功启发,我们将在大深度限制 (L1L \gg 1)情况下寻求更多的简化。

这意味着我们首先考虑大宽度的限制,然后考察大深度的限制。

具体来说,我们会首先分析每层具有无限数量神经元的极限情况,然后回退到上述限制,以考虑大型但宽度和深度有限的神经网络。其结果将是(在这些渐近限制中的)预激活的两点相关器和四点相关器的显式表达式。

尽管这些解具有渐近性质,但我们注意到其中许多工具是为研究强交互作用而开发的,其中实际上参数为 33 被认为是无穷大。因此,有时甚至 33∼∞ ,因为 1/311/3 \ll 1 可以作为扰动参数 [44]。

这将有助于我们解决如下问题:“在初始化时,输入信号在通过多层深度神经网络传播时会发生什么”( 第 5.1 节)。我们将了解到, 初始化超参数 的一阶值(即偏差方差 Cb()C^{(\ell)}_b 和重新调整的权重方差 CW()C^{(\ell)}_W )对可观测量的行为有显著的定性影响,就像我们 在第 3 章 中看到的深度线性网络。特别是,我们会解释:随着深度的增加,神经网络行为如何对初始化超参数变得越来越敏感。

此分析的最初部分首先在一系列论文中展开[45-47],其中使用了一组不同的技术,这些技术最终等同于我们在无限宽限制中采用的技术。扩展此分析,我们将根据临界原则确定两个一般性条件,可以指导我们确定初始化超参数的正确一阶值。在 第 10.3 节 中,我们将看到:对这些条件的需求,可以被理解为对完全训练的神经网络提出的泛化要求。

这种调整使神经网络达到 临界(criticality)(临界是统计物理学中的一个术语,用于描述自相似系统)。为此,我们在 第 5.2 节 (针对给定激活函数)和 第 5.3 节 (针对指定网络架构)中,分别给出了将初始化超参数调整为临界值的通用方法。在此过程中,我们还确定了一些不允许临界的激活函数。我们还将看到某些激活函数在调整到临界值时表现得非常相似,这突显了与统计物理学中普遍性概念之间的重要联系。

在临界点对有限宽修正的研究将得出本章的主要结果之一:一个由网络深度与网络宽度的纵横比 L/nL/n 给出的应急量表(emergent scale)第 5.4 节)。该纵横比最终作为我们有效理论的截止点,控制着有效理论的作用范围,并且确定着有限宽度修正(对无限宽度描述的)强度和重要性。一方面,我们发现网络越短越宽,其行为就越像无限宽度的对应物。另一方面,由于神经元之间的相互作用,瘦高网络越来越受非高斯扰动的支配。总的来说,这有助于概括我们在 第 3.3 节 中对深度线性网络的扰动分析。

最后,我们将求解一个在对非平滑激活函数(如 ReLU)进行临界分析时出现的微妙问题(第 5.5 节)。