深度学习理论的基本原则_第3章_初始化时深度线性网络的有效理论
第 3 章 初始化时深度线性网络的有效理论
在最后的热身章节中,我们介绍并求解深度学习的玩具模型,即 深度线性网络(deep linear network)。
对于物理学家,我们打个比方:深度线性网络之于深度学习,就像简谐振子之于量子力学。
如 第 3.1 节
所述,深度线性网络只是一个具有线性激活函数的多层感知机。这样的网络只能计算输入的线性变换,当然不能产生像人类这样的函数(在经验上人类思维是非线性的)。尽管如此,对深度线性网络的研究仍然是我们后面几章陆续介绍的 深度学习的有效理论(effective theory of deep learning) 的基础蓝图。本章中的练习将说明:层到层的递归能够以非常直观的方式控制深度神经网络的统计量,而不会被所有技术细节所困扰。
为此,在 第 3.2 节
中,我们获得并精确求解深度线性网络中 (预激活的)两点相关器
的层到层递归。结果表明,神经网络的统计量敏感地依赖于 初始化超参数
的设置,敏感度随深度呈指数增长。这就引出了 临界点(criticality) 的重要概念,我们将在 第 5 章
中更深入和更敏感地探讨这个概念。简而言之,要使网络表现良好,需要对这些超参数进行微调。
在 第 3.3 节
中,我们获得并求解了 四点相关器
的层到层递归(使用单一输入来简化了代数计算)。这能够展示神经网络行为依赖于架构超参数的方式,特别是神经网络的宽度和深度。此外,我们将 四点连接相关器
解释为对(不同模型参数样本对应的神经网络函数之间)扰动性的测量。这种扰动可能会干扰 初始化超参数
的调优,需要加以控制,以使神经网络在典型样本中具有可靠表现。扰动的规模由神经网络的 深宽比
设置,以突出多层感知机分析支持的 新兴规模(emergent scale),我们将看到,通过保持足够小的 深宽比
可以有效控制扰动。
在 第 3.4 节
中,我们获得并求解了任意 $M$ 点相关器 的层到层递归(同样使用了单一输入简化计算)。这样的递归在任何宽度 $n$ 和深度 $L$ 上都是精确可解的,这意味着我们可以在初始化时完全确定神经网络的一些统计量。
注:此处求解的概念不应与机器学习算法中的训练动力求解相混淆。在深度线性网络的背景下,梯度下降的动力学在[25]中进行了分析。在
第 10 章
和第∞章
中,我们将在形式化的有效理论背景下求解具有一般激活函数的多层感知机梯度下降的训练动力。
给定上述非扰动求解方法,我们分别求解了 大宽度的固定深度神经网络
和 固定宽度的深度神经网络
两种设定,并明确表明两种设定之间无法交换。我们还求解了一个具有 大宽度
和 深度
,但 深宽比
$L/n$ 固定的设定,并了解到此 比例(scale)
作为扰动参数,可以控制神经网络中所有交互,并控制扰动分析的有效性。