深度学习理论的基本原则_第4章_预激活的表征群流
第 4 章 预激活的表征群流
在上一章的最后,我们计算了深度线性网络在初始化时的预激活统计量,并将它们作为网络深度的函数运行。对于那个模型,使用少数 Wick 收缩和网络架构的递归结构,我们能够完全理解网络超参数(其初始化方案、宽度和深度)对预激活相关器的影响。该练习特别强调了 关键初始化超参数
和 足够小深宽比
的重要性,以使网络输出在理论上和实践上表现良好。为了将这些见解扩展到深度线性网络之外,我们需要为具有任何激活函数的网络开发一种深度学习的有效理论。
虽然有效理论的最终目标是解释特定神经网络如何从给定数据集中学习,但我们在 第 4 章
和 第 5 章
中的直接目标,是了解初始化时的神经网络集成如何表现为一个数据的函数。在 第 10章
、 第 11 章
和 第 ∞ 章
中,我们会发现这两个目标紧密联系:通过对神经网络集成的审慎研究,可以系统地评估已训练神经网络的典型行为,并且评估任意特定神经网络可能如何偏离这些典型行为。因此,我们的出发点应当是研究(具有高斯初始化偏差和权重的)神经网络预激活的统计量。总而言之,本章开发的用于 在初始化时分析神经网络集成的形式化方法
对于从原理上理解深度学习非常关键。
正如引言 第 0 章
中所强调的,我们的重点将始终放在描述真实的有限宽网络上,因为在理想化的无限宽度网络中丢失了很多东西,其中丢失比较明显的现象是深层预激活分布中逐层增加的 非高斯性
。这种非高斯性使得有限宽网络的行为更加丰富,但分析起来更加复杂。为了驯服这些复杂性,我们需要从理论物理学中借用一些工具。物理学家有着悠久的传统,习惯于在大量自由度的条件下找出复杂系统的简单描述,并牢记模拟真实系统的真正目标。在我们的上下文中,这预示着在越来越宽、越来越深的神经网络(尽管不是无限的)中,存在某种可能的易处理性和简化性。为了准确起见,在本章中,我们将介绍 large-n 扩展
或 1/n 扩展
,以便在隐藏层宽度 $n$ 变大时执行扰动扩展。使用该工具,我们可以系统地研究有限神经网络的预激活分布,并能够达到任意精度。
早在 1996 年,Neal 在一项开创性的工作 [28] 中引入了无限宽度限制,专注于单隐藏层网络。很久以后,这个程序在 [29, 30] 中继续,将无限宽度限制扩展到更深的网络,然后 Yaida 在 [31] 中进一步扩展到有限宽网络。本章的大部分内容都集中在重现最初在 [31] 中派生的递归。然而,我们在这里的观点与之前的工作不同。特别是,我们的主要动机是在初始化时计算预激活的分布,着眼于最终理解基于梯度的训练(
第 10 章
、第 11 章
、第 ∞ 章
),而不是为贝叶斯推断提供起点(我们将在第 6 节
中给出对深度学习中贝叶斯学习的观点)。此外,与 [31] 相比,我们的结果来自于对动作中耦合的重点关注,而非分布相关器。此方法更直观、更容易扩展。
正如对深度线性网络所做的那样,我们将递归地进行,通过迭代 多层感知机前向传递方程
追踪 输入的变换
,研究预激活的分布如何在层到层之间变化。我们从 第 4.1 节
开始,计算第一层的预激活分布,整合第一组权重和偏差。这个过程恢复了一个众所周知的结果:第一层预激活的分布是高斯分布。由于该计算对于本章其余部分非常重要,因此我们将介绍两种推导:根据 Wick 收缩的组合推导
和 使用 Hubbard-Stratonovich 变换的代数推导
。
在 第 4.2 节
中,我们将考虑第二层中预激活的分布,并在 **$4$ 点连接 ** 和 更高点连接 的相关器中,看到出现的非高斯性。当网络非常宽时,相关器的幅度被抑制,在严格的无限宽度限制中将消失。利用 第 1 节
中此类相关器和动作中之间的耦合对应关系,这种抑制效应反过来使我们能够写出描述预激活分布的动作。特别是, large-n 扩展
让我们从描述(无限宽约束)高斯分布的二次方动作开始,然后围绕它做一系列逆宽度 $1/n$ 的扰动扩展,以达到任意所需的精度。鉴于该结果的重要性,我们再次提供了两种推导,一种 基于 Wick 收缩,另一种 基于扩展随机度量。
在 第 4.3 节
中,我们将分析任意深度的预激活分布。我们可以简单地利用前面的计算来查看预激活的分布在第 $\ell$ 层到第 $\ell+1$ 层之间的递归转换。特别是,在保持有限宽度 $1/n$ 的校正时,我们将获得两点相关器和四点相关器的递归方程,这些递归方程编码了可观测量随深度的增加而演变的过程。我们将看到第 $\ell+1$ 层的预激活分布包含一个继承自第 $\ell$ 层的近高斯片段,以及另外一个从第 $\ell$ 层过渡到第 $\ell+1$ 层时产生的额外近高斯分量。在 第 5 章
中,我们将采用显式求解递归并分析其解的方法,详细了解近高斯性随深度累积的机制,这将 临界性
和 深宽比
的概念扩展到了具有一般性激活函数的神经网络。
在简短澄清了边缘化的影响(第 4.4 节
)和子引导修正(第 4.5 节
)之后,我们在 第 4.6 节
中退后一步,以便在我们的形式化方法和理论物理学中的 重整化群(renormalization group) 之间建立比较。重整化群是一种强大的递归方法,用于理解具有复杂交互作用的系统,它捕捉在测量尺度从微观变为宏观时,系统组分之间有效交互作用的变化机制。具体来说,重整化(renormalization) 在系统的微观自由度上进行边缘化,以获得在长距离上产生的有效粗粒度描述。这类似于我们递归地边缘化前一层中的预激活以获得对当前层表示的有效描述,在我们的例子中,重点捕获神经元之间交互作用随深度的变化特性。在两种情况下,分布流(flow of the distributions ) 都是由细粒度信息的边缘化产生的。鉴于两者完全并行,我们将称我们的流为 表征群 (RG) 流。
这听起来像是对深度神经网络所做工作的一种比较流行的启发式解释(有一种流形说法说,神经网络将输入级别的细粒度信息转换为了特征级别的粗粒度信息,最后转换为输出级别的完全粗粒度表示),那是因为我们的形式化方法将这种启发式解释变得更为具体了。
关于重整化和深度学习之间的联系,有很多正式和非正式的讨论,但这种关系以前从未被精确过。
我们的形式化方法将进一步通过跟踪预激活分布随深度的变化,来直接探索深度的影响。因此,它是深度学习有效理论的起点。