第 9 章 初始化时神经正切核的有效理论

上一章是方程、代数和积分的风暴,现在让我们花一些时间来评估我们想要的东西。

我们在 第 8 章 的目标是在初始化时确定给定层的 神经正切核-预激活 联合分布:p(z(),H^()D)p (z^{(\ell)},\hat{H}^{(\ell)} \mid \mathcal{D}) 。除了在 第 4 章 中为核 ( 式 4.118) 和四点顶点 ( 式 4.119 ) 导出的递归外,该分布的 数据依赖耦合连接相关器 主要根据我们递归导出的深度运行( 式 8.63 的神经正切核均值 、 式 8.77式 8.79神经正切核-预激活 互相关、 式 8.89式 8.97 的神经正切核方差)。这个 表征群流 分析告诉我们:神经正切核在第一层是确定性对象( 第 8.1 节),在第二层( 第 8.2 节 )是随机扰动和互相关,然后在更深的层进一步累积扰动和互相关( 第 8.3 节 )。

在本章中,我们终于能够考虑此联合分布的物理特性。

第 5 章 中对 临界性普遍性 的讨论基础上,我们将首先为神经正切核的类似分析奠定基础( 第 9.1 节),同时强调上一章的相关结果。特别的,重点是理解 初始化超参数训练超参数 如何影响有限宽网络的梯度下降。我们将再次发现,深宽比 L/nL/n 在控制有限宽效应方面发挥着重要作用,首先是针对尺度不变的普遍性类型( 第 9.2 节),然后是 K=0K^\ast = 0 的普遍性类型( 第 9.3 节 )。在这两种情况中, 神经正切核扰动互相关 随着深度逐渐增加的重要性,使得有限宽神经网络的交互作用在 神经正切核表征群流 下变得相关。

最后,我们将介绍深度学习中臭名昭著的 梯度爆炸梯度消失 问题,看看 临界 概念如何缓解这个问题( 第 9.4 节)。我们还解释了偏差和权重的学习率应该如何随着网络深度进行缩放。