深度学习理论的基本原则_第9章_初始化时神经正切核的有效理论
第 9 章 初始化时神经正切核的有效理论
上一章是方程、代数和积分的风暴,现在让我们花一些时间来评估我们想要的东西。
我们在 第 8 章
的目标是在初始化时确定给定层的 神经正切核-预激活
联合分布: 。除了在 第 4 章
中为核 ( 式 4.118
) 和四点顶点 ( 式 4.119
) 导出的递归外,该分布的 数据依赖耦合
和 连接相关器
主要根据我们递归导出的深度运行( 式 8.63
的神经正切核均值 、 式 8.77
和 式 8.79
的 神经正切核-预激活
互相关、 式 8.89
和 式 8.97
的神经正切核方差)。这个 表征群流
分析告诉我们:神经正切核在第一层是确定性对象( 第 8.1 节
),在第二层( 第 8.2 节
)是随机扰动和互相关,然后在更深的层进一步累积扰动和互相关( 第 8.3 节
)。
在本章中,我们终于能够考虑此联合分布的物理特性。
在 第 5 章
中对 临界性
和 普遍性
的讨论基础上,我们将首先为神经正切核的类似分析奠定基础( 第 9.1 节
),同时强调上一章的相关结果。特别的,重点是理解 初始化超参数
和 训练超参数
如何影响有限宽网络的梯度下降。我们将再次发现,深宽比
在控制有限宽效应方面发挥着重要作用,首先是针对尺度不变的普遍性类型( 第 9.2 节
),然后是 的普遍性类型( 第 9.3 节
)。在这两种情况中, 神经正切核扰动
与 互相关
随着深度逐渐增加的重要性,使得有限宽神经网络的交互作用在 神经正切核
的 表征群流
下变得相关。
最后,我们将介绍深度学习中臭名昭著的 梯度爆炸
和 梯度消失
问题,看看 临界
概念如何缓解这个问题( 第 9.4 节
)。我们还解释了偏差和权重的学习率应该如何随着网络深度进行缩放。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 西山晴雪的知识笔记!