第 8 章 神经切线核的表征群流

在上一章中,我们介绍了基于梯度的学习,以将其作为贝叶斯学习的替代方案,并重点关注了梯度下降算法。简而言之,梯度下降算法涉及从先验分布实例化一个神经网络,然后通过运行训练数据来迭代地更新模型参数。该算法易于实现,并且对于任何特定网络都非常有效。在实践中,它也使事情变得更加容易。

但从理论上讲,梯度下降学习会使事情变得更加困难。对于贝叶斯先验,之所以能够逐层对模型参数进行积分并最终推导出神经网络输出的分布,主要是因为偏差和权重的初始化分布比较简单;此外,大宽度的扩展使获得有限宽神经网络的贝叶斯后验解析解成为可能。而相比之下,通过梯度下降训练的任何特定网络参数和输出,都是复杂的、相关的混杂体。

为了取得进展,我们需要转回统计视角。我们不关注任何特定网络如何从数据中学习,而是询问典型网络在训练时的行为方式。如果我们了解梯度下降时的典型行为(即均值),并能够控制神经网络实例之间的扰动(即方差),那么就可以描述实践中使用的梯度学习方法。

考虑到这种统计视角,回想上一章中,我们将 梯度下降更新 分解为 损失误差因子 乘以 函数逼近因子,后者又被称为神经正切核 (neural tangent kernel, NTK),它总结了模型参数变化对神经网络行为的影响 。这意味着,在训练初始阶段,神经网络可观测量变化的统计量初始化时神经正切核的统计量 控制。因此,本章和下一章的核心将涉及为深度多层感知机显式地计算此类 神经正切核 的统计量;我们将推迟对神经网络训练的实际分析,一直到 第 10 章第 ∞ 章

第 8.0 节 中,我们将为 神经正切核统计量 的递归计算奠定基础。也就是说,从 多层感知机的迭代方程预激活的前向方程 开始,推导出神经正切核的前向方程。该方程是一个层到层的迭代方程,适用于模型参数的每个不同的实例。我们还将讨论 学习率张量神经网络的宽度 缩放的机制,这一点在实践中经常被忽略。

通过对不同实例进行平均,可以使用前向方程递归计算 神经正切核-预激活 的联合统计量。此处采用的方法完全反映了 第 4 章 中用于预激活的 表征群流 方法。在 第 8.1 节第 8.2 节第 8.3 节 中,我们将分别在一层、二层和更深层神经网络中渐进地依次确定 神经正切核-预激活 联合分布。