第 10 章核学习

现在我们基本上知道了关于 预激活的初始化分布 和 神经正切核 的所有信息，现在是学习梯度的时候了！

在本章中，我们将分析通过梯度下降来优化无限宽神经网络的训练。当然，无限宽网络实际上只是一种说法，在实践中并不能真正实例化。但正如从有限宽分析中看到的那样，当 深宽比 足够小时，它们仍然可以提供一个实际有用的模型。

有两个原因使得对此类网络的分析变得非常重要：首先，这种极限情况可以告诉我们很多关于 修正尺度 和 超参数调优 的信息；我们之前已经看到了这一点，因为 临界分析 总是从无限宽开始。其次，由于有限宽网络分析式以 $1/n$ 扰动的，因此理解无限宽限制是进一步理解有限宽网络学习的先决条件。因此，让我们先概览一下对无限宽网络的梯度学习分析。

在 第 10.1 节 中，我们观察到无限宽网络的梯度下降训练，可以简单地由冻结的神经正切核描述，并且网络输出的变化可以在全局学习率中不断地被截断为线性阶次。进一步我们发现，网络输出的分量彼此之间存在独立地移动（ 第 10.1.1 节 ），并且在隐藏层中缺乏 表示学习（ 第 10.1.2 节 ）。在这一点上，您可能会有一种不可思议的感觉，因为我们在 第 6.3 节 中发现，通过精确贝叶斯推断学习的无限宽网络存在完全相同的限制。

在 第 10.2 节 中，我们将进行大量参数的更新，并为完全训练的无限宽网络找到一个封闭形式的解决。对于此网络，这样的解会记住整个训练集，我们将证明无论通过一个牛顿步骤（ 第 10.2.1 节 ）还是通过许多个（随机）梯度下降步骤，此解都是相同的（ 第 10.2.2 节），并且不依赖于损失的形式（ 第 10.2.3 节 ）。

事实上，在 第 10.2.4 节 中，我们将看到，特定的完全训练无限宽网络对尚未观测的测试输入生成的预测，完全由 初始的网络输出、冻结的神经正切核、训练集内容 决定。为了分析这一点，我们评估了相关集成的统计量，确定了 平均（神经正切）核预测 以及不同预测实现之间的协方差。回顾在 第 6.2.1 节 中对贝叶斯模型拟合的近似方法，通过将经过充分训练的无限宽网络上的分布视为一个广义后验分布，我们能够更精确地建立 基于梯度学习和 最大似然估计 之间的联系。

在 第 10.3 节 中，我们将对这些经过充分训练的无限宽网络的预测进行测试。我们将介绍训练成功的量化测度（即泛化误差），并将其分解为 偏差项 和 方差项 。前一项将 集成对测试输入的平均预测 与 来自测试集的真实函数值 做比较，而后一项则测量了在集成中的跨完全训练网络预测的 实例到实例扰动。

自然地，偏差和方差项之间存在权衡，对应于我们对集成中包含灵活又自信网络的偏好。当测试输入靠近某个训练样本时，通过显式计算泛化误差（ 第 10.3.1 节），我们将看到对两者的平衡为调优 初始化超参数 （根据 临界原则 ）和 训练超参数 （根据 学习率等价原则）提供了处方。

在 第 10.3.2 节 中，我们将分析扩展到输入接近两个训练样本的情况。这将让我们了解经过充分训练的网络如何进行 内插（interpolate） 和 外推（extrapolate），并让我们讨论网络输出的激活函数引入的 归纳偏好（inductive bias）。特别的，我们将看到非线性激活函数如何能够围绕两个训练样本进行非线性内插或外推。

最后，在 第 10.4 节 中，我们将为讨论无限宽网络提供更广泛的背景。特别是，我们将介绍线性模型并解释它与核方法的关系。这将让我们看到无限宽多层感知机本质上是一个基于随机特征的线性模型，并且 对偶 让我们可以用传统的核概念来识别 无限宽网络的贝叶斯核 和 冻结神经正切核。

在讨论了此类核方法的局限性之后，您将彻底理解超越无限宽限制的必要性，以便我们的有效理论能够充分结合实际深度学习模型的一些更令人兴奋的特性。

第 10 章 核学习

第 10 章核学习