第 11 章 表征学习

上一章,我们了解到线性模型无法从数据中学习特征。因此,无限宽限制过于简单,无法提供深度学习的充分表示;为了使其包含不可约的基本元素(表征学习),研究有限宽网络很重要。

在本章前半部分,我们将泰勒展开式展开到全局学习率 $η$ 的二阶,以分析网络输出的梯度下降更新中的主导修正。在进一步看到神经正切核更新的一阶泰勒展开中出现了类似的贡献之后,我们将证明,这种修正是一种有限宽效应。神经正切核从固定到动态的升级表明,对于有限宽网络,构成神经正切核的特征函数本身,可以在训练过程中从数据中学习。

不幸的是,对动力学的完整 $O(1/n)$ 贡献还包括由泰勒展开将网络输出的更新扩展到全局学习率 $η$ 的三阶项,以及类似的将神经正切核的更新扩展到二阶项。虽然为了实际计算完全训练的有限宽网络的分布,有必要包括这些贡献,但网络输出的 $O(η^2)$ 扩展和神经正切核的 $O(η)$ 扩展足以满足定性研究这些模型中表征学习机制的需要。

考虑到这一点,为了将表征学习的教育学与真实多层感知机的混乱现象学细节分开,我们将在本章后半部分专注于一个简化模型,它等效于 $O(η^2)$ 截断并给出表征学习的最小定性图。我们讨论的最小模型形成了一类有效且可能有用的、能够执行表征学习的机器学习模型(尽管限宽多层感知机不在其中)。我们将在下一章 ( 第 ∞ 章) 详细了解它们的 $O(1/n)$ 训练动力。

首先,在 第 11.1 节 中,我们将计算出对预激活更新的 $η$ 二阶贡献,以及对神经正切核更新的 $η$ 一阶贡献。这让我们可以从单个不可约的基础元素(即 神经正切核微分,神经正切核微分)中获取所有表征学习。就像神经正切核控制着预激活的 $η$ 主导阶动力学一样,神经正切核微分控制着神经正切核的 $η$ 主导阶动力学。

在将神经正切核微分识别为表征学习的驱动力之后,在 第 11.2 节 中,我们将递归地确定它与预激活的相关性。详细地说,我们将首先推导出神经正切核微分的随机前向方程,然后评估在初始化时确定 预激活-神经正切核微分-神经正切核微分的联合分布的统计量所需的剩余递归。因此,本节反映了 第 4 章第 8 章表征群流 分析的结构。重要的是,我们将看到所有涉及神经正切核微分的统计量都是 $O(1/n)$,因此仅在有限宽度上起作用。

第 11.3 节 中,我们将应用 临界原则普遍性原则 来分析新的神经正切核微分递归。由于我们所有的超参数都已经通过对 第 5 章 中预激活(修复初始化超参数)和 第 9 章 中的神经正切核(修复训练超参数)的并行分析进行了固定,我们这里的重点将是计算使用这些超参数时 神经正切核微分统计量的深度和宽度尺度。正如您可能猜到的那样,我们会发现在两个普遍性类( 第 11.3.1 节第 11.3.2 节 )中,神经正切核微分的效果正比于我们的有效理论截断点( 即 深宽比 $L/n$ )。

现在已经确定,神经正切核以有限宽度演化。在 第 11.4 节 中,我们将寻找更广泛的背景,反映在 第 10.4 节 中关于无限宽网络的讨论。为此,在 第 11.4.1 节 中,我们将介绍一类非线性模型(重点是二次模型),从而最大限度地扩展线性模型。这个二次模型提供了表征学习的最小模型,独立于任何神经网络抽象。此外,这些模型简单且完全可分析,并且能够捕捉表征学习的本质。

在解决了隐含的近线性二次回归问题之后,在 第 11.4.2 节 中,我们将进一步提供二次模型解的对偶描述,我们将其称为 近核方法(nearly-kernel methods)。这将让我们在这个最小设置中识别与神经正切核微分对应的对象,并展示如何使用从数据中学习的经过训练的核进行测试集预测。总的来说,我们希望这个框架作为一类新的用于表示学习的机器学习模型,能够具有进一步的理论和实践意义。

在这一点上,这些 近核方法有限宽网络 之间的联系(至少在 $η^2$ 阶上)几乎是显而易见的,我们将在 第 11.4.3 节 中明确说明。我们将准确理解深度学习是如何成为表征学习的非最小模型的。

我们最终将得出结论:深度学习的力量在于其深度(由层到层的表征群流引入的网络架构归纳偏好)提供了一个特别好的初始特征选择作为学习的起点。这些观察结果将有助于在下一章解释有限宽解决方案。