第 12 章 训练结束

在本章中,我们将最终完成对有限宽网络的主导阶有效理论分析,并求解其在梯度下降中的训练动力。与解独立于训练算法的无限宽限制相比,这种深度网络的动力学具有丰富的现象学,可以捕获在训练过程中开发有用特征的不同方式。这些训练动力的解给出了完全训练有限宽网络集成的第一性原理描述,实现了本书的主要目标。

不幸的是,我们的工作将被两个自然事实打乱:(1)为了对 $1/n$ 阶的训练动力进行一致的描述,我们需要结合新的泰勒展开式(网络输出的三阶展开、神经正切核的二阶展开,神经正切核微分的一阶展开)中的另外两个对象;(2)由于缺乏平滑性,我们将无法描述 ReLU 网络的动力学,也无法描述由尺度不变普遍性类型中的任何非线性激活函数组成的网络。

对于第一点,虽然在二次模型的背景下对表示学习的分析很有启发性,但我们已经说明它不足以捕获有限宽网络的特定细节。特别是,对于 $1/n$ 的主导阶,有两个多出来的神经正切核微分,我们将其称为 ddNTK。为这些 ddNTK 制定随机前向方程、递归和有效理论有点乏味,并且不再具有任何教学价值。因此,我们不会提供详细推导过程。相反,我们将简单地陈述结果,将细节留给您作为一种培训后的测试评估;毕竟,这也是你训练的终点。

对于第二点,在整本书中,我们不得不使用特殊方法来对任何非平滑激活函数(如 ReLU)做出特殊解释。在我们看来,ReLU 作为实践中最流行的激活函数之一,赋予其特权地位是合理的。但我们最终用尽了技巧,不得不放弃,只是因为一个简单解释的原因:将对全局学习率 $η$ 的泰勒展开应用于非平滑激活函数构建的神经网络动力时,将会崩溃。这使得我们重新开始考虑 ReLU 的平滑版本,比如 GELU 和 SWISH。

尽管存在这些干扰,我们在 第 ∞.1 节 中还是将展示 ddNTK 的所有相关结果,并在 第∞.3 节 后隐藏所有不相关的细节。我们将定义它们,给出其张量分解,并将解释其与宽度和深度的关系。如果您一直在关注,那么您不会感到震惊,当正确归一化时,ddNTKs 测度是有效理论的截止点:$L/n$ 。这种尺度表明我们需要考虑 预激活-神经正切核-神经正切核微分-ddNTKs 的联合统计量,以便了解深度多层感知机的主导阶有限宽动力。重要的是,这些 ddNTK 赋予了 dNTK 自己的动力;从 第 11.4.1 节 的参数空间角度来看,这意味着模型的 元特征函数(meta feature functions) 现在将进化。

有了这些结果,在 第 ∞.2 节 中,我们将回到定期安排的教学法,并最终解决有限宽网络的训练动力问题。在使用无限宽方法导致初级错误之后,我们首先在 第 ∞.2.1 节 中,将学习如何在调整后的大跃进之后迈出一小步,为我们提供第一个有限宽解。然后在 第 ∞.2.2 节 中,我们将分析许多普通梯度下降的步骤,为我们提供第二个有限宽解。有限宽度的非线性动力最终导致完全训练的解依赖于训练算法,因此在这两个小节中得出的解实际上表现出有意义的差异。

特别是,完全训练的有限宽网络的函数逼近可以分解为一个通用部分(独立于优化细节)和一组算法投射,其函数形式编码了解对训练算法的完整依赖性。这些投射为学习算法提供了对偶样本空间视角,类似于模型参数和不同核之间的关系。

因此,在 第 ∞.2.3 节 中,我们将讨论这些投射如何影响解,并分别了解训练动力的归纳偏好和网络架构的归纳偏好。我们还将进一步分析经过充分训练的网络所做的预测,并考虑 表示学习实例-实例扰动 之间随深度逐渐增长的权衡。

虽然这是正文的最后一章,但在本章之后还有结语部分和两个附录。结语 $ε$ 将从有效理论的宏观角度探讨如何定义过度参数化网络的模型复杂性。在两个附录中,将进一步涉及一些超出我们主要研究范畴的主题。在 附录 A 中,我们将介绍信息论的框架,它为我们提供了所需工具,以估计将深度网络与过深网络有效分离的最佳纵横比。在 附录 B 中,我们将应用有效理论方法来了解残差网络,并了解如何使用它们将有效深度网络的范围扩展到越来越大的深度。