深度学习理论的基本原则_第10章_核学习
第 10 章 核学习
现在我们基本上知道了关于 预激活的初始化分布 和 神经正切核 的所有信息,现在是学习梯度的时候了!
在本章中,我们将分析通过梯度下降来优化无限宽神经网络的训练。当然,无限宽网络实际上只是一种说法,在实践中并不能真正实例化。但正如从有限宽分析中看到的那样,当 深宽比 足够小时,它们仍然可以提供一个实际有用的模型。
有两个原因使得对此类网络的分析变得非常重要:首先,这种极限情况可以告诉我们很多关于 修正尺度 和 超参数调优 的信息;我们之前已经看到了这一点,因为 临界分析 总是从无限宽开始。其次,由于有限宽网络分析式以 1/n1/n1/n 扰动的,因此理解无限宽限制是进一步理解有限宽网络学习的先决条件。因此,让我们先概览一下对无限宽网络的梯度学习分析。
在 第 10.1 节 中,我们观察到无限宽网络的梯度下降训练,可以简单地由冻结的神经正切核描述,并且网络输出的变化可以在全局学习率中不断地被截断为线性阶次。进一步我们发现,网络输出的分量彼此之间存在独立地移动( 第 10.1.1 节 ),并且在隐藏层中缺乏 表示学习( 第 10.1.2 节 )。在这一点上 ...
深度学习理论的基本原则_第11章_表征学习
第 11 章 表征学习
上一章,我们了解到线性模型无法从数据中学习特征。因此,无限宽限制过于简单,无法提供深度学习的充分表示;为了使其包含不可约的基本元素(表征学习),研究有限宽网络很重要。
在本章前半部分,我们将泰勒展开式展开到全局学习率 ηηη 的二阶,以分析网络输出的梯度下降更新中的主导修正。在进一步看到神经正切核更新的一阶泰勒展开中出现了类似的贡献之后,我们将证明,这种修正是一种有限宽效应。神经正切核从固定到动态的升级表明,对于有限宽网络,构成神经正切核的特征函数本身,可以在训练过程中从数据中学习。
不幸的是,对动力学的完整 O(1/n)O(1/n)O(1/n) 贡献还包括由泰勒展开将网络输出的更新扩展到全局学习率 ηηη 的三阶项,以及类似的将神经正切核的更新扩展到二阶项。虽然为了实际计算完全训练的有限宽网络的分布,有必要包括这些贡献,但网络输出的 O(η2)O(η^2)O(η2) 扩展和神经正切核的 O(η)O(η)O(η) 扩展足以满足定性研究这些模型中表征学习机制的需要。
考虑到这一点,为了将表征学习的教育学与真实多层感知机的混乱现象学细节分开,我们将在本 ...
深度学习理论的基本原则_第12章_训练结束
第 12 章 训练结束
在本章中,我们将最终完成对有限宽网络的主导阶有效理论分析,并求解其在梯度下降中的训练动力。与解独立于训练算法的无限宽限制相比,这种深度网络的动力学具有丰富的现象学,可以捕获在训练过程中开发有用特征的不同方式。这些训练动力的解给出了完全训练有限宽网络集成的第一性原理描述,实现了本书的主要目标。
不幸的是,我们的工作将被两个自然事实打乱:(1)为了对 1/n1/n1/n 阶的训练动力进行一致的描述,我们需要结合新的泰勒展开式(网络输出的三阶展开、神经正切核的二阶展开,神经正切核微分的一阶展开)中的另外两个对象;(2)由于缺乏平滑性,我们将无法描述 ReLU 网络的动力学,也无法描述由尺度不变普遍性类型中的任何非线性激活函数组成的网络。
对于第一点,虽然在二次模型的背景下对表示学习的分析很有启发性,但我们已经说明它不足以捕获有限宽网络的特定细节。特别是,对于 1/n1/n1/n 的主导阶,有两个多出来的神经正切核微分,我们将其称为 ddNTK。为这些 ddNTK 制定随机前向方程、递归和有效理论有点乏味,并且不再具有任何教学价值。因此,我们不会提供详细推导 ...