深度学习理论的基本原则_第8章_神经切线核的表征群流
第 8 章 神经切线核的表征群流
在上一章中,我们介绍了基于梯度的学习,以将其作为贝叶斯学习的替代方案,并重点关注了梯度下降算法。简而言之,梯度下降算法涉及从先验分布实例化一个神经网络,然后通过运行训练数据来迭代地更新模型参数。该算法易于实现,并且对于任何特定网络都非常有效。在实践中,它也使事情变得更加容易。
但从理论上讲,梯度下降学习会使事情变得更加困难。对于贝叶斯先验,之所以能够逐层对模型参数进行积分并最终推导出神经网络输出的分布,主要是因为偏差和权重的初始化分布比较简单;此外,大宽度的扩展使获得有限宽神经网络的贝叶斯后验解析解成为可能。而相比之下,通过梯度下降训练的任何特定网络参数和输出,都是复杂的、相关的混杂体。
为了取得进展,我们需要转回统计视角。我们不关注任何特定网络如何从数据中学习,而是询问典型网络在训练时的行为方式。如果我们了解梯度下降时的典型行为(即均值),并能够控制神经网络实例之间的扰动(即方差),那么就可以描述实践中使用的梯度学习方法。
考虑到这种统计视角,回想上一章中,我们将 梯度下降更新 分解为 损失误差因子 乘以 函数逼近因子,后者又被称为神经正 ...
深度学习理论的基本原则_第9章_初始化时神经正切核的有效理论
第 9 章 初始化时神经正切核的有效理论
上一章是方程、代数和积分的风暴,现在让我们花一些时间来评估我们想要的东西。
我们在 第 8 章 的目标是在初始化时确定给定层的 神经正切核-预激活 联合分布:p(z(ℓ),H^(ℓ)∣D)p (z^{(\ell)},\hat{H}^{(\ell)} \mid \mathcal{D})p(z(ℓ),H^(ℓ)∣D) 。除了在 第 4 章 中为核 ( 式 4.118) 和四点顶点 ( 式 4.119 ) 导出的递归外,该分布的 数据依赖耦合 和 连接相关器 主要根据我们递归导出的深度运行( 式 8.63 的神经正切核均值 、 式 8.77 和 式 8.79 的 神经正切核-预激活 互相关、 式 8.89 和 式 8.97 的神经正切核方差)。这个 表征群流 分析告诉我们:神经正切核在第一层是确定性对象( 第 8.1 节),在第二层( 第 8.2 节 )是随机扰动和互相关,然后在更深的层进一步累积扰动和互相关( 第 8.3 节 )。
在本章中,我们终于能够考虑此联合分布的物理特性。
在 第 5 章 中对 临界性 和 普遍性 的讨论基础 ...
深度学习理论的基本原则_第10章_核学习
第 10 章 核学习
现在我们基本上知道了关于 预激活的初始化分布 和 神经正切核 的所有信息,现在是学习梯度的时候了!
在本章中,我们将分析通过梯度下降来优化无限宽神经网络的训练。当然,无限宽网络实际上只是一种说法,在实践中并不能真正实例化。但正如从有限宽分析中看到的那样,当 深宽比 足够小时,它们仍然可以提供一个实际有用的模型。
有两个原因使得对此类网络的分析变得非常重要:首先,这种极限情况可以告诉我们很多关于 修正尺度 和 超参数调优 的信息;我们之前已经看到了这一点,因为 临界分析 总是从无限宽开始。其次,由于有限宽网络分析式以 1/n1/n1/n 扰动的,因此理解无限宽限制是进一步理解有限宽网络学习的先决条件。因此,让我们先概览一下对无限宽网络的梯度学习分析。
在 第 10.1 节 中,我们观察到无限宽网络的梯度下降训练,可以简单地由冻结的神经正切核描述,并且网络输出的变化可以在全局学习率中不断地被截断为线性阶次。进一步我们发现,网络输出的分量彼此之间存在独立地移动( 第 10.1.1 节 ),并且在隐藏层中缺乏 表示学习( 第 10.1.2 节 )。在这一点上 ...
深度学习理论的基本原则_第11章_表征学习
第 11 章 表征学习
上一章,我们了解到线性模型无法从数据中学习特征。因此,无限宽限制过于简单,无法提供深度学习的充分表示;为了使其包含不可约的基本元素(表征学习),研究有限宽网络很重要。
在本章前半部分,我们将泰勒展开式展开到全局学习率 ηηη 的二阶,以分析网络输出的梯度下降更新中的主导修正。在进一步看到神经正切核更新的一阶泰勒展开中出现了类似的贡献之后,我们将证明,这种修正是一种有限宽效应。神经正切核从固定到动态的升级表明,对于有限宽网络,构成神经正切核的特征函数本身,可以在训练过程中从数据中学习。
不幸的是,对动力学的完整 O(1/n)O(1/n)O(1/n) 贡献还包括由泰勒展开将网络输出的更新扩展到全局学习率 ηηη 的三阶项,以及类似的将神经正切核的更新扩展到二阶项。虽然为了实际计算完全训练的有限宽网络的分布,有必要包括这些贡献,但网络输出的 O(η2)O(η^2)O(η2) 扩展和神经正切核的 O(η)O(η)O(η) 扩展足以满足定性研究这些模型中表征学习机制的需要。
考虑到这一点,为了将表征学习的教育学与真实多层感知机的混乱现象学细节分开,我们将在本 ...
深度学习理论的基本原则_第12章_训练结束
第 12 章 训练结束
在本章中,我们将最终完成对有限宽网络的主导阶有效理论分析,并求解其在梯度下降中的训练动力。与解独立于训练算法的无限宽限制相比,这种深度网络的动力学具有丰富的现象学,可以捕获在训练过程中开发有用特征的不同方式。这些训练动力的解给出了完全训练有限宽网络集成的第一性原理描述,实现了本书的主要目标。
不幸的是,我们的工作将被两个自然事实打乱:(1)为了对 1/n1/n1/n 阶的训练动力进行一致的描述,我们需要结合新的泰勒展开式(网络输出的三阶展开、神经正切核的二阶展开,神经正切核微分的一阶展开)中的另外两个对象;(2)由于缺乏平滑性,我们将无法描述 ReLU 网络的动力学,也无法描述由尺度不变普遍性类型中的任何非线性激活函数组成的网络。
对于第一点,虽然在二次模型的背景下对表示学习的分析很有启发性,但我们已经说明它不足以捕获有限宽网络的特定细节。特别是,对于 1/n1/n1/n 的主导阶,有两个多出来的神经正切核微分,我们将其称为 ddNTK。为这些 ddNTK 制定随机前向方程、递归和有效理论有点乏味,并且不再具有任何教学价值。因此,我们不会提供详细推导 ...
🔥 高斯过程推断方法索引贴
【摘 要】高斯过程推断的主要目的,是根据训练数据获得函数的高斯过程后验。由于高斯过程来自于对协方差函数的指定,因此,高斯过程推断的核心是:在协方差函数类的参数化形式已经确定的情况下,根据训练数据获得协方差函数中超参数的值(或分布),并进一步实现测试点的预测值(或预测分布)。高斯过程推断大多采用最大边缘似然方法(参见 Rasmussen 第 5 章 高斯过程模型选择与自适应超参数),根据数据模型中的似然类型,一般分为高斯和非高斯两种情况,前者意味着边缘似然具有解析形式,核的超参数可以通过常规高斯过程方法进行推断;而后者意味着边缘似然可能没有解析形式,只能通过变分推断、MCMC 等方法给出边缘似然的近似解,而后利用该近似解推断核的超参数。
1 方法一览表
高斯似然
非高斯似然(变分方法)
非高斯似然(MCMC)
完全的协方差矩阵
GPR
VGP
GPMC
稀疏归纳的协方差矩阵
SGPR
SVGP
SGPMC
(1)高斯似然的情况
注 1:高斯似然因为具有解析表达式,所以精确方法可能更适用,因此此处也可简单理解为精确推断方法。
注 2: SGPR 可以视 ...
高斯过程回归稀疏近似方法的统一视角
【摘 要】 我们提供了一个新的统一视角,能够容纳所有现有的高斯过程回归的概率稀疏近似方法。我们的方法依赖于对所采用方法的有效先验(effective prior)的表达。这能够得到对这些方法的新见解,并突出现有方法之间的关系。它还允许对已知近似方法与完整高斯过程之间的接近程度进行理论上的排序。最后,我们直接给出了一种新的更好的稀疏近似设计,该设计在有吸引力的计算约束下结合了现有策略的优点。
【原 文】 Quinonero-Candela, J. and Rasmussen, C.E. (2005) ‘A unifying view of sparse approximate Gaussian process regression’, The Journal of Machine Learning Research, 6, pp. 1939–1959.
基于高斯过程 (GP) 的回归模型易于实现、灵活、完全概率模型,因此是许多应用领域中的强大工具。其主要局限性在于内存需求和计算需求分别随着训练点数量 nnn 的平方和立方增长,使实施只能限制在最多几千个训练点的问题上。为了克服 ...
采用伪输入的稀疏高斯过程
【摘 要】 我们提出了一种新的高斯过程 (GP) 回归模型,其协方差由 MMM 个伪输入点的位置参数化,我们通过基于梯度的优化来学习该模型。我们采用 M<NM < NM<N ,其中 NNN 是真实数据点的数量,因此获得了每个测试用例具有 O(M2N)\mathcal{O}(M^2N)O(M2N) 训练成本和 O(M2)\mathcal{O}(M^2)O(M2) 预测成本的稀疏回归方法。我们还在同一联合优化中找到协方差函数的超参数。该方法可以被视为具有特定输入相关噪声的贝叶斯回归模型。事实证明,该方法与其他几种稀疏高斯过程方法密切相关,我们将详细讨论这种关系。我们最终在一些大型数据集上展示了它的性能,并与其他稀疏高斯过程方法进行了直接比较。我们表明,我们的方法可以将完整的高斯过程性能与小 MMM 相匹配,即非常稀疏的解决方案,并且它明显优于该方案中的其他方法。
【原 文】 Snelson, E. and Ghahramani, Z. (2005) ‘Sparse gaussian processes using pseudo-inputs’, in Y. W ...
大数据中高斯过程的随机变分推断
【摘 要】 学习归纳变量的变分框架 (Titsias, 2009a) 对高斯过程文献产生了很大影响。该框架可以解释为最小化近似过程和后验过程之间严格定义的 Kullback-Leibler 散度。据我们所知,迄今为止,这种联系在文献中并未被提及。在本文中,我们对有关该主题的文献进行了实质性的概括。我们给出了无限索引集结果的新证明,它允许归纳不是数据点的点和依赖于所有函数值的可能性。然后,我们讨论了扩充索引集,并表明,与以前的工作相反,扩充的边缘一致性不足以保证变分推断与原始模型的一致性。然后,我们描述了可以获得这种保证的额外条件。最后,我们展示了我们的框架如何阐明域间稀疏近似和 Cox 过程的稀疏近似。
【原 文】 Matthews, A.G. de G. et al. (2015) ‘On Sparse variational methods and the Kullback-Leibler divergence between stochastic processes’. arXiv. Available at: https://doi.org/10.48550/ARX ...
可扩展结构化高斯过程的核插值 (KISS-GP)
【摘 要】引入了一种新的结构化核插值 (SKI) 框架,它泛化并统一了可扩展高斯过程 (GP) 的归纳点方法。 SKI 方法通过核插值生成核近似值以进行快速计算。 SKI 框架阐明了归纳点方法的质量与归纳(也称为插值)点数量、插值策略和协方差核之间的关系。 SKI 还允许通过选择不同的核插值策略来创建新的可扩展核。使用 SKI 框架,通过局部的三次核插值,我们引入了 KISS-GP,该方法:1) 比归纳点替代方案更具可扩展性;2) 自然地使 Kronecker 和 Toeplitz 代数,并在可扩展性方面获得实质性收益,且无需任何网格数据支撑;3)可用于快速和富有表现力的核学习。 KISS-GP 花费 O(n)\mathcal{O}(n)O(n) 的时间和存储复杂度来进行高斯过程推断。
【原 文】 Wilson, A. and Nickisch, H. (2015) ‘Kernel interpolation for scalable structured gaussian processes (KISS-GP)’, in F. Bach and D. Blei (eds) ...