深度学习理论的基本原则_第8章_神经切线核的表征群流
第 8 章 神经切线核的表征群流
在上一章中,我们介绍了基于梯度的学习,以将其作为贝叶斯学习的替代方案,并重点关注了梯度下降算法。简而言之,梯度下降算法涉及从先验分布实例化一个神经网络,然后通过运行训练数据来迭代地更新模型参数。该算法易于实现,并且对于任何特定网络都非常有效。在实践中,它也使事情变得更加容易。
但从理论上讲,梯度下降学习会使事情变得更加困难。对于贝叶斯先验,之所以能够逐层对模型参数进行积分并最终推导出神经网络输出的分布,主要是因为偏差和权重的初始化分布比较简单;此外,大宽度的扩展使获得有限宽神经网络的贝叶斯后验解析解成为可能。而相比之下,通过梯度下降训练的任何特定网络参数和输出,都是复杂的、相关的混杂体。
为了取得进展,我们需要转回统计视角。我们不关注任何特定网络如何从数据中学习,而是询问典型网络在训练时的行为方式。如果我们了解梯度下降时的典型行为(即均值),并能够控制神经网络实例之间的扰动(即方差),那么就可以描述实践中使用的梯度学习方法。
考虑到这种统计视角,回想上一章中,我们将 梯度下降更新 分解为 损失误差因子 乘以 函数逼近因子,后者又被称为神经正 ...
深度学习理论的基本原则_第9章_初始化时神经正切核的有效理论
第 9 章 初始化时神经正切核的有效理论
上一章是方程、代数和积分的风暴,现在让我们花一些时间来评估我们想要的东西。
我们在 第 8 章 的目标是在初始化时确定给定层的 神经正切核-预激活 联合分布:p(z(ℓ),H^(ℓ)∣D)p (z^{(\ell)},\hat{H}^{(\ell)} \mid \mathcal{D})p(z(ℓ),H^(ℓ)∣D) 。除了在 第 4 章 中为核 ( 式 4.118) 和四点顶点 ( 式 4.119 ) 导出的递归外,该分布的 数据依赖耦合 和 连接相关器 主要根据我们递归导出的深度运行( 式 8.63 的神经正切核均值 、 式 8.77 和 式 8.79 的 神经正切核-预激活 互相关、 式 8.89 和 式 8.97 的神经正切核方差)。这个 表征群流 分析告诉我们:神经正切核在第一层是确定性对象( 第 8.1 节),在第二层( 第 8.2 节 )是随机扰动和互相关,然后在更深的层进一步累积扰动和互相关( 第 8.3 节 )。
在本章中,我们终于能够考虑此联合分布的物理特性。
在 第 5 章 中对 临界性 和 普遍性 的讨论基础 ...
深度学习理论的基本原则_第10章_核学习
第 10 章 核学习
现在我们基本上知道了关于 预激活的初始化分布 和 神经正切核 的所有信息,现在是学习梯度的时候了!
在本章中,我们将分析通过梯度下降来优化无限宽神经网络的训练。当然,无限宽网络实际上只是一种说法,在实践中并不能真正实例化。但正如从有限宽分析中看到的那样,当 深宽比 足够小时,它们仍然可以提供一个实际有用的模型。
有两个原因使得对此类网络的分析变得非常重要:首先,这种极限情况可以告诉我们很多关于 修正尺度 和 超参数调优 的信息;我们之前已经看到了这一点,因为 临界分析 总是从无限宽开始。其次,由于有限宽网络分析式以 1/n1/n1/n 扰动的,因此理解无限宽限制是进一步理解有限宽网络学习的先决条件。因此,让我们先概览一下对无限宽网络的梯度学习分析。
在 第 10.1 节 中,我们观察到无限宽网络的梯度下降训练,可以简单地由冻结的神经正切核描述,并且网络输出的变化可以在全局学习率中不断地被截断为线性阶次。进一步我们发现,网络输出的分量彼此之间存在独立地移动( 第 10.1.1 节 ),并且在隐藏层中缺乏 表示学习( 第 10.1.2 节 )。在这一点上 ...
深度学习理论的基本原则_第11章_表征学习
第 11 章 表征学习
上一章,我们了解到线性模型无法从数据中学习特征。因此,无限宽限制过于简单,无法提供深度学习的充分表示;为了使其包含不可约的基本元素(表征学习),研究有限宽网络很重要。
在本章前半部分,我们将泰勒展开式展开到全局学习率 ηηη 的二阶,以分析网络输出的梯度下降更新中的主导修正。在进一步看到神经正切核更新的一阶泰勒展开中出现了类似的贡献之后,我们将证明,这种修正是一种有限宽效应。神经正切核从固定到动态的升级表明,对于有限宽网络,构成神经正切核的特征函数本身,可以在训练过程中从数据中学习。
不幸的是,对动力学的完整 O(1/n)O(1/n)O(1/n) 贡献还包括由泰勒展开将网络输出的更新扩展到全局学习率 ηηη 的三阶项,以及类似的将神经正切核的更新扩展到二阶项。虽然为了实际计算完全训练的有限宽网络的分布,有必要包括这些贡献,但网络输出的 O(η2)O(η^2)O(η2) 扩展和神经正切核的 O(η)O(η)O(η) 扩展足以满足定性研究这些模型中表征学习机制的需要。
考虑到这一点,为了将表征学习的教育学与真实多层感知机的混乱现象学细节分开,我们将在本 ...
深度学习理论的基本原则_第12章_训练结束
第 12 章 训练结束
在本章中,我们将最终完成对有限宽网络的主导阶有效理论分析,并求解其在梯度下降中的训练动力。与解独立于训练算法的无限宽限制相比,这种深度网络的动力学具有丰富的现象学,可以捕获在训练过程中开发有用特征的不同方式。这些训练动力的解给出了完全训练有限宽网络集成的第一性原理描述,实现了本书的主要目标。
不幸的是,我们的工作将被两个自然事实打乱:(1)为了对 1/n1/n1/n 阶的训练动力进行一致的描述,我们需要结合新的泰勒展开式(网络输出的三阶展开、神经正切核的二阶展开,神经正切核微分的一阶展开)中的另外两个对象;(2)由于缺乏平滑性,我们将无法描述 ReLU 网络的动力学,也无法描述由尺度不变普遍性类型中的任何非线性激活函数组成的网络。
对于第一点,虽然在二次模型的背景下对表示学习的分析很有启发性,但我们已经说明它不足以捕获有限宽网络的特定细节。特别是,对于 1/n1/n1/n 的主导阶,有两个多出来的神经正切核微分,我们将其称为 ddNTK。为这些 ddNTK 制定随机前向方程、递归和有效理论有点乏味,并且不再具有任何教学价值。因此,我们不会提供详细推导 ...
🔥 高斯过程推断方法索引贴
【摘 要】高斯过程推断的主要目的是 “根据观测数据获得函数的高斯过程后验” ,而高斯过程的特性主要来自于协方差函数(具体来说,是该函数的参数化形式及对应的超参数值),因此,高斯过程推断问题的核心通常是:在协方差函数族的参数化形式已经确定的情况下,根据观测数据推断出协方差函数中超参数的值(或分布),这也被称为 模型选择 问题。推断得出的结果可被进一步用于计算测试点的值(或分布),进而实现含不确定性的预测。高斯过程推断(或模型选择)通常采用最大边缘似然方法(参见 Rasmussen 第 5 章 高斯过程模型选择与自适应超参数)。根据数据模型中的似然假设,一般可以被分为 高斯(例如气压、湿度等实值随机变量,通常被假设为高斯分布)和 非高斯(例如分类、计数等随机变量)两种情况,前者意味着边缘似然具有解析形式,可以通过常规高斯过程推断方法获得核超参数的闭式解;而后者意味着边缘似然有可能没有解析形式,需要通过 变分推断、MCMC 等 方法来近似边缘似然,而后利用该近似边缘似然推断核超参数的近似解。
1 方法一览表
高斯似然
非高斯似然(变分方法)
非高斯似然(MCMC)
...
高斯过程回归稀疏近似方法的统一视角
【摘 要】 我们提供了一个新的统一视角,能够容纳所有现有的高斯过程回归的概率稀疏近似方法。我们的方法依赖于对所采用方法的有效先验(effective prior)的表达。这能够得到对这些方法的新见解,并突出现有方法之间的关系。它还允许对已知近似方法与完整高斯过程之间的接近程度进行理论上的排序。最后,我们直接给出了一种新的更好的稀疏近似设计,该设计在有吸引力的计算约束下结合了现有策略的优点。
【原 文】 Quinonero-Candela, J. and Rasmussen, C.E. (2005) ‘A unifying view of sparse approximate Gaussian process regression’, The Journal of Machine Learning Research, 6, pp. 1939–1959.
基于高斯过程 (GP) 的回归模型易于实现、灵活、完全概率模型,因此是许多应用领域中的强大工具。其主要局限性在于内存需求和计算需求分别随着训练点数量 nnn 的平方和立方增长,使实施只能限制在最多几千个训练点的问题上。为了克服 ...
采用伪输入的稀疏高斯过程
【摘 要】 我们提出了一种新的高斯过程 (GP) 回归模型,其协方差由 MMM 个伪输入点的位置参数化,我们通过基于梯度的优化来学习该模型。我们采用 M<NM < NM<N ,其中 NNN 是真实数据点的数量,因此获得了每个测试用例具有 O(M2N)\mathcal{O}(M^2N)O(M2N) 训练成本和 O(M2)\mathcal{O}(M^2)O(M2) 预测成本的稀疏回归方法。我们还在同一联合优化中找到协方差函数的超参数。该方法可以被视为具有特定输入相关噪声的贝叶斯回归模型。事实证明,该方法与其他几种稀疏高斯过程方法密切相关,我们将详细讨论这种关系。我们最终在一些大型数据集上展示了它的性能,并与其他稀疏高斯过程方法进行了直接比较。我们表明,我们的方法可以将完整的高斯过程性能与小 MMM 相匹配,即非常稀疏的解决方案,并且它明显优于该方案中的其他方法。
【原 文】 Snelson, E. and Ghahramani, Z. (2005) ‘Sparse gaussian processes using pseudo-inputs’, in Y. W ...
大数据中高斯过程的随机变分推断
【摘 要】 学习归纳变量的变分框架 (Titsias, 2009a) 对高斯过程文献产生了很大影响。该框架可以解释为最小化近似过程和后验过程之间严格定义的 Kullback-Leibler 散度。据我们所知,迄今为止,这种联系在文献中并未被提及。在本文中,我们对有关该主题的文献进行了实质性的概括。我们给出了无限索引集结果的新证明,它允许归纳不是数据点的点和依赖于所有函数值的可能性。然后,我们讨论了扩充索引集,并表明,与以前的工作相反,扩充的边缘一致性不足以保证变分推断与原始模型的一致性。然后,我们描述了可以获得这种保证的额外条件。最后,我们展示了我们的框架如何阐明域间稀疏近似和 Cox 过程的稀疏近似。
【原 文】 Matthews, A.G. de G. et al. (2015) ‘On Sparse variational methods and the Kullback-Leibler divergence between stochastic processes’. arXiv. Available at: https://doi.org/10.48550/ARX ...
非高斯似然高斯过程的随机变分推断
【摘 要】 学习归纳变量的变分框架 (Titsias, 2009a) 对高斯过程文献产生了很大影响。该框架可以解释为最小化近似过程和后验过程之间严格定义的 Kullback-Leibler 散度。据我们所知,迄今为止,这种联系在文献中并未被提及。在本文中,我们对有关该主题的文献进行了实质性的概括。我们给出了无限索引集结果的新证明,它允许归纳不是数据点的点和依赖于所有函数值的可能性。然后,我们讨论了扩充索引集,并表明,与以前的工作相反,扩充的边缘一致性不足以保证变分推断与原始模型的一致性。然后,我们描述了可以获得这种保证的额外条件。最后,我们展示了我们的框架如何阐明域间稀疏近似和 Cox 过程的稀疏近似。
【原 文】 Matthews, A.G. de G. et al. (2015) ‘On Sparse variational methods and the Kullback-Leibler divergence between stochastic processes’. arXiv. Available at: https://doi.org/10.48550/ARX ...