深度学习理论的基本原则_第10章_核学习
第 10 章 核学习
现在我们基本上知道了关于 预激活的初始化分布 和 神经正切核 的所有信息,现在是学习梯度的时候了!
在本章中,我们将分析通过梯度下降来优化无限宽神经网络的训练。当然,无限宽网络实际上只是一种说法,在实践中并不能真正实例化。但正如从有限宽分析中看到的那样,当 深宽比 足够小时,它们仍然可以提供一个实际有用的模型。
有两个原因使得对此类网络的分析变得非常重要:首先,这种极限情况可以告诉我们很多关于 修正尺度 和 超参数调优 的信息;我们之前已经看到了这一点,因为 临界分析 总是从无限宽开始。其次,由于有限宽网络分析式以 1/n1/n1/n 扰动的,因此理解无限宽限制是进一步理解有限宽网络学习的先决条件。因此,让我们先概览一下对无限宽网络的梯度学习分析。
在 第 10.1 节 中,我们观察到无限宽网络的梯度下降训练,可以简单地由冻结的神经正切核描述,并且网络输出的变化可以在全局学习率中不断地被截断为线性阶次。进一步我们发现,网络输出的分量彼此之间存在独立地移动( 第 10.1.1 节 ),并且在隐藏层中缺乏 表示学习( 第 10.1.2 节 )。在这一点上 ...
深度学习理论的基本原则_第11章_表征学习
第 11 章 表征学习
上一章,我们了解到线性模型无法从数据中学习特征。因此,无限宽限制过于简单,无法提供深度学习的充分表示;为了使其包含不可约的基本元素(表征学习),研究有限宽网络很重要。
在本章前半部分,我们将泰勒展开式展开到全局学习率 ηηη 的二阶,以分析网络输出的梯度下降更新中的主导修正。在进一步看到神经正切核更新的一阶泰勒展开中出现了类似的贡献之后,我们将证明,这种修正是一种有限宽效应。神经正切核从固定到动态的升级表明,对于有限宽网络,构成神经正切核的特征函数本身,可以在训练过程中从数据中学习。
不幸的是,对动力学的完整 O(1/n)O(1/n)O(1/n) 贡献还包括由泰勒展开将网络输出的更新扩展到全局学习率 ηηη 的三阶项,以及类似的将神经正切核的更新扩展到二阶项。虽然为了实际计算完全训练的有限宽网络的分布,有必要包括这些贡献,但网络输出的 O(η2)O(η^2)O(η2) 扩展和神经正切核的 O(η)O(η)O(η) 扩展足以满足定性研究这些模型中表征学习机制的需要。
考虑到这一点,为了将表征学习的教育学与真实多层感知机的混乱现象学细节分开,我们将在本 ...
深度学习理论的基本原则_第12章_训练结束
第 12 章 训练结束
在本章中,我们将最终完成对有限宽网络的主导阶有效理论分析,并求解其在梯度下降中的训练动力。与解独立于训练算法的无限宽限制相比,这种深度网络的动力学具有丰富的现象学,可以捕获在训练过程中开发有用特征的不同方式。这些训练动力的解给出了完全训练有限宽网络集成的第一性原理描述,实现了本书的主要目标。
不幸的是,我们的工作将被两个自然事实打乱:(1)为了对 1/n1/n1/n 阶的训练动力进行一致的描述,我们需要结合新的泰勒展开式(网络输出的三阶展开、神经正切核的二阶展开,神经正切核微分的一阶展开)中的另外两个对象;(2)由于缺乏平滑性,我们将无法描述 ReLU 网络的动力学,也无法描述由尺度不变普遍性类型中的任何非线性激活函数组成的网络。
对于第一点,虽然在二次模型的背景下对表示学习的分析很有启发性,但我们已经说明它不足以捕获有限宽网络的特定细节。特别是,对于 1/n1/n1/n 的主导阶,有两个多出来的神经正切核微分,我们将其称为 ddNTK。为这些 ddNTK 制定随机前向方程、递归和有效理论有点乏味,并且不再具有任何教学价值。因此,我们不会提供详细推导 ...
🔥 高斯过程推断方法索引贴
【摘 要】高斯过程推断的主要目的是 “根据观测数据获得函数的高斯过程后验” ,而高斯过程的特性主要来自于协方差函数(具体来说,是该函数的参数化形式及对应的超参数值),因此,高斯过程推断问题的核心通常是:在协方差函数族的参数化形式已经确定的情况下,根据观测数据推断出协方差函数中超参数的值(或分布),这也被称为 模型选择 问题。推断得出的结果可被进一步用于计算测试点的值(或分布),进而实现含不确定性的预测。高斯过程推断(或模型选择)通常采用最大边缘似然方法(参见 Rasmussen 第 5 章 高斯过程模型选择与自适应超参数)。根据数据模型中的似然假设,一般可以被分为 高斯(例如气压、湿度等实值随机变量,通常被假设为高斯分布)和 非高斯(例如分类、计数等随机变量)两种情况,前者意味着边缘似然具有解析形式,可以通过常规高斯过程推断方法获得核超参数的闭式解;而后者意味着边缘似然有可能没有解析形式,需要通过 变分推断、MCMC 等 方法来近似边缘似然,而后利用该近似边缘似然推断核超参数的近似解。
1 方法一览表
高斯似然
非高斯似然(变分方法)
非高斯似然(MCMC)
...
高斯过程回归稀疏近似方法的统一视角
【摘 要】 我们提供了一个新的统一视角,能够容纳所有现有的高斯过程回归的概率稀疏近似方法。我们的方法依赖于对所采用方法的有效先验(effective prior)的表达。这能够得到对这些方法的新见解,并突出现有方法之间的关系。它还允许对已知近似方法与完整高斯过程之间的接近程度进行理论上的排序。最后,我们直接给出了一种新的更好的稀疏近似设计,该设计在有吸引力的计算约束下结合了现有策略的优点。
【原 文】 Quinonero-Candela, J. and Rasmussen, C.E. (2005) ‘A unifying view of sparse approximate Gaussian process regression’, The Journal of Machine Learning Research, 6, pp. 1939–1959.
基于高斯过程 (GP) 的回归模型易于实现、灵活、完全概率模型,因此是许多应用领域中的强大工具。其主要局限性在于内存需求和计算需求分别随着训练点数量 nnn 的平方和立方增长,使实施只能限制在最多几千个训练点的问题上。为了克服 ...
采用伪输入的稀疏高斯过程
【摘 要】 我们提出了一种新的高斯过程 (GP) 回归模型,其协方差由 MMM 个伪输入点的位置参数化,我们通过基于梯度的优化来学习该模型。我们采用 M<NM < NM<N ,其中 NNN 是真实数据点的数量,因此获得了每个测试用例具有 O(M2N)\mathcal{O}(M^2N)O(M2N) 训练成本和 O(M2)\mathcal{O}(M^2)O(M2) 预测成本的稀疏回归方法。我们还在同一联合优化中找到协方差函数的超参数。该方法可以被视为具有特定输入相关噪声的贝叶斯回归模型。事实证明,该方法与其他几种稀疏高斯过程方法密切相关,我们将详细讨论这种关系。我们最终在一些大型数据集上展示了它的性能,并与其他稀疏高斯过程方法进行了直接比较。我们表明,我们的方法可以将完整的高斯过程性能与小 MMM 相匹配,即非常稀疏的解决方案,并且它明显优于该方案中的其他方法。
【原 文】 Snelson, E. and Ghahramani, Z. (2005) ‘Sparse gaussian processes using pseudo-inputs’, in Y. W ...
大数据中高斯过程的随机变分推断
【摘 要】 学习归纳变量的变分框架 (Titsias, 2009a) 对高斯过程文献产生了很大影响。该框架可以解释为最小化近似过程和后验过程之间严格定义的 Kullback-Leibler 散度。据我们所知,迄今为止,这种联系在文献中并未被提及。在本文中,我们对有关该主题的文献进行了实质性的概括。我们给出了无限索引集结果的新证明,它允许归纳不是数据点的点和依赖于所有函数值的可能性。然后,我们讨论了扩充索引集,并表明,与以前的工作相反,扩充的边缘一致性不足以保证变分推断与原始模型的一致性。然后,我们描述了可以获得这种保证的额外条件。最后,我们展示了我们的框架如何阐明域间稀疏近似和 Cox 过程的稀疏近似。
【原 文】 Matthews, A.G. de G. et al. (2015) ‘On Sparse variational methods and the Kullback-Leibler divergence between stochastic processes’. arXiv. Available at: https://doi.org/10.48550/ARX ...
非高斯似然高斯过程的随机变分推断
【摘 要】 学习归纳变量的变分框架 (Titsias, 2009a) 对高斯过程文献产生了很大影响。该框架可以解释为最小化近似过程和后验过程之间严格定义的 Kullback-Leibler 散度。据我们所知,迄今为止,这种联系在文献中并未被提及。在本文中,我们对有关该主题的文献进行了实质性的概括。我们给出了无限索引集结果的新证明,它允许归纳不是数据点的点和依赖于所有函数值的可能性。然后,我们讨论了扩充索引集,并表明,与以前的工作相反,扩充的边缘一致性不足以保证变分推断与原始模型的一致性。然后,我们描述了可以获得这种保证的额外条件。最后,我们展示了我们的框架如何阐明域间稀疏近似和 Cox 过程的稀疏近似。
【原 文】 Matthews, A.G. de G. et al. (2015) ‘On Sparse variational methods and the Kullback-Leibler divergence between stochastic processes’. arXiv. Available at: https://doi.org/10.48550/ARX ...
可扩展结构化高斯过程的核插值 (KISS-GP)
【摘 要】引入了一种新的结构化核插值 (SKI) 框架,它泛化并统一了可扩展高斯过程 (GP) 的归纳点方法。 SKI 方法通过核插值生成核近似值以进行快速计算。 SKI 框架阐明了归纳点方法的质量与归纳(也称为插值)点数量、插值策略和协方差核之间的关系。 SKI 还允许通过选择不同的核插值策略来创建新的可扩展核。使用 SKI 框架,通过局部的三次核插值,我们引入了 KISS-GP,该方法:1) 比归纳点替代方案更具可扩展性;2) 自然地使 Kronecker 和 Toeplitz 代数,并在可扩展性方面获得实质性收益,且无需任何网格数据支撑;3)可用于快速和富有表现力的核学习。 KISS-GP 花费 O(n)\mathcal{O}(n)O(n) 的时间和存储复杂度来进行高斯过程推断。
【原 文】 Wilson, A. and Nickisch, H. (2015) ‘Kernel interpolation for scalable structured gaussian processes (KISS-GP)’, in F. Bach and D. Blei (eds) ...
稀疏高斯过程归纳点的变分学习(Titsias2009 )
【摘 要】 使用归纳变量的稀疏高斯过程方法需要选择归纳输入和核超参数。我们引入了一种用于稀疏近似的变分公式,它通过最大化真实对数边缘似然的下限来联合推断归纳输入和核超参数。该公式的关键属性是归纳输入被定义为变分参数,这些变分参数是通过最小化变分分布与隐函数值的精确后验分布之间的 Kullback-Leibler 散度来选择的。我们将这种技术应用于回归,并将其与文献中的其他方法进行比较。
【原 文】 Titsias, Michalis. “Variational Learning of Inducing Variables in Sparse Gaussian Processes.” In Proceedings of the Twelth International Conference on Artificial Intelligence and Statistics, edited by David van Dyk and Max Welling, 5:567–74. Proceedings of Machine Learning Research. Hilton Cl ...