Rasmussen 第 4 章 高斯过程的协方差函数
【摘 要】 协方差函数是高斯过程方法的核心,本文给出了关于协方差函数的概述。 【原 文】 Rasmussen, C.E. and Williams, C.K. (2006), Chapter 4 of Gaussian processes for machine learning. Cambridge, Mass: MIT press Cambridge, MA (3). 第 4 章 协方差函数我们已经看到,协方差函数是高斯过程预测器中的关键成分,因为它编码了我们对所希望学习的函数的假设。从稍微不同的角度来看,很明显在监督学习中数据点之间的相似性概念是至关重要的;一个基本假设是输入 $\mathbf{x}$ 接近的点可能具有相似的目标值 $y$,因此靠近测试点的训练点应该提供有关该点预测的信息。在高斯过程视图下,协方差函数定义了接近度或相似度。 输入对 $\mathbf{x}$ 和 $\mathbf{x}’$ 的任意函数通常不会是有效的协方差函数。本章的目的是给出一些常用协方差函数的示例并检查它们的性质。 第 4.1 节定义了一些与协方差函数相关的基本术语。 第 4.2...
Rasmussen 第 5 章 高斯过程模型选择与自适应超参数
【摘 要】 在许多高斯过程的实际应用中,协方差函数很难指定。此外,前人已经提出了很多协方差函数,其中许多协方差函数具有大量参数,使得协方差函数的选择更为困难。因此,需要开发解决模型选择问题的方法。本文相当广泛地解释了高斯过程模型选择问题,包括协方差函数的选择、超参数值的确定等。本文节选自 《Gaussian processes for machine learning》一书的第五章。 【原 文】 Rasmussen, C.E. and Williams, C.K. (2006) Gaussian processes for machine learning, chapter 5. Cambridge, Mass: MIT press Cambridge, MA (3). 1 模型选择问题为了使模型成为应用程序中的实用工具,需要对其定义的细节做出决定。有些性质可能很容易指定,但有些方面的信息是模糊的,我们使用术语 “模型选择”...
Rasmussen 第 6 章 高斯过程与其他模型的关系
【摘 要】 讨论一些与高斯过程预测相关的概念和模型,包括再生核 Hilbert 空间 (RKHSs)、正则化理论、样条曲线、支持向量机、最小二乘分类 (LSC)、相关向量机 (RVM) 等。 本文节选自 《Gaussian processes for machine learning》一书的第六章。 【原 文】 Rasmussen, C.E. and Williams, C.K. (2006) Gaussian processes for machine learning, chapter 6. Cambridge, Mass: MIT press Cambridge, MA (3). 在本章中,我们将讨论一些与高斯过程预测相关的概念和模型。在 第 6.1 节 中,我们介绍了再生核 Hilbert 空间 (RKHSs),它定义了对应于给定正半定核 k 的足够光滑函数的 Hilbert 空间。 正如我们在第 1 章中讨论的那样,有许多函数与给定的数据集 $\mathcal{D}$ 一致。我们已经看到高斯过程方法如何将先验置于函数之上以处理此问题。正则化理论(在 第 6.2...
🔥 神经扩散过程(NDP)
【摘 要】 高斯过程为指定函数的先验分布和后验分布提供了一个优雅的框架。然而,它们计算代价很高,并且受到协方差函数表达能力的限制。我们提出了神经扩散过程 (NDP),这是一种基于扩散模型的新方法,它学习如何从函数的分布中进行采样。使用一种新颖的注意力块,我们能够将随机过程的性质(例如可交换性)直接整合到神经扩散架构中。经验表明,神经扩散过程能够捕获与高斯过程的真实贝叶斯后验接近的函数型分布。这使各种下游任务成为可能,包括超参数的边缘化和贝叶斯优化。 【原 文】 Dutordoir, V. et al. (2022) ‘Neural Diffusion Processes’. arXiv. Available at: http://arxiv.org/abs/2206.03992 (Accessed: 21 February 2023). 1 简介高斯过程 (GP) 提供了一个强大的框架来定义函数的分布...
🔥 深度核学习(DKL)
【摘 要】 我们引入了可扩展的深度核,它结合了深度学习架构的结构特性和核方法的非参数灵活性。具体来说,我们使用局部核插值、归纳点和结构利用(Kronecker 和 Toeplitz)代数来转换具有深度架构的谱混合基核的输入,以获得可扩展的核表示。这些封闭形式的核可以用作标准核的直接替代品,具有表达能力和可扩展性方面的优势。我们通过高斯过程的边缘似然共同学习这些核的属性。 $n$ 个训练点的推断和学习成本为 $\mathcal{O}(n)$,每个测试点的预测成本为 $\mathcal{O}(1)$。在大量多样的应用程序集合中,包括具有 $200$ 万个样本的数据集,我们展示了具有灵活核学习模型和独立深度架构的可扩展高斯过程的改进性能。 【原 文】 Wilson, A.G. 等 (2015) ‘Deep Kernel Learning’. arXiv. Available at: http://arxiv.org/abs/1511.02222 (Accessed: 31 December 2022). 1 简介MacKay (1998) [15]曾质疑...
深度高斯过程(DGP)
【摘 要】 深度高斯过程是一种基于高斯过程映射的深度信念网络。数据被建模为一个多元高斯过程的输出,而该高斯过程的输入由另一个高斯过程控制。单层模型等效于标准高斯过程或高斯过程隐变量模型 (GP-LVM)。我们通过近似变分边缘化在模型中进行推断。这导致用于做模型选择(层数和每层节点数)的边缘似然具备一个严格的下界。深度信念网络通常适用于使用随机梯度下降(SGD)做优化的大型数据集。但即使在数据稀缺的情况下,本文方法的完全贝叶斯处理也允许其应用深层模型。利用本文变分边界做出的模型选择情况表明,即使对仅包含 150 个样本的数字字符数据集进行建模,5 层的网络层次结构也是合理的。 【原 文】 Damianou, A. and Lawrence, N.D. (2013) ‘Deep gaussian processes’, in Artificial intelligence and statistics. PMLR, pp. 207–215. 1 概述使用神经网络架构来实现概率建模,已经成为机器学习的一个深入研究领域。深度学习领域的一些新进展 [Hinton and...
🔥 组合似然法概述
【摘 要】组合似然法是用于超大规模高斯随机场高效计算的主要方法之一,本文提供了对组合似然理论和应用的最新发展调查。论文考虑了一系列应用领域,包括地统计学、空间极值、时空模型、集群和纵向数据以及时间序列等。考虑到 Larribe 和 Fearnhead (2011) 已经发表了在统计遗传学方面的综述论文,本文省略了这一重要应用领域。本文重点介绍了组合似然理论发展、组合似然推断的效率和鲁棒性等知识现状。 【原 文】 Varin, C., Reid, N. and Firth, D. (2011) ‘AN OVERVIEW OF COMPOSITE LIKELIHOOD METHODS’, Statistica Sinica, 21(1), pp. 5–42. 1...
🔥 稀疏高斯过程及其变分推断
〖摘 要〗 高斯过程 (Gaussian Processes,高斯过程) 为贝叶斯推断提供了一个数学上优雅的框架,可以为大量问题提供原则性的不确定性估计。例如,对于某些具有高斯似然的回归问题,高斯过程模型具有封闭形式的后验。然而,后验高斯过程(高斯过程的后验依然是一个高斯过程分布,此处将之简称为后验高斯过程)的计算复杂度与训练样本数量成立方关系,并且所有训练样本均需要在内存中存储。为克服这些问题,已经提出了使用伪训练样本(也称为或)来获取近似后验高斯过程的方法 – 稀疏高斯过程(Sparse Gaussian Processes)。用户可以自己定义伪训练样本的数量,进而控制计算和内存复杂度。在一般情况下,稀疏高斯过程无法得到封闭解,必须求助于近似推断。在此情况下,变分推断是近似推断的一种选择。变分方法将贝叶斯推断问题转化为优化问题,通过最大化对数边缘似然下界( $\mathbb{ELBO}$...
克里金和高斯过程的关系
克里金法 源于地统计学,在统计学中也称为 高斯过程回归,是一种基于高斯过程的空间插值方法。在适当的先验假设下,克里金法在未采样位置提供最佳线性无偏预测 (BLUP)。该方法广泛应用于空间分析和计算机实验领域。该方法的理论基础由法国数学家 Georges Matheron 于 1960 年根据 Danie G. Krige 的硕士论文开发。 Krige 试图根据几个钻孔的样本来估计黄金最有可能的分布。 在面向二三维空间时,从数学上两者本质上是相同的。 两者之间的主要区别特征见下表: Table 1. 区分克里金和现代高斯过程的主要特征 特征 高斯过程 克里金 Bayesian vs...
高级模型--高斯过程与核学习
〖摘要〗 〖原文〗 Standford cs228 notes 〖参考〗CMU 10-708 Slides / CMU 10-708 Lecture Notes / Jordan TextBook, Ch.2(section 2.2 - end) / Koller’s Textbook,Ch.4 / A. Fischer and C. Igel, An Introducton to Restricted Boltzmann Machines / B. A. Cipra, An Introduction to the Ising Model