西山晴雪的知识笔记

发表于2023-02-23|高斯过程基本原理

【摘要】协方差函数是高斯过程方法的核心，本文给出了关于协方差函数的概述。【原文】 Rasmussen, C.E. and Williams, C.K. (2006), Chapter 4 of Gaussian processes for machine learning. Cambridge, Mass: MIT press Cambridge, MA (3). 第 4 章协方差函数我们已经看到，协方差函数是高斯过程预测器中的关键成分，因为它编码了我们对所希望学习的函数的假设。从稍微不同的角度来看，很明显在监督学习中数据点之间的相似性概念是至关重要的；一个基本假设是输入 x\mathbf{x}x 接近的点可能具有相似的目标值 yyy，因此靠近测试点的训练点应该提供有关该点预测的信息。在高斯过程视图下，协方差函数定义了接近度或相似度。输入对 x\mathbf{x}x 和 x′\mathbf{x}'x′ 的任意函数通常不会是有效的协方差函数。本章的目的是给出一些常用协方差函数的示例并检查它们的性质。第 4.1 节定义了一些与协方差函数相关的基本术语。第 4 ...

Rasmussen 第 5 章高斯过程模型选择与自适应超参数

发表于2023-02-23|高斯过程基本原理

【摘要】在许多高斯过程的实际应用中，协方差函数很难指定。此外，前人已经提出了很多协方差函数，其中许多协方差函数具有大量参数，使得协方差函数的选择更为困难。因此，需要开发解决模型选择问题的方法。本文相当广泛地解释了高斯过程模型选择问题，包括协方差函数的选择、超参数值的确定等。本文节选自《Gaussian processes for machine learning》一书的第五章。【原文】 Rasmussen, C.E. and Williams, C.K. (2006) Gaussian processes for machine learning, chapter 5. Cambridge, Mass: MIT press Cambridge, MA (3). 1 模型选择问题为了使模型成为应用程序中的实用工具，需要对其定义的细节做出决定。有些性质可能很容易指定，但有些方面的信息是模糊的，我们使用术语 “模型选择” 来涵盖协方差函数参数的具体选择和连续（超-）参数设置，事实上，模型选择既可以帮助改进模型的预测，也可以为用户提供有关数据性质的有价值的解释，例如一个 ...

Rasmussen 第 6 章高斯过程与其他模型的关系

发表于2023-02-23|高斯过程基本原理

【摘要】讨论一些与高斯过程预测相关的概念和模型，包括再生核 Hilbert 空间 (RKHSs)、正则化理论、样条曲线、支持向量机、最小二乘分类 (LSC)、相关向量机 (RVM) 等。本文节选自《Gaussian processes for machine learning》一书的第六章。【原文】 Rasmussen, C.E. and Williams, C.K. (2006) Gaussian processes for machine learning, chapter 6. Cambridge, Mass: MIT press Cambridge, MA (3). 在本章中，我们将讨论一些与高斯过程预测相关的概念和模型。在第 6.1 节中，我们介绍了再生核 Hilbert 空间 (RKHSs)，它定义了对应于给定正半定核 k 的足够光滑函数的 Hilbert 空间。正如我们在第 1 章中讨论的那样，有许多函数与给定的数据集 D\mathcal{D}D 一致。我们已经看到高斯过程方法如何将先验置于函数之上以处理此问题。正则化理论（在第 6.2 节 ...

🔥 神经扩散过程(NDP)

发表于2023-02-21|高斯过程神经网络

【摘要】高斯过程为指定函数的先验分布和后验分布提供了一个优雅的框架。然而，它们计算代价很高，并且受到协方差函数表达能力的限制。我们提出了神经扩散过程 (NDP)，这是一种基于扩散模型的新方法，它学习如何从函数的分布中进行采样。使用一种新颖的注意力块，我们能够将随机过程的性质（例如可交换性）直接整合到神经扩散架构中。经验表明，神经扩散过程能够捕获与高斯过程的真实贝叶斯后验接近的函数型分布。这使各种下游任务成为可能，包括超参数的边缘化和贝叶斯优化。【原文】 Dutordoir, V. et al. (2022) ‘Neural Diffusion Processes’. arXiv. Available at: http://arxiv.org/abs/2206.03992 (Accessed: 21 February 2023). 1 简介高斯过程 (GP) 提供了一个强大的框架来定义函数的分布 [23]。高斯过程的一个关键优势是其可交换性，这使得从训练模型中获得任意位置的一致预测成为可能。但是，有两个关键因素限制了高斯过程在现实世界中可处理的任务范围。首先，推断成 ...

🔥 深度核学习(DKL)

发表于2023-01-01|高斯过程神经网络

【摘要】我们引入了可扩展的深度核，它结合了深度学习架构的结构特性和核方法的非参数灵活性。具体来说，我们使用局部核插值、归纳点和结构利用（Kronecker 和 Toeplitz）代数来转换具有深度架构的谱混合基核的输入，以获得可扩展的核表示。这些封闭形式的核可以用作标准核的直接替代品，具有表达能力和可扩展性方面的优势。我们通过高斯过程的边缘似然共同学习这些核的属性。 nnn 个训练点的推断和学习成本为 O(n)\mathcal{O}(n)O(n)，每个测试点的预测成本为 O(1)\mathcal{O}(1)O(1)。在大量多样的应用程序集合中，包括具有 200200200 万个样本的数据集，我们展示了具有灵活核学习模型和独立深度架构的可扩展高斯过程的改进性能。【原文】 Wilson, A.G. 等 (2015) ‘Deep Kernel Learning’. arXiv. Available at: http://arxiv.org/abs/1511.02222 (Accessed: 31 December 2022). 1 简介 MacKay (1998) [15 ...

深度高斯过程(DGP)

发表于2023-01-01|高斯过程神经网络

【摘要】深度高斯过程是一种基于高斯过程映射的深度信念网络。数据被建模为一个多元高斯过程的输出，而该高斯过程的输入由另一个高斯过程控制。单层模型等效于标准高斯过程或高斯过程隐变量模型 (GP-LVM)。我们通过近似变分边缘化在模型中进行推断。这导致用于做模型选择（层数和每层节点数）的边缘似然具备一个严格的下界。深度信念网络通常适用于使用随机梯度下降（SGD）做优化的大型数据集。但即使在数据稀缺的情况下，本文方法的完全贝叶斯处理也允许其应用深层模型。利用本文变分边界做出的模型选择情况表明，即使对仅包含 150 个样本的数字字符数据集进行建模，5 层的网络层次结构也是合理的。【原文】 Damianou, A. and Lawrence, N.D. (2013) ‘Deep gaussian processes’, in Artificial intelligence and statistics. PMLR, pp. 207–215. 1 概述使用神经网络架构来实现概率建模，已经成为机器学习的一个深入研究领域。深度学习领域的一些新进展 [Hinton and Osind ...

🔥 组合似然法概述

发表于2022-12-30|贝叶斯统计GeoAI高斯过程大数据专题可扩展性似然方法

【摘要】组合似然法是用于超大规模高斯随机场高效计算的主要方法之一，本文提供了对组合似然理论和应用的最新发展调查。论文考虑了一系列应用领域，包括地统计学、空间极值、时空模型、集群和纵向数据以及时间序列等。考虑到 Larribe 和 Fearnhead (2011) 已经发表了在统计遗传学方面的综述论文，本文省略了这一重要应用领域。本文重点介绍了组合似然理论发展、组合似然推断的效率和鲁棒性等知识现状。【原文】 Varin, C., Reid, N. and Firth, D. (2011) ‘AN OVERVIEW OF COMPOSITE LIKELIHOOD METHODS’, Statistica Sinica, 21(1), pp. 5–42. 1 简介组合似然是通过将若干似然分量相乘得出的一个推断函数；所使用的似然分量集合通常由应用上下文决定。因为每个个体似然分量都是条件密度（或边缘密度，根据应用而定），所以从复合对数似然的导数得出的估计方程，是一个无偏估计方程。无论这些个体似然分量是否相互独立，根据其乘法所得到的推断函数都会包含所指定模型的似然性质。本文回 ...

🔥 稀疏高斯过程及其变分推断

发表于2022-12-20|高斯过程可扩展性模型推断

〖摘要〗高斯过程（Gaussian Processes,高斯过程）为贝叶斯推断提供了一个数学上优雅的框架，可以为大量问题提供原则性的不确定性估计。例如，对于某些具有高斯似然的回归问题，高斯过程模型具有封闭形式的后验。然而，后验高斯过程（高斯过程的后验依然是一个高斯过程分布，此处将之简称为后验高斯过程）的计算复杂度与训练样本数量成立方关系，并且所有训练样本均需要在内存中存储。为克服这些问题，已经提出了使用伪训练样本（也称为或）来获取近似后验高斯过程的方法 – 稀疏高斯过程（Sparse Gaussian Processes）。用户可以自己定义伪训练样本的数量，进而控制计算和内存复杂度。在一般情况下，稀疏高斯过程无法得到封闭解，必须求助于近似推断。在此情况下，变分推断是近似推断的一种选择。变分方法将贝叶斯推断问题转化为优化问题，通过最大化对数边缘似然下界（ ELBO\mathbb{ELBO}ELBO ）的方法，得到近似的后验分布。变分推断为构建强大且多功能的框架铺平了道路，在其训练过程中，伪训练样本与（先验和似然的）超参数一起，被视为待优化的参数。该框架可以扩展到更为广 ...

克里金和高斯过程的关系

发表于2022-11-30|GeoAI点参考数据空间数据建模

克里金法源于地统计学，在统计学中也称为高斯过程回归，是一种基于高斯过程的空间插值方法。在适当的先验假设下，克里金法在未采样位置提供最佳线性无偏预测 (BLUP)。该方法广泛应用于空间分析和计算机实验领域。该方法的理论基础由法国数学家 Georges Matheron 于 1960 年根据 Danie G. Krige 的硕士论文开发。 Krige 试图根据几个钻孔的样本来估计黄金最有可能的分布。在面向二三维空间时，从数学上两者本质上是相同的。两者之间的主要区别特征见下表： Table 1. 区分克里金和现代高斯过程的主要特征特征高斯过程克里金 Bayesian vs Frequentist 衍生自贝叶斯观点衍生自频率派观点目标给定可用训练数据后，从后验高斯过程中进行采样。给定有效测量后，获得目标变量的最佳线性无偏估计。维度没有维度限制，所有特征都可以作为预测变量，并天然形成一个高维空间。目标变量被认为是此高维空间中的一个函数。为二维/三维空间分析而设计。虽然协同克里金法中会引入辅助变量，但同时增加了克里金方程的复杂性。 ...

高级模型--高斯过程与核学习

发表于2022-04-05|贝叶斯统计概率图模型

〖摘要〗〖原文〗 Standford cs228 notes 〖参考〗CMU 10-708 Slides / CMU 10-708 Lecture Notes / Jordan TextBook, Ch.2(section 2.2 - end) / Koller’s Textbook,Ch.4 / A. Fischer and C. Igel, An Introducton to Restricted Boltzmann Machines / B. A. Cipra, An Introduction to the Ising Model