西山晴雪的知识笔记

发表于2023-02-23|高斯过程基本原理

【摘要】在许多高斯过程的实际应用中，协方差函数很难指定。此外，前人已经提出了很多协方差函数，其中许多协方差函数具有大量参数，使得协方差函数的选择更为困难。因此，需要开发解决模型选择问题的方法。本文相当广泛地解释了高斯过程模型选择问题，包括协方差函数的选择、超参数值的确定等。本文节选自《Gaussian processes for machine learning》一书的第五章。【原文】 Rasmussen, C.E. and Williams, C.K. (2006) Gaussian processes for machine learning, chapter 5. Cambridge, Mass: MIT press Cambridge, MA (3). 1 模型选择问题为了使模型成为应用程序中的实用工具，需要对其定义的细节做出决定。有些性质可能很容易指定，但有些方面的信息是模糊的，我们使用术语 “模型选择” 来涵盖协方差函数参数的具体选择和连续（超-）参数设置，事实上，模型选择既可以帮助改进模型的预测，也可以为用户提供有关数据性质的有价值的解释，例如一个 ...

Rasmussen 第 6 章高斯过程与其他模型的关系

发表于2023-02-23|高斯过程基本原理

【摘要】讨论一些与高斯过程预测相关的概念和模型，包括再生核 Hilbert 空间 (RKHSs)、正则化理论、样条曲线、支持向量机、最小二乘分类 (LSC)、相关向量机 (RVM) 等。本文节选自《Gaussian processes for machine learning》一书的第六章。【原文】 Rasmussen, C.E. and Williams, C.K. (2006) Gaussian processes for machine learning, chapter 6. Cambridge, Mass: MIT press Cambridge, MA (3). 在本章中，我们将讨论一些与高斯过程预测相关的概念和模型。在第 6.1 节中，我们介绍了再生核 Hilbert 空间 (RKHSs)，它定义了对应于给定正半定核 k 的足够光滑函数的 Hilbert 空间。正如我们在第 1 章中讨论的那样，有许多函数与给定的数据集 D\mathcal{D}D 一致。我们已经看到高斯过程方法如何将先验置于函数之上以处理此问题。正则化理论（在第 6.2 节 ...

🔥 神经扩散过程(NDP)

发表于2023-02-21|高斯过程神经网络

【摘要】高斯过程为指定函数的先验分布和后验分布提供了一个优雅的框架。然而，它们计算代价很高，并且受到协方差函数表达能力的限制。我们提出了神经扩散过程 (NDP)，这是一种基于扩散模型的新方法，它学习如何从函数的分布中进行采样。使用一种新颖的注意力块，我们能够将随机过程的性质（例如可交换性）直接整合到神经扩散架构中。经验表明，神经扩散过程能够捕获与高斯过程的真实贝叶斯后验接近的函数型分布。这使各种下游任务成为可能，包括超参数的边缘化和贝叶斯优化。【原文】 Dutordoir, V. et al. (2022) ‘Neural Diffusion Processes’. arXiv. Available at: http://arxiv.org/abs/2206.03992 (Accessed: 21 February 2023). 1 简介高斯过程 (GP) 提供了一个强大的框架来定义函数的分布 [23]。高斯过程的一个关键优势是其可交换性，这使得从训练模型中获得任意位置的一致预测成为可能。但是，有两个关键因素限制了高斯过程在现实世界中可处理的任务范围。首先，推断成 ...

🔥 深度核学习(DKL)

发表于2023-01-01|高斯过程神经网络

【摘要】我们引入了可扩展的深度核，它结合了深度学习架构的结构特性和核方法的非参数灵活性。具体来说，我们使用局部核插值、归纳点和结构利用（Kronecker 和 Toeplitz）代数来转换具有深度架构的谱混合基核的输入，以获得可扩展的核表示。这些封闭形式的核可以用作标准核的直接替代品，具有表达能力和可扩展性方面的优势。我们通过高斯过程的边缘似然共同学习这些核的属性。 nnn 个训练点的推断和学习成本为 O(n)\mathcal{O}(n)O(n)，每个测试点的预测成本为 O(1)\mathcal{O}(1)O(1)。在大量多样的应用程序集合中，包括具有 200200200 万个样本的数据集，我们展示了具有灵活核学习模型和独立深度架构的可扩展高斯过程的改进性能。【原文】 Wilson, A.G. 等 (2015) ‘Deep Kernel Learning’. arXiv. Available at: http://arxiv.org/abs/1511.02222 (Accessed: 31 December 2022). 1 简介 MacKay (1998) [15 ...

深度高斯过程(DGP)

发表于2023-01-01|高斯过程神经网络

【摘要】深度高斯过程是一种基于高斯过程映射的深度信念网络。数据被建模为一个多元高斯过程的输出，而该高斯过程的输入由另一个高斯过程控制。单层模型等效于标准高斯过程或高斯过程隐变量模型 (GP-LVM)。我们通过近似变分边缘化在模型中进行推断。这导致用于做模型选择（层数和每层节点数）的边缘似然具备一个严格的下界。深度信念网络通常适用于使用随机梯度下降（SGD）做优化的大型数据集。但即使在数据稀缺的情况下，本文方法的完全贝叶斯处理也允许其应用深层模型。利用本文变分边界做出的模型选择情况表明，即使对仅包含 150 个样本的数字字符数据集进行建模，5 层的网络层次结构也是合理的。【原文】 Damianou, A. and Lawrence, N.D. (2013) ‘Deep gaussian processes’, in Artificial intelligence and statistics. PMLR, pp. 207–215. 1 概述使用神经网络架构来实现概率建模，已经成为机器学习的一个深入研究领域。深度学习领域的一些新进展 [Hinton and Osind ...

🔥 组合似然法概述

发表于2022-12-30|贝叶斯统计GeoAI高斯过程大数据专题可扩展性似然方法

【摘要】组合似然法是用于超大规模高斯随机场高效计算的主要方法之一，本文提供了对组合似然理论和应用的最新发展调查。论文考虑了一系列应用领域，包括地统计学、空间极值、时空模型、集群和纵向数据以及时间序列等。考虑到 Larribe 和 Fearnhead (2011) 已经发表了在统计遗传学方面的综述论文，本文省略了这一重要应用领域。本文重点介绍了组合似然理论发展、组合似然推断的效率和鲁棒性等知识现状。【原文】 Varin, C., Reid, N. and Firth, D. (2011) ‘AN OVERVIEW OF COMPOSITE LIKELIHOOD METHODS’, Statistica Sinica, 21(1), pp. 5–42. 1 简介组合似然是通过将若干似然分量相乘得出的一个推断函数；所使用的似然分量集合通常由应用上下文决定。因为每个个体似然分量都是条件密度（或边缘密度，根据应用而定），所以从复合对数似然的导数得出的估计方程，是一个无偏估计方程。无论这些个体似然分量是否相互独立，根据其乘法所得到的推断函数都会包含所指定模型的似然性质。本文回 ...

🔥 稀疏高斯过程及其变分推断

发表于2022-12-20|高斯过程可扩展性模型推断

〖摘要〗高斯过程（Gaussian Processes,高斯过程）为贝叶斯推断提供了一个数学上优雅的框架，可以为大量问题提供原则性的不确定性估计。例如，对于某些具有高斯似然的回归问题，高斯过程模型具有封闭形式的后验。然而，后验高斯过程（高斯过程的后验依然是一个高斯过程分布，此处将之简称为后验高斯过程）的计算复杂度与训练样本数量成立方关系，并且所有训练样本均需要在内存中存储。为克服这些问题，已经提出了使用伪训练样本（也称为或）来获取近似后验高斯过程的方法 – 稀疏高斯过程（Sparse Gaussian Processes）。用户可以自己定义伪训练样本的数量，进而控制计算和内存复杂度。在一般情况下，稀疏高斯过程无法得到封闭解，必须求助于近似推断。在此情况下，变分推断是近似推断的一种选择。变分方法将贝叶斯推断问题转化为优化问题，通过最大化对数边缘似然下界（ ELBO\mathbb{ELBO}ELBO ）的方法，得到近似的后验分布。变分推断为构建强大且多功能的框架铺平了道路，在其训练过程中，伪训练样本与（先验和似然的）超参数一起，被视为待优化的参数。该框架可以扩展到更为广 ...

高斯过程精简版教程

发表于2021-10-14|高斯过程基本原理

【摘要】高斯过程 Gaussian Processes 是概率论和数理统计中随机过程的一种，是多元高斯分布的扩展，被应用于机器学习、信号处理等领域。本文对高斯过程进行公式推导、原理阐述、可视化以及代码实现，介绍了以高斯过程为基础的高斯过程回归基本原理、超参优化、高维输入等问题。 1 一元高斯分布我们从最简单最常见的一元高斯分布开始，其概率密度函数为 p(x)=1σ2πexp⁡(−(x−μ)22σ2)(1)p(x) = \frac{1}{\sigma\sqrt{2\pi}}\exp (-\frac{(x-\mu)^2}{2\sigma^2}) \tag{1} p(x)=σ2π1exp(−2σ2(x−μ)2)(1) 其中 μ\muμ 和 σ\sigmaσ 分别表示均值和方差，这个概率密度函数曲线画出来就是我们熟悉的钟形曲线，均值和方差唯一地决定了曲线的形状。 2 多元高斯分布从一元高斯分布推广到多元高斯分布，假设各维度之间相互独立，则有联合分布： p(x)=p(x1,x2,...,xn)=∏i=1np(xi)=1(2π)n2σ1σ2...σnexp⁡(−12[( ...

🔥 高斯过程回归初步教程

发表于2021-10-13|高斯过程基本原理

【摘要】本教程旨在提供对高斯过程回归（Gaussian processes regression，GPR）的直观理解。高斯过程回归模型因其表达方式的灵活性和内涵的不确定性预测能力而广泛用于机器学习应用中。本文首先解释了构建高斯过程的基本概念，包括多元正态分布、核、非参数模型、联合和条件概率等。然后，简明描述了高斯过程回归以及标准高斯过程回归算法的实现。除了标准高斯过程回归，本文还回顾了目前最先进的高斯过程算法软件包。【原文】Jie Wang (2020). An Intuitive Tutorial to Gaussian Processes Regression. https://arxiv.org/abs/2009.10862 1 引言高斯过程模型是一种概率监督机器学习框架，已广泛用于回归和分类任务。高斯过程回归（Guassian Process Regression, GPR）模型可以结合先验知识（核）进行预测，并提供预测的不确定性度量 [1]。高斯过程模型是由计算机科学和统计学界开发的一种监督学习方法。具有工程背景的研究人员经常发现很难清楚地了解它。要理解高 ...