Rasmussen 第 4 章 高斯过程的协方差函数
【摘 要】 协方差函数是高斯过程方法的核心,本文给出了关于协方差函数的概述。
【原 文】 Rasmussen, C.E. and Williams, C.K. (2006), Chapter 4 of Gaussian processes for machine learning. Cambridge, Mass: MIT press Cambridge, MA (3).
第 4 章 协方差函数
我们已经看到,协方差函数是高斯过程预测器中的关键成分,因为它编码了我们对所希望学习的函数的假设。从稍微不同的角度来看,很明显在监督学习中数据点之间的相似性概念是至关重要的;一个基本假设是输入 x\mathbf{x}x 接近的点可能具有相似的目标值 yyy,因此靠近测试点的训练点应该提供有关该点预测的信息。在高斯过程视图下,协方差函数定义了接近度或相似度。
输入对 x\mathbf{x}x 和 x′\mathbf{x}'x′ 的任意函数通常不会是有效的协方差函数。本章的目的是给出一些常用协方差函数的示例并检查它们的性质。
第 4.1 节定义了一些与协方差函数相关的基本术语。
第 4 ...
Rasmussen 第 5 章 高斯过程模型选择与自适应超参数
【摘 要】 在许多高斯过程的实际应用中,协方差函数很难指定。此外,前人已经提出了很多协方差函数,其中许多协方差函数具有大量参数,使得协方差函数的选择更为困难。因此,需要开发解决模型选择问题的方法。本文相当广泛地解释了高斯过程模型选择问题,包括协方差函数的选择、超参数值的确定等。本文节选自 《Gaussian processes for machine learning》一书的第五章。
【原 文】 Rasmussen, C.E. and Williams, C.K. (2006) Gaussian processes for machine learning, chapter 5. Cambridge, Mass: MIT press Cambridge, MA (3).
1 模型选择问题
为了使模型成为应用程序中的实用工具,需要对其定义的细节做出决定。有些性质可能很容易指定,但有些方面的信息是模糊的,我们使用术语 “模型选择” 来涵盖协方差函数参数的具体选择和连续(超-)参数设置,事实上,模型选择既可以帮助改进模型的预测,也可以为用户提供有关数据性质的有价值的解释,例如一个 ...
Rasmussen 第 6 章 高斯过程与其他模型的关系
【摘 要】 讨论一些与高斯过程预测相关的概念和模型,包括再生核 Hilbert 空间 (RKHSs)、正则化理论、样条曲线、支持向量机、最小二乘分类 (LSC)、相关向量机 (RVM) 等。 本文节选自 《Gaussian processes for machine learning》一书的第六章。
【原 文】 Rasmussen, C.E. and Williams, C.K. (2006) Gaussian processes for machine learning, chapter 6. Cambridge, Mass: MIT press Cambridge, MA (3).
在本章中,我们将讨论一些与高斯过程预测相关的概念和模型。在 第 6.1 节 中,我们介绍了再生核 Hilbert 空间 (RKHSs),它定义了对应于给定正半定核 k 的足够光滑函数的 Hilbert 空间。
正如我们在第 1 章中讨论的那样,有许多函数与给定的数据集 D\mathcal{D}D 一致。我们已经看到高斯过程方法如何将先验置于函数之上以处理此问题。正则化理论(在 第 6.2 节 ...
🔥 神经扩散过程(NDP)
【摘 要】 高斯过程为指定函数的先验分布和后验分布提供了一个优雅的框架。然而,它们计算代价很高,并且受到协方差函数表达能力的限制。我们提出了神经扩散过程 (NDP),这是一种基于扩散模型的新方法,它学习如何从函数的分布中进行采样。使用一种新颖的注意力块,我们能够将随机过程的性质(例如可交换性)直接整合到神经扩散架构中。经验表明,神经扩散过程能够捕获与高斯过程的真实贝叶斯后验接近的函数型分布。这使各种下游任务成为可能,包括超参数的边缘化和贝叶斯优化。
【原 文】 Dutordoir, V. et al. (2022) ‘Neural Diffusion Processes’. arXiv. Available at: http://arxiv.org/abs/2206.03992 (Accessed: 21 February 2023).
1 简介
高斯过程 (GP) 提供了一个强大的框架来定义函数的分布 [23]。高斯过程的一个关键优势是其可交换性,这使得从训练模型中获得任意位置的一致预测成为可能。但是,有两个关键因素限制了高斯过程在现实世界中可处理的任务范围。首先,推断成 ...
近似贝叶斯计算简明教程(节选)
【摘 要】似然是贝叶斯统计推断的基本要素之一,传统方法会通过对似然的参数化建模,来得到其参数的后验分布并进而得到后验预测分布。但在很多时候,似然的建模并不那么明确,甚至无法被参数化建模,使得贝叶斯分析方法陷入困难。近似贝叶斯计算(Approximate Bayesian Computation, ABC)正是解决此问题的基本方法,在最近 20 年左右时间里得到了快速发展。本文解释了一些近似贝叶斯计算的基本概念、原理和示例,帮助初学者快速掌握该方法。 本书节选自 Martin 的 《Bayesian modeling and computation in python》 一书第八章。
【原 文】 Martin, O.A., Kumar, R. and Lao, J. (2021) Bayesian modeling and computation in python. Boca Raton. https://github.com/BayesianModelingandComputationInPython/BookCode_Edition1/
在本章中,我们讨论 近似贝叶斯计 ...
🔥 蒙特卡洛推断方法索引帖
1. 蒙特卡洛原理
《蒙特卡洛方法原理》
2. 基础的随机采样方法
《直接采样、拒绝采样与重要性采样》
3. 马尔可夫链门特卡罗(MCMC)方法
《一篇文章读懂蒙特卡罗采样》
MCMC 采样方法编程实战
4. MCMC 的加速采样
《主要的 MCMC 加速方法》
专题:
《哈密顿蒙特卡洛(HMC)方法》
《不调头采样(NUTS)方法》
《模拟退火》
5. 序贯蒙特卡洛(SMC)方法
《卡尔曼滤波》: 基于高斯似然假设和线性系统假设,后验概率分布具有封闭形式,本身不需要蒙特卡洛方法。在此主要用于和粒子滤波进行比较。
《序贯蒙特卡洛与粒子滤波》:非高斯似然、非线性等更为复杂的系统,后验概率分布没有封闭形式解,因此只能通过蒙特卡洛模拟的方式近似后验概率分布。序贯蒙特卡罗方法为复杂动态系统的粒子滤波奠定了基础。
6. 可扩展的蒙特卡洛方法
随机梯度 MCMC 推断( SGMCMC ): 当数据规模较大时,蒙特卡洛方法能否适用?在大数据分析场景中,这个问题困扰了很多人。
#refplus, #refplus li{
padding:0;
...
🔥 深度核学习(DKL)
【摘 要】 我们引入了可扩展的深度核,它结合了深度学习架构的结构特性和核方法的非参数灵活性。具体来说,我们使用局部核插值、归纳点和结构利用(Kronecker 和 Toeplitz)代数来转换具有深度架构的谱混合基核的输入,以获得可扩展的核表示。这些封闭形式的核可以用作标准核的直接替代品,具有表达能力和可扩展性方面的优势。我们通过高斯过程的边缘似然共同学习这些核的属性。 nnn 个训练点的推断和学习成本为 O(n)\mathcal{O}(n)O(n),每个测试点的预测成本为 O(1)\mathcal{O}(1)O(1)。在大量多样的应用程序集合中,包括具有 200200200 万个样本的数据集,我们展示了具有灵活核学习模型和独立深度架构的可扩展高斯过程的改进性能。
【原 文】 Wilson, A.G. 等 (2015) ‘Deep Kernel Learning’. arXiv. Available at: http://arxiv.org/abs/1511.02222 (Accessed: 31 December 2022).
1 简介
MacKay (1998) [15 ...
深度高斯过程(DGP)
【摘 要】 深度高斯过程是一种基于高斯过程映射的深度信念网络。数据被建模为一个多元高斯过程的输出,而该高斯过程的输入由另一个高斯过程控制。单层模型等效于标准高斯过程或高斯过程隐变量模型 (GP-LVM)。我们通过近似变分边缘化在模型中进行推断。这导致用于做模型选择(层数和每层节点数)的边缘似然具备一个严格的下界。深度信念网络通常适用于使用随机梯度下降(SGD)做优化的大型数据集。但即使在数据稀缺的情况下,本文方法的完全贝叶斯处理也允许其应用深层模型。利用本文变分边界做出的模型选择情况表明,即使对仅包含 150 个样本的数字字符数据集进行建模,5 层的网络层次结构也是合理的。
【原 文】 Damianou, A. and Lawrence, N.D. (2013) ‘Deep gaussian processes’, in Artificial intelligence and statistics. PMLR, pp. 207–215.
1 概述
使用神经网络架构来实现概率建模,已经成为机器学习的一个深入研究领域。深度学习领域的一些新进展 [Hinton and Osind ...
🔥 组合似然法概述
【摘 要】组合似然法是用于超大规模高斯随机场高效计算的主要方法之一,本文提供了对组合似然理论和应用的最新发展调查。论文考虑了一系列应用领域,包括地统计学、空间极值、时空模型、集群和纵向数据以及时间序列等。考虑到 Larribe 和 Fearnhead (2011) 已经发表了在统计遗传学方面的综述论文,本文省略了这一重要应用领域。本文重点介绍了组合似然理论发展、组合似然推断的效率和鲁棒性等知识现状。
【原 文】 Varin, C., Reid, N. and Firth, D. (2011) ‘AN OVERVIEW OF COMPOSITE LIKELIHOOD METHODS’, Statistica Sinica, 21(1), pp. 5–42.
1 简介
组合似然是通过将若干似然分量相乘得出的一个推断函数;所使用的似然分量集合通常由应用上下文决定。因为每个个体似然分量都是条件密度(或边缘密度,根据应用而定),所以从复合对数似然的导数得出的估计方程,是一个无偏估计方程。无论这些个体似然分量是否相互独立,根据其乘法所得到的推断函数都会包含所指定模型的似然性质。
本文回 ...
克里金和高斯过程的关系
克里金法 源于地统计学,在统计学中也称为 高斯过程回归,是一种基于高斯过程的空间插值方法。在适当的先验假设下,克里金法在未采样位置提供最佳线性无偏预测 (BLUP)。该方法广泛应用于空间分析和计算机实验领域。该方法的理论基础由法国数学家 Georges Matheron 于 1960 年根据 Danie G. Krige 的硕士论文开发。 Krige 试图根据几个钻孔的样本来估计黄金最有可能的分布。
在面向二三维空间时,从数学上两者本质上是相同的。
两者之间的主要区别特征见下表:
Table 1. 区分克里金和现代高斯过程的主要特征
特征
高斯过程
克里金
Bayesian vs Frequentist
衍生自贝叶斯观点
衍生自频率派观点
目标
给定可用训练数据后,从后验高斯过程中进行采样。
给定有效测量后,获得目标变量的最佳线性无偏估计。
维度
没有维度限制,所有特征都可以作为预测变量,并天然形成一个高维空间。目标变量被认为是此高维空间中的一个函数。
为二维/三维空间分析而设计。虽然协同克里金法中会引入辅助变量,但同时增加了克里金方程的复杂性。
...