西山晴雪的知识笔记

发表于2023-03-13|高斯过程模型推断

【摘要】高斯过程推断的主要目的是 “根据观测数据获得函数的高斯过程后验” ，而高斯过程的特性主要来自于协方差函数（具体来说，是该函数的参数化形式及对应的超参数值），因此，高斯过程推断问题的核心通常是：在协方差函数族的参数化形式已经确定的情况下，根据观测数据推断出协方差函数中超参数的值（或分布），这也被称为模型选择问题。推断得出的结果可被进一步用于计算测试点的值（或分布），进而实现含不确定性的预测。高斯过程推断（或模型选择）通常采用最大边缘似然方法（参见 Rasmussen 第 5 章高斯过程模型选择与自适应超参数）。根据数据模型中的似然假设，一般可以被分为高斯（例如气压、湿度等实值随机变量，通常被假设为高斯分布）和非高斯（例如分类、计数等随机变量）两种情况，前者意味着边缘似然具有解析形式，可以通过常规高斯过程推断方法获得核超参数的闭式解；而后者意味着边缘似然有可能没有解析形式，需要通过变分推断、MCMC 等方法来近似边缘似然，而后利用该近似边缘似然推断核超参数的近似解。 1 方法一览表高斯似然非高斯似然（变分方法）非高斯似然（MCMC） ...

大数据中高斯过程的随机变分推断

发表于2023-03-12|高斯过程模型推断

【摘要】学习归纳变量的变分框架 (Titsias, 2009a) 对高斯过程文献产生了很大影响。该框架可以解释为最小化近似过程和后验过程之间严格定义的 Kullback-Leibler 散度。据我们所知，迄今为止，这种联系在文献中并未被提及。在本文中，我们对有关该主题的文献进行了实质性的概括。我们给出了无限索引集结果的新证明，它允许归纳不是数据点的点和依赖于所有函数值的可能性。然后，我们讨论了扩充索引集，并表明，与以前的工作相反，扩充的边缘一致性不足以保证变分推断与原始模型的一致性。然后，我们描述了可以获得这种保证的额外条件。最后，我们展示了我们的框架如何阐明域间稀疏近似和 Cox 过程的稀疏近似。【原文】 Matthews, A.G. de G. et al. (2015) ‘On Sparse variational methods and the Kullback-Leibler divergence between stochastic processes’. arXiv. Available at: https://doi.org/10.48550/ARX ...

非高斯似然高斯过程的随机变分推断

发表于2023-03-12|高斯过程模型推断

【摘要】学习归纳变量的变分框架 (Titsias, 2009a) 对高斯过程文献产生了很大影响。该框架可以解释为最小化近似过程和后验过程之间严格定义的 Kullback-Leibler 散度。据我们所知，迄今为止，这种联系在文献中并未被提及。在本文中，我们对有关该主题的文献进行了实质性的概括。我们给出了无限索引集结果的新证明，它允许归纳不是数据点的点和依赖于所有函数值的可能性。然后，我们讨论了扩充索引集，并表明，与以前的工作相反，扩充的边缘一致性不足以保证变分推断与原始模型的一致性。然后，我们描述了可以获得这种保证的额外条件。最后，我们展示了我们的框架如何阐明域间稀疏近似和 Cox 过程的稀疏近似。【原文】 Matthews, A.G. de G. et al. (2015) ‘On Sparse variational methods and the Kullback-Leibler divergence between stochastic processes’. arXiv. Available at: https://doi.org/10.48550/ARX ...

稀疏高斯过程归纳点的变分学习（Titsias2009 ）

发表于2023-03-11|高斯过程模型推断

【摘要】使用归纳变量的稀疏高斯过程方法需要选择归纳输入和核超参数。我们引入了一种用于稀疏近似的变分公式，它通过最大化真实对数边缘似然的下限来联合推断归纳输入和核超参数。该公式的关键属性是归纳输入被定义为变分参数，这些变分参数是通过最小化变分分布与隐函数值的精确后验分布之间的 Kullback-Leibler 散度来选择的。我们将这种技术应用于回归，并将其与文献中的其他方法进行比较。【原文】 Titsias, Michalis. “Variational Learning of Inducing Variables in Sparse Gaussian Processes.” In Proceedings of the Twelth International Conference on Artificial Intelligence and Statistics, edited by David van Dyk and Max Welling, 5:567–74. Proceedings of Machine Learning Research. Hilton Cl ...

GPyTorch：带GPU加速的黑盒矩阵-矩阵高斯过程推断

发表于2023-03-11|高斯过程模型推断

【摘要】尽管可扩展模型取得了进步，但用于高斯过程 (GP) 的推断工具尚未充分利用计算硬件的发展。我们提出了一种基于黑盒矩阵-矩阵乘法 (BBMM) 的高斯过程推断的有效通用方法。 BBMM 推断使用修改后的共轭梯度算法的批处理版本在一次调用中导出用于训练和推断的所有项。 BBMM 将精确高斯过程推断的渐近复杂度从 \mathcal{O}(n3) 降低到 \mathcal{O}(n2)。使该算法适用于可扩展的近似值和复杂的高斯过程模型只需要一个程序即可与核及其导数进行高效的矩阵-矩阵乘法。此外，BBMM 使用专门的预处理器来大大加快收敛速度。在实验中，我们表明 BBMM 有效地使用 GPU 硬件来显著加速精确的高斯过程推断和可扩展的近似。此外，我们还提供了 GPyTorch，这是一个基于 PyTorch 构建的通过 BBMM 进行可扩展高斯过程推断的软件平台。【原文】 Gardner, Jacob, Geoff Pleiss, Kilian Q Weinberger, David Bindel, and Andrew G Wilson. “GPyTorch: Bla ...

稀疏变分方法和随机过程之间的 KL 散度

发表于2023-03-11|高斯过程模型推断

【摘要】学习归纳变量的变分框架 (Titsias, 2009a) 对高斯过程文献产生了很大影响。该框架可以解释为最小化近似过程和后验过程之间严格定义的 Kullback-Leibler 散度。据我们所知，迄今为止，这种联系在文献中并未被提及。在本文中，我们对有关该主题的文献进行了实质性的概括。我们给出了无限索引集假设下的新证明，它允许不属于训练集的归纳点和依赖于所有函数值集的似然。然后，我们讨论了增广索引集，并表明，与以前的工作相反，增广的边缘一致性不足以保证变分推断近似与原始模型的一致性。我们进一步推导出了获得这种保证的额外条件。最后，我们以域间稀疏近似和 Cox 过程为例，展示了我们的稀疏近似框架。【原文】 Matthews, A.G. de G. et al. (2015) ‘On Sparse variational methods and the Kullback-Leibler divergence between stochastic processes’. arXiv. Available at: https://doi.org/10.4855 ...

GPflow：使用 TensorFlow 的高斯过程库

发表于2023-03-10|高斯过程模型推断

【摘要】 GPflow 是一个以 TensorFlow 为核心计算，以 Python 为前端的高斯过程库。其设计特别强调软件测试，并且能够利用 GPU 硬件。【原文】 Matthews, Alexander G. de G., Mark van der Wilk, Tom Nickson, Keisuke Fujii, Alexis Boukouvalas, Pablo León-Villagrá, Zoubin Ghahramani, and James Hensman. “GPflow: A Gaussian Process Library Using TensorFlow,” 2016. https://doi.org/10.48550/ARXIV.1610.08733. 1 现有的高斯过程库现在有许多公开可用的高斯过程库，规模从个人项目到主要社区工具不等。因此，我们将只考虑现有库的相关子集。有影响力的 GPML 工具箱（Rasmussen 和 Nickisch，2010 年[11]）使用了 MATLAB。它已被广泛 forked。对我们特别有参考价值的是 G ...

精确高斯过程的GPU并行推断程序

发表于2023-03-08|高斯过程模型推断

【摘要】高斯过程 (GP) 是灵活的非参数模型，其容量随着可用数据的增加而增长。但标准推断程序的计算局限性将精确高斯过程限制在训练点在一万以内的问题上，对于更大的数据集则需要进行近似。在本文中，我们为精确高斯过程开发了一种可扩展的方法，该方法利用多 GPU 并行化、线性共轭梯度等方法，仅通过矩阵乘法访问协方差矩阵。通过划分和分布协方差矩阵乘法，我们证明，可以在不到 2 小时的时间内训练一个超过一百万个点的精确高斯过程，这是以前认为不可能完成的任务。此外，我们的方法具有普遍适用性，不受网格数据或特定核类型的限制。通过这种可扩展性，我们首次对具有 10410^4104 − 10610^6106 个数据点的数据集，进行了精确高斯过程与可扩展高斯过程近似之间的比较，显示出显著的性能改进。【原文】 Wang, K.A. et al. (2019) ‘Exact Gaussian Processes on a Million Data Points’. Available at: https://doi.org/10.48550/ARXIV.1903.08114. 1 引言高 ...

🔥 稀疏高斯过程及其变分推断

发表于2022-12-20|高斯过程可扩展性模型推断

〖摘要〗高斯过程（Gaussian Processes,高斯过程）为贝叶斯推断提供了一个数学上优雅的框架，可以为大量问题提供原则性的不确定性估计。例如，对于某些具有高斯似然的回归问题，高斯过程模型具有封闭形式的后验。然而，后验高斯过程（高斯过程的后验依然是一个高斯过程分布，此处将之简称为后验高斯过程）的计算复杂度与训练样本数量成立方关系，并且所有训练样本均需要在内存中存储。为克服这些问题，已经提出了使用伪训练样本（也称为或）来获取近似后验高斯过程的方法 – 稀疏高斯过程（Sparse Gaussian Processes）。用户可以自己定义伪训练样本的数量，进而控制计算和内存复杂度。在一般情况下，稀疏高斯过程无法得到封闭解，必须求助于近似推断。在此情况下，变分推断是近似推断的一种选择。变分方法将贝叶斯推断问题转化为优化问题，通过最大化对数边缘似然下界（ ELBO\mathbb{ELBO}ELBO ）的方法，得到近似的后验分布。变分推断为构建强大且多功能的框架铺平了道路，在其训练过程中，伪训练样本与（先验和似然的）超参数一起，被视为待优化的参数。该框架可以扩展到更为广 ...