🔥 可扩展高斯过程索引贴
【摘 要】高斯过程的可扩展性问题起步本世纪初,主要是随着数据条件的优化而牵引出来的问题。其本质是核矩阵(或协方差矩阵)的 “大 N 问题”,导致 O(n3)\mathcal{O}(n^3)O(n3) 的计算复杂度核 O(n2)\mathcal{O}(n^2)O(n2) 的存储复杂度。 本文梳理了目前的主要应对方法,其中部分方法和高斯过程推断方法 有很大关系,因此两者之间会存在一些交叉。
1 综述类
Liu 2020 年的 可扩展高斯过程综述: 高斯过程回归具有数据规模的三次方的计算复杂度。为了在保持理想预测质量同时,能够提高扩展性,业界已经提出了各种可扩展高斯过程。本文是对可扩展高斯过程的一篇回顾文章,主要按照两个类别梳理了可扩展高斯过程:一是提炼完整数据的全局近似方法,二是划分数据以进行子空间学习的局部近似方法。对于全局近似,主要关注了稀疏近似,包括改进先验但执行精确推断的先验近似、保留精确先验但执行近似推断的后验近似、利用协方差矩阵中特定结构的结构化稀疏近似。对于局部近似,主要突出了专家混合和专家乘积两种方法,这些专家方法对多个局部专家进行模型平均以提高预测。本文还介绍 ...
第8章大型数据集的近似方法
【摘 要】高斯过程作为一种用于预测的非参数模型,可以用于回归任务,也可以用于分类任务。高斯过程面临的最大问题在于,当面临大数据时,其计算复杂度为 O(n3)\mathcal{O}(n^3)O(n3),内存复杂度为 O(n2)\mathcal{O}(n^2)O(n2),这使其在新形势下的使用非常困难。本文对2006年之前的主要大数据的高斯过程处理方法进行了综述,可以作为了解该方向工作的基础。《机器学习中的高斯过程》一书是高斯过程研究领域的扛鼎之作,本文主要节选自该书的第八章。
【原 文】 Rasmussen, C.E. and Williams, C.K. (2006), Chapter 8 of Gaussian processes for machine learning. Cambridge, Mass: MIT press Cambridge, MA (3).
正如我们在前面的章节中看到的,高斯过程预测的一个重要问题是它的计算规模通常为 \mamthcal{O}(n^3)。对于大型问题(例如 n>10,000n > 10,000n>10,000),存 ...
高斯过程回归稀疏近似方法的统一视角
【摘 要】 我们提供了一个新的统一视角,能够容纳所有现有的高斯过程回归的概率稀疏近似方法。我们的方法依赖于对所采用方法的有效先验(effective prior)的表达。这能够得到对这些方法的新见解,并突出现有方法之间的关系。它还允许对已知近似方法与完整高斯过程之间的接近程度进行理论上的排序。最后,我们直接给出了一种新的更好的稀疏近似设计,该设计在有吸引力的计算约束下结合了现有策略的优点。
【原 文】 Quinonero-Candela, J. and Rasmussen, C.E. (2005) ‘A unifying view of sparse approximate Gaussian process regression’, The Journal of Machine Learning Research, 6, pp. 1939–1959.
基于高斯过程 (GP) 的回归模型易于实现、灵活、完全概率模型,因此是许多应用领域中的强大工具。其主要局限性在于内存需求和计算需求分别随着训练点数量 nnn 的平方和立方增长,使实施只能限制在最多几千个训练点的问题上。为了克服 ...
采用伪输入的稀疏高斯过程
【摘 要】 我们提出了一种新的高斯过程 (GP) 回归模型,其协方差由 MMM 个伪输入点的位置参数化,我们通过基于梯度的优化来学习该模型。我们采用 M<NM < NM<N ,其中 NNN 是真实数据点的数量,因此获得了每个测试用例具有 O(M2N)\mathcal{O}(M^2N)O(M2N) 训练成本和 O(M2)\mathcal{O}(M^2)O(M2) 预测成本的稀疏回归方法。我们还在同一联合优化中找到协方差函数的超参数。该方法可以被视为具有特定输入相关噪声的贝叶斯回归模型。事实证明,该方法与其他几种稀疏高斯过程方法密切相关,我们将详细讨论这种关系。我们最终在一些大型数据集上展示了它的性能,并与其他稀疏高斯过程方法进行了直接比较。我们表明,我们的方法可以将完整的高斯过程性能与小 MMM 相匹配,即非常稀疏的解决方案,并且它明显优于该方案中的其他方法。
【原 文】 Snelson, E. and Ghahramani, Z. (2005) ‘Sparse gaussian processes using pseudo-inputs’, in Y. W ...
可扩展结构化高斯过程的核插值 (KISS-GP)
【摘 要】引入了一种新的结构化核插值 (SKI) 框架,它泛化并统一了可扩展高斯过程 (GP) 的归纳点方法。 SKI 方法通过核插值生成核近似值以进行快速计算。 SKI 框架阐明了归纳点方法的质量与归纳(也称为插值)点数量、插值策略和协方差核之间的关系。 SKI 还允许通过选择不同的核插值策略来创建新的可扩展核。使用 SKI 框架,通过局部的三次核插值,我们引入了 KISS-GP,该方法:1) 比归纳点替代方案更具可扩展性;2) 自然地使 Kronecker 和 Toeplitz 代数,并在可扩展性方面获得实质性收益,且无需任何网格数据支撑;3)可用于快速和富有表现力的核学习。 KISS-GP 花费 O(n)\mathcal{O}(n)O(n) 的时间和存储复杂度来进行高斯过程推断。
【原 文】 Wilson, A. and Nickisch, H. (2015) ‘Kernel interpolation for scalable structured gaussian processes (KISS-GP)’, in F. Bach and D. Blei (eds) ...
局部和全局稀疏高斯过程近似
〖摘 要〗高斯过程 (GP) 模型是可以用于回归、分类和其他任务的概率非参数模型。它们在大型数据集上存在计算困难的问题。在过去的十年中,已经开发了许多不同的近似来降低此成本。其中大部分方法可以被称为全局近似,因为它们试图通过一小组支撑点来总结所有训练数据。一种不同的方法是局部回归,其中许多局部专家占据自己的部分空间。在本文中,我们首先研究这些不同方法在哪些情况下会运作良好或失败。然后继续开发一种新的稀疏高斯过程近似,它是全局和局部方法的组合。从理论上讲,我们证明它是 Quinonero-Candela 和 Rasmussen [2005] 提出的稀疏高斯过程近似的自然扩展。我们在一些一维示例和一些大型现实世界数据集上展示了组合近似的好处。
〖原 文〗 Snelson, Edward, and Zoubin Ghahramani. “Local and Global Sparse Gaussian Process Approximations.” In Proceedings of the Eleventh International Conference on Artifi ...
🔥 可扩展高斯过程综述
【摘 要】大数据带来的海量信息以及不断发展的计算机硬件鼓励了机器学习社区的成功案例。同时,它对高斯过程回归 (GPR) 提出了挑战,高斯过程回归是一种众所周知的非参数且可解释的贝叶斯模型,其具有数据规模的三次方复杂性。为了在保持理想预测质量同时,能够提高扩展性,业界已经提出了各种可扩展高斯过程。然而,它们还没有得到全面的回顾和分析,以得到学术界和工业界的充分理解。由于数据量的爆炸式增长,在高斯过程社区中对可扩展高斯过程进行回顾是及时且必要的。为此,本文致力于回顾涉及两个主要类别的最先进的可扩展高斯过程:一是提炼完整数据的全局近似,二是划分数据以进行子空间学习的局部近似。对于全局近似,我们主要关注稀疏近似,包括改进先验但执行精确推断的先验近似、保留精确先验但执行近似推断的后验近似、利用核(协方差)矩阵中特定结构的结构化稀疏近似。对于局部近似,我们突出了专家混合和专家乘积,这些专家方法对多个局部专家进行模型平均以提高预测。为了提供完整回顾,本文还介绍近年在提高可扩展高斯过程的扩展性和功能方面取得的进展。最后,回顾和讨论了可扩展高斯过程在各种场景中的扩展和开放问题,以激发未来研究 ...
🔥 组合似然法概述
【摘 要】组合似然法是用于超大规模高斯随机场高效计算的主要方法之一,本文提供了对组合似然理论和应用的最新发展调查。论文考虑了一系列应用领域,包括地统计学、空间极值、时空模型、集群和纵向数据以及时间序列等。考虑到 Larribe 和 Fearnhead (2011) 已经发表了在统计遗传学方面的综述论文,本文省略了这一重要应用领域。本文重点介绍了组合似然理论发展、组合似然推断的效率和鲁棒性等知识现状。
【原 文】 Varin, C., Reid, N. and Firth, D. (2011) ‘AN OVERVIEW OF COMPOSITE LIKELIHOOD METHODS’, Statistica Sinica, 21(1), pp. 5–42.
1 简介
组合似然是通过将若干似然分量相乘得出的一个推断函数;所使用的似然分量集合通常由应用上下文决定。因为每个个体似然分量都是条件密度(或边缘密度,根据应用而定),所以从复合对数似然的导数得出的估计方程,是一个无偏估计方程。无论这些个体似然分量是否相互独立,根据其乘法所得到的推断函数都会包含所指定模型的似然性质。
本文回 ...
🔥 稀疏高斯过程及其变分推断
〖摘 要〗 高斯过程 (Gaussian Processes,高斯过程) 为贝叶斯推断提供了一个数学上优雅的框架,可以为大量问题提供原则性的不确定性估计。例如,对于某些具有高斯似然的回归问题,高斯过程模型具有封闭形式的后验。然而,后验高斯过程(高斯过程的后验依然是一个高斯过程分布,此处将之简称为后验高斯过程)的计算复杂度与训练样本数量成立方关系,并且所有训练样本均需要在内存中存储。为克服这些问题,已经提出了使用伪训练样本(也称为或)来获取近似后验高斯过程的方法 – 稀疏高斯过程(Sparse Gaussian Processes)。用户可以自己定义伪训练样本的数量,进而控制计算和内存复杂度。在一般情况下,稀疏高斯过程无法得到封闭解,必须求助于近似推断。在此情况下,变分推断是近似推断的一种选择。变分方法将贝叶斯推断问题转化为优化问题,通过最大化对数边缘似然下界( ELBO\mathbb{ELBO}ELBO )的方法,得到近似的后验分布。变分推断为构建强大且多功能的框架铺平了道路,在其训练过程中,伪训练样本与(先验和似然的)超参数一起,被视为待优化的参数。该框架可以扩展到更为广 ...