西山晴雪的知识笔记

发表于2023-03-23|高斯过程神经网络

高斯神经过程【摘要】神经过程是一类丰富的元学习模型，可将数据集直接映射到预测性随机过程。我们对用于训练条件神经过程的标准最大似然目标进行了严格的分析。此外，我们向神经过程家族提出了一个新成员，称为高斯神经过程 (GNP)，它结合平移等方差性对预测相关性进行建模，能够提供通用的近似保证，并展示了很好的性能。【原文】 Bruinsma, W.P. 等 (2021) ‘The Gaussian Neural Process’. arXiv. Available at: http://arxiv.org/abs/2101.03606 (Accessed: 23 February 2023). 1 引言神经过程 (Neural Processes, NPs; Garnelo 等，2018a [5],2018b [6]) 使用神经网络直接参数化并且学习 “从观测数据到随机过程的后验预测分布的映射” 。在本文工作中，我们为神经过程框架提供了两个贡献。贡献 1: 对用于训练条件神经过程模型的标准最大似然 (ML) 目标进行严格分析。特别是，我们将目标与随机过程之间的 KL\ ...

🔥 自回归条件神经过程

发表于2023-03-23|高斯过程神经网络

【摘要】条件神经过程（CNP）是一种具有吸引力的元学习模型，它可以产生经过良好校准的预测，并且可以通过最大似然程序进行训练。尽管条件神经过程有很多优势，但其无法在预测中建立依赖关系模型。已经有多项工作为此提出了解决方案，但都以近似或仅限于高斯预测为代价的。在本文工作中，我们建议不对条件神经过程模型或训练过程进行任何修改，而是改变其在测试时的部署方式。我们从神经自回归密度估计器 (NADE) 文献中汲取了灵感，使用概率链式法则自回归地定义联合预测分布，而不是对每个目标点进行独立的预测。实验结果表明，此过程允许因子化的高斯条件神经过程对相关的、非高斯的预测分布进行建模。令人惊讶的是，在使用合成数据和真实数据的广泛任务中，我们表明自回归模式下的条件神经过程，不仅显著优于非自回归条件神经过程，而且还与更复杂的模型（训练成本和难度可能高得多）形成了竞争关系。自回归条件神经过程性能出色的原因在于：不需要通过训练来模拟联合分布的依赖性。我们的工作提供了一个示例，说明了神经过程能够从 “神经分布估计的思想” 中受益，进而可以推动对其他神经过程模型的自回归部署研究。 ...

梯度下降学得的模型都近似于一个核机

发表于2023-03-17|高斯过程神经网络

【摘要】深度学习的成功通常归功于其自动发现数据新表示的能力，而不是像其他学习方法那样依赖手工制作的特征。然而，我们表明，通过标准梯度下降算法学习的深度网络实际上在数学上近似等同于核机器，这是一种简单地记忆数据并通过相似函数（核）直接将其用于预测的学习方法。通过阐明它们实际上是训练示例的叠加，这极大地增强了深度网络权重的可解释性。网络架构将目标函数的知识合并到核中。这种更好的理解应该会导致更好的学习算法。【原文】 Domingos, Pedro. “Every Model Learned by Gradient Descent Is Approximately a Kernel Machine.” arXiv, November 30, 2020. http://arxiv.org/abs/2012.00152. 1 引言尽管取得了许多成功，但深度学习仍然知之甚少（Goodfellow 等，2016 年）。相比之下，核机器基于完善的数学理论，但它们的经验性能通常落后于深度网络（Scholkopf 和 Smola，2002）。学习深度网络和许多其他模型的标准算法是梯度 ...

🔥 高斯过程推断方法索引贴

发表于2023-03-13|高斯过程模型推断

【摘要】高斯过程推断的主要目的是 “根据观测数据获得函数的高斯过程后验” ，而高斯过程的特性主要来自于协方差函数（具体来说，是该函数的参数化形式及对应的超参数值），因此，高斯过程推断问题的核心通常是：在协方差函数族的参数化形式已经确定的情况下，根据观测数据推断出协方差函数中超参数的值（或分布），这也被称为模型选择问题。推断得出的结果可被进一步用于计算测试点的值（或分布），进而实现含不确定性的预测。高斯过程推断（或模型选择）通常采用最大边缘似然方法（参见 Rasmussen 第 5 章高斯过程模型选择与自适应超参数）。根据数据模型中的似然假设，一般可以被分为高斯（例如气压、湿度等实值随机变量，通常被假设为高斯分布）和非高斯（例如分类、计数等随机变量）两种情况，前者意味着边缘似然具有解析形式，可以通过常规高斯过程推断方法获得核超参数的闭式解；而后者意味着边缘似然有可能没有解析形式，需要通过变分推断、MCMC 等方法来近似边缘似然，而后利用该近似边缘似然推断核超参数的近似解。 1 方法一览表高斯似然非高斯似然（变分方法）非高斯似然（MCMC） ...

高斯过程回归稀疏近似方法的统一视角

发表于2023-03-12|高斯过程可扩展性

【摘要】我们提供了一个新的统一视角，能够容纳所有现有的高斯过程回归的概率稀疏近似方法。我们的方法依赖于对所采用方法的有效先验（effective prior）的表达。这能够得到对这些方法的新见解，并突出现有方法之间的关系。它还允许对已知近似方法与完整高斯过程之间的接近程度进行理论上的排序。最后，我们直接给出了一种新的更好的稀疏近似设计，该设计在有吸引力的计算约束下结合了现有策略的优点。【原文】 Quinonero-Candela, J. and Rasmussen, C.E. (2005) ‘A unifying view of sparse approximate Gaussian process regression’, The Journal of Machine Learning Research, 6, pp. 1939–1959. 基于高斯过程 (GP) 的回归模型易于实现、灵活、完全概率模型，因此是许多应用领域中的强大工具。其主要局限性在于内存需求和计算需求分别随着训练点数量 nnn 的平方和立方增长，使实施只能限制在最多几千个训练点的问题上。为了克服 ...

采用伪输入的稀疏高斯过程

发表于2023-03-12|高斯过程可扩展性

【摘要】我们提出了一种新的高斯过程 (GP) 回归模型，其协方差由 MMM 个伪输入点的位置参数化，我们通过基于梯度的优化来学习该模型。我们采用 M<NM < NM<N ，其中 NNN 是真实数据点的数量，因此获得了每个测试用例具有 O(M2N)\mathcal{O}(M^2N)O(M2N) 训练成本和 O(M2)\mathcal{O}(M^2)O(M2) 预测成本的稀疏回归方法。我们还在同一联合优化中找到协方差函数的超参数。该方法可以被视为具有特定输入相关噪声的贝叶斯回归模型。事实证明，该方法与其他几种稀疏高斯过程方法密切相关，我们将详细讨论这种关系。我们最终在一些大型数据集上展示了它的性能，并与其他稀疏高斯过程方法进行了直接比较。我们表明，我们的方法可以将完整的高斯过程性能与小 MMM 相匹配，即非常稀疏的解决方案，并且它明显优于该方案中的其他方法。【原文】 Snelson, E. and Ghahramani, Z. (2005) ‘Sparse gaussian processes using pseudo-inputs’, in Y. W ...

大数据中高斯过程的随机变分推断

发表于2023-03-12|高斯过程模型推断

【摘要】学习归纳变量的变分框架 (Titsias, 2009a) 对高斯过程文献产生了很大影响。该框架可以解释为最小化近似过程和后验过程之间严格定义的 Kullback-Leibler 散度。据我们所知，迄今为止，这种联系在文献中并未被提及。在本文中，我们对有关该主题的文献进行了实质性的概括。我们给出了无限索引集结果的新证明，它允许归纳不是数据点的点和依赖于所有函数值的可能性。然后，我们讨论了扩充索引集，并表明，与以前的工作相反，扩充的边缘一致性不足以保证变分推断与原始模型的一致性。然后，我们描述了可以获得这种保证的额外条件。最后，我们展示了我们的框架如何阐明域间稀疏近似和 Cox 过程的稀疏近似。【原文】 Matthews, A.G. de G. et al. (2015) ‘On Sparse variational methods and the Kullback-Leibler divergence between stochastic processes’. arXiv. Available at: https://doi.org/10.48550/ARX ...

非高斯似然高斯过程的随机变分推断

发表于2023-03-12|高斯过程模型推断

【摘要】学习归纳变量的变分框架 (Titsias, 2009a) 对高斯过程文献产生了很大影响。该框架可以解释为最小化近似过程和后验过程之间严格定义的 Kullback-Leibler 散度。据我们所知，迄今为止，这种联系在文献中并未被提及。在本文中，我们对有关该主题的文献进行了实质性的概括。我们给出了无限索引集结果的新证明，它允许归纳不是数据点的点和依赖于所有函数值的可能性。然后，我们讨论了扩充索引集，并表明，与以前的工作相反，扩充的边缘一致性不足以保证变分推断与原始模型的一致性。然后，我们描述了可以获得这种保证的额外条件。最后，我们展示了我们的框架如何阐明域间稀疏近似和 Cox 过程的稀疏近似。【原文】 Matthews, A.G. de G. et al. (2015) ‘On Sparse variational methods and the Kullback-Leibler divergence between stochastic processes’. arXiv. Available at: https://doi.org/10.48550/ARX ...

可扩展结构化高斯过程的核插值 (KISS-GP)

发表于2023-03-12|高斯过程可扩展性

【摘要】引入了一种新的结构化核插值 (SKI) 框架，它泛化并统一了可扩展高斯过程 (GP) 的归纳点方法。 SKI 方法通过核插值生成核近似值以进行快速计算。 SKI 框架阐明了归纳点方法的质量与归纳（也称为插值）点数量、插值策略和协方差核之间的关系。 SKI 还允许通过选择不同的核插值策略来创建新的可扩展核。使用 SKI 框架，通过局部的三次核插值，我们引入了 KISS-GP，该方法：1) 比归纳点替代方案更具可扩展性；2) 自然地使 Kronecker 和 Toeplitz 代数，并在可扩展性方面获得实质性收益，且无需任何网格数据支撑；3)可用于快速和富有表现力的核学习。 KISS-GP 花费 O(n)\mathcal{O}(n)O(n) 的时间和存储复杂度来进行高斯过程推断。【原文】 Wilson, A. and Nickisch, H. (2015) ‘Kernel interpolation for scalable structured gaussian processes (KISS-GP)’, in F. Bach and D. Blei (eds) ...

稀疏高斯过程归纳点的变分学习（Titsias2009 ）

发表于2023-03-11|高斯过程模型推断

【摘要】使用归纳变量的稀疏高斯过程方法需要选择归纳输入和核超参数。我们引入了一种用于稀疏近似的变分公式，它通过最大化真实对数边缘似然的下限来联合推断归纳输入和核超参数。该公式的关键属性是归纳输入被定义为变分参数，这些变分参数是通过最小化变分分布与隐函数值的精确后验分布之间的 Kullback-Leibler 散度来选择的。我们将这种技术应用于回归，并将其与文献中的其他方法进行比较。【原文】 Titsias, Michalis. “Variational Learning of Inducing Variables in Sparse Gaussian Processes.” In Proceedings of the Twelth International Conference on Artificial Intelligence and Statistics, edited by David van Dyk and Max Welling, 5:567–74. Proceedings of Machine Learning Research. Hilton Cl ...