Rasmussen 第 4 章 高斯过程的协方差函数
【摘 要】 协方差函数是高斯过程方法的核心,本文给出了关于协方差函数的概述。
【原 文】 Rasmussen, C.E. and Williams, C.K. (2006), Chapter 4 of Gaussian processes for machine learning. Cambridge, Mass: MIT press Cambridge, MA (3).
第 4 章 协方差函数
我们已经看到,协方差函数是高斯过程预测器中的关键成分,因为它编码了我们对所希望学习的函数的假设。从稍微不同的角度来看,很明显在监督学习中数据点之间的相似性概念是至关重要的;一个基本假设是输入 x\mathbf{x}x 接近的点可能具有相似的目标值 yyy,因此靠近测试点的训练点应该提供有关该点预测的信息。在高斯过程视图下,协方差函数定义了接近度或相似度。
输入对 x\mathbf{x}x 和 x′\mathbf{x}'x′ 的任意函数通常不会是有效的协方差函数。本章的目的是给出一些常用协方差函数的示例并检查它们的性质。
第 4.1 节定义了一些与协方差函数相关的基本术语。
第 4 ...
Rasmussen 第 5 章 高斯过程模型选择与自适应超参数
【摘 要】 在许多高斯过程的实际应用中,协方差函数很难指定。此外,前人已经提出了很多协方差函数,其中许多协方差函数具有大量参数,使得协方差函数的选择更为困难。因此,需要开发解决模型选择问题的方法。本文相当广泛地解释了高斯过程模型选择问题,包括协方差函数的选择、超参数值的确定等。本文节选自 《Gaussian processes for machine learning》一书的第五章。
【原 文】 Rasmussen, C.E. and Williams, C.K. (2006) Gaussian processes for machine learning, chapter 5. Cambridge, Mass: MIT press Cambridge, MA (3).
1 模型选择问题
为了使模型成为应用程序中的实用工具,需要对其定义的细节做出决定。有些性质可能很容易指定,但有些方面的信息是模糊的,我们使用术语 “模型选择” 来涵盖协方差函数参数的具体选择和连续(超-)参数设置,事实上,模型选择既可以帮助改进模型的预测,也可以为用户提供有关数据性质的有价值的解释,例如一个 ...
Rasmussen 第 6 章 高斯过程与其他模型的关系
【摘 要】 讨论一些与高斯过程预测相关的概念和模型,包括再生核 Hilbert 空间 (RKHSs)、正则化理论、样条曲线、支持向量机、最小二乘分类 (LSC)、相关向量机 (RVM) 等。 本文节选自 《Gaussian processes for machine learning》一书的第六章。
【原 文】 Rasmussen, C.E. and Williams, C.K. (2006) Gaussian processes for machine learning, chapter 6. Cambridge, Mass: MIT press Cambridge, MA (3).
在本章中,我们将讨论一些与高斯过程预测相关的概念和模型。在 第 6.1 节 中,我们介绍了再生核 Hilbert 空间 (RKHSs),它定义了对应于给定正半定核 k 的足够光滑函数的 Hilbert 空间。
正如我们在第 1 章中讨论的那样,有许多函数与给定的数据集 D\mathcal{D}D 一致。我们已经看到高斯过程方法如何将先验置于函数之上以处理此问题。正则化理论(在 第 6.2 节 ...
🔥 神经扩散过程(NDP)
【摘 要】 高斯过程为指定函数的先验分布和后验分布提供了一个优雅的框架。然而,它们计算代价很高,并且受到协方差函数表达能力的限制。我们提出了神经扩散过程 (NDP),这是一种基于扩散模型的新方法,它学习如何从函数的分布中进行采样。使用一种新颖的注意力块,我们能够将随机过程的性质(例如可交换性)直接整合到神经扩散架构中。经验表明,神经扩散过程能够捕获与高斯过程的真实贝叶斯后验接近的函数型分布。这使各种下游任务成为可能,包括超参数的边缘化和贝叶斯优化。
【原 文】 Dutordoir, V. et al. (2022) ‘Neural Diffusion Processes’. arXiv. Available at: http://arxiv.org/abs/2206.03992 (Accessed: 21 February 2023).
1 简介
高斯过程 (GP) 提供了一个强大的框架来定义函数的分布 [23]。高斯过程的一个关键优势是其可交换性,这使得从训练模型中获得任意位置的一致预测成为可能。但是,有两个关键因素限制了高斯过程在现实世界中可处理的任务范围。首先,推断成 ...
🔥 神经网络用于难处理模型的参数估计
【摘 要】 当标准似然估计方法在计算上不可行时,我们建议使用深度学习来估计统计模型中的参数。我们展示了如何从最大稳定过程中估计参数,其中即使使用小数据集进行推理也非常具有挑战性,但模拟很简单。我们使用来自模型模拟的数据作为输入并训练深度神经网络来学习统计参数。我们基于神经网络的方法为当前方法提供了一种有竞争力的替代方法,这一点在相当大的准确性和计算时间改进中得到了证明。它作为统计参数估计中深度学习的概念证明,可以扩展到其他估计问题。
【原 文】 Lenzi, A. et al. (2021) ‘Neural Networks for Parameter Estimation in Intractable Models’. arXiv. Available at: http://arxiv.org/abs/2107.14346 (Accessed: 15 November 2022).
1 简介
由于数据存储和传感器技术的进步,越来越多的大型数据集不可避免地显示出复杂的依赖关系,给统计建模和预测带来了新的机遇和新的挑战。环境过程给出了一个重要的例子,数据集可以在多个空间和时间 ...
使用神经网络实现空间高斯过程模型的快速协方差参数估计
【摘 要】 当标准似然估计方法在计算上不可行时,我们建议使用深度学习来估计统计模型中的参数。我们展示了如何从最大稳定过程中估计参数,其中即使使用小数据集进行推理也非常具有挑战性,但模拟很简单。我们使用来自模型模拟的数据作为输入并训练深度神经网络来学习统计参数。我们基于神经网络的方法为当前方法提供了一种有竞争力的替代方法,这一点在相当大的准确性和计算时间改进中得到了证明。它作为统计参数估计中深度学习的概念证明,可以扩展到其他估计问题。
【原 文】 Lenzi, A. et al. (2021) ‘Neural Networks for Parameter Estimation in Intractable Models’. arXiv. Available at: http://arxiv.org/abs/2107.14346 (Accessed: 15 November 2022).
1 简介
由于数据存储和传感器技术的进步,越来越多的大型数据集不可避免地显示出复杂的依赖关系,给统计建模和预测带来了新的机遇和新的挑战。环境过程给出了一个重要的例子,数据集可以在多个空间和时间 ...
神经常微分方程
【摘 要】 我们介绍了一个新的深度神经网络模型家族。在该模型中,我们并没有定义隐藏层的离散序列,而是使用神经网络对隐状态的导数进行了参数化,并使用黑盒微分方程求解器计算神经网络的输出。这些“连续深度” 的模型具有恒定的内存成本,这使其计算策略适应每个输入,并且可以明确地以数值精度换取速度。我们在“连续深度” 的残差网络和“连续时间”的隐变量模型中展示了这些性质。我们还构建了连续的归一化流,这是一种可以通过最大似然进行训练、且无需对数据维度进行分区或排序的生成式模型。对于训练,我们展示了在不访问内部计算的情况下,任意常微分方程求解的反向传播方法,这使大型模型能够对常微分方程进行端到端训练。
【原 文】 Chen, R.T.Q. et al. (2019) ‘Neural Ordinary Differential Equations’. arXiv. Available at: http://arxiv.org/abs/1806.07366 (Accessed: 15 November 2022).
1 常微分方程及其数值解
1.1 常微分方程问题
常微分方程是只包含单个自变 ...
🔥 深度神经网络用于大规模空间预测
【摘 要】 对于空间克里金预测,高斯过程 (GP) 几十年来一直是空间统计学家的首选工具。然而,高斯过程受到计算困难的困扰,使其无法用于大型空间数据集。另一方面,神经网络 (NN) 已成为一种灵活且计算上可行的捕获非线性关系的方法。然而,迄今为止,神经网络仅很少用于解决空间统计问题,但它们的使用已开始扎根。在这项工作中,我们论证了神经网络和高斯过程之间的等价性,并演示了如何为大型空间数据的克里金法实施神经网络。我们比较了神经网络的计算效率和预测能力与高斯过程近似在各种大空间高斯、非高斯和二进制数据应用程序中的计算效率和预测能力,大小高达 n=106n = 10^6n=106。我们的结果表明,完全连接的神经网络的性能与状态相似用于短期预测的最先进的高斯过程近似模型,但可能会受到更长期预测的影响。
【原 文】 Gray, S.D. et al. (2022) ‘On the Use of Deep Neural Networks for Large-Scale Spatial Prediction’, Journal of Data Science, pp. 493–511. ...
Theorem、Proposition、Lemma 和 Corollary 等的解释与区别
Axiom/Postulate:公理。不需要证明的论述,是所有其他 Theorem 的基础。
Theorem:定理。是文章中重要的数学化的论述,一般有严格的数学证明。
Proposition:可以翻译为命题,经过证明且 interesting,但没有 Theorem 重要,比较常用。
Lemma:引理,一种比较小的定理,通常 lemma 的提出是为了来逐步辅助证明 Theorem,有时候可以将 Theorem 拆分成多个小的 Lemma 来逐步证明,以使得证明的思路更加清晰。很少情况下 Lemma 会以其自身的形式 存在。
Corollary:推论,由 Theorem 推出来的结论,通常我们会直接说 this is a corollary of Theorem A。
Property:性质,结果值得一记,但是没有 Theorem 深刻。
Claim:陈述,先论述然后会在后面进行论证,可以看作非正式的 lemma。
Note:就是注解。
Remark:涉及到一些结论,相对而言,Note 像是说明,而 Remark 则是非正式的定理。
C ...
🔥 深度克里金法(DeepKriging)
【摘 要】 在空间统计中,利用空间依赖性来预测未观测位置的空间过程值是一个共同的目标。克里金法使用协方差函数(或变异函数)提供了最佳线性无偏预测器,并且通常与高斯过程相关。但当考虑非高斯数据或分类数据的非线性预测问题时,克里金预测不再是最优的,而且其方差往往过于乐观。尽管深度神经网络 (DNN) 广泛用于分类和预测任务,但对具有空间依赖性的数据尚缺乏深入研究。在本文工作中,我们提出了一种用于空间预测的新型 DNN 结构,通过在 DNN 之前添加一个具有基函数的空间坐标嵌入层来捕获空间依赖性。理论和模拟研究结果表明:所提出的 DeepKriging 方法与高斯情况下的克里金法有直接联系。由于该方法提供的是非线性预测,因此相较于克里金法而言,新方法对于非高斯和非平稳数据会有更多优势,也具有更小的近似误差。DeepKriging 不需要对协方差矩阵进行运算,因此可扩展到大型数据集。当具有足够多隐神经元时,它能够根据模型容量提供最佳预测。我们进一步探讨了在不假设任何数据分布的情况下,基于密度预测来量化预测不确定性的可能性。最后,我们将该方法应用于预测整个美国大陆的 PM2.5 浓度 ...