西山晴雪的知识笔记

发表于2023-01-09|GeoAI大数据专题点参考数据

〖摘要〗由于计算负担，似然法通常难以用于大型、位置不规则的空间数据集。即使对于高斯模型，精确计算 nnn 个观测值的似然也需要 O(n3)\mathcal{O}(n^3)O(n3) 运算。任何联合密度都可以写成基于某些观测顺序的条件密度之积，因此一种减少计算的方法是在计算上述条件密度时，仅以部分的 “过去” 观测为条件。本文重点探讨了此类方法如何应用于受限似然的近似，特别展示了如何利用估计方程方法判断近似的有效性。此外，过前的工作通常建议以当前观测的历史最近邻观测为条件，但我们通过理论、数值和实例表明，以一些远距离的观测为条件，通常也可以带来相当大的好处。〖原文〗 Stein, M.L., Chi, Z. and Welty, L.J. (2004) ‘Approximating likelihoods for large spatial data sets’, Journal of the Royal Statistical Society: Series B (Statistical Methodology), 66(2), pp. 275–296. A ...

SPDE: 高斯场和高斯马尔可夫随机场之间的明确联系

发表于2023-01-08|GeoAI大数据专题点参考数据

【摘要】连续索引的高斯场 (GF) 是空间统计建模和地统计学中最重要的组成部分，通过协方差函数的定义给出了场性质的直观解释。在计算方面，高斯场受到大 nnn 问题限制，因为密集矩阵的分解计算成本是维度的三次方（O(n3)\mathcal{O}(n^3)O(n3)）。尽管当前计算能力处于历史最高水平，但这一事实似乎仍然是许多应用中的瓶颈。与高斯场同样中要的，还有一类离散索引的高斯马尔可夫随机场 (GMRF)，其马尔可夫性质导致精度矩阵的稀疏性，从而使我们可以使用稀疏矩阵的数值算法。对于 R2\mathbb{R}^2R2 中的场， GMRF 仅使用了一般算法所需时间的平方根（O(n3)\mathcal{O}(\sqrt{n^3})O(n3)）。 GMRF 由其完整条件分布分布定义，但在这种参数化形势下，其边缘分布性质并不明确。在本文中，我们展示了：对于 Matérn 类型的某些高斯场，（线性）随机偏微分方程的近似随机弱解，可以为 Rd\mathbb{R}^dRd 上的任何三角形剖分提供在高斯场和 GMRF 之间的显式链接，进而可以将该高斯场表示为基函数的形式。其好处是：我 ...

固定秩克里金法

发表于2023-01-08|GeoAI大数据专题点参考数据

【摘要】非常大的空间数据集的空间统计具有挑战性。数据集的大小 nnn 会导致计算最优空间预测变量（例如克里金法）出现问题，因为其计算成本为 nnn 的三次方。此外，大型数据集通常是在大型空间域上定义，因此感兴趣的空间过程通常在该域上表现出非平稳行为。通过使用一组固定数量的基函数，可以定义一个灵活的非平稳协方差函数族，这产生了我们称为 “固定秩克里金法” 的空间预测方法。具体来说，固定秩克里金法就是此类非平稳协方差函数支撑下的克里金法。当 nnn 非常大时，它依赖于计算简化，以获得隐空间过程的空间最佳线性无偏预测器及其均方预测误差。基于最小化加权 Frobenius 范数的方法产生协方差函数参数的最佳估计量，然后将其代入固定秩克里金方程。新方法适用于在整个地球上观测到的非常大的臭氧数据集，其中 nnn 约为数十万。【原文】 Cressie, N. and Johannesson, G. (2008) ‘Fixed rank kriging for very large spatial data sets: Fixed Rank Kriging’, Journal o ...

协方差锥化

发表于2023-01-07|GeoAI大数据专题点参考数据

【摘要】空间相关随机过程的插值被用于许多科学领域。最好的无偏线性预测器，在地统计科学中通常称为克里金预测器，需要基于观测值的协方差矩阵求解（可能很大的）线性系统。在本文中，我们展示了使用适当的紧支撑正定函数对正确的协方差矩阵进行锥化可以显著减少计算负担，并且仍然会导致渐近最优均方误差。锥化的效果是创建一个稀疏的近似线性系统，然后可以使用稀疏矩阵算法对其进行求解。蒙特卡洛模拟支持理论结果。一个大型气候降水数据集的应用作为一个具体和实际的例子被提出。【原文】 Furrer, R., Genton, M.G. and Nychka, D. (2006) ‘Covariance Tapering for Interpolation of Large Spatial Datasets’, Journal of Computational and Graphical Statistics, 15(3), pp. 502–523. Available at: https://doi.org/10.1198/106186006X132178. 1 引言许多学科的统计应用都依赖于根 ...

高斯预测过程

发表于2023-01-04|GeoAI大数据专题

【摘要】有了地理编码的可用科学数据，研究人员越来越多地转向空间过程模型来进行统计推断。在过去的十年中，通过马尔可夫链蒙特卡洛方法实现的分层模型在空间建模中变得特别流行，因为它们能够灵活地拟合传统方法不可行的模型，并且避免了可能不正确的渐近。然而，拟合分层空间模型通常涉及昂贵的矩阵分解，其计算复杂度随空间位置的数量呈三次方增加，使得此类模型不适用于大型空间数据集。这种计算负担在具有多个空间相关响应变量的多变量设置中更为明显。当在频繁的时间点收集数据并使用时空过程模型时，这种情况会加剧。关于这一挑战，本文贡献是使用空间和时空数据的预测过程模型。每个空间（或时空）过程都会产生一个预测过程模型（实际上可以是任意多个）。后者将前者的过程实现投影到低维子空间，从而减少了计算负担。因此，我们实现了在大数据集上下文中拟合非平稳、非高斯、多变量、时空过程的灵活性。我们讨论了这些预测过程的理论特性，还提供了一个包含不同设置的计算模板。最后，我们用模拟和真实数据集来说明了该方法。【原文】 Banerjee, S. et al. (2008) ‘Gaussian predictive pr ...

最近邻高斯过程模型

发表于2023-01-04|GeoAI大数据专题点参考数据

【摘要】用于分析地统计数据的空间过程模型需要进行计算，随着空间位置的数量变大，这些计算变得令人望而却步。本文开发了一类高度可扩展的最近邻高斯过程 (NNGP) 模型，为大型地统计数据集提供完全基于模型的推断。我们确定最近邻高斯过程是一个定义明确的空间过程，它提供合法的有限维高斯密度和稀疏精度矩阵。我们将最近邻高斯过程作为稀疏归纳先验嵌入到丰富的分层建模框架中，并概述了如何在不存储或分解大型矩阵的情况下执行计算高效的马尔可夫链蒙特卡罗 (MCMC) 算法。该算法每次迭代的浮点运算 (flops) 与空间位置的数量成线性关系，从而呈现出可观的可扩展性。我们使用模拟研究说明了最近邻高斯过程相对于竞争方法的计算和推断优势，并且还分析了美国森林资源清查数据集中的森林生物量，其规模超过了其他降维方法。本文的补充材料可在线获取。【原文】 Datta, A. et al. (2016) ‘Hierarchical Nearest-Neighbor Gaussian Process Models for Large Geostatistical Datasets’, Journal ...

🔥 组合似然法概述

发表于2022-12-30|贝叶斯统计GeoAI高斯过程大数据专题可扩展性似然方法

【摘要】组合似然法是用于超大规模高斯随机场高效计算的主要方法之一，本文提供了对组合似然理论和应用的最新发展调查。论文考虑了一系列应用领域，包括地统计学、空间极值、时空模型、集群和纵向数据以及时间序列等。考虑到 Larribe 和 Fearnhead (2011) 已经发表了在统计遗传学方面的综述论文，本文省略了这一重要应用领域。本文重点介绍了组合似然理论发展、组合似然推断的效率和鲁棒性等知识现状。【原文】 Varin, C., Reid, N. and Firth, D. (2011) ‘AN OVERVIEW OF COMPOSITE LIKELIHOOD METHODS’, Statistica Sinica, 21(1), pp. 5–42. 1 简介组合似然是通过将若干似然分量相乘得出的一个推断函数；所使用的似然分量集合通常由应用上下文决定。因为每个个体似然分量都是条件密度（或边缘密度，根据应用而定），所以从复合对数似然的导数得出的估计方程，是一个无偏估计方程。无论这些个体似然分量是否相互独立，根据其乘法所得到的推断函数都会包含所指定模型的似然性质。本文回 ...

大型数据集的空间统计竞赛

发表于2022-12-13|GeoAI大数据专题点参考数据

〖摘要〗随着空间数据集变得越来越大和笨重，对空间模型的精确推断在计算上变得令人望而却步。已经提出了各种近似方法来减少计算负担。尽管存在对这些近似方法的综合评论，但对于一些选定的方法，它们的性能比较仅限于中小型数据集。为了实现包含尽可能多的方法的全面比较，我们组织了大型数据集空间统计竞赛。本次竞赛具有以下创新特点：1）我们使用 ExaGeoStat 软件生成合成数据集，生成的实现数在 10 万到 100 万之间； 2）我们系统地设计了数据生成模型来表示具有广泛统计特性的空间过程，适用于高斯和非高斯情况； 3) 竞赛任务包括估计和预测，并通过多个标准评估结果； 4）我们公开了所有数据集和竞赛结果，以作为其他近似方法的基准。在本文中，我们公开了所有比赛细节和结果以及对比赛结果的一些分析。〖原文〗 Huang, H. et al. (2021) ‘Competition on Spatial Statistics for Large Datasets’, Journal of Agricultural, Biological and Environmental Statis ...

大型空间数据分析方法案例及评测

发表于2022-12-04|GeoAI大数据专题点参考数据

【摘要】高斯过程是空间数据分析人员不可或缺的工具。然而，“大数据” 时代的到来导致传统高斯过程在计算上对现代空间数据不可行。因此，已经提出了更适合处理大空间数据的完全高斯过程的多种替代方案。这些现代方法通常利用低秩结构和/或多核和多线程计算环境来促进计算。本研究首先介绍性地概述了几种分析大型空间数据的方法。然后，阐述了由不同组实施的方法之间的预测评测结果。具体来说，每个研究组都得到了两个训练数据集（一个模拟数据集和一个观测数据集）以及一组预测位置。然后，各组实现自己的方法，并在给定位置处生成预测，每组的成果都在公共计算环境中运行。然后根据各种预测诊断对这些方法进行了比较。有关方法和代码的实现细节的补充材料可在线。【原文】 M. J. Heaton et al., “A Case Study Competition Among Methods for Analyzing Large Spatial Data,” Journal of Agricultural, Biological and Environmental Statistics, vol. 24, no. ...

点参考数据的贝叶斯建模软件spBayes

发表于2022-11-28|GeoAI大数据专题点参考数据

原文： Finley, A. O., Banerjee, S., & E.Gelfand, A. (2015). SpBayes for Large Univariate and Multivariate Point-Referenced Spatio-Temporal Data Models. Journal of Statistical Software, 63(13). https://doi.org/10.18637/jss.v063.i13 Andrew O. Finley，密歇根州立大学 Sudipto Banerjee，加州大学洛杉矶分校 Alan E. Gelfand，杜克大学 1 模型框架的定义贝叶斯高斯空间回归模型是一个分层建模框架： p(θ)×N(β∣μβ,Σβ)×N(α∣0,K(θ))×N(y∣Xβ+Z(θ)α,D(θ))(1)p(\boldsymbol{\theta}) \times \mathcal{N}(\boldsymbol{\beta} | \boldsymbol{\mu}_{\beta},\Sigma_{\beta}) \ti ...