协方差锥化
【摘 要】 空间相关随机过程的插值被用于许多科学领域。最好的无偏线性预测器,在地统计科学中通常称为克里金预测器,需要基于观测值的协方差矩阵求解(可能很大的)线性系统。在本文中,我们展示了使用适当的紧支撑正定函数对正确的协方差矩阵进行锥化可以显著减少计算负担,并且仍然会导致渐近最优均方误差。锥化的效果是创建一个稀疏的近似线性系统,然后可以使用稀疏矩阵算法对其进行求解。蒙特卡洛模拟支持理论结果。一个大型气候降水数据集的应用作为一个具体和实际的例子被提出。 【原 文】 Furrer, R., Genton, M.G. and Nychka, D. (2006) ‘Covariance Tapering for Interpolation of Large Spatial Datasets’, Journal of Computational and Graphical Statistics, 15(3), pp. 502–523. Available at: https://doi.org/10.1198/106186006X132178. 1...
高斯预测过程
【摘 要】 有了地理编码的可用科学数据,研究人员越来越多地转向空间过程模型来进行统计推断。在过去的十年中,通过马尔可夫链蒙特卡洛方法实现的分层模型在空间建模中变得特别流行,因为它们能够灵活地拟合传统方法不可行的模型,并且避免了可能不正确的渐近。然而,拟合分层空间模型通常涉及昂贵的矩阵分解,其计算复杂度随空间位置的数量呈三次方增加,使得此类模型不适用于大型空间数据集。这种计算负担在具有多个空间相关响应变量的多变量设置中更为明显。当在频繁的时间点收集数据并使用时空过程模型时,这种情况会加剧。关于这一挑战,本文贡献是使用空间和时空数据的预测过程模型。每个空间(或时空)过程都会产生一个预测过程模型(实际上可以是任意多个)。后者将前者的过程实现投影到低维子空间,从而减少了计算负担。因此,我们实现了在大数据集上下文中拟合非平稳、非高斯、多变量、时空过程的灵活性。我们讨论了这些预测过程的理论特性,还提供了一个包含不同设置的计算模板。最后,我们用模拟和真实数据集来说明了该方法。 【原 文】 Banerjee, S. et al. (2008) ‘Gaussian predictive...
最近邻高斯过程模型
【摘 要】 用于分析地统计数据的空间过程模型需要进行计算,随着空间位置的数量变大,这些计算变得令人望而却步。本文开发了一类高度可扩展的最近邻高斯过程 (NNGP) 模型,为大型地统计数据集提供完全基于模型的推断。我们确定最近邻高斯过程是一个定义明确的空间过程,它提供合法的有限维高斯密度和稀疏精度矩阵。我们将最近邻高斯过程作为稀疏归纳先验嵌入到丰富的分层建模框架中,并概述了如何在不存储或分解大型矩阵的情况下执行计算高效的马尔可夫链蒙特卡罗 (MCMC) 算法。该算法每次迭代的浮点运算 (flops) 与空间位置的数量成线性关系,从而呈现出可观的可扩展性。我们使用模拟研究说明了最近邻高斯过程相对于竞争方法的计算和推断优势,并且还分析了美国森林资源清查数据集中的森林生物量,其规模超过了其他降维方法。本文的补充材料可在线获取。 【原 文】 Datta, A. et al. (2016) ‘Hierarchical Nearest-Neighbor Gaussian Process Models for Large Geostatistical Datasets’, Journal...
🔥 组合似然法概述
【摘 要】组合似然法是用于超大规模高斯随机场高效计算的主要方法之一,本文提供了对组合似然理论和应用的最新发展调查。论文考虑了一系列应用领域,包括地统计学、空间极值、时空模型、集群和纵向数据以及时间序列等。考虑到 Larribe 和 Fearnhead (2011) 已经发表了在统计遗传学方面的综述论文,本文省略了这一重要应用领域。本文重点介绍了组合似然理论发展、组合似然推断的效率和鲁棒性等知识现状。 【原 文】 Varin, C., Reid, N. and Firth, D. (2011) ‘AN OVERVIEW OF COMPOSITE LIKELIHOOD METHODS’, Statistica Sinica, 21(1), pp. 5–42. 1...
大型数据集的空间统计竞赛
〖摘 要〗 随着空间数据集变得越来越大和笨重,对空间模型的精确推断在计算上变得令人望而却步。已经提出了各种近似方法来减少计算负担。尽管存在对这些近似方法的综合评论,但对于一些选定的方法,它们的性能比较仅限于中小型数据集。为了实现包含尽可能多的方法的全面比较,我们组织了大型数据集空间统计竞赛。本次竞赛具有以下创新特点:1)我们使用 ExaGeoStat 软件生成合成数据集,生成的实现数在 10 万到 100 万之间; 2)我们系统地设计了数据生成模型来表示具有广泛统计特性的空间过程,适用于高斯和非高斯情况; 3) 竞赛任务包括估计和预测,并通过多个标准评估结果; 4)我们公开了所有数据集和竞赛结果,以作为其他近似方法的基准。在本文中,我们公开了所有比赛细节和结果以及对比赛结果的一些分析。 〖原 文〗 Huang, H. et al. (2021) ‘Competition on Spatial Statistics for Large Datasets’, Journal of Agricultural, Biological and Environmental...
大型空间数据分析方法案例及评测
【摘 要】 高斯过程是空间数据分析人员不可或缺的工具。然而,“大数据” 时代的到来导致传统高斯过程在计算上对现代空间数据不可行。因此,已经提出了更适合处理大空间数据的完全高斯过程的多种替代方案。这些现代方法通常利用低秩结构和/或多核和多线程计算环境来促进计算。本研究首先介绍性地概述了几种分析大型空间数据的方法。然后,阐述了由不同组实施的方法之间的预测评测结果。具体来说,每个研究组都得到了两个训练数据集(一个模拟数据集和一个观测数据集)以及一组预测位置。然后,各组实现自己的方法,并在给定位置处生成预测,每组的成果都在公共计算环境中运行。然后根据各种预测诊断对这些方法进行了比较。有关方法和代码的实现细节的补充材料可在线。 【原 文】 M. J. Heaton et al., “A Case Study Competition Among Methods for Analyzing Large Spatial Data,” Journal of Agricultural, Biological and Environmental Statistics, vol. 24, no....
克里金和高斯过程的关系
克里金法 源于地统计学,在统计学中也称为 高斯过程回归,是一种基于高斯过程的空间插值方法。在适当的先验假设下,克里金法在未采样位置提供最佳线性无偏预测 (BLUP)。该方法广泛应用于空间分析和计算机实验领域。该方法的理论基础由法国数学家 Georges Matheron 于 1960 年根据 Danie G. Krige 的硕士论文开发。 Krige 试图根据几个钻孔的样本来估计黄金最有可能的分布。 在面向二三维空间时,从数学上两者本质上是相同的。 两者之间的主要区别特征见下表: Table 1. 区分克里金和现代高斯过程的主要特征 特征 高斯过程 克里金 Bayesian vs...
空间思维及贝叶斯方法
【摘 要】本文首先从时空数据分析面临的空间依赖性、空间异质性、数据稀疏性和不确定性四个挑战谈起,阐述了空间统计思维的重要性。在简单描述了频率派思想和贝叶斯派思想的区别后,重点阐述了贝叶斯方法的优点和可行性,尤其是其中贝叶斯分层模型和贝叶斯空间计量学模型。本文节选自 Haining 的空间和时空数据建模一书, 【原 文】 R. P. Haining and G. Li, Chapter 1 ,Modelling spatial and spatial-temporal data: a Bayesian approach. Boca Raton: CRC Press, Taylor & Francis, 2020. 1 时空数据分析面临的挑战1.1 空间依赖性对于空间和时空数据,在空间和/或时间上靠得很近的值不太可能是独立的。依赖性(或缺乏独立性)是空间和时空数据的基本属性。在某个时间间隔内对某个区域观察到的数据值通常包含有关同一变量在同一(或附近)时间窗口内其他(附近)区域的数据值的一些信息。例如,仔细检查图 1.1...
点参考数据的贝叶斯建模软件spBayes
原文: Finley, A. O., Banerjee, S., & E.Gelfand, A. (2015). SpBayes for Large Univariate and Multivariate Point-Referenced Spatio-Temporal Data Models. Journal of Statistical Software, 63(13). https://doi.org/10.18637/jss.v063.i13 Andrew O. Finley,密歇根州立大学Sudipto Banerjee,加州大学洛杉矶分校Alan E. Gelfand, 杜克大学 1 模型框架的定义贝叶斯高斯空间回归模型是一个分层建模框架: $$p(\boldsymbol{\theta}) \times \mathcal{N}(\boldsymbol{\beta} | \boldsymbol{\mu}{\beta},\Sigma{\beta}) \times \mathcal{N}(\boldsymbol{\alpha} | 0,...
Cressie 的最新空间统计论述
【阅读建议】 本文是 Cressie 在 2021 年新撰写的一篇综述类文章,其主要看点包括:(1)用统一的形式化框架实现了点参考数据、面元数据、点模式数据的建模;(2)对多变量空间统计建模的统一形式化;(3)大数据的空间离散化处理方法(此处尚未理解其优势所在,需要进一步阅读引用的论文); 【摘 要】 空间统计是一个致力于与空间标签相关数据统计分析的研究领域。地理学家通常将 “位置信息” 与 “属性信息” 联系起来,并且定义了一个被称为 “空间分析” 的研究领域。许多操作空间数据的方法都是由算法驱动的,缺少与之相关的不确定性量化。如果空间分析是统计的(即结合了不确定性量化),则它属于空间统计的研究范畴。空间统计模型的主要特征是邻近的属性值比远处的属性值在统计上更相关,这也被称为地理学第一定律。 【原 文】 N. Cressie and M. T. Moores, “Spatial Statistics,” 2021, doi: 10.48550/ARXIV.2105.07216. 【参 考】 1...