SPDE: 高斯场和高斯马尔可夫随机场之间的明确联系
【摘 要】 连续索引的高斯场 (GF) 是空间统计建模和地统计学中最重要的组成部分,通过协方差函数的定义给出了场性质的直观解释。在计算方面,高斯场受到大 nnn 问题限制,因为密集矩阵的分解计算成本是维度的三次方(O(n3)\mathcal{O}(n^3)O(n3))。尽管当前计算能力处于历史最高水平,但这一事实似乎仍然是许多应用中的瓶颈。与高斯场同样中要的,还有一类离散索引的高斯马尔可夫随机场 (GMRF),其马尔可夫性质导致精度矩阵的稀疏性,从而使我们可以使用稀疏矩阵的数值算法。对于 R2\mathbb{R}^2R2 中的场, GMRF 仅使用了一般算法所需时间的平方根(O(n3)\mathcal{O}(\sqrt{n^3})O(n3))。 GMRF 由其完整条件分布分布定义,但在这种参数化形势下,其边缘分布性质并不明确。在本文中,我们展示了:对于 Matérn 类型的某些高斯场,(线性)随机偏微分方程的近似随机弱解,可以为 Rd\mathbb{R}^dRd 上的任何三角形剖分提供在高斯场和 GMRF 之间的显式链接,进而可以将该高斯场表示为基函数的形式。其好处是:我 ...
固定秩克里金法
【摘 要】 非常大的空间数据集的空间统计具有挑战性。数据集的大小 nnn 会导致计算最优空间预测变量(例如克里金法)出现问题,因为其计算成本为 nnn 的三次方。此外,大型数据集通常是在大型空间域上定义,因此感兴趣的空间过程通常在该域上表现出非平稳行为。 通过使用一组固定数量的基函数,可以定义一个灵活的非平稳协方差函数族,这产生了我们称为 “固定秩克里金法” 的空间预测方法。具体来说,固定秩克里金法就是此类非平稳协方差函数支撑下的克里金法。当 nnn 非常大时,它依赖于计算简化,以获得隐空间过程的空间最佳线性无偏预测器及其均方预测误差。基于最小化加权 Frobenius 范数的方法产生协方差函数参数的最佳估计量,然后将其代入固定秩克里金方程。新方法适用于在整个地球上观测到的非常大的臭氧数据集,其中 nnn 约为数十万。
【原 文】 Cressie, N. and Johannesson, G. (2008) ‘Fixed rank kriging for very large spatial data sets: Fixed Rank Kriging’, Journal o ...
协方差锥化
【摘 要】 空间相关随机过程的插值被用于许多科学领域。最好的无偏线性预测器,在地统计科学中通常称为克里金预测器,需要基于观测值的协方差矩阵求解(可能很大的)线性系统。在本文中,我们展示了使用适当的紧支撑正定函数对正确的协方差矩阵进行锥化可以显着减少计算负担,并且仍然会导致渐近最优均方误差。锥化的效果是创建一个稀疏的近似线性系统,然后可以使用稀疏矩阵算法对其进行求解。蒙特卡洛模拟支持理论结果。一个大型气候降水数据集的应用作为一个具体和实际的例子被提出。
【原 文】 Furrer, R., Genton, M.G. and Nychka, D. (2006) ‘Covariance Tapering for Interpolation of Large Spatial Datasets’, Journal of Computational and Graphical Statistics, 15(3), pp. 502–523. Available at: https://doi.org/10.1198/106186006X132178.
1 引言
许多学科的统计应用都依赖于根 ...
高斯预测过程
【摘 要】 有了地理编码的可用科学数据,研究人员越来越多地转向空间过程模型来进行统计推断。在过去的十年中,通过马尔可夫链蒙特卡洛方法实现的分层模型在空间建模中变得特别流行,因为它们能够灵活地拟合传统方法不可行的模型,并且避免了可能不正确的渐近。然而,拟合分层空间模型通常涉及昂贵的矩阵分解,其计算复杂度随空间位置的数量呈三次方增加,使得此类模型不适用于大型空间数据集。这种计算负担在具有多个空间相关响应变量的多变量设置中更为明显。当在频繁的时间点收集数据并使用时空过程模型时,这种情况会加剧。关于这一挑战,本文贡献是使用空间和时空数据的预测过程模型。每个空间(或时空)过程都会产生一个预测过程模型(实际上可以是任意多个)。后者将前者的过程实现投影到低维子空间,从而减少了计算负担。因此,我们实现了在大数据集上下文中拟合非平稳、非高斯、多变量、时空过程的灵活性。我们讨论了这些预测过程的理论特性,还提供了一个包含不同设置的计算模板。最后,我们用模拟和真实数据集来说明了该方法。
【原 文】 Banerjee, S. et al. (2008) ‘Gaussian predictive pr ...
最近邻高斯过程模型
【摘 要】 用于分析地统计数据的空间过程模型需要进行计算,随着空间位置的数量变大,这些计算变得令人望而却步。本文开发了一类高度可扩展的最近邻高斯过程 (NNGP) 模型,为大型地统计数据集提供完全基于模型的推断。我们确定最近邻高斯过程是一个定义明确的空间过程,它提供合法的有限维高斯密度和稀疏精度矩阵。我们将最近邻高斯过程作为稀疏归纳先验嵌入到丰富的分层建模框架中,并概述了如何在不存储或分解大型矩阵的情况下执行计算高效的马尔可夫链蒙特卡罗 (MCMC) 算法。该算法每次迭代的浮点运算 (flops) 与空间位置的数量成线性关系,从而呈现出可观的可扩展性。我们使用模拟研究说明了最近邻高斯过程相对于竞争方法的计算和推断优势,并且还分析了美国森林资源清查数据集中的森林生物量,其规模超过了其他降维方法。本文的补充材料可在线获取。
【原 文】 Datta, A. et al. (2016) ‘Hierarchical Nearest-Neighbor Gaussian Process Models for Large Geostatistical Datasets’, Journal ...
🔥 组合似然法概述
【摘 要】组合似然法是用于超大规模高斯随机场高效计算的主要方法之一,本文提供了对组合似然理论和应用的最新发展调查。论文考虑了一系列应用领域,包括地统计学、空间极值、时空模型、集群和纵向数据以及时间序列等。考虑到 Larribe 和 Fearnhead (2011) 已经发表了在统计遗传学方面的综述论文,本文省略了这一重要应用领域。本文重点介绍了组合似然理论发展、组合似然推断的效率和鲁棒性等知识现状。
【原 文】 Varin, C., Reid, N. and Firth, D. (2011) ‘AN OVERVIEW OF COMPOSITE LIKELIHOOD METHODS’, Statistica Sinica, 21(1), pp. 5–42.
1 简介
组合似然是通过将若干似然分量相乘得出的一个推断函数;所使用的似然分量集合通常由应用上下文决定。因为每个个体似然分量都是条件密度(或边缘密度,根据应用而定),所以从复合对数似然的导数得出的估计方程,是一个无偏估计方程。无论这些个体似然分量是否相互独立,根据其乘法所得到的推断函数都会包含所指定模型的似然性质。
本文回 ...
基于空间滤波的大型数据集空间变系数建模
〖摘 要〗 虽然空间变系数 (SVC) 建模在应用科学中很流行,但其计算负担很大。如果考虑空间变系数的多尺度属性,则尤其如此。鉴于此背景,本研究开发了一种基于 Moran 特征向量的空间变系数 (M-SVC) 建模方法,可有效地估计多尺度空间变系数模型。该估计通过 (1) 秩降低、(2) 预压缩和 (3) 顺序似然最大化来加速。步骤 (1) 和 (2) 从似然函数中消除样本大小 N;在这些步骤之后,似然最大化成本与 N 无关。步骤 (3) 进一步加速似然最大化,因此即使空间变系数的数量 K 很大,也可以估计多尺度空间变系数模型。通过蒙特卡罗模拟实验将 M-SVC 方法与地理加权回归 (GWR) 进行比较。这些模拟结果表明,当 N 很大时,本文方法比地理加权回归快得多,尽管数值估计了 2K 个参数,而地理加权回归仅数值估计了 1 个参数。然后,将所提出的方法应用于土地价格分析作为说明。开发的空间变系数估计方法在 R 包 “spmoran” 中实现
〖原 文〗 Murakami, D. and Griffith, D.A. (2019) ‘Spatially varying c ...
艺术、地理信息和数学之间存在惊人的接口
【摘 要】 地理与艺术或数学与艺术之间是否存在任何已知的协同作用,将所有这三个学科联系起来?地理人文和数学人文文献只描述了这两个单独的协同作用。一种新的定量地理学方法利用复杂的数学概念来分析遥感卫星图像,当扩展到艺术绘画时,它确实跨越了所有三个学科。组织概念是空间自相关,或者不相似/相似的颜色及其强度在绘画中聚集的趋势。本文总结了这一论点的论证,并具体应用于达芬奇、莫奈和伦勃朗的画作。它的主要贡献是,对于绘画的高地理分辨率数字版本,通过明智选择和组合的空间自相关分量构建的复制品与其原始来源的数字副本非常接近,进一步概括了文献中报道的某些近期发现。
【原 文】 Griffith, D.A. (2022) ‘Art, Geography/GIScience, and mathematics: A surprising interface’, Annals of the American Association of Geographers, 0(0), pp. 1–12. Available at: https://doi.org/10.1080/24694452.2022.2 ...
大型数据集的空间统计竞赛
〖摘 要〗 随着空间数据集变得越来越大和笨重,对空间模型的精确推断在计算上变得令人望而却步。已经提出了各种近似方法来减少计算负担。尽管存在对这些近似方法的综合评论,但对于一些选定的方法,它们的性能比较仅限于中小型数据集。为了实现包含尽可能多的方法的全面比较,我们组织了大型数据集空间统计竞赛。本次竞赛具有以下创新特点:1)我们使用 ExaGeoStat 软件生成合成数据集,生成的实现数在 10 万到 100 万之间; 2)我们系统地设计了数据生成模型来表示具有广泛统计特性的空间过程,适用于高斯和非高斯情况; 3) 竞赛任务包括估计和预测,并通过多个标准评估结果; 4)我们公开了所有数据集和竞赛结果,以作为其他近似方法的基准。在本文中,我们公开了所有比赛细节和结果以及对比赛结果的一些分析。
〖原 文〗 Huang, H. et al. (2021) ‘Competition on Spatial Statistics for Large Datasets’, Journal of Agricultural, Biological and Environmental Statis ...
🔥 大规模空间表面时间序列建模
【摘 要】 在许多现象中观测到的数据都具有空间和时间成分。由于复杂高性能技术的快速发展,现在可以大规模收集时空数据。然而,大型时空数据集的统计建模涉及几个具有挑战性的问题。例如,处理大型数据集和时空非平稳性在计算上具有挑战性。因此,有必要开发新的统计模型。在这里,我们提出了一种新方法来模拟复杂的大型时空数据集。在我们的方法中,在每个时间点估计一个连续的表面,用于捕获空间依赖性(可能是非平稳的)。以这种方式,时空数据产生一系列表面。然后,使用函数型时间序列技术对此表面序列进行建模。函数型时间序列方法使我们能够获得计算上可行的方法,并且还在时间预测方面提供了广泛的灵活性。我们通过蒙特卡罗模拟研究来说明这些优势。我们还使用超过 400 万个值的高分辨率风速模拟数据集测试了方法的性能。总的来说,本方法使用了一种新的数据分析范式,其中随机场被视为一个单一的实体,这在大数据的背景下是一种非常有价值的方法。
【原 文】 I. Martínez-Hernández and M. G. Genton, “Surface time series models for large spatio- ...