近似受限似然方法
〖摘 要〗 由于计算负担,似然法通常难以用于大型、位置不规则的空间数据集。即使对于高斯模型,精确计算 nnn 个观测值的似然也需要 O(n3)\mathcal{O}(n^3)O(n3) 运算。任何联合密度都可以写成基于某些观测顺序的条件密度之积,因此一种减少计算的方法是在计算上述条件密度时,仅以部分的 “过去” 观测为条件。本文重点探讨了此类方法如何应用于受限似然的近似,特别展示了如何利用 估计方程方法 判断近似的有效性。此外,过前的工作通常建议以当前观测的历史最近邻观测为条件,但我们通过理论、数值和实例表明,以一些远距离的观测为条件,通常也可以带来相当大的好处。
〖原 文〗 Stein, M.L., Chi, Z. and Welty, L.J. (2004) ‘Approximating likelihoods for large spatial data sets’, Journal of the Royal Statistical Society: Series B (Statistical Methodology), 66(2), pp. 275–296. A ...
SPDE: 高斯场和高斯马尔可夫随机场之间的明确联系
【摘 要】 连续索引的高斯场 (GF) 是空间统计建模和地统计学中最重要的组成部分,通过协方差函数的定义给出了场性质的直观解释。在计算方面,高斯场受到大 nnn 问题限制,因为密集矩阵的分解计算成本是维度的三次方(O(n3)\mathcal{O}(n^3)O(n3))。尽管当前计算能力处于历史最高水平,但这一事实似乎仍然是许多应用中的瓶颈。与高斯场同样中要的,还有一类离散索引的高斯马尔可夫随机场 (GMRF),其马尔可夫性质导致精度矩阵的稀疏性,从而使我们可以使用稀疏矩阵的数值算法。对于 R2\mathbb{R}^2R2 中的场, GMRF 仅使用了一般算法所需时间的平方根(O(n3)\mathcal{O}(\sqrt{n^3})O(n3))。 GMRF 由其完整条件分布分布定义,但在这种参数化形势下,其边缘分布性质并不明确。在本文中,我们展示了:对于 Matérn 类型的某些高斯场,(线性)随机偏微分方程的近似随机弱解,可以为 Rd\mathbb{R}^dRd 上的任何三角形剖分提供在高斯场和 GMRF 之间的显式链接,进而可以将该高斯场表示为基函数的形式。其好处是:我 ...
固定秩克里金法
【摘 要】 非常大的空间数据集的空间统计具有挑战性。数据集的大小 nnn 会导致计算最优空间预测变量(例如克里金法)出现问题,因为其计算成本为 nnn 的三次方。此外,大型数据集通常是在大型空间域上定义,因此感兴趣的空间过程通常在该域上表现出非平稳行为。 通过使用一组固定数量的基函数,可以定义一个灵活的非平稳协方差函数族,这产生了我们称为 “固定秩克里金法” 的空间预测方法。具体来说,固定秩克里金法就是此类非平稳协方差函数支撑下的克里金法。当 nnn 非常大时,它依赖于计算简化,以获得隐空间过程的空间最佳线性无偏预测器及其均方预测误差。基于最小化加权 Frobenius 范数的方法产生协方差函数参数的最佳估计量,然后将其代入固定秩克里金方程。新方法适用于在整个地球上观测到的非常大的臭氧数据集,其中 nnn 约为数十万。
【原 文】 Cressie, N. and Johannesson, G. (2008) ‘Fixed rank kriging for very large spatial data sets: Fixed Rank Kriging’, Journal o ...
协方差锥化
【摘 要】 空间相关随机过程的插值被用于许多科学领域。最好的无偏线性预测器,在地统计科学中通常称为克里金预测器,需要基于观测值的协方差矩阵求解(可能很大的)线性系统。在本文中,我们展示了使用适当的紧支撑正定函数对正确的协方差矩阵进行锥化可以显着减少计算负担,并且仍然会导致渐近最优均方误差。锥化的效果是创建一个稀疏的近似线性系统,然后可以使用稀疏矩阵算法对其进行求解。蒙特卡洛模拟支持理论结果。一个大型气候降水数据集的应用作为一个具体和实际的例子被提出。
【原 文】 Furrer, R., Genton, M.G. and Nychka, D. (2006) ‘Covariance Tapering for Interpolation of Large Spatial Datasets’, Journal of Computational and Graphical Statistics, 15(3), pp. 502–523. Available at: https://doi.org/10.1198/106186006X132178.
1 引言
许多学科的统计应用都依赖于根 ...
最近邻高斯过程模型
【摘 要】 用于分析地统计数据的空间过程模型需要进行计算,随着空间位置的数量变大,这些计算变得令人望而却步。本文开发了一类高度可扩展的最近邻高斯过程 (NNGP) 模型,为大型地统计数据集提供完全基于模型的推断。我们确定最近邻高斯过程是一个定义明确的空间过程,它提供合法的有限维高斯密度和稀疏精度矩阵。我们将最近邻高斯过程作为稀疏归纳先验嵌入到丰富的分层建模框架中,并概述了如何在不存储或分解大型矩阵的情况下执行计算高效的马尔可夫链蒙特卡罗 (MCMC) 算法。该算法每次迭代的浮点运算 (flops) 与空间位置的数量成线性关系,从而呈现出可观的可扩展性。我们使用模拟研究说明了最近邻高斯过程相对于竞争方法的计算和推断优势,并且还分析了美国森林资源清查数据集中的森林生物量,其规模超过了其他降维方法。本文的补充材料可在线获取。
【原 文】 Datta, A. et al. (2016) ‘Hierarchical Nearest-Neighbor Gaussian Process Models for Large Geostatistical Datasets’, Journal ...
大型数据集的空间统计竞赛
〖摘 要〗 随着空间数据集变得越来越大和笨重,对空间模型的精确推断在计算上变得令人望而却步。已经提出了各种近似方法来减少计算负担。尽管存在对这些近似方法的综合评论,但对于一些选定的方法,它们的性能比较仅限于中小型数据集。为了实现包含尽可能多的方法的全面比较,我们组织了大型数据集空间统计竞赛。本次竞赛具有以下创新特点:1)我们使用 ExaGeoStat 软件生成合成数据集,生成的实现数在 10 万到 100 万之间; 2)我们系统地设计了数据生成模型来表示具有广泛统计特性的空间过程,适用于高斯和非高斯情况; 3) 竞赛任务包括估计和预测,并通过多个标准评估结果; 4)我们公开了所有数据集和竞赛结果,以作为其他近似方法的基准。在本文中,我们公开了所有比赛细节和结果以及对比赛结果的一些分析。
〖原 文〗 Huang, H. et al. (2021) ‘Competition on Spatial Statistics for Large Datasets’, Journal of Agricultural, Biological and Environmental Statis ...
🔥 大规模空间表面时间序列建模
【摘 要】 在许多现象中观测到的数据都具有空间和时间成分。由于复杂高性能技术的快速发展,现在可以大规模收集时空数据。然而,大型时空数据集的统计建模涉及几个具有挑战性的问题。例如,处理大型数据集和时空非平稳性在计算上具有挑战性。因此,有必要开发新的统计模型。在这里,我们提出了一种新方法来模拟复杂的大型时空数据集。在我们的方法中,在每个时间点估计一个连续的表面,用于捕获空间依赖性(可能是非平稳的)。以这种方式,时空数据产生一系列表面。然后,使用函数型时间序列技术对此表面序列进行建模。函数型时间序列方法使我们能够获得计算上可行的方法,并且还在时间预测方面提供了广泛的灵活性。我们通过蒙特卡罗模拟研究来说明这些优势。我们还使用超过 400 万个值的高分辨率风速模拟数据集测试了方法的性能。总的来说,本方法使用了一种新的数据分析范式,其中随机场被视为一个单一的实体,这在大数据的背景下是一种非常有价值的方法。
【原 文】 I. Martínez-Hernández and M. G. Genton, “Surface time series models for large spatio- ...
地球系统科学中的神经地球系统建模
【摘 要】 地球系统模型 (ESM) 是量化地球物理状态并预测未来可能发生的变化的主要工具。然而,近年来,人工智能 (AI) 方法越来越多地用于增强甚至取代经典的地球系统模型任务,这让人们对人工智能能够解决气候科学的一些重大挑战产生了希望。在此观点中,我们调查了过程模型和 AI 在地球系统和气候研究中的最新成就和局限性,并提出了一种方法论转变,其中深度神经网络和地球系统模型被区分为单独的方法,并重新组合为学习、自我验证和可解释的地球系统模型-神经网络混合体。沿着这条道路,我们创造了术语 神经地球系统建模。我们研究了神经地球系统建模的并发潜力和陷阱,并讨论了人工智能是否可以支持地球系统模型甚至最终使它们过时的悬而未决的问题。
【原 文】 Irrgang, C. et al. (2021) ‘Towards neural Earth system modelling by integrating artificial intelligence in Earth system science’, Nature Machine Intelligence, 3(8), pp. 667 ...
深度神经网络和时空数据深度分层模型比较
【摘 要】 时空数据在农业、生态和环境科学中无处不在,研究它们对于理解和预测各种过程非常重要。对随时间变化的空间过程建模的困难之一是必须描述这种过程如何变化的依赖结构的复杂性,以及高维复杂数据集和大型预测域的存在。为非线性动态时空模型 (DSTM) 指定参数化尤其具有挑战性,这些模型在科学上和计算上都非常有用。统计学家开发了深层分层模型,可以适应过程的复杂性以及预测和推断中的不确定性。然而,这些模型可能很昂贵并且通常是特定于应用程序的。另一方面,机器学习社区已经为非线性时空建模开发了替代的“深度学习”方法。这些模型很灵活,但通常不会在概率框架中实现。这两种范式有许多共同点,并提出了可以从每个框架的元素中受益的混合方法。这篇概述论文简要介绍了深度分层 DSTM (DH-DSTM) 框架和机器学习中的深度模型,最后介绍了深度神经网络动态时空模型 (DN-DSTM),将来自 DH-DSTM 和 DN-DSTM 的要素结合起来的最新方法作为插图呈现。
【引 文】 C. K. Wikle, “Comparison of Deep Neural Networks and Deep H ...
大型空间数据分析方法案例及评测
【摘 要】 高斯过程是空间数据分析人员不可或缺的工具。然而,“大数据” 时代的到来导致传统高斯过程在计算上对现代空间数据不可行。因此,已经提出了更适合处理大空间数据的完全高斯过程的多种替代方案。这些现代方法通常利用低秩结构和/或多核和多线程计算环境来促进计算。本研究首先介绍性地概述了几种分析大型空间数据的方法。然后,阐述了由不同组实施的方法之间的预测评测结果。具体来说,每个研究组都得到了两个训练数据集(一个模拟数据集和一个观测数据集)以及一组预测位置。然后,各组实现自己的方法,并在给定位置处生成预测,每组的成果都在公共计算环境中运行。然后根据各种预测诊断对这些方法进行了比较。有关方法和代码的实现细节的补充材料可在线。
【原 文】 M. J. Heaton et al., “A Case Study Competition Among Methods for Analyzing Large Spatial Data,” Journal of Agricultural, Biological and Environmental Statistics, vol. 24, no. ...