西山晴雪的知识笔记

发表于2023-01-14|GeoAI大数据专题点参考数据

〖摘要〗介绍了连续域空间过程的参数估计（指均值函数的参数估计）和模型识别（指残差对应的空间过程模型识别）程序。在本文中，空间过程被假定为具有残差的线性模型，且残差服从二阶平稳高斯随机场，同时假定数据由任意采样位置处空间过程的含噪声观测值组成。本文采用了具有椭圆等值线的二维有理密度函数对空间协方差函数进行建模，文中提出的迭代式估计方法可以减轻非格元数据中常规最大似然估计的许多计算困难。〖原文〗 Vecchia, A.V. (1988) ‘Estimation and Model Identification for Continuous Spatial Processes’, Journal of the Royal Statistical Society: Series B (Methodological), 50(2), pp. 297–312. Available at: https://doi.org/10.1111/j.2517-6161.1988.tb01729.x. 1 引言 1.1 背景令 {Z(x,y)}\{Z(x, y)\}{Z(x,y)} 为一 ...

🔥 空间变系数模型索引帖

发表于2023-01-11|GeoAI空间变系数模型

1 综述类自行整理的《空间回归模型综述》: 空间回归模型是按照空间区位研究变量之间关系的主要数学工具。根据回归模型是否存在局部空间同质特征（或反之空间异质性），通常可以将空间回归模型划分为全局空间回归模型和局部空间回归模型。 Fotheringham 2022 年的《空间局部化思维对于统计和社会科学的重要性》: 在过去的二十年里，越来越多的注意力集中在局部形式的空间分析上，无论是在描述性统计还是空间建模方面，我们称之为 “局部化思维”。局部化思维的基础在于：全局空间分析方法可能不适用，并且待测量的条件关系存在随空间变化的情况。本文不仅研究了局部化思维对空间过程建模的影响，而且更广泛地考察了人们对空间行为的理解。我们首先简要调查了局部统计建模的原因；然后描述一种局部建模框架（多尺度地理加权回归），以展示局部模型中的基本概念和此类模型的输出类型；之后，我们研究了局部方法对统计分析的影响，重点是局部模型与空间回归模型相比的作用、局部模型的诊断、局部方法如何与困扰空间分析数十年的空间尺度问题相关联等问题；最后，我们将注意力转向空间局部建模方法对社会的影响，讨论了可复制性 ...

🔥 深度高斯马尔可夫随机场

发表于2023-01-11|GeoAI空间统计深度学习

【摘要】高斯马尔可夫随机场 (GMRF) 是一种广泛应用于空间统计和相关领域的概率图模型，用于模拟空间结构的依赖性。本文在高斯马尔可夫随机场和卷积神经网络 (CNN) 之间建立了正式联系。普通的高斯马尔可夫随机场是生成模型的一个特例，其中从数据到隐变量的逆映射由单层线性卷积神经网络给出。这种连接关系使我们能够将高斯马尔可夫随机场推广到多层 CNN 架构，以一种有利于计算伸缩性的方式有效增加相应高斯马尔可夫随机场的阶数。我们描述了如何使用成熟工具（例如自动微分和变分推断）来简单有效地推断和学习深度高斯马尔可夫随机场。我们展示了所提出模型的灵活性，并在卫星温度数据集上表明了其在预测准确性和不确定性方面优于的目前最好的技术。【原文】 Sidén, P. and Lindsten, F. (2020) ‘Deep Gaussian Markov Random Fields’. arXiv. Available at: http://arxiv.org/abs/2002.07467 (Accessed: 15 November 2022). 1 引言在对大量图像进行训练时 ...

快速地理加权回归 (FastGWR)

发表于2023-01-11|GeoAI空间变系数模型

〖摘要〗地理加权回归 (GWR) 是一种广泛使用的工具，用于探索地理空间过程的空间异质性。 GWR 计算特定位置的参数估计值，这使得其校准过程需要大量计算。当前开源 GWR 软件可以处理的最大数据点数是标准桌面上的大约 15,00015,00015,000 个观测值。在大数据时代，这严重限制了 GWR 的使用。为了克服这一限制，我们提出了一种高度可扩展的开源 FastGWR 实现，该实现基于 Python 和消息传递接口 (MPI)，可扩展到数百万个观测值的数量级。 FastGWR 优化内存使用以及并行化以显著提高性能。为了说明 FastGWR 的性能，对来自洛杉矶市 Zillow 数据集的大约 130130130 万个单户住宅物业进行了特征房价模型校准，这是将 GWR 应用于这种规模的数据集的首次尝试。结果表明，随着高性能计算 (HPC) 环境中内核数量的增加，FastGWR 呈线性扩展。它还优于当前可用的开源 GWR 软件包，在标准桌面上速度大幅降低——最高可达数千倍。【原文】 Li, Z. et al. (2019) ‘Fast Geographically ...

🔥 深度克里金法（DeepKriging）

发表于2023-01-11|GeoAI空间统计深度学习

【摘要】在空间统计中，利用空间依赖性来预测未观测位置的空间过程值是一个共同的目标。克里金法使用协方差函数（或变异函数）提供了最佳线性无偏预测器，并且通常与高斯过程相关。但当考虑非高斯数据或分类数据的非线性预测问题时，克里金预测不再是最优的，而且其方差往往过于乐观。尽管深度神经网络 (DNN) 广泛用于分类和预测任务，但对具有空间依赖性的数据尚缺乏深入研究。在本文工作中，我们提出了一种用于空间预测的新型 DNN 结构，通过在 DNN 之前添加一个具有基函数的空间坐标嵌入层来捕获空间依赖性。理论和模拟研究结果表明：所提出的 DeepKriging 方法与高斯情况下的克里金法有直接联系。由于该方法提供的是非线性预测，因此相较于克里金法而言，新方法对于非高斯和非平稳数据会有更多优势，也具有更小的近似误差。DeepKriging 不需要对协方差矩阵进行运算，因此可扩展到大型数据集。当具有足够多隐神经元时，它能够根据模型容量提供最佳预测。我们进一步探讨了在不假设任何数据分布的情况下，基于密度预测来量化预测不确定性的可能性。最后，我们将该方法应用于预测整个美国大陆的 PM2.5 浓度 ...

地统计学中的贝叶斯深度学习

发表于2023-01-11|GeoAI空间统计深度学习

【摘要】地球科学家越来越多地处理“大数据”。对于涉及空间建模和制图的应用程序，克里金法的变体——南非采矿工程师 Danie Krige 开发的空间插值技术——长期以来一直被视为成熟的地质统计方法。然而，克里金法及其变体（例如回归克里金法，其中辅助变量或这些变量的导数作为协变量包含在内）是相对受限的模型，并且缺乏深度神经网络在过去十年左右为我们提供的功能。其中最主要的是特征学习：学习过滤器以识别网格数据（例如图像）中特定于任务的模式的能力。在这里，我们通过展示深度神经网络如何自动学习点采样目标变量和网格化辅助变量（例如遥感提供的辅助变量）之间的复杂关系，展示了地统计学背景下特征学习的力量，并在此过程中产生所选目标变量的详细地图。同时，为了满足需要良好校准概率的决策者的需求，我们展示了如何通过称为蒙特卡洛 Dropout 的贝叶斯近似从深度神经网络获得任意和认知不确定性估计。在我们的示例中，我们根据点采样观测生成全国范围的概率地球化学图，并使用地形高程网格提供的辅助数据。与传统的地质统计方法不同，辅助变量网格被原始输入到我们的深度神经网络中。无需提供导数（例如倾斜角、地形情 ...

近似受限似然方法

发表于2023-01-09|GeoAI大数据专题点参考数据

〖摘要〗由于计算负担，似然法通常难以用于大型、位置不规则的空间数据集。即使对于高斯模型，精确计算 nnn 个观测值的似然也需要 O(n3)\mathcal{O}(n^3)O(n3) 运算。任何联合密度都可以写成基于某些观测顺序的条件密度之积，因此一种减少计算的方法是在计算上述条件密度时，仅以部分的 “过去” 观测为条件。本文重点探讨了此类方法如何应用于受限似然的近似，特别展示了如何利用估计方程方法判断近似的有效性。此外，过前的工作通常建议以当前观测的历史最近邻观测为条件，但我们通过理论、数值和实例表明，以一些远距离的观测为条件，通常也可以带来相当大的好处。〖原文〗 Stein, M.L., Chi, Z. and Welty, L.J. (2004) ‘Approximating likelihoods for large spatial data sets’, Journal of the Royal Statistical Society: Series B (Statistical Methodology), 66(2), pp. 275–296. A ...

SPDE: 高斯场和高斯马尔可夫随机场之间的明确联系

发表于2023-01-08|GeoAI大数据专题点参考数据

【摘要】连续索引的高斯场 (GF) 是空间统计建模和地统计学中最重要的组成部分，通过协方差函数的定义给出了场性质的直观解释。在计算方面，高斯场受到大 nnn 问题限制，因为密集矩阵的分解计算成本是维度的三次方（O(n3)\mathcal{O}(n^3)O(n3)）。尽管当前计算能力处于历史最高水平，但这一事实似乎仍然是许多应用中的瓶颈。与高斯场同样中要的，还有一类离散索引的高斯马尔可夫随机场 (GMRF)，其马尔可夫性质导致精度矩阵的稀疏性，从而使我们可以使用稀疏矩阵的数值算法。对于 R2\mathbb{R}^2R2 中的场， GMRF 仅使用了一般算法所需时间的平方根（O(n3)\mathcal{O}(\sqrt{n^3})O(n3)）。 GMRF 由其完整条件分布分布定义，但在这种参数化形势下，其边缘分布性质并不明确。在本文中，我们展示了：对于 Matérn 类型的某些高斯场，（线性）随机偏微分方程的近似随机弱解，可以为 Rd\mathbb{R}^dRd 上的任何三角形剖分提供在高斯场和 GMRF 之间的显式链接，进而可以将该高斯场表示为基函数的形式。其好处是：我 ...

固定秩克里金法

发表于2023-01-08|GeoAI大数据专题点参考数据

【摘要】非常大的空间数据集的空间统计具有挑战性。数据集的大小 nnn 会导致计算最优空间预测变量（例如克里金法）出现问题，因为其计算成本为 nnn 的三次方。此外，大型数据集通常是在大型空间域上定义，因此感兴趣的空间过程通常在该域上表现出非平稳行为。通过使用一组固定数量的基函数，可以定义一个灵活的非平稳协方差函数族，这产生了我们称为 “固定秩克里金法” 的空间预测方法。具体来说，固定秩克里金法就是此类非平稳协方差函数支撑下的克里金法。当 nnn 非常大时，它依赖于计算简化，以获得隐空间过程的空间最佳线性无偏预测器及其均方预测误差。基于最小化加权 Frobenius 范数的方法产生协方差函数参数的最佳估计量，然后将其代入固定秩克里金方程。新方法适用于在整个地球上观测到的非常大的臭氧数据集，其中 nnn 约为数十万。【原文】 Cressie, N. and Johannesson, G. (2008) ‘Fixed rank kriging for very large spatial data sets: Fixed Rank Kriging’, Journal o ...

协方差锥化

发表于2023-01-07|GeoAI大数据专题点参考数据

【摘要】空间相关随机过程的插值被用于许多科学领域。最好的无偏线性预测器，在地统计科学中通常称为克里金预测器，需要基于观测值的协方差矩阵求解（可能很大的）线性系统。在本文中，我们展示了使用适当的紧支撑正定函数对正确的协方差矩阵进行锥化可以显著减少计算负担，并且仍然会导致渐近最优均方误差。锥化的效果是创建一个稀疏的近似线性系统，然后可以使用稀疏矩阵算法对其进行求解。蒙特卡洛模拟支持理论结果。一个大型气候降水数据集的应用作为一个具体和实际的例子被提出。【原文】 Furrer, R., Genton, M.G. and Nychka, D. (2006) ‘Covariance Tapering for Interpolation of Large Spatial Datasets’, Journal of Computational and Graphical Statistics, 15(3), pp. 502–523. Available at: https://doi.org/10.1198/106186006X132178. 1 引言许多学科的统计应用都依赖于根 ...