最近邻高斯过程模型
【摘 要】 用于分析地统计数据的空间过程模型需要进行计算,随着空间位置的数量变大,这些计算变得令人望而却步。本文开发了一类高度可扩展的最近邻高斯过程 (NNGP) 模型,为大型地统计数据集提供完全基于模型的推断。我们确定最近邻高斯过程是一个定义明确的空间过程,它提供合法的有限维高斯密度和稀疏精度矩阵。我们将最近邻高斯过程作为稀疏归纳先验嵌入到丰富的分层建模框架中,并概述了如何在不存储或分解大型矩阵的情况下执行计算高效的马尔可夫链蒙特卡罗 (MCMC) 算法。该算法每次迭代的浮点运算 (flops) 与空间位置的数量成线性关系,从而呈现出可观的可扩展性。我们使用模拟研究说明了最近邻高斯过程相对于竞争方法的计算和推断优势,并且还分析了美国森林资源清查数据集中的森林生物量,其规模超过了其他降维方法。本文的补充材料可在线获取。
【原 文】 Datta, A. et al. (2016) ‘Hierarchical Nearest-Neighbor Gaussian Process Models for Large Geostatistical Datasets’, Journal ...
🔥 组合似然法概述
【摘 要】组合似然法是用于超大规模高斯随机场高效计算的主要方法之一,本文提供了对组合似然理论和应用的最新发展调查。论文考虑了一系列应用领域,包括地统计学、空间极值、时空模型、集群和纵向数据以及时间序列等。考虑到 Larribe 和 Fearnhead (2011) 已经发表了在统计遗传学方面的综述论文,本文省略了这一重要应用领域。本文重点介绍了组合似然理论发展、组合似然推断的效率和鲁棒性等知识现状。
【原 文】 Varin, C., Reid, N. and Firth, D. (2011) ‘AN OVERVIEW OF COMPOSITE LIKELIHOOD METHODS’, Statistica Sinica, 21(1), pp. 5–42.
1 简介
组合似然是通过将若干似然分量相乘得出的一个推断函数;所使用的似然分量集合通常由应用上下文决定。因为每个个体似然分量都是条件密度(或边缘密度,根据应用而定),所以从复合对数似然的导数得出的估计方程,是一个无偏估计方程。无论这些个体似然分量是否相互独立,根据其乘法所得到的推断函数都会包含所指定模型的似然性质。
本文回 ...
大型数据集的空间统计竞赛
〖摘 要〗 随着空间数据集变得越来越大和笨重,对空间模型的精确推断在计算上变得令人望而却步。已经提出了各种近似方法来减少计算负担。尽管存在对这些近似方法的综合评论,但对于一些选定的方法,它们的性能比较仅限于中小型数据集。为了实现包含尽可能多的方法的全面比较,我们组织了大型数据集空间统计竞赛。本次竞赛具有以下创新特点:1)我们使用 ExaGeoStat 软件生成合成数据集,生成的实现数在 10 万到 100 万之间; 2)我们系统地设计了数据生成模型来表示具有广泛统计特性的空间过程,适用于高斯和非高斯情况; 3) 竞赛任务包括估计和预测,并通过多个标准评估结果; 4)我们公开了所有数据集和竞赛结果,以作为其他近似方法的基准。在本文中,我们公开了所有比赛细节和结果以及对比赛结果的一些分析。
〖原 文〗 Huang, H. et al. (2021) ‘Competition on Spatial Statistics for Large Datasets’, Journal of Agricultural, Biological and Environmental Statis ...
大型空间数据分析方法案例及评测
【摘 要】 高斯过程是空间数据分析人员不可或缺的工具。然而,“大数据” 时代的到来导致传统高斯过程在计算上对现代空间数据不可行。因此,已经提出了更适合处理大空间数据的完全高斯过程的多种替代方案。这些现代方法通常利用低秩结构和/或多核和多线程计算环境来促进计算。本研究首先介绍性地概述了几种分析大型空间数据的方法。然后,阐述了由不同组实施的方法之间的预测评测结果。具体来说,每个研究组都得到了两个训练数据集(一个模拟数据集和一个观测数据集)以及一组预测位置。然后,各组实现自己的方法,并在给定位置处生成预测,每组的成果都在公共计算环境中运行。然后根据各种预测诊断对这些方法进行了比较。有关方法和代码的实现细节的补充材料可在线。
【原 文】 M. J. Heaton et al., “A Case Study Competition Among Methods for Analyzing Large Spatial Data,” Journal of Agricultural, Biological and Environmental Statistics, vol. 24, no. ...
克里金和高斯过程的关系
克里金法 源于地统计学,在统计学中也称为 高斯过程回归,是一种基于高斯过程的空间插值方法。在适当的先验假设下,克里金法在未采样位置提供最佳线性无偏预测 (BLUP)。该方法广泛应用于空间分析和计算机实验领域。该方法的理论基础由法国数学家 Georges Matheron 于 1960 年根据 Danie G. Krige 的硕士论文开发。 Krige 试图根据几个钻孔的样本来估计黄金最有可能的分布。
在面向二三维空间时,从数学上两者本质上是相同的。
两者之间的主要区别特征见下表:
Table 1. 区分克里金和现代高斯过程的主要特征
特征
高斯过程
克里金
Bayesian vs Frequentist
衍生自贝叶斯观点
衍生自频率派观点
目标
给定可用训练数据后,从后验高斯过程中进行采样。
给定有效测量后,获得目标变量的最佳线性无偏估计。
维度
没有维度限制,所有特征都可以作为预测变量,并天然形成一个高维空间。目标变量被认为是此高维空间中的一个函数。
为二维/三维空间分析而设计。虽然协同克里金法中会引入辅助变量,但同时增加了克里金方程的复杂性。
...
空间思维及贝叶斯方法
【摘 要】本文首先从时空数据分析面临的空间依赖性、空间异质性、数据稀疏性和不确定性四个挑战谈起,阐述了空间统计思维的重要性。在简单描述了频率派思想和贝叶斯派思想的区别后,重点阐述了贝叶斯方法的优点和可行性,尤其是其中贝叶斯分层模型和贝叶斯空间计量学模型。本文节选自 Haining 的《空间和时空数据建模》一书。
【原 文】 R. P. Haining and G. Li, Chapter 1 ,Modelling spatial and spatial-temporal data: a Bayesian approach. Boca Raton: CRC Press, Taylor & Francis, 2020.
1 时空数据分析面临的四个挑战
1.1 时空数据存在依赖性( 相关性 )
数据的空间依赖性:对于空间和时空数据,在空间和/或时间上靠得很近的值不太可能是独立的。依赖性( 或缺乏独立性 )是空间和时空数据的基本性质。在某个时间间隔内对某个区域观测到的数据值通常包含有关同一变量在同一( 或附近 )时间窗口内其他( 附近 )区域的数据值的一些信息。例如,仔细检 ...
点参考数据的贝叶斯建模软件spBayes
原文: Finley, A. O., Banerjee, S., & E.Gelfand, A. (2015). SpBayes for Large Univariate and Multivariate Point-Referenced Spatio-Temporal Data Models. Journal of Statistical Software, 63(13). https://doi.org/10.18637/jss.v063.i13
Andrew O. Finley,密歇根州立大学
Sudipto Banerjee,加州大学洛杉矶分校
Alan E. Gelfand, 杜克大学
1 模型框架的定义
贝叶斯高斯空间回归模型是一个分层建模框架:
p(θ)×N(β∣μβ,Σβ)×N(α∣0,K(θ))×N(y∣Xβ+Z(θ)α,D(θ))(1)p(\boldsymbol{\theta}) \times \mathcal{N}(\boldsymbol{\beta} | \boldsymbol{\mu}_{\beta},\Sigma_{\beta}) \ti ...
Cressie 的最新空间统计论述
【阅读建议】 本文是 Cressie 在 2021 年新撰写的一篇综述类文章,其主要看点包括:(1)用统一的形式化框架实现了点参考数据、面元数据、点模式数据的建模;(2)对多变量空间统计建模的统一形式化;(3)大数据的空间离散化处理方法(此处尚未理解其优势所在,需要进一步阅读引用的论文);
【摘 要】 空间统计是一个致力于与空间标签相关数据统计分析的研究领域。地理学家通常将 “位置信息” 与 “属性信息” 联系起来,并且定义了一个被称为 “空间分析” 的研究领域。许多操作空间数据的方法都是由算法驱动的,缺少与之相关的不确定性量化。如果空间分析是统计的(即结合了不确定性量化),则它属于空间统计的研究范畴。空间统计模型的主要特征是邻近的属性值比远处的属性值在统计上更相关,这也被称为地理学第一定律。
【原 文】 N. Cressie and M. T. Moores, “Spatial Statistics,” 2021, doi: 10.48550/ARXIV.2105.07216.
【参 考】
1 导言
空间统计提供了一个概率框架,用于回答数据中包含空间位置信息、且所提问题与 ...
空间随机场及其建模方法
【摘 要】 空间数据集通常被分为三种类型:点参考数据、面元数据和点模式数据,本文重点介绍点参考数据的建模基础–空间随机场,讨论了空间随机场的一些基本假设和性质,及其形式化定义。
【原 文】 O. Schabenberger and C. A. Gotway, Chapter 2,Statistical methods for spatial data analysis. Boca Raton: Chapman & Hall/CRC, 2005.
1 随机过程与随机场
(1)随机过程与随机场
随机过程是随机变量族或集合,其成员可以根据某种度量来识别或索引。例如:
时间序列 Y(t),t=t1,…,tnY (t),t = t_1,\ldots,t_nY(t),t=t1,…,tn 由观测该序列的时间点 t1,…,tnt_1,\ldots,t_nt1,…,tn 索引。
空间过程也是随机变量的集合,只是其中的随机变量由包含空间坐标 s=[s1,s2,⋅⋅⋅,sd]′\mathbf{s} =[s_1,s_2, ···,s_d]^\primes=[s1,s2,⋅⋅⋅ ...
多尺度地理加权回归
其中 nnn 表示样本大小,σ^\hat{\sigma}σ^ 定义为误差项的标准差,tr(S)\operatorname{tr}(\boldsymbol{S})tr(S) 是帽子矩阵的迹。选定带宽后,可以进一步计算权重,并在每个校准位置拟合 GWR 模型,以获得一组局部系数。通过取每个校准位置的局部 R2R^{2}R2 的平均值,可以获得 GWR 模型的总体 R2R^{2}R2 值。
【原 文】 Fotheringham, A. Stewart and Yang, Wenbai and Kang, Wei. Multiscale Geographically Weighted Regression (MGWR) 2017. Annals of the American Association of Geographers , Vol. 107, No. 6 p. 1247-1265.
【阅后感】 本文作者是地理加权回归方法的提出者之一,也是《地理加权回归:空间可变关系的分析》一书的作者。在提出地理加权回归十余年后,作者发现原来的方法对于尺度缺乏建模能力(即解释变量可能来 ...