大型数据集的空间统计竞赛
〖摘 要〗 随着空间数据集变得越来越大和笨重,对空间模型的精确推断在计算上变得令人望而却步。已经提出了各种近似方法来减少计算负担。尽管存在对这些近似方法的综合评论,但对于一些选定的方法,它们的性能比较仅限于中小型数据集。为了实现包含尽可能多的方法的全面比较,我们组织了大型数据集空间统计竞赛。本次竞赛具有以下创新特点:1)我们使用 ExaGeoStat 软件生成合成数据集,生成的实现数在 10 万到 100 万之间; 2)我们系统地设计了数据生成模型来表示具有广泛统计特性的空间过程,适用于高斯和非高斯情况; 3) 竞赛任务包括估计和预测,并通过多个标准评估结果; 4)我们公开了所有数据集和竞赛结果,以作为其他近似方法的基准。在本文中,我们公开了所有比赛细节和结果以及对比赛结果的一些分析。
〖原 文〗 Huang, H. et al. (2021) ‘Competition on Spatial Statistics for Large Datasets’, Journal of Agricultural, Biological and Environmental Statis ...
spBayes--贝叶斯空间变系数模型的 R 软件包
【摘 要】 本文描述并说明了在 spBayes(版本 0.4-2)R 包中拟合空间变系数模型的新功能。新的 spSVC 函数使用计算效率高的马尔可夫链蒙特卡罗算法,并扩展了当前仅适用于空间变化截距回归模型的 spBayes 函数,以适用于回归设计矩阵中任何一组列的独立或多元高斯过程随机效应。讨论和说明了新添加的用于 spSVC 的 OpenMP 并行化选项,以及用于联合和逐点预测和模型拟合诊断的辅助函数。使用中欧的 PM10 分析说明了所提出模型的效用。
【原 文】 A. O. Finley and S. Banerjee, “Bayesian spatially Varying coefficient models in the spBayes R package,” Environmental Modelling & Software, vol. 125, p. 104608, 2020, doi: 10.1016/j.envsoft.2019.104608.
1 简介
在本文中,我们描述并说明了 spBayes(Finley、Banerjee 和 Gelfan ...
大型空间数据分析方法案例及评测
【摘 要】 高斯过程是空间数据分析人员不可或缺的工具。然而,“大数据” 时代的到来导致传统高斯过程在计算上对现代空间数据不可行。因此,已经提出了更适合处理大空间数据的完全高斯过程的多种替代方案。这些现代方法通常利用低秩结构和/或多核和多线程计算环境来促进计算。本研究首先介绍性地概述了几种分析大型空间数据的方法。然后,阐述了由不同组实施的方法之间的预测评测结果。具体来说,每个研究组都得到了两个训练数据集(一个模拟数据集和一个观测数据集)以及一组预测位置。然后,各组实现自己的方法,并在给定位置处生成预测,每组的成果都在公共计算环境中运行。然后根据各种预测诊断对这些方法进行了比较。有关方法和代码的实现细节的补充材料可在线。
【原 文】 M. J. Heaton et al., “A Case Study Competition Among Methods for Analyzing Large Spatial Data,” Journal of Agricultural, Biological and Environmental Statistics, vol. 24, no. ...
克里金和高斯过程的关系
克里金法 源于地统计学,在统计学中也称为 高斯过程回归,是一种基于高斯过程的空间插值方法。在适当的先验假设下,克里金法在未采样位置提供最佳线性无偏预测 (BLUP)。该方法广泛应用于空间分析和计算机实验领域。该方法的理论基础由法国数学家 Georges Matheron 于 1960 年根据 Danie G. Krige 的硕士论文开发。 Krige 试图根据几个钻孔的样本来估计黄金最有可能的分布。
在面向二三维空间时,从数学上两者本质上是相同的。
两者之间的主要区别特征见下表:
Table 1. 区分克里金和现代高斯过程的主要特征
特征
高斯过程
克里金
Bayesian vs Frequentist
衍生自贝叶斯观点
衍生自频率派观点
目标
给定可用训练数据后,从后验高斯过程中进行采样。
给定有效测量后,获得目标变量的最佳线性无偏估计。
维度
没有维度限制,所有特征都可以作为预测变量,并天然形成一个高维空间。目标变量被认为是此高维空间中的一个函数。
为二维/三维空间分析而设计。虽然协同克里金法中会引入辅助变量,但同时增加了克里金方程的复杂性。
...
空间变系数过程模型
【摘 要】许多应用的目标是建立一套回归模型,以便在空间相关性假设下对感兴趣区域上的响应变量作出解释。在几乎所有这些工作中,回归系数都假定为在该区域内恒定。但在某些应用中,预测系数会在局部或子区域水平上有所不同,而这种情形正是本文的重点。尽管空间表面( Surface )的参数化建模是可能的(如多项式表面建模、样条建模等),但我们认为将其视为空间随机过程的一次实现更为自然和灵活。在本文中,我们展示了在高斯响应背景下,如何对这种建模方法进行形式化,使其能够在随机效应和残差分析方面提供更有吸引力的解释。我们还提供了广义线性模型和时空场景的扩展。文中将在单户住宅售价数据集上展示静态和动态建模和解释能力。
【参 考】
Gelfand, A. E., Kim, H.-J., Sirmans, C. F., & Banerjee, S. (2003). Spatial modeling with spatially varying coefficient processes. Journal of the American Statistical Association, 98 ...
空间过程的贝叶斯建模分析方法综述
【阅读建议】 本文重点介绍点参考空间数据的贝叶斯建模和分析方法,尤其是贝叶斯分层建模框架。点参考数据(也被称为地统计数据)主要指在固定空间位置观测到的随机变量数据。过去二十年中,此类数据在空间和时间上的收集量已经大大增加,随之而来的是分析此类数据的大量方法。本文尝试对其中的贝叶斯方法进行回顾。此类分析方法的好处是能够进行全面而准确的推断,并对不确定性进行适当评估。地统计建模的测站数据虽然比较复杂,涉及单变量和多变量、连续型和类别型、静态和动态以及大量长时间观测结果等,但在贝叶斯分层模型框架内,可以统一进行描述和阐释。本文另一亮点在于对大规模观测数据的建模问题做了综述,介绍了降秩方法(高斯预测过程模型)和近邻方法(近邻高斯过程模型)两类主要的处理策略。
【引文信息】 A. E. Gelfand and S. Banerjee, “Bayesian Modeling and Analysis of Geostatistical Data,” Annu Rev Stat Appl, vol. 4, pp. 245–266, 2017, doi: 10.1146/annurev-s ...
点参考数据及克里金法
【阅读建议】 点参考数据的空间预测和模拟问题,大致有传统克里金法和目前应用比较广泛的基于似然的方法。本文主要介绍源于地统计学的传统克里金方法,一来掌握空间统计中的基础方法,二来便于与后面几篇文章中提到的高斯过程之间建立联系。克里金方法在对空间随机场作出本征平稳假设的情况下,利用参数化的变异函数对不同位置处随机变量的偏差之间存在的空间结构(相关性)进行建模,利用有限样本点的最大似然求解最优参数,并将其用于预测任务。
【引文信息】
[1] 史舟, 李艳编, 地统计学在土壤学中的应用. Beijing: Zhong guo nong ye chu ban she, 2006.
[2] 王政权, 地统计学及在生态学中的应用. Bei jing: Ke xue chu ban she, 1999.
1 引言
空间数据的获取通常具有一定的成本,是进行空间分析的基础与起源。为了提高研究结论的精度,我们希望能够获取研究区域内更多、更全面的精确空间属性数据信息。然而,在实际研究工作中,由于人力成本、资源等外部条件限制,我们无法对全部未知区域加以采样与测量,而往往只能得到研究区域内有限数量 ...