🔥 大规模点参考数据统计分析方法索引帖
〖摘 要〗 个人用于整理大规模点参考数据时空统计分析方法的汇总帖,大致分为克里金法和贝叶斯建模、高斯过程及其推断理论、大 n 问题及其对策、并行化策略和方法、与深度学习的结合等部分。目前主要兴趣点在大规模点参考数据的高效计算方法和统计深度学习方面。
1 基础地统计方法
(1)克里金法及经验估计
克里金方法发源于 1940 年代的地统计学领域,主要用于解决插值问题,因 Krige 1960 年的一篇硕士论文而命名。在 1990s 年代,克里金法在贝叶斯推断背景下被重新表述,并被称为 高斯过程回归,而相关函数(在克里金法中是半变异函数)的选择,则被视为一个机器学习问题。
自编的《点参考数据及克里金法》 : 介绍了传统地统计学的克里金方法,其本质上就是高斯过程,只是提供了一套以变异函数和克里金预测为核心的独立技术体系。
Gelfand (2017)的 《点参考数据贝叶斯建模综述》 : 系统地从贝叶斯建模角度重温了地统计方法,除简述克里金法外,还包括贝叶斯分层建模方法、大 N 问题的处理等介绍性文字。
2 高斯过程及其推断
从权重视角来看,高斯过程是多元高斯分布向无限维随机变量 ...
🔥 点参考数据模型索引帖
1 空间过程及平稳性假设
《随机过程与随机场》 : 将空间表面(Surface)视为空间随机过程的一次实现,并将点参考数据视为空间表面的一次不完整观测,是研究点参考数据的基本假设。在此假设下,构成空间数据集的 nnn 个具有地理参考的观测值集合,并不代表大小为 nnn 的样本,而是代表了对一次随机实验的不完整观测,是一个来自 nnn 维分布的大小为 111 的样本。这种假设对于理解点参考数据的统计模型非常重要,也同时使传统基于重复观测的统计方法失效。本文介绍了这种假设以及相关的概念和知识。该文中还有部分关于空间连续性和可微性的讨论,之前认为不重要,但后来细品一下可能涉及点参考数据和面元数据之间的转换问题,将来有时间可以配合《随机偏微分方程方法: 高斯场和高斯马尔可夫随机场之间的明确联系》 进一步理解。
2 经典克里金方法
点参考数据及克里金法(2005) : 本文介绍了传统地统计学中的克里金方法。该方法发源于 1940 年代的地统计学领域,主要用于解决插值问题,因 Krige 1960 年的一篇硕士论文而命名。克里金法是一种基于高斯过程假设的经验估计和预测方法,建立 ...
空间数据的贝叶斯分层建模
【摘 要】由于空间数据的复杂性,使其统计建模非常困难。分层建模方法由于能够对模型进行分解,从而使建模和推断变得更具可操作性,因此在空间统计学领域得到快速应用和发展。而本文正是围绕空间数据的分层建模方法展开的。文中涉及通用分层建模方法、地统计中的分层建模、广义线性模型的分层建模等内容,以及相应的推断问题。本文内容摘自 Gelfand 的 《空间统计手册》第七章。
【原 文】 Gelfand, A.E. et al. (2010), Handbook of spatial statistics (chapter 7). CRC press.
7.1 简介
在空间统计中,人们通常必须在存在复杂过程、多个数据源、参数化不确定性和不同程度的科学知识的情况下开发统计模型。人们可以从联合或条件的角度来处理这些复杂的问题。虽然从联合角度考虑过程可能很直观,但这种方法可能对统计建模提出严重挑战。例如,可能很难为相关空间数据集指定联合多元依赖结构。将此类联合分布分解为一系列条件模型可能会容易得多。例如,考虑以近地表环境空气温度为条件的近地表臭氧过程(尤其是在夏季)比同时考虑臭氧和温度过程更简 ...
基于似然的的方法
【摘 要】在空间统计学中,点参考数据模型通常采用高斯过程(场)建模,而超参数的推断则主要有基于经验的矩量估计法和基于似然的统计推断方法。本文主要介绍基于似然的统计推断方法。文中涉及最大似然估计、受限最大似然估计、组合似然近似估计、渐进特性分析等内容。本文内容摘自 Gelfand 的 《空间统计手册》第四章。
【原 文】 Gelfand, A.E. et al. (2010), Handbook of spatial statistics (chapter 4). CRC press.
关于似然方法的基础资料见:
参见 普度大学机器人视觉实验室的 《最大似然、最大后验与贝叶斯方法的区别》
参见 Reid 等 2010 年的 《似然函数与基于似然的推断》
参见 Cousineau 等 2016 年 《似然概念的扫盲帖》
对非似然方法感兴趣的同学,可以阅读:
参见 《近似贝叶斯计算(ABC)索引贴》
4.1 概述
上一章考虑了结合使用矩量法和最小二乘法来估计地质统计模型的参数(参见 《点参考数据及克里金法》 )。这些方法统称为 “经典地质统计学” ,通常不 ...
🔥 空间大数据组织管理方法索引帖
〖摘 要〗 个人用于整理时空大数据引擎原理、方法及其实现的汇总帖,大致分为综述、原理方法、工程实践三个板块。
一、 综述
《空间大数据引擎综述文章:大数据时代的空间数据引擎》
二、原理方法
空间索引方法综述:
《基于空间填充曲线的降维方法》: 介绍如何利用 Z 序 Hillbert 曲线等空间填充曲线方法,实现多维空间的降维索引。
《空间填充曲线的聚簇性分析》: 从理论上分析了空间填充曲线的聚簇性,表明空间填充曲线无法做到任意位置的高聚簇性。
《扩展 Z 序曲线(XZ-Ordering)索引》: 德国慕尼黑大学教授提出的一种有缝有叠的剖分和填充曲线方式,可有效解决跨剖分面片的单编码空间覆盖问题。
三、工程实践
《全文数据库中多维数据检索效率的提升方法》: 基于可分布式部署的传统关系型数据库或全文数据库,其实现机制和单机数据库区别不大,并行机制来自于分布式数据库本身。本文主要介绍了全文数据库(关系型数据库类似)的实现机制,以及空间索引在其中的结合方法。典型代表如:Parallel Secondo、Paradise、 Sphinx 等。此外,专门面向 ...
🔥 大规模面元数据统计分析方法索引帖
〖摘 要〗 暂时没有启动阅读工作,待整理。
#refplus, #refplus li{
padding:0;
margin:0;
list-style:none;
};
document.querySelectorAll(".refplus-num").forEach((ref) => {
let refid = ref.firstChild.href.replace(location.origin+location.pathname,'');
let refel = document.querySelector(refid);
let refnum = refel.dataset.num;
let ref_content = refel.innerText.replace(`[${refnum}]`,'');
tippy(ref, {
cont ...
协方差锥化
【摘 要】 空间相关随机过程的插值被用于许多科学领域。最好的无偏线性预测器,在地统计科学中通常称为克里金预测器,需要基于观测值的协方差矩阵求解(可能很大的)线性系统。在本文中,我们展示了使用适当的紧支撑正定函数对正确的协方差矩阵进行锥化可以显着减少计算负担,并且仍然会导致渐近最优均方误差。锥化的效果是创建一个稀疏的近似线性系统,然后可以使用稀疏矩阵算法对其进行求解。蒙特卡洛模拟支持理论结果。一个大型气候降水数据集的应用作为一个具体和实际的例子被提出。
【原 文】 Furrer, R., Genton, M.G. and Nychka, D. (2006) ‘Covariance Tapering for Interpolation of Large Spatial Datasets’, Journal of Computational and Graphical Statistics, 15(3), pp. 502–523. Available at: https://doi.org/10.1198/106186006X132178.
1 引言
许多学科的统计应用都依赖于根 ...
高斯预测过程
【摘 要】 有了地理编码的可用科学数据,研究人员越来越多地转向空间过程模型来进行统计推断。在过去的十年中,通过马尔可夫链蒙特卡洛方法实现的分层模型在空间建模中变得特别流行,因为它们能够灵活地拟合传统方法不可行的模型,并且避免了可能不正确的渐近。然而,拟合分层空间模型通常涉及昂贵的矩阵分解,其计算复杂度随空间位置的数量呈三次方增加,使得此类模型不适用于大型空间数据集。这种计算负担在具有多个空间相关响应变量的多变量设置中更为明显。当在频繁的时间点收集数据并使用时空过程模型时,这种情况会加剧。关于这一挑战,本文贡献是使用空间和时空数据的预测过程模型。每个空间(或时空)过程都会产生一个预测过程模型(实际上可以是任意多个)。后者将前者的过程实现投影到低维子空间,从而减少了计算负担。因此,我们实现了在大数据集上下文中拟合非平稳、非高斯、多变量、时空过程的灵活性。我们讨论了这些预测过程的理论特性,还提供了一个包含不同设置的计算模板。最后,我们用模拟和真实数据集来说明了该方法。
【原 文】 Banerjee, S. et al. (2008) ‘Gaussian predictive pr ...
最近邻高斯过程模型
【摘 要】 用于分析地统计数据的空间过程模型需要进行计算,随着空间位置的数量变大,这些计算变得令人望而却步。本文开发了一类高度可扩展的最近邻高斯过程 (NNGP) 模型,为大型地统计数据集提供完全基于模型的推断。我们确定最近邻高斯过程是一个定义明确的空间过程,它提供合法的有限维高斯密度和稀疏精度矩阵。我们将最近邻高斯过程作为稀疏归纳先验嵌入到丰富的分层建模框架中,并概述了如何在不存储或分解大型矩阵的情况下执行计算高效的马尔可夫链蒙特卡罗 (MCMC) 算法。该算法每次迭代的浮点运算 (flops) 与空间位置的数量成线性关系,从而呈现出可观的可扩展性。我们使用模拟研究说明了最近邻高斯过程相对于竞争方法的计算和推断优势,并且还分析了美国森林资源清查数据集中的森林生物量,其规模超过了其他降维方法。本文的补充材料可在线获取。
【原 文】 Datta, A. et al. (2016) ‘Hierarchical Nearest-Neighbor Gaussian Process Models for Large Geostatistical Datasets’, Journal ...
大型数据集的空间统计竞赛
〖摘 要〗 随着空间数据集变得越来越大和笨重,对空间模型的精确推断在计算上变得令人望而却步。已经提出了各种近似方法来减少计算负担。尽管存在对这些近似方法的综合评论,但对于一些选定的方法,它们的性能比较仅限于中小型数据集。为了实现包含尽可能多的方法的全面比较,我们组织了大型数据集空间统计竞赛。本次竞赛具有以下创新特点:1)我们使用 ExaGeoStat 软件生成合成数据集,生成的实现数在 10 万到 100 万之间; 2)我们系统地设计了数据生成模型来表示具有广泛统计特性的空间过程,适用于高斯和非高斯情况; 3) 竞赛任务包括估计和预测,并通过多个标准评估结果; 4)我们公开了所有数据集和竞赛结果,以作为其他近似方法的基准。在本文中,我们公开了所有比赛细节和结果以及对比赛结果的一些分析。
〖原 文〗 Huang, H. et al. (2021) ‘Competition on Spatial Statistics for Large Datasets’, Journal of Agricultural, Biological and Environmental Statis ...