🔥 大规模点参考数据统计分析方法索引帖
〖摘 要〗 个人用于整理大规模点参考数据时空统计分析方法的汇总帖,大致分为克里金法和贝叶斯建模、高斯过程及其推断理论、大 n 问题及其对策、并行化策略和方法、与深度学习的结合等部分。目前主要兴趣点在大规模点参考数据的高效计算方法和统计深度学习方面。
1 基础地统计方法
(1)克里金法及经验估计
克里金方法发源于 1940 年代的地统计学领域,主要用于解决插值问题,因 Krige 1960 年的一篇硕士论文而命名。在 1990s 年代,克里金法在贝叶斯推断背景下被重新表述,并被称为 高斯过程回归,而相关函数(在克里金法中是半变异函数)的选择,则被视为一个机器学习问题。
自编的《点参考数据及克里金法》 : 介绍了传统地统计学的克里金方法,其本质上就是高斯过程,只是提供了一套以变异函数和克里金预测为核心的独立技术体系。
Gelfand (2017)的 《点参考数据贝叶斯建模综述》 : 系统地从贝叶斯建模角度重温了地统计方法,除简述克里金法外,还包括贝叶斯分层建模方法、大 N 问题的处理等介绍性文字。
2 高斯过程及其推断
从权重视角来看,高斯过程是多元高斯分布向无限维随机变量 ...
🔥 点参考数据模型索引帖
1 空间过程及平稳性假设
《随机过程与随机场》 : 将空间表面(Surface)视为空间随机过程的一次实现,并将点参考数据视为空间表面的一次不完整观测,是研究点参考数据的基本假设。在此假设下,构成空间数据集的 nnn 个具有地理参考的观测值集合,并不代表大小为 nnn 的样本,而是代表了对一次随机实验的不完整观测,是一个来自 nnn 维分布的大小为 111 的样本。这种假设对于理解点参考数据的统计模型非常重要,也同时使传统基于重复观测的统计方法失效。本文介绍了这种假设以及相关的概念和知识。该文中还有部分关于空间连续性和可微性的讨论,之前认为不重要,但后来细品一下可能涉及点参考数据和面元数据之间的转换问题,将来有时间可以配合《随机偏微分方程方法: 高斯场和高斯马尔可夫随机场之间的明确联系》 进一步理解。
2 经典克里金方法
点参考数据及克里金法(2005) : 本文介绍了传统地统计学中的克里金方法。该方法发源于 1940 年代的地统计学领域,主要用于解决插值问题,因 Krige 1960 年的一篇硕士论文而命名。克里金法是一种基于高斯过程假设的经验估计和预测方法,建立 ...
空间数据的贝叶斯分层建模
【摘 要】由于空间数据的复杂性,使其统计建模非常困难。分层建模方法由于能够对模型进行分解,从而使建模和推断变得更具可操作性,因此在空间统计学领域得到快速应用和发展。而本文正是围绕空间数据的分层建模方法展开的。文中涉及通用分层建模方法、地统计中的分层建模、广义线性模型的分层建模等内容,以及相应的推断问题。本文内容摘自 Gelfand 的 《空间统计手册》第七章。
【原 文】 Gelfand, A.E. et al. (2010), Handbook of spatial statistics (chapter 7). CRC press.
7.1 简介
在空间统计中,人们通常必须在存在复杂过程、多个数据源、参数化不确定性和不同程度的科学知识的情况下开发统计模型。人们可以从联合或条件的角度来处理这些复杂的问题。虽然从联合角度考虑过程可能很直观,但这种方法可能对统计建模提出严重挑战。例如,可能很难为相关空间数据集指定联合多元依赖结构。将此类联合分布分解为一系列条件模型可能会容易得多。例如,考虑以近地表环境空气温度为条件的近地表臭氧过程(尤其是在夏季)比同时考虑臭氧和温度过程更简 ...
基于似然的的方法
【摘 要】在空间统计学中,点参考数据模型通常采用高斯过程(场)建模,而超参数的推断则主要有基于经验的矩量估计法和基于似然的统计推断方法。本文主要介绍基于似然的统计推断方法。文中涉及最大似然估计、受限最大似然估计、组合似然近似估计、渐进特性分析等内容。本文内容摘自 Gelfand 的 《空间统计手册》第四章。
【原 文】 Gelfand, A.E. et al. (2010), Handbook of spatial statistics (chapter 4). CRC press.
关于似然方法的基础资料见:
参见 普度大学机器人视觉实验室的 《最大似然、最大后验与贝叶斯方法的区别》
参见 Reid 等 2010 年的 《似然函数与基于似然的推断》
参见 Cousineau 等 2016 年 《似然概念的扫盲帖》
对非似然方法感兴趣的同学,可以阅读:
参见 《近似贝叶斯计算(ABC)索引贴》
4.1 概述
上一章考虑了结合使用矩量法和最小二乘法来估计地质统计模型的参数(参见 《点参考数据及克里金法》 )。这些方法统称为 “经典地质统计学” ,通常不 ...
格子克里金法(LatticeKrig)
【摘 要】 我们开发了一个多分辨率模型来预测基于不规则间隔观测的二维空间场。每个分辨率级别的径向基函数都是使用 Wendland 紧支撑的相关函数构建,“结点” 排列在矩形网格上。每个更精细级别的网格以两倍率增加,并且基函数按比例缩放以具有恒定的重叠。在每个分辨率级别与基函数关联的权重系数,根据高斯马尔可夫随机场 (GMRF) 来分布,并充分利用基被组织为网格的事实。几个数值示例和分析结果表明,该方案可以很好地逼近标准协方差函数,例如 Matern,并且还具有适应更复杂形状的灵活性。该模型的另一个重要特征是可以应用于大型空间数据集的统计推断,因为计算中的关键矩阵是稀疏的。计算的高效性适用于似然计算和空间预测。
【原 文】 Nychka, D. et al. (2015) ‘A multiresolution gaussian process model for the analysis of large spatial datasets’, Journal of Computational and Graphical Statistics, 24(2), pp. 579–5 ...
海量空间数据集的多分辨率近似(MRA )
【摘 要】 卫星和飞机上的自动传感仪器能够收集大空间区域空间场的大量高分辨率观测数据。如果可以有效地利用这些数据集,它们可以为各种问题提供新的见解。然而,传统的空间统计技术(如克里金法)在计算上对于大数据集不可行。我们提出了在空间不规则位置观测到的高斯过程的多分辨率近似 (M-RA)。 M-RA 过程被指定为多个空间分辨率级别的基函数的线性组合,它可以捕获从非常精细到非常大尺度的空间结构。自动选择基函数来近似给定的协方差函数,该协方差函数可以是非平稳的。所有涉及 M-RA 的计算,包括参数推断和预测,对于海量数据集都是高度可扩展的。至关重要的是,推断算法也可以并行化,以充分利用大型分布式内存计算环境。在使用模拟数据和大型卫星数据集进行比较时,M-RA 优于相关的最新技术
【原 文】 Katzfuss, M. (2017) ‘A Multi-Resolution Approximation for Massive Spatial Datasets’, Journal of the American Statistical Association, 112(517), pp. ...
利用变分高斯过程学习空间模式
【摘 要】 介绍了专门用于空间数据的变分高斯过程 (VGP) 模型,利用了机器学习领域的最新进展。该模型是模块化和可定制的,能够处理关于数据的不同假设。本文工作侧重于多元稳健回归,使用 εεε 不敏感损失函数的自适应。 变分高斯过程使端到端建模成为可能:正态分值变换、空间模式检测和预测。本文提出了一种处理大型数据集的方法,并给出了可用的开源实现。
【原 文】 Gonçalves, Í.G., Guadagnin, F. and Cordova, D.P. (2022) ‘Learning spatial patterns with variational Gaussian processes: Regression’, Computers & Geosciences, p. 105056. Available at: https://doi.org/10.1016/j.cageo.2022.105056.
1 引言
高斯过程 (Gaussian Process,GP) 模型具有能生成具有置信区间的预测、可以从小数据集中学习、抗过拟合等技术优势,因此在机器学习社区中迅 ...
🔥 空间大数据组织管理方法索引帖
〖摘 要〗 个人用于整理时空大数据引擎原理、方法及其实现的汇总帖,大致分为综述、原理方法、工程实践三个板块。
一、 综述
《空间大数据引擎综述文章:大数据时代的空间数据引擎》
二、原理方法
空间索引方法综述:
《基于空间填充曲线的降维方法》: 介绍如何利用 Z 序 Hillbert 曲线等空间填充曲线方法,实现多维空间的降维索引。
《空间填充曲线的聚簇性分析》: 从理论上分析了空间填充曲线的聚簇性,表明空间填充曲线无法做到任意位置的高聚簇性。
《扩展 Z 序曲线(XZ-Ordering)索引》: 德国慕尼黑大学教授提出的一种有缝有叠的剖分和填充曲线方式,可有效解决跨剖分面片的单编码空间覆盖问题。
三、工程实践
《全文数据库中多维数据检索效率的提升方法》: 基于可分布式部署的传统关系型数据库或全文数据库,其实现机制和单机数据库区别不大,并行机制来自于分布式数据库本身。本文主要介绍了全文数据库(关系型数据库类似)的实现机制,以及空间索引在其中的结合方法。典型代表如:Parallel Secondo、Paradise、 Sphinx 等。此外,专门面向 ...
🔥 大规模面元数据统计分析方法索引帖
〖摘 要〗 暂时没有启动阅读工作,待整理。
#refplus, #refplus li{
padding:0;
margin:0;
list-style:none;
};
document.querySelectorAll(".refplus-num").forEach((ref) => {
let refid = ref.firstChild.href.replace(location.origin+location.pathname,'');
let refel = document.querySelector(refid);
let refnum = refel.dataset.num;
let ref_content = refel.innerText.replace(`[${refnum}]`,'');
tippy(ref, {
cont ...
高斯场和非高斯场的随机偏微分方程方法:10 年回顾
【摘 要】 高斯过程和随机场有着悠久的历史,包含了表示空间和时空相关结构的很多方法,例如:协方差函数、谱表示、再生核希尔伯特空间、基于图的模型等。本文介绍了随机偏微分方程方法(SPDE)如何通过 Hilbert 空间投影,将 Matern 协方差模型与其中几种方法建立起联系,并且每种联系在不同情况下都非常有用。除了主要思想的概述之外,本文还讨论了一些重要的扩展、理论、应用和其他新发展。这些方法包括:马尔可夫模型、非马尔可夫模型、非高斯随机场、非平稳场、任意流形上的时空场等,以及实际计算需要考虑的因素。
【原 文】 Lindgren, F., Bolin, D. and Rue, H. (2022) ‘The SPDE approach for Gaussian and non-Gaussian fields: 10 years and still running’, Spatial Statistics, 50, p. 100599. Available at: https://doi.org/10.1016/j.spasta.2022.100599.
1 简介
关于高斯场 ...