🔥 大规模点参考数据统计分析方法索引帖
〖摘 要〗 个人用于整理大规模点参考数据时空统计分析方法的汇总帖,大致分为克里金法和贝叶斯建模、高斯过程及其推断理论、大 n 问题及其对策、并行化策略和方法、与深度学习的结合等部分。目前主要兴趣点在大规模点参考数据的高效计算方法和统计深度学习方面。
1 基础地统计方法
(1)克里金法及经验估计
克里金方法发源于 1940 年代的地统计学领域,主要用于解决插值问题,因 Krige 1960 年的一篇硕士论文而命名。在 1990s 年代,克里金法在贝叶斯推断背景下被重新表述,并被称为 高斯过程回归,而相关函数(在克里金法中是半变异函数)的选择,则被视为一个机器学习问题。
自编的《点参考数据及克里金法》 : 介绍了传统地统计学的克里金方法,其本质上就是高斯过程,只是提供了一套以变异函数和克里金预测为核心的独立技术体系。
Gelfand (2017)的 《点参考数据贝叶斯建模综述》 : 系统地从贝叶斯建模角度重温了地统计方法,除简述克里金法外,还包括贝叶斯分层建模方法、大 N 问题的处理等介绍性文字。
2 高斯过程及其推断
从权重视角来看,高斯过程是多元高斯分布向无限维随机变量 ...
🔥 点参考数据模型索引帖
1 空间过程及平稳性假设
《随机过程与随机场》 : 将空间表面(Surface)视为空间随机过程的一次实现,并将点参考数据视为空间表面的一次不完整观测,是研究点参考数据的基本假设。在此假设下,构成空间数据集的 nnn 个具有地理参考的观测值集合,并不代表大小为 nnn 的样本,而是代表了对一次随机实验的不完整观测,是一个来自 nnn 维分布的大小为 111 的样本。这种假设对于理解点参考数据的统计模型非常重要,也同时使传统基于重复观测的统计方法失效。本文介绍了这种假设以及相关的概念和知识。该文中还有部分关于空间连续性和可微性的讨论,之前认为不重要,但后来细品一下可能涉及点参考数据和面元数据之间的转换问题,将来有时间可以配合《随机偏微分方程方法: 高斯场和高斯马尔可夫随机场之间的明确联系》 进一步理解。
2 经典克里金方法
点参考数据及克里金法(2005) : 本文介绍了传统地统计学中的克里金方法。该方法发源于 1940 年代的地统计学领域,主要用于解决插值问题,因 Krige 1960 年的一篇硕士论文而命名。克里金法是一种基于高斯过程假设的经验估计和预测方法,建立 ...
空间数据的贝叶斯分层建模
【摘 要】由于空间数据的复杂性,使其统计建模非常困难。分层建模方法由于能够对模型进行分解,从而使建模和推断变得更具可操作性,因此在空间统计学领域得到快速应用和发展。而本文正是围绕空间数据的分层建模方法展开的。文中涉及通用分层建模方法、地统计中的分层建模、广义线性模型的分层建模等内容,以及相应的推断问题。本文内容摘自 Gelfand 的 《空间统计手册》第七章。
【原 文】 Gelfand, A.E. et al. (2010), Handbook of spatial statistics (chapter 7). CRC press.
7.1 简介
在空间统计中,人们通常必须在存在复杂过程、多个数据源、参数化不确定性和不同程度的科学知识的情况下开发统计模型。人们可以从联合或条件的角度来处理这些复杂的问题。虽然从联合角度考虑过程可能很直观,但这种方法可能对统计建模提出严重挑战。例如,可能很难为相关空间数据集指定联合多元依赖结构。将此类联合分布分解为一系列条件模型可能会容易得多。例如,考虑以近地表环境空气温度为条件的近地表臭氧过程(尤其是在夏季)比同时考虑臭氧和温度过程更简 ...
基于似然的的方法
【摘 要】在空间统计学中,点参考数据模型通常采用高斯过程(场)建模,而超参数的推断则主要有基于经验的矩量估计法和基于似然的统计推断方法。本文主要介绍基于似然的统计推断方法。文中涉及最大似然估计、受限最大似然估计、组合似然近似估计、渐进特性分析等内容。本文内容摘自 Gelfand 的 《空间统计手册》第四章。
【原 文】 Gelfand, A.E. et al. (2010), Handbook of spatial statistics (chapter 4). CRC press.
关于似然方法的基础资料见:
参见 普度大学机器人视觉实验室的 《最大似然、最大后验与贝叶斯方法的区别》
参见 Reid 等 2010 年的 《似然函数与基于似然的推断》
参见 Cousineau 等 2016 年 《似然概念的扫盲帖》
对非似然方法感兴趣的同学,可以阅读:
参见 《近似贝叶斯计算(ABC)索引贴》
4.1 概述
上一章考虑了结合使用矩量法和最小二乘法来估计地质统计模型的参数(参见 《点参考数据及克里金法》 )。这些方法统称为 “经典地质统计学” ,通常不 ...
条件自回归和本征自回归
13.1 引言
本章的目的是概述条件自回归和本征自回归。这些模型至少可以追溯到 Besag (1974),并且从那时起就被广泛用于模拟离散空间变化。
传统上,条件自回归已用于直接模拟在预定义图形或格结构上观测到的数据的空间依赖性。然后,推理通常基于似然或伪似然技术 (Besag, 1974; K̈unsch, 1987)。最近,条件自回归以模块化方式应用于(通常是贝叶斯)复杂层次模型。尽管确实存在一些替代方案(Breslow 和 Clayton,1993 年;Rue、Martino 和 Chopin,2009 年),但此类推理几乎总是使用马尔可夫链蒙特卡罗 (MCMC) 进行。在本章中,我们将描述最常用的条件自回归和本征自回归。重点将放在空间模型上,但我们还将讨论与自回归时间序列模型的关系。事实上,自回归时间序列模型是条件自回归的特例,探索这种关系有助于培养普通班级的直觉和理解力。
本章不会详细描述如何建立基于条件自回归先验分布的层次模型以及如何使用 MCMC 对其进行分析。有关详细讨论,请参阅 Banerjee、Carlin 和 Gelfand,2004 年;希格登, 2 ...
马尔可夫随机场
【摘 要】在空间统计学中,面元数据的空间统计建模通常是采用马尔可夫随机场实施的。本文针对单随机变量(随机过程)情况,介绍了其定义、性质、推断方法、分布的计算等内容,尤其突出了高斯马尔可夫随机场(GMRF)。内容摘自 Gelfand 的 《空间统计手册》第十二章。
【原 文】 Gelfand, A.E. et al. (2010), Handbook of spatial statistics (chapter 12). CRC press.
空间随机变量的有限集合的统计建模,通常通过马尔可夫随机场 (MRF) 完成。 MRF 是通过一组条件分布来指定的,其中每一个条件对应于某个分量在给定其他分量时的条件分布。这使人们能够每次只专注于单个随机变量,并导致了基于模拟的简单 MRF 计算程序,特别是利用马尔可夫链蒙特卡罗 (MCMC) 进行贝叶斯推断。
本章的主要目的是全面介绍高斯马尔可夫随机场( GMRF )的情况,重点是通用性质和高效计算方法。示例和应用将会出现在 第 13 章 和 第 14 章。我们将在本章最后讨论联合分布不是高斯的一般情况,特别是著名的 Hammersl ...
CAR 和 SAR 模型及其隐含的空间结构
【摘 要】 对空间参考数据中出现的空间相互作用进行建模通常是通过自回归模型将空间依赖性显式或隐式地纳入协方差结构来完成的。对于面元数据,两种常见的自回归模型是 条件自回归模型 (CAR) 和 同步自回归模型 (SAR)。这两种模型都会在协方差结构中通过邻居矩阵 W\mathbf{W}W 的函数产生空间依赖性,并且通常是 一个固定但未知的空间相关参数。本文详细研究了这些模型应用于不规则面元数据时隐含的关联结构,尝试证明它们的许多违反直觉或不切实际的结果。数据示例用于说明,其中使用不同的空间模型对美国全州平均 SAT 语言分数进行建模和检查空间结构。
【原 文】 Wall, M.M. (2004) ‘A close look at the spatial structure implied by the CAR and SAR models’, Journal of Statistical Planning and Inference, 121(2), pp. 311–324. Available at: https://doi.org/10/d2pjx8.
1 简介
在许多设 ...
利用变分高斯过程学习空间模式
【摘 要】 介绍了专门用于空间数据的变分高斯过程 (VGP) 模型,利用了机器学习领域的最新进展。该模型是模块化和可定制的,能够处理关于数据的不同假设。本文工作侧重于多元稳健回归,使用 εεε 不敏感损失函数的自适应。 变分高斯过程使端到端建模成为可能:正态分值变换、空间模式检测和预测。本文提出了一种处理大型数据集的方法,并给出了可用的开源实现。
【原 文】 Gonçalves, Í.G., Guadagnin, F. and Cordova, D.P. (2022) ‘Learning spatial patterns with variational Gaussian processes: Regression’, Computers & Geosciences, p. 105056. Available at: https://doi.org/10.1016/j.cageo.2022.105056.
1 引言
高斯过程 (Gaussian Process,GP) 模型具有能生成具有置信区间的预测、可以从小数据集中学习、抗过拟合等技术优势,因此在机器学习社区中迅 ...
🔥 空间大数据组织管理方法索引帖
〖摘 要〗 个人用于整理时空大数据引擎原理、方法及其实现的汇总帖,大致分为综述、原理方法、工程实践三个板块。
一、 综述
《空间大数据引擎综述文章:大数据时代的空间数据引擎》
二、原理方法
空间索引方法综述:
《基于空间填充曲线的降维方法》: 介绍如何利用 Z 序 Hillbert 曲线等空间填充曲线方法,实现多维空间的降维索引。
《空间填充曲线的聚簇性分析》: 从理论上分析了空间填充曲线的聚簇性,表明空间填充曲线无法做到任意位置的高聚簇性。
《扩展 Z 序曲线(XZ-Ordering)索引》: 德国慕尼黑大学教授提出的一种有缝有叠的剖分和填充曲线方式,可有效解决跨剖分面片的单编码空间覆盖问题。
三、工程实践
《全文数据库中多维数据检索效率的提升方法》: 基于可分布式部署的传统关系型数据库或全文数据库,其实现机制和单机数据库区别不大,并行机制来自于分布式数据库本身。本文主要介绍了全文数据库(关系型数据库类似)的实现机制,以及空间索引在其中的结合方法。典型代表如:Parallel Secondo、Paradise、 Sphinx 等。此外,专门面向 ...
🔥 大规模面元数据统计分析方法索引帖
〖摘 要〗 暂时没有启动阅读工作,待整理。
#refplus, #refplus li{
padding:0;
margin:0;
list-style:none;
};
document.querySelectorAll(".refplus-num").forEach((ref) => {
let refid = ref.firstChild.href.replace(location.origin+location.pathname,'');
let refel = document.querySelector(refid);
let refnum = refel.dataset.num;
let ref_content = refel.innerText.replace(`[${refnum}]`,'');
tippy(ref, {
cont ...