基于似然的的方法
【摘 要】在空间统计学中,点参考数据模型通常采用高斯过程(场)建模,而超参数的推断则主要有基于经验的矩量估计法和基于似然的统计推断方法。本文主要介绍基于似然的统计推断方法。文中涉及最大似然估计、受限最大似然估计、组合似然近似估计、渐进特性分析等内容。本文内容摘自 Gelfand 的 《空间统计手册》第四章。
【原 文】 Gelfand, A.E. et al. (2010), Handbook of spatial statistics (chapter 4). CRC press.
关于似然方法的基础资料见:
参见 普度大学机器人视觉实验室的 《最大似然、最大后验与贝叶斯方法的区别》
参见 Reid 等 2010 年的 《似然函数与基于似然的推断》
参见 Cousineau 等 2016 年 《似然概念的扫盲帖》
对非似然方法感兴趣的同学,可以阅读:
参见 《近似贝叶斯计算(ABC)索引贴》
4.1 概述
上一章考虑了结合使用矩量法和最小二乘法来估计地质统计模型的参数(参见 《点参考数据及克里金法》 )。这些方法统称为 “经典地质统计学” ,通常不明确要求 ...
条件自回归和本征自回归
13.1 引言
本章的目的是概述条件自回归和本征自回归。这些模型至少可以追溯到 Besag (1974),并且从那时起就被广泛用于模拟离散空间变化。
传统上,条件自回归已用于直接模拟在预定义图形或格结构上观测到的数据的空间依赖性。然后,推理通常基于似然或伪似然技术 (Besag, 1974; K̈unsch, 1987)。最近,条件自回归以模块化方式应用于(通常是贝叶斯)复杂层次模型。尽管确实存在一些替代方案(Breslow 和 Clayton,1993 年;Rue、Martino 和 Chopin,2009 年),但此类推理几乎总是使用马尔可夫链蒙特卡罗 (MCMC) 进行。在本章中,我们将描述最常用的条件自回归和本征自回归。重点将放在空间模型上,但我们还将讨论与自回归时间序列模型的关系。事实上,自回归时间序列模型是条件自回归的特例,探索这种关系有助于培养普通班级的直觉和理解力。
本章不会详细描述如何建立基于条件自回归先验分布的层次模型以及如何使用 MCMC 对其进行分析。有关详细讨论,请参阅 Banerjee、Carlin 和 Gelfand,2004 年;希格登, 2 ...
马尔可夫随机场
【摘 要】在空间统计学中,面元数据的空间统计建模通常是采用马尔可夫随机场实施的。本文针对单随机变量(随机过程)情况,介绍了其定义、性质、推断方法、分布的计算等内容,尤其突出了高斯马尔可夫随机场(GMRF)。内容摘自 Gelfand 的 《空间统计手册》第十二章。
【原 文】 Gelfand, A.E. et al. (2010), Handbook of spatial statistics (chapter 12). CRC press.
空间随机变量的有限集合的统计建模,通常通过马尔可夫随机场 (MRF) 完成。 MRF 是通过一组条件分布来指定的,其中每一个条件对应于某个分量在给定其他分量时的条件分布。这使人们能够每次只专注于单个随机变量,并导致了基于模拟的简单 MRF 计算程序,特别是利用马尔可夫链蒙特卡罗 (MCMC) 进行贝叶斯推断。
本章的主要目的是全面介绍高斯马尔可夫随机场( GMRF )的情况,重点是通用性质和高效计算方法。示例和应用将会出现在 第 13 章 和 第 14 章。我们将在本章最后讨论联合分布不是高斯的一般情况,特别是著名的 Hammersl ...
CAR 和 SAR 模型及其隐含的空间结构
【摘 要】 对空间参考数据中出现的空间相互作用进行建模通常是通过自回归模型将空间依赖性显式或隐式地纳入协方差结构来完成的。对于面元数据,两种常见的自回归模型是 条件自回归模型 (CAR) 和 同步自回归模型 (SAR)。这两种模型都会在协方差结构中通过邻居矩阵 W\mathbf{W}W 的函数产生空间依赖性,并且通常是 一个固定但未知的空间相关参数。本文详细研究了这些模型应用于不规则面元数据时隐含的关联结构,尝试证明它们的许多违反直觉或不切实际的结果。数据示例用于说明,其中使用不同的空间模型对美国全州平均 SAT 语言分数进行建模和检查空间结构。
【原 文】 Wall, M.M. (2004) ‘A close look at the spatial structure implied by the CAR and SAR models’, Journal of Statistical Planning and Inference, 121(2), pp. 311–324. Available at: https://doi.org/10/d2pjx8.
1 简介
在许多设 ...
利用变分高斯过程学习空间模式
【摘 要】 介绍了专门用于空间数据的变分高斯过程 (VGP) 模型,利用了机器学习领域的最新进展。该模型是模块化和可定制的,能够处理关于数据的不同假设。本文工作侧重于多元稳健回归,使用 εεε 不敏感损失函数的自适应。 变分高斯过程使端到端建模成为可能:正态分值变换、空间模式检测和预测。本文提出了一种处理大型数据集的方法,并给出了可用的开源实现。
【原 文】 Gonçalves, Í.G., Guadagnin, F. and Cordova, D.P. (2022) ‘Learning spatial patterns with variational Gaussian processes: Regression’, Computers & Geosciences, p. 105056. Available at: https://doi.org/10.1016/j.cageo.2022.105056.
1 引言
高斯过程 (Gaussian Process,GP) 模型具有能生成具有置信区间的预测、可以从小数据集中学习、抗过拟合等技术优势,因此在机器学习社区中迅 ...
🔥 空间大数据组织管理方法索引帖
〖摘 要〗 个人用于整理时空大数据引擎原理、方法及其实现的汇总帖,大致分为综述、原理方法、工程实践三个板块。
一、 综述
《空间大数据引擎综述文章:大数据时代的空间数据引擎》
二、原理方法
空间索引方法综述:
《基于空间填充曲线的降维方法》: 介绍如何利用 Z 序 Hillbert 曲线等空间填充曲线方法,实现多维空间的降维索引。
《空间填充曲线的聚簇性分析》: 从理论上分析了空间填充曲线的聚簇性,表明空间填充曲线无法做到任意位置的高聚簇性。
《扩展 Z 序曲线(XZ-Ordering)索引》: 德国慕尼黑大学教授提出的一种有缝有叠的剖分和填充曲线方式,可有效解决跨剖分面片的单编码空间覆盖问题。
三、工程实践
《全文数据库中多维数据检索效率的提升方法》: 基于可分布式部署的传统关系型数据库或全文数据库,其实现机制和单机数据库区别不大,并行机制来自于分布式数据库本身。本文主要介绍了全文数据库(关系型数据库类似)的实现机制,以及空间索引在其中的结合方法。典型代表如:Parallel Secondo、Paradise、 Sphinx 等。此外,专门面向 ...
🔥 大规模面元数据统计分析方法索引帖
〖摘 要〗 暂时没有启动阅读工作,待整理。
#refplus, #refplus li{
padding:0;
margin:0;
list-style:none;
};
document.querySelectorAll(".refplus-num").forEach((ref) => {
let refid = ref.firstChild.href.replace(location.origin+location.pathname,'');
let refel = document.querySelector(refid);
let refnum = refel.dataset.num;
let ref_content = refel.innerText.replace(`[${refnum}]`,'');
tippy(ref, {
cont ...
快速地理加权回归 (FastGWR)
〖摘 要〗 地理加权回归 (GWR) 是一种广泛使用的工具,用于探索地理空间过程的空间异质性。 GWR 计算特定位置的参数估计值,这使得其校准过程需要大量计算。当前开源 GWR 软件可以处理的最大数据点数是标准桌面上的大约 15,00015,00015,000 个观测值。在大数据时代,这严重限制了 GWR 的使用。为了克服这一限制,我们提出了一种高度可扩展的开源 FastGWR 实现,该实现基于 Python 和消息传递接口 (MPI),可扩展到数百万个观测值的数量级。 FastGWR 优化内存使用以及并行化以显著提高性能。为了说明 FastGWR 的性能,对来自洛杉矶市 Zillow 数据集的大约 130130130 万个单户住宅物业进行了特征房价模型校准,这是将 GWR 应用于这种规模的数据集的首次尝试。结果表明,随着高性能计算 (HPC) 环境中内核数量的增加,FastGWR 呈线性扩展。它还优于当前可用的开源 GWR 软件包,在标准桌面上速度大幅降低——最高可达数千倍。
【原 文】 Li, Z. et al. (2019) ‘Fast Geographically ...
协方差锥化
【摘 要】 空间相关随机过程的插值被用于许多科学领域。最好的无偏线性预测器,在地统计科学中通常称为克里金预测器,需要基于观测值的协方差矩阵求解(可能很大的)线性系统。在本文中,我们展示了使用适当的紧支撑正定函数对正确的协方差矩阵进行锥化可以显著减少计算负担,并且仍然会导致渐近最优均方误差。锥化的效果是创建一个稀疏的近似线性系统,然后可以使用稀疏矩阵算法对其进行求解。蒙特卡洛模拟支持理论结果。一个大型气候降水数据集的应用作为一个具体和实际的例子被提出。
【原 文】 Furrer, R., Genton, M.G. and Nychka, D. (2006) ‘Covariance Tapering for Interpolation of Large Spatial Datasets’, Journal of Computational and Graphical Statistics, 15(3), pp. 502–523. Available at: https://doi.org/10.1198/106186006X132178.
1 引言
许多学科的统计应用都依赖于根 ...
高斯预测过程
【摘 要】 有了地理编码的可用科学数据,研究人员越来越多地转向空间过程模型来进行统计推断。在过去的十年中,通过马尔可夫链蒙特卡洛方法实现的分层模型在空间建模中变得特别流行,因为它们能够灵活地拟合传统方法不可行的模型,并且避免了可能不正确的渐近。然而,拟合分层空间模型通常涉及昂贵的矩阵分解,其计算复杂度随空间位置的数量呈三次方增加,使得此类模型不适用于大型空间数据集。这种计算负担在具有多个空间相关响应变量的多变量设置中更为明显。当在频繁的时间点收集数据并使用时空过程模型时,这种情况会加剧。关于这一挑战,本文贡献是使用空间和时空数据的预测过程模型。每个空间(或时空)过程都会产生一个预测过程模型(实际上可以是任意多个)。后者将前者的过程实现投影到低维子空间,从而减少了计算负担。因此,我们实现了在大数据集上下文中拟合非平稳、非高斯、多变量、时空过程的灵活性。我们讨论了这些预测过程的理论特性,还提供了一个包含不同设置的计算模板。最后,我们用模拟和真实数据集来说明了该方法。
【原 文】 Banerjee, S. et al. (2008) ‘Gaussian predictive pr ...