基于空间滤波方法的机器学习模型
【摘 要】 空间统计模型对于地理空间数据建模非常有效,因为它们考虑了地理空间和其他非空间协变量的空间信息,使它们能够通过解决空间依赖性来最小化空间自相关。相比之下,机器学习模型在预测非空间数据方面非常有效,但由于空间自相关问题,它们在建模和预测地理空间数据方面效果不佳。在用于地理空间数据建模的机器学习模型中,经常出现的局限性之一是没有将地理空间的空间信息融合到模型中的标准方法,因此机器学习模型中无法最小化空间自相关。
在本研究中,我们提出了一种局部空间信息嵌入的机器学习方法,该方法能够在预测地理空间现象的同时,通过解决空间依赖性来最小化空间自相关。
我们的研究应用 特征向量空间滤波方法 从空间坐标中提取近似特征向量,并将它们作为一组向量与选定的非空间协变量一起嵌入到机器学习模型中。我们比较了传统空间统计模型和基于机器学习的模型之间的相对预测性能。实验表明,在机器学习模型规范中结合空间过滤的特征向量来表示空间信息可显著提高预测性能。
【原 文】 M. D. Islam, B. Li, C. Lee, and X. Wang, “Incorporating spatial in ...
空间异质性类型及检验方法
【摘 要】 本文关注的重点是空间异质性问题。空间异质性是统计学中使用的一个术语,表示一个或多个感兴趣的统计特征在总体的所有子集中不相同。空间异质性的存在与独立同分布假设相冲突,即观测值之间并不是同分布的,这使很多基于独立同分布假设的方法出现问题。如果我们的研究区域很大并且物理或社会经济多样化,或者研究区域在高空间分辨率下被观测到,那么作出数据子集都具有相同统计特征的假设大概率是无效的,因此这个问题值得重视。本文概述了三种基本的空间异质性:空间均值异质性、空间自相关结构(含异方差)异质性、空间分层异质性,其中前两者相对比较成熟,文中给除了相关连接;因此本文重点是空间分层异质性的定义、检验和建模。
【参 考】
J. Wang, R. Haining, T. Zhang, C. Xu, and M. Hu, “Statistics for spatially stratified heterogeneous data,” arXiv preprint arXiv:2211.16918, 2022.
R. P. Haining and G. Li, Modelling spati ...
深度神经网络和时空数据深度分层模型比较
【摘 要】 时空数据在农业、生态和环境科学中无处不在,研究它们对于理解和预测各种过程非常重要。对随时间变化的空间过程建模的困难之一是必须描述这种过程如何变化的依赖结构的复杂性,以及高维复杂数据集和大型预测域的存在。为非线性动态时空模型 (DSTM) 指定参数化尤其具有挑战性,这些模型在科学上和计算上都非常有用。统计学家开发了深层分层模型,可以适应过程的复杂性以及预测和推断中的不确定性。然而,这些模型可能很昂贵并且通常是特定于应用程序的。另一方面,机器学习社区已经为非线性时空建模开发了替代的“深度学习”方法。这些模型很灵活,但通常不会在概率框架中实现。这两种范式有许多共同点,并提出了可以从每个框架的元素中受益的混合方法。这篇概述论文简要介绍了深度分层 DSTM (DH-DSTM) 框架和机器学习中的深度模型,最后介绍了深度神经网络动态时空模型 (DN-DSTM),将来自 DH-DSTM 和 DN-DSTM 的要素结合起来的最新方法作为插图呈现。
【引 文】 C. K. Wikle, “Comparison of Deep Neural Networks and Deep H ...
大型空间数据分析方法案例及评测
【摘 要】 高斯过程是空间数据分析人员不可或缺的工具。然而,“大数据” 时代的到来导致传统高斯过程在计算上对现代空间数据不可行。因此,已经提出了更适合处理大空间数据的完全高斯过程的多种替代方案。这些现代方法通常利用低秩结构和/或多核和多线程计算环境来促进计算。本研究首先介绍性地概述了几种分析大型空间数据的方法。然后,阐述了由不同组实施的方法之间的预测评测结果。具体来说,每个研究组都得到了两个训练数据集(一个模拟数据集和一个观测数据集)以及一组预测位置。然后,各组实现自己的方法,并在给定位置处生成预测,每组的成果都在公共计算环境中运行。然后根据各种预测诊断对这些方法进行了比较。有关方法和代码的实现细节的补充材料可在线。
【原 文】 M. J. Heaton et al., “A Case Study Competition Among Methods for Analyzing Large Spatial Data,” Journal of Agricultural, Biological and Environmental Statistics, vol. 24, no. ...
🔥 空间数据和时空数据的统计深度学习
【摘 要】 近年来,深度神经网络模型变得无处不在,并已应用于几乎所有科学、工程和工业领域。这些模型对于在空间(例如,图像)和时间(例如,序列)中具有强依赖性的数据特别有用。事实上,深度模型也被统计界广泛用于对空间和时空数据进行建模,例如,通过使用多级贝叶斯层次模型和深度高斯过程。在这篇综述中,我们首先概述了用于建模空间和时空数据的传统统计和机器学习视角,然后重点介绍了最近为隐过程、数据和参数定义开发的各种混合模型。这些混合模型将统计建模思想与深度神经网络模型相结合,以利用每种建模范式的优势。最后,我们概述了已证明对这些混合模型有用的计算技术,并简要讨论了未来的研究方向
【原 文】 K. Wikle and A. Zammit-Mangion, “Statistical Deep Learning for Spatial and Spatio-Temporal Data.” arXiv, Jun. 05, 2022. Accessed: Nov. 13, 2022. [Online]. Available: http://arxiv.org/abs/2206.02218
【作 ...
空间滤波方法
【摘要】 本文关注的重点是特征向量空间滤波方法(Eigenvectors Spatial Filtering, 特征向量空间滤波)。这是一种方法已广泛应用于地理学、区域科学、城市研究、经济学、生态学和流行病学等诸多领域的局部空间异质性建模方法。与地理加权回归方法探求回归系数背后的空间模式不同,空间滤波方法旨在检测空间数据中残差的空间模式。本文将介绍特征向量空间滤波方法的基础理论和扩展方法,并且讨论应用此方法时需要考虑和避免的问题。
【原文】 Y. Yamagata and H. Seya, Eds., Chapter 6, Spatial analysis using big data: methods and urban applications. London, United Kingdom ; San Diego, CA: Academic Press, an imprint of Elsevier, 2020.
1 简介
本文关注的重点是空间变系数模型的发展,尤其是其中的特征向量空间滤波方法(Eigenvectors Spatial Filtering, 特征向量空 ...
克里金和高斯过程的关系
克里金法 源于地统计学,在统计学中也称为 高斯过程回归,是一种基于高斯过程的空间插值方法。在适当的先验假设下,克里金法在未采样位置提供最佳线性无偏预测 (BLUP)。该方法广泛应用于空间分析和计算机实验领域。该方法的理论基础由法国数学家 Georges Matheron 于 1960 年根据 Danie G. Krige 的硕士论文开发。 Krige 试图根据几个钻孔的样本来估计黄金最有可能的分布。
在面向二三维空间时,从数学上两者本质上是相同的。
两者之间的主要区别特征见下表:
Table 1. 区分克里金和现代高斯过程的主要特征
特征
高斯过程
克里金
Bayesian vs Frequentist
衍生自贝叶斯观点
衍生自频率派观点
目标
给定可用训练数据后,从后验高斯过程中进行采样。
给定有效测量后,获得目标变量的最佳线性无偏估计。
维度
没有维度限制,所有特征都可以作为预测变量,并天然形成一个高维空间。目标变量被认为是此高维空间中的一个函数。
为二维/三维空间分析而设计。虽然协同克里金法中会引入辅助变量,但同时增加了克里金方程的复杂性。
...
空间思维及贝叶斯方法
【摘 要】本文首先从时空数据分析面临的空间依赖性、空间异质性、数据稀疏性和不确定性四个挑战谈起,阐述了空间统计思维的重要性。在简单描述了频率派思想和贝叶斯派思想的区别后,重点阐述了贝叶斯方法的优点和可行性,尤其是其中贝叶斯分层模型和贝叶斯空间计量学模型。本文节选自 Haining 的《空间和时空数据建模》一书。
【原 文】 R. P. Haining and G. Li, Chapter 1 ,Modelling spatial and spatial-temporal data: a Bayesian approach. Boca Raton: CRC Press, Taylor & Francis, 2020.
1 时空数据分析面临的四个挑战
1.1 时空数据存在依赖性( 相关性 )
数据的空间依赖性:对于空间和时空数据,在空间和/或时间上靠得很近的值不太可能是独立的。依赖性( 或缺乏独立性 )是空间和时空数据的基本性质。在某个时间间隔内对某个区域观测到的数据值通常包含有关同一变量在同一( 或附近 )时间窗口内其他( 附近 )区域的数据值的一些信息。例如,仔细检 ...
点参考数据的贝叶斯建模软件spBayes
原文: Finley, A. O., Banerjee, S., & E.Gelfand, A. (2015). SpBayes for Large Univariate and Multivariate Point-Referenced Spatio-Temporal Data Models. Journal of Statistical Software, 63(13). https://doi.org/10.18637/jss.v063.i13
Andrew O. Finley,密歇根州立大学
Sudipto Banerjee,加州大学洛杉矶分校
Alan E. Gelfand, 杜克大学
1 模型框架的定义
贝叶斯高斯空间回归模型是一个分层建模框架:
p(θ)×N(β∣μβ,Σβ)×N(α∣0,K(θ))×N(y∣Xβ+Z(θ)α,D(θ))(1)p(\boldsymbol{\theta}) \times \mathcal{N}(\boldsymbol{\beta} | \boldsymbol{\mu}_{\beta},\Sigma_{\beta}) \ti ...
Cressie 的最新空间统计论述
【阅读建议】 本文是 Cressie 在 2021 年新撰写的一篇综述类文章,其主要看点包括:(1)用统一的形式化框架实现了点参考数据、面元数据、点模式数据的建模;(2)对多变量空间统计建模的统一形式化;(3)大数据的空间离散化处理方法(此处尚未理解其优势所在,需要进一步阅读引用的论文);
【摘 要】 空间统计是一个致力于与空间标签相关数据统计分析的研究领域。地理学家通常将 “位置信息” 与 “属性信息” 联系起来,并且定义了一个被称为 “空间分析” 的研究领域。许多操作空间数据的方法都是由算法驱动的,缺少与之相关的不确定性量化。如果空间分析是统计的(即结合了不确定性量化),则它属于空间统计的研究范畴。空间统计模型的主要特征是邻近的属性值比远处的属性值在统计上更相关,这也被称为地理学第一定律。
【原 文】 N. Cressie and M. T. Moores, “Spatial Statistics,” 2021, doi: 10.48550/ARXIV.2105.07216.
【参 考】
1 导言
空间统计提供了一个概率框架,用于回答数据中包含空间位置信息、且所提问题与 ...