空间异质性类型及检验方法
【摘 要】 本文关注的重点是空间异质性问题。空间异质性是统计学中使用的一个术语,表示一个或多个感兴趣的统计特征在总体的所有子集中不相同。空间异质性的存在与独立同分布假设相冲突,即观测值之间并不是同分布的,这使很多基于独立同分布假设的方法出现问题。如果我们的研究区域很大并且物理或社会经济多样化,或者研究区域在高空间分辨率下被观测到,那么作出数据子集都具有相同统计特征的假设大概率是无效的,因此这个问题值得重视。本文概述了三种基本的空间异质性:空间均值异质性、空间自相关结构(含异方差)异质性、空间分层异质性,其中前两者相对比较成熟,文中给除了相关连接;因此本文重点是空间分层异质性的定义、检验和建模。 【参 考】 J. Wang, R. Haining, T. Zhang, C. Xu, and M. Hu, “Statistics for spatially stratified heterogeneous data,” arXiv preprint arXiv:2211.16918, 2022. R. P. Haining and G. Li, Modelling...
空间思维及贝叶斯方法
【摘 要】本文首先从时空数据分析面临的空间依赖性、空间异质性、数据稀疏性和不确定性四个挑战谈起,阐述了空间统计思维的重要性。在简单描述了频率派思想和贝叶斯派思想的区别后,重点阐述了贝叶斯方法的优点和可行性,尤其是其中贝叶斯分层模型和贝叶斯空间计量学模型。本文节选自 Haining 的空间和时空数据建模一书, 【原 文】 R. P. Haining and G. Li, Chapter 1 ,Modelling spatial and spatial-temporal data: a Bayesian approach. Boca Raton: CRC Press, Taylor & Francis, 2020. 1 时空数据分析面临的挑战1.1 空间依赖性对于空间和时空数据,在空间和/或时间上靠得很近的值不太可能是独立的。依赖性(或缺乏独立性)是空间和时空数据的基本属性。在某个时间间隔内对某个区域观察到的数据值通常包含有关同一变量在同一(或附近)时间窗口内其他(附近)区域的数据值的一些信息。例如,仔细检查图 1.1...
点参考数据的贝叶斯建模软件spBayes
原文: Finley, A. O., Banerjee, S., & E.Gelfand, A. (2015). SpBayes for Large Univariate and Multivariate Point-Referenced Spatio-Temporal Data Models. Journal of Statistical Software, 63(13). https://doi.org/10.18637/jss.v063.i13 Andrew O. Finley,密歇根州立大学Sudipto Banerjee,加州大学洛杉矶分校Alan E. Gelfand, 杜克大学 1 模型框架的定义贝叶斯高斯空间回归模型是一个分层建模框架: $$p(\boldsymbol{\theta}) \times \mathcal{N}(\boldsymbol{\beta} | \boldsymbol{\mu}{\beta},\Sigma{\beta}) \times \mathcal{N}(\boldsymbol{\alpha} | 0,...
Cressie 的最新空间统计论述
【阅读建议】 本文是 Cressie 在 2021 年新撰写的一篇综述类文章,其主要看点包括:(1)用统一的形式化框架实现了点参考数据、面元数据、点模式数据的建模;(2)对多变量空间统计建模的统一形式化;(3)大数据的空间离散化处理方法(此处尚未理解其优势所在,需要进一步阅读引用的论文); 【摘 要】 空间统计是一个致力于与空间标签相关数据统计分析的研究领域。地理学家通常将 “位置信息” 与 “属性信息” 联系起来,并且定义了一个被称为 “空间分析” 的研究领域。许多操作空间数据的方法都是由算法驱动的,缺少与之相关的不确定性量化。如果空间分析是统计的(即结合了不确定性量化),则它属于空间统计的研究范畴。空间统计模型的主要特征是邻近的属性值比远处的属性值在统计上更相关,这也被称为地理学第一定律。 【原 文】 N. Cressie and M. T. Moores, “Spatial Statistics,” 2021, doi: 10.48550/ARXIV.2105.07216. 【参 考】 1...
空间随机场及其建模方法
【摘 要】 空间数据集通常被分为三种类型:点参考数据、面元数据和点模式数据,本文重点介绍点参考数据的建模基础–空间随机场,讨论了空间随机场的一些基本假设和性质,及其形式化定义。 【原 文】 O. Schabenberger and C. A. Gotway, Chapter 2,Statistical methods for spatial data analysis. Boca Raton: Chapman & Hall/CRC, 2005. 1 随机过程与随机场(1)随机过程与随机场 随机过程是随机变量族或集合,其成员可以根据某种度量来识别或索引。例如: 时间序列 $Y (t),t = t_1,\ldots,t_n$ 由观测该序列的时间点 $t_1,\ldots,t_n$ 索引。 空间过程也是随机变量的集合,只是其中的随机变量由包含空间坐标 $\mathbf{s} =[s_1,s_2, ···,s_d]^\prime$ 的某个集合 $D \subset \mathbb{R}^d$ 索引。对于平面内的一个过程,即...
多尺度地理加权回归
其中 $n$ 表示样本大小,$\hat{\sigma}$ 定义为误差项的标准差,$\operatorname{tr}(\boldsymbol{S})$ 是帽子矩阵的迹。选定带宽后,可以进一步计算权重,并在每个校准位置拟合 GWR 模型,以获得一组局部系数。通过取每个校准位置的局部 $R^{2}$ 的平均值,可以获得 GWR 模型的总体 $R^{2}$ 值。 【原 文】 Fotheringham, A. Stewart and Yang, Wenbai and Kang, Wei. Multiscale Geographically Weighted Regression (MGWR) 2017. Annals of the American Association of Geographers , Vol. 107, No. 6 p. 1247-1265. 【阅后感】 ...
贝叶斯分层模型
【摘 要】 本文简要介绍了贝叶斯分层建模方法的概念、优势和局限性。 【原 文】 N. Cressie, chapter 2, Statistics for spatio-temporal data. 2011. 核心内容快速浏览(1)贝叶斯全概率公式 贝叶斯全概率公式允许将随机变量的联合分布分解为一系列条件分布: $$[A, B, C] = [A | B, C][B | C][C]$$ 其中 “$[ \cdot ]$” 用于表示概率分布;例如,$[A, B, C]$ 是随机变量 $A$、$B$ 和 $C$ 的联合分布,而 $[A | B, C]$ 是给定 $B$ 和 $C$ 时 $A$ 的条件分布。 (2)Berlinear 的贝叶斯分层模型 (BHM) 范式 Mark Berliner (Berliner,1996)是最早使用贝叶斯全概率公式分解来为复杂过程建模的人。也就是说,联合分布 $[\text{data}, \text{process},\text{parameters}]$,可以自顶向下分解为三个层次: 数据模型:在假设下层的 “真实”...
空间数据贝叶斯建模方法索引帖
基础点参考数据面元数据点模式数据
地理加权回归模型
〖摘 要〗 空间异质性是地理学第二定律的核心。从地理信息科学角度,空间异质性主要包含两种类型,一是随空间变化,空间某些变量之间的关系发生了明显变化;二是随空间变化,空间某些变量的统计量(如:均值、方差)会出现平稳或者不平稳的变化。地理加权回归是空间计量学、地理空间统计学中为研究第一种空间异质性(即变量间关系的空间异质性)而提出的工具,在多元变量的空间插值或预测等方面具有重要作用。本文为相关原理的基本介绍。 〖原 文〗 Yamagata, Y. and Seya, H. (eds) (2020) Spatial analysis using big data: methods and urban applications. London, United Kingdom ; San Diego, CA: Academic Press, an imprint of Elsevier (Spatial econometrics and spatial statistics). Chapter 6 1 引言1.1 全局空间最小二乘回归的问题在地学空间分析中,$n$...
一种地理加权人工神经网络 -- GWANN
一种地理加权人工神经网络【摘 要】 虽然最近的发展在许多方向上扩展了地理加权回归( GWR ),但通常假设因变量和自变量之间的关系是线性的。然而,在实践中,变量往往是非线性关联的。为解决该问题,荷兰乌特勒支大学 Hagenauer 等提出了一种地理加权人工神经网络( $GWANN$ )。 $GWANN$ 将地理加权与人工神经网络相结合,能够在无假设情况下以数据驱动方式学习复杂的非线性关系。通过已知空间特征的合成数据和真实世界案例研究,作者将 $GWANN$ 和 GWR 进行了比较。合成数据的结果表明,当数据之间关系是非线性且空间方差较大时, $GWANN$ 算法的性能要好于 GWR 算法,而基于真实数据的结果表明, $GWANN$ 算法在实际应用中也可以取得更好的性能。 【原 文】 Hagenauer, J. and M. Helbich ( 2021 ). “A geographically weighted artificial neural network.” International Journal of Geographical Information...