【摘 要】 本文关注的重点是空间异质性问题。空间异质性是统计学中使用的一个术语,表示一个或多个感兴趣的统计特征在总体的所有子集中不相同。空间异质性的存在与独立同分布假设相冲突,即观测值之间并不是同分布的,这使很多基于独立同分布假设的方法出现问题。如果我们的研究区域很大并且物理或社会经济多样化,或者研究区域在高空间分辨率下被观测到,那么作出数据子集都具有相同统计特征的假设大概率是无效的,因此这个问题值得重视。本文概述了三种基本的空间异质性:空间均值异质性、空间自相关结构(含异方差)异质性、空间分层异质性,其中前两者相对比较成熟,文中给除了相关连接;因此本文重点是空间分层异质性的定义、检验和建模。

【参 考】

  • J. Wang, R. Haining, T. Zhang, C. Xu, and M. Hu, “Statistics for spatially stratified heterogeneous data,” arXiv preprint arXiv:2211.16918, 2022.
  • R. P. Haining and G. Li, Modelling spatial and spatial-temporal data: a Bayesian approach. Boca Raton: CRC Press, Taylor & Francis, 2020.
  • Dutilleul, P. R. L., Spatio-Temporal Heterogeneity: Concepts and Analysis. Cambridge: Cambridge University Press, 2011.

1 引言

本文关注的重点是空间异质性问题。空间异质性是统计学中使用的一个术语,表示一个或多个感兴趣的统计特征在总体的所有子集中不相同。空间异质性的存在与独立同分布假设相冲突,即观测值之间并不是 “同分布的”,从而使很多基于独立同分布假设的方法出现问题。如果我们的研究区域很大并且物理或社会经济多样化,或者研究区域在高空间分辨率下被观测到,那么理论上我们作出的数据的所有子集都具有相同统计特征的假设可能是无效的。在这种情况下,假设数据的所有子集并非都具有相同统计特征,可能是一个更安全的起点。

2 空间异质性的类型

Dutilleul (2011) [13] 描述了两种经常遇到的空间异质性:均值异质性(一阶异质性)、方差异质性(异方差性、二阶异质性)以及与数据中的自相关结构有关的异质性。Wang 等(2016)[62] 提出还存在第三种空间异质性,被称为 空间分层异质性(Spatially Stratified Hererogeneity, SSHy)

2.1 均值的异质性


计数数据可以通过卡方检验、连续值数据可以通过 ANOVA 方差分析检验来了解均值的异质性(或一阶异质性)(参见 Haining 和 Li 2020,第 6 章)[26]




  • 面元数据: 空间回归模型综述 中的全局回归部分
  • 点参考数据:参考多元统计分析中的线性回归、广义线性回归、趋势面分析等相关资料

如果回归参数在空间上也在发生变化,则其关系被称为 “结构不稳定的” 或 “空间变化的”。地理加权回归(Fotheringham 等,2000 年)[16]、空间变系数模型等为数据分析师提供了可用于探索和模拟这种形式的均值异质性建模方法(Lloyd 2010 年 [39];Haining 和 Li,2020 年 [26],第 6 章和第 9 章)。


2.2 方差异质性

2.2.1 异方差性

2.2.2 空间自相关结构的异质性

与空间自相关结构有关的异质性在空间数据普遍存在。此类形式的异质性通常以高(或低)值的 “局部聚簇” 形式出现。这与从全局性质角度考虑的高(低)值空间自相关性形成了鲜明对比。前者突出不同聚簇之间的变异性,而后者侧重于聚簇内部的相关性,因此此类空间异质性通常会与空间自相关性结对出现。


许多统计检验可用于检测此类形式的异质性,包括空间自相关 Moran’s I 或 LISA 等局部指标体系(Anselin 1995 [3])、Gi 和 Gi* 统计量(Getis 和 Ord 1992 [19])和空间扫描统计量(Kulldorff 1997 [34])。这些检验使用广泛,尽管其中一些检验受到多重问题的影响。简单地说,对一个样本同时进行的检验越多(例如,当执行 nn 次检验时,在一个区域内的 nn 个子区域中各执行其中一次检验),拒绝至少其中一次的零假设检验概率就越大。犯 I 类错误(当原假设为真时拒绝原假设)的概率超过研究人员选择的决策规则(例如 5% 或 10%)。有关详细信息,请参阅 Haining 和 Li 2020,第 6 章 [26]




  • 点参考数据中描述空间自相关性的普通克里金法、泛克里金法、协同克里金法等
  • 面元数据中各种描述空间溢出效应的模型:空间滞后模型 (SLM)、空间滞后协变量模型 (SLX)、空间误差模型 (SEM) 、空间杜宾模型 (SDM) 等。


2.3 空间分层异质性

异质性的另一种重要形式是空间分层异质性 (SSHy)。当由一组连续空间单元组成的区域可以被划分为不同空间段(层)时,则各空间层之间可能存在分层异质性,其中在每个层(每个层包含多个空间单元)内,变量的均值或变量之间的关联相同,每个层都显示出层内同质性。同时与其他层相比,这些统计特征共同显示出层间的异质性(Wang et al. 2016 [62])。

与上述其他形式的局部空间异质性相比,空间分层异质性问题似乎并没有受到系统的关注。部分原因可能在于识别同质区域的方法有限或比较复杂。例如,在将基于同质性假设的全局模型应用于 SSH 总体时,空间分层异质性变成了一个混淆来源(辛普森悖论);即便认识到了异质性,也可能没有足够数据来支撑我们使用传统方法提供每个层的良好参数估计,即存在数据稀疏性问题;严重时甚至存在某些层没有抽样的样本偏差问题(Wang et al. 2018 [61]) ; Xu et al. 2018 [65]; Haining and Li 2020 [26])。

此外,空间分层异质性被忽略的另外一个原因可能在于:大量的分类算法似乎解决了类似的问题。而 Wang 等(2016)[62]认为 SSH 是样本偏差、统计偏差、建模混淆和误导 CI 的主要来源,需要鲁棒的解决方案来克服其负面影响。


  • 创建相同的 PDF
  • 在分层中的随机抽样;
  • 层中的空间模式、层与层之间的边界可以作为非线性因果关系的一种特定信息;
  • 通过叠加两个空间模式进行一般性交互。


  • Q 指数


3. 空间分层异质性方程


4 空间分层异质性下的推断



