空间滤波方法
【摘要】 本文关注的重点是特征向量空间滤波方法(Eigenvectors Spatial Filtering, 特征向量空间滤波)。这是一种方法已广泛应用于地理学、区域科学、城市研究、经济学、生态学和流行病学等诸多领域的局部空间异质性建模方法。与地理加权回归方法探求回归系数背后的空间模式不同,空间滤波方法旨在检测空间数据中残差的空间模式。本文将介绍特征向量空间滤波方法的基础理论和扩展方法,并且讨论应用此方法时需要考虑和避免的问题。
【原文】 Y. Yamagata and H. Seya, Eds., Chapter 6, Spatial analysis using big data: methods and urban applications. London, United Kingdom ; San Diego, CA: Academic Press, an imprint of Elsevier, 2020.
1 简介
本文关注的重点是空间变系数模型的发展,尤其是其中的特征向量空间滤波方法(Eigenvectors Spatial Filtering, 特征向量空间滤波)(Griffith, 2003 年)。 这种方法已广泛应用于地理学、区域科学、城市研究、经济学、生态学和流行病学等诸多领域。 特征向量空间滤波方法旨在检测含噪声空间数据中残差背后隐藏的空间模式,这与地理加权回归方法探求回归系数背后的空间模式存在显著不同。本文的目的是介绍特征向量空间滤波方法的基础理论和扩展性方法,并且讨论应用此方法时需要考虑和避免的问题。
2 空间滤波方法的类型
空间滤波方法从字面上理解,是应用空间滤波器来捕获数据背后的空间依赖性。流行的方法主要包括(本文重点介绍前者):
- 特征向量空间滤波方法 :使用
Moran I
统计量构建空间滤波器。 - Getis 方法(参见 Getis 和 Griffith,2002 年):使用 Getis G 统计量压缩过滤器
简单理解,空间滤波是一种使用某种空间滤波器(模式变量)对空间依赖性进行建模的方法。通常这些模式变量可以根据诊断统计数据进行解释。特征向量空间滤波具有简单性和可扩展性的优点,并且与高斯过程密切相关(见 第 6 节
)。
3 莫兰系数与莫兰特征向量
全局与局部莫兰指数(系数)
(1)全局莫兰系数
在全局相关性分析中,最常用的统计量就是 Global Moran’I (全局莫兰指数),它用于描述在整个区域上所有空间单元与邻域单元之间的 平均相关程度。计算公式如下:
$$
I=\frac{n}{S_{0}} \times \frac{\sum_{i=1}^{n} \sum_{j=1}^{n} w_{i j}\left(y_{i}-\bar{y}\right)\left(y_{j}-\bar{y}\right)}{\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}
$$
其中,$S_{0}=\sum_{i=1}^{n} \sum_{j=1}^{n} w_{i j}$ 为总权重, $w_{i j}$ 为第 $i$ 和第 $j$ 个空间单元间的空间权重值, $n$ 为空间单元总个数, $y_{i}$ 和 $y_{j}$ 分别表示第 $i$ 个空间单元和第 $j$ 个空间单元的属性值(如房产价格、GDP 总量等,严格来说,全局莫兰指数是在判断某个属性的空间相关性), $\bar{y}$ 为所有空间单元属性值的均值。
依据公式,莫兰指数 $I$ 的取值范围为 $[-1,1]$ ,有着明确的空间相关性含义。
$I$ 值范围 | 含义 |
---|---|
$I > 0$ | 所有地区的属性值在空间上有正相关性,即属性值越大(小)越容易聚集在一起 |
$I = 0$ | 表示地区的属性值随机分布,无空间相关性 |
$I < 0$ | 所有地区的属性值在空间上有负相关性,即属性值越大(小)越不容易聚集在一起 |
那么为什么会有这样的空间相关性含义呢?
从整个计算过程可知,空间相关性主要体现在分子 $\sum_{i=1}^{n} \sum_{j=1}^{n} w_{i j}\left(y_{i}-\bar{y}\right)\left(y_{j}-\bar{y}\right)$ 中,其他项可以暂且简单地视为归一化项。 而该分子公式的实质就是: 空间单元的邻接权重指数 × 空间单元间属性值的偏差。前者对应着 各地区在空间上的位置关系,后者对应着 各地区属性值之间的差异,两者作乘积再求和,就得到了所有地区在整个空间上的相关性程度。
直观地理解,对于邻近点 $i,j$ ,只有当 $y_{i}$ 和 $y_{j}$ 同时 大于或者小于 均值 $\bar y$ 时(正相关),值越大,全局莫兰指数越趋近于 $+1$;而当 $y_{i}$ 和 $y_{j}$ 偏离平均值 $\bar {y}$ 且方向相反时(负相关),偏离值越大时,全局莫兰指数越趋向于 $-1$。
(2)局部莫兰系数
- 参考 Griffiths, D. (2003) ‘Spatial autocorrelation and spatial filtering. Gaining understanding through theory and visualization’. Berlin: Springer-Verlag.
空间自相关指在空间上出于不同位置的同一变量值之间自身的相关性,严格归因于这些值在地理空间中的接近性。空间自相关在经典统计的独立观测假设之外,引入了偏差概念。相关性的一个常见情况是序列相关性,指根据某个数值序列(例如,时间序列)的单一变量观测值之间的相关性。同一变量的邻近或邻近地理参考值可以通过 $n×n$ 二值地理连通性/权重矩阵来标识,例如 $C$;如果两个位置是邻居,则 $C_{ij} = 1$;如果不是,则 $C_{ij} = 0$(参见 图 A.1
,其中如果两个区域单元共享一个公共的非零长度边,则它们被视为相邻)。因此,空间自相关可以用 Pearson 乘积矩相关系数公式表示,只不过用变量 $Y$ 的相邻接变量集合替换了单一变量 $X$ 的值:
$$
\frac{\sum_{i=1}^n\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right) / n}{\sqrt{\sum_{i=1}^n\left(x_i-\bar{x}\right)^2 / n} \sqrt{\sum_{i=1}^n\left(y_i-\bar{y}\right)^2 / n}} \tag{A.1}
$$
转变成:
$$
\frac{\sum_{i=1}^n\left(y_i-\bar{y}\right) \sum_{j=1}^n C_{i j}\left(y_j-\bar{y}\right) / \sum_{i=1}^n \sum_{j=1}^n C_{i j}}{\sqrt{\sum_{i=1}^n\left(y_i-\bar{y}\right)^2 / n} \sqrt{\sum_{i=1}^n\left(y_i-\bar{y}\right)^2 / n}} \tag{A.2}
$$
上式就是著名的莫兰系数(Moran Coefficient,MC)公式,式中仅当矩阵 $C$ 中存在 $1$ 时才计算分子项,注意分子通过 $\Sigma_i\Sigma_j C_{ij}$ 做了归一化处理。很容易看出,该式的分母项是样本方差。
图 A.1: (a) 上图:密苏里州亚代尔县,一个说明正空间自相关的经验示例。 (b) 底部:弗吉尼亚州塞勒姆县,一个说明负空间自相关的经验示例。
与全局莫兰系数一样,局部莫兰系数的大小也具有同样的空间依赖指示意义。
- 正空间自相关意味着地理上邻近的变量值在地图上趋于相似:高值趋向于位于高值附近,中值趋于位于中值附近,而低值趋于位于低值附近(见
图 A.1a
)。大多数社会科学变量往往在空间上适度正相关,例如,人口密度和房价等人口统计和社会经济特征、社区通常是具有相似偏好的家庭群、家庭倾向于以一种将相似的家庭属性集中在地图上的方式来组织自己等。政府的政策和活动,如城市规划和分区,有时会强化这种模式。 - 具有负空间自相关的地理上邻近的变量值,在地图上往往不相似:高值往往位于低值附近,中值靠近中值,低值靠近高值。相应的地图是高度分散的。很少有社会科学变量显示负空间自相关,这使得
图 A.1b
中的负空间自相关案例更加有趣。例如,负空间自相关可能源于经济活动之间的空间竞争。
空间自相关可以用不同的方式解释,其中一种解释是代表了空间模式(格局),此时的空间自相关被视为趋势、梯度或地图上的马赛克。可以通过研究莫兰系数的矩阵形式来进一步理解空间模式,特别是与 式 (A.2)
中的分子求和对应的项 $Y^T(\mathbf{I} - \mathbf{11}^T/n) \mathbf{C}(\mathbf{I} - \mathbf{11}^T/n)\mathbf{Y}$,其中 $I$ 是 $n×n$ 单位矩阵,$\mathbf{1}$ 是元素为 $1$ 的 $n × 1$ 向量,$T$ 是矩阵转置,$(\mathbf{I} - \mathbf{11}^T/n)$ 是传统多元和回归分析中常见的、以向量 $Y$ 为中心的投影矩阵。矩阵 $(\mathbf{I} - \mathbf{11}^T/n) \mathbf{C}(\mathbf{I} - \mathbf{11}^T/n)$ 的特征决定了莫兰系数的取值范围;因此,局部莫兰系数不限于范围 $[-1,1]$。此外,该矩阵的 $n$ 个特征值建立了与地图相关联的一组与众不同的莫兰系数值,与其相伴的 $n$ 个特征向量则表示不同的、相互正交的空间自相关模式。因此,Griffith (2000a) 认为这些特征向量从不同空间模式描述了地理参考变量中的潜在空间自相关,而这一点正是空间滤波的基础:保留一部分感兴趣的空间模式,滤除其他不感兴趣的空间模式。
(3)莫兰散点图
(4)LISA 图
特征向量空间滤波建立在 Moran 系数 (MC)
矩阵基础之上,也被称为 邻接矩阵的主坐标
(Dray 等,2006)[2],在生态学中也被称为 `Moran 特征向量图`。这是一种常用的空间依赖性诊断统计量。莫兰系数的向量形式为:
$$
MC[\mathbf{y}] = \frac{N}{\mathbf{1}^T \mathbf{C} \mathbf{1}} \frac{\mathbf{y}^T \mathbf{MCMy}}{\mathbf{y}^T \mathbf{My}} \tag{1}
$$
其中 $\mathbf{C}$ 是对角线为零的 $N \times N$ 对称连接矩阵,描述了不同空间单元之间的连通关系;$\mathbf{1}$ 是全部元素为 $1$ 的列向量。直观地看,$MC[\mathbf{y}]$ 计算的是单元 $\mathbf{y}$ 和其邻居集合 $\mathbf{Cy}$ 之间的相关系数。$\mathbf{M}= \mathbf{I} - \mathbf{11}^T/N$ 是多元统计回归中常见的中心投影矩阵,使 $\mathbf{y}$ 中心化。
显然,矩阵 $\mathbf{MCM} = (\mathbf{I} - \mathbf{11}^T/n) \mathbf{C}(\mathbf{I} - \mathbf{11}^T/n)$ 的特点,决定了莫兰系数的取值范围。此外,值得注意的是,每个空间单元都会有一个莫兰系数,并且当存在正空间相关性(即 $\mathbf{y}$ 和 $\mathbf{Cy}$ 之间存在的正相关系数)时,莫兰系数取正值,当存在负相关性时莫兰系数取负值。 感兴趣的读者可以自行计算并可视化一幅莫兰系数图(LISA 图 或 Moran 散点图)。
对矩阵 $\mathbf{MCM}$ 进行特征分解,生成 $\mathbf{E}^* \boldsymbol{\Lambda}^* \mathbf{E}^{*T}$,其中 $\mathbf{E}^*=[\mathbf{e}_{1},\ldots,\mathbf{e}_{N}]$ 是特征向量构成的矩阵。 $\boldsymbol{\Lambda}^*= \text{diag}[\lambda_1,\ldots,\lambda_N]$ 是一个以特征值 $\{\lambda_1,\ldots,\lambda_N\}$ 为对角元素的对角矩阵。
`图 1` 显示了特征向量所对应的空间图,显而易见,对应于较大特征值的特征向量描绘了正相关的空间模式,而那些对应于负特征值的特征向量描绘了负相关的模式。也就是说,不同特征向量本质上代表了相互正交的不同空间模式。 下面我们从数学上进一步阐述这种关系。
![Figure01](https://xishansnowblog.oss-cn-beijing.aliyuncs.com/images/images/stats-20221207224713-cd43.webp)
> 图 1: Moran 特征向量 (e1,e5,e20) 的两个例子。
为了看到这一点,让我们观察第 $l$ 个特征向量的莫兰系数值:
$$
M C\left[\mathbf{e}_{l}\right]=\frac{N}{\mathbf{1}^{T} \mathbf{C 1}} \frac{\mathbf{e}_{l}^{T} \mathbf{M C M} \mathbf{e}_{l}}{\mathbf{e}_{l}^{T} \boldsymbol{M} \mathbf{e}_{l}}=\frac{N}{\mathbf{1}^T \mathbf{C 1}} \frac{\mathbf{e}_{l}^{T} \mathbf{E}^{*} \boldsymbol{\Lambda}^{*} \mathbf{E}^{*T} \mathbf{e}_{l}}{\mathbf{e}_{l}^{T} \mathbf{M} \mathbf{e}_{l}}=\frac{N}{\mathbf{1}^T \mathbf{C} \mathbf{1}} \frac{\lambda_{l}}{\mathbf{e}_{l}^{T} \mathbf{e}_{l}}=\frac{N}{\mathbf{1}^T \mathbf{C} \mathbf{1}} \lambda_{l} \tag{2}
$$
`式 (2)` 表明:特征向量的莫兰系数值与其对应的特征值成正比。换句话说,特征向量提供了一种在隐空间中对空间依赖性进行描述的方法,不同特征向量对应于相互正交的某种空间模式,因为每个特征向量代表的空间依赖水平,都对应于一个独特的、与其特征值成比例的莫兰系数(Griffith,2003)。
具体来说,第一个特征向量 $\mathbf{e}_1$ 是具有最大正莫兰系数的数值集合,可以通过 $\mathbf{C}$ 定义的空间排列得到;第二个特征向量 $\mathbf{e}_2$ 是与 $\mathbf{e}_1$ 不相关且正交的、具有第二大正莫兰系数的值集;...;以此类推,$\mathbf{e}_N$ 是与 $\mathbf{e}_1,\ldots,\mathbf{e}_l,\ldots,\mathbf{e}_{N-1}$ 不相关且正交的、具有最大负莫兰系数的数值集合。
## 4 特征向量空间滤波模型
根据上一节的分析,$MCM$ 矩阵的每一个特征向量,分别描述了一种独特的空间依赖模式,如果我们在模型中加入感兴趣的空间模式组分,则模型就具备了与空间有关的建模能力;进一步的,如果不同的空间单元的空间模式组分不同或不同空间模式的比例不同,我们就具备了空间变系数建模能力。这就是空间滤波的基本思想,由于仅选用了部分空间模式组分,相当于滤除掉了其他未选用的空间模式组分,因此被称为空间滤波。
**(1)特征向量的可组合特性**
特征值的线性组合仍然可以用莫兰系数来解释,这意味着多钟空间模式的组合。设 $\mathbf{E} = [\mathbf{e}_1,\ldots,\mathbf{e}_L]$ 是一个包含了 $\mathbf{E}^*$ 中 $L(