〖摘 要〗 虽然空间变系数 (SVC) 建模在应用科学中很流行,但其计算负担很大。如果考虑空间变系数的多尺度属性,则尤其如此。鉴于此背景,本研究开发了一种基于 Moran 特征向量的空间变系数 (M-SVC) 建模方法,可有效地估计多尺度空间变系数模型。该估计通过 (1) 秩降低、(2) 预压缩和 (3) 顺序似然最大化来加速。步骤 (1) 和 (2) 从似然函数中消除样本大小 N;在这些步骤之后,似然最大化成本与 N 无关。步骤 (3) 进一步加速似然最大化,因此即使空间变系数的数量 K 很大,也可以估计多尺度空间变系数模型。通过蒙特卡罗模拟实验将 M-SVC 方法与地理加权回归 (GWR) 进行比较。这些模拟结果表明,当 N 很大时,本文方法比地理加权回归快得多,尽管数值估计了 2K 个参数,而地理加权回归仅数值估计了 1 个参数。然后,将所提出的方法应用于土地价格分析作为说明。开发的空间变系数估计方法在 R 包 “spmoran” 中实现
〖原 文〗 Murakami, D. and Griffith, D.A. (2019) ‘Spatially varying coefficient modeling for large datasets: Eliminating N from spatial regressions’, Spatial Statistics, 30, pp. 39–64. Available at: https://doi.org/10.1016/j.spasta.2019.02.003.
1. 导言
在地统计学(例如,Cressie,1993 [8])和空间计量经济学(例如,LeSage 和 Pace,2009[36])中提出的空间统计方法,通常需要计算复杂度为 $\mathcal{O}(N^3)$ 的密集协方差矩阵的逆,其中 $N$ 是样本量。这些方法不适用于大样本。 为了克服这一局限性,大空间数据建模得到了迅速发展。 地统计学家主要针对空间插值问题研究大数据建模。稀疏方法和低秩方法是其中的典型代表(参见 Heaton 等 2017 年的评论[32]): - 稀疏方法包括 - 协方差锥化(Furrer 等,2006 年[20]) - 使用随机偏微分方程(Lindgren 等,2011 年 [38]) - 最近邻高斯过程(Datta 等,2016 年[10]) - 低秩方法包括 - 固定秩克里金法(Cressie 和 Johannesson,2008 年[9]) - 预测过程建模(Banerjee 等,2008 年[3]) - 多分辨率近似(Nychka 等,2015 年[49])。 空间计量学家主要针对存在空间依赖性的回归问题研究大数据建模。例如: - 基于多项式的近似(Smirnov 和 Anselin,2001 [53];Griffith,2004 [26]) - 组合似然近似(Arbia,2014 [2]) - 其他似然近似(例如,LeSage 和 Pace,2007 [35])。 - Burden 等 (2015) [5] 提出了一种低秩方法。 - 空间两阶段最小二乘法(Kelejian 和 Prucha,1998 [34])被认为是一种计算效率高的方法。 虽然空间依赖性和空间异质性是空间数据的两个普遍性质(Tobler, 1970 [56]; Goodchild, 2004 [23]; Anselin, 2010 [1]),但之前的这些研究都更关注前者,却忽视了后者。尽管如此,空间异质性对进行恰当地空间数据建模至关重要(参见 Fotheringham 等,2002 [18];Geniaux 和 Martinetti,2018 [22];Debarsy 和 Yang,2018 [11])。 鉴于此背景,本研究重点关注空间变系数 (SVC) 建模,这是空间异质性建模的代表性方法。大量研究面向空间变系数建模( 见 `第 2 节`)。最近,Fotheringham 等 (2017)[19] 和 Murakami 等 (2018)[43] 揭示了考虑空间变系数的多尺度特性,在准确估计它们时的重要性;例如,第一个空间变系数可能具有比其他空间变系数更大比例的地图模式。然而, **如果考虑多尺度性质,计算成本会进一步迅速增加,不仅取决于 $N$,还取决于空间变系数的数量,如何在计算上高效估计多尺度空间变系数尚不明确**。 本研究的目的正是针对此局限性。具体来说,我们开发了一种方法,通过扩展 Moran 的特征向量空间过滤方法(Griffith 2003 [25];Murakami 等,2017 年 [45]),能够以计算有效的方式估计多尺度空间变系数模型。 随后的部分组织如下。 - `第 2 节` 简要回顾现有空间变系数建模方法,并比较了其计算特性。 - `第 3 节` 介绍了我们的空间变系数模型。 - `第 4 节` 开发了一种快速空间变系数估计方法。 - `第 5 节` 将所提出方法的计算时间与现有方法进行比较。 - `第 6 节` 介绍了一个实证应用。 - `第 7 节` 总结了我们的讨论。 ## 2. SVC 建模方法 假设响应变量 $y(\mathbf{s}_i)$ 在分布在研究区域 $D ⊂ \mathbb{R}^2$ 中的 $N$ 个样本点 $\mathbf{s}_i \mid i \in \{1,\ldots ,N\}$ 处被采样。线性空间变系数模型的公式如下: $$ \begin{align*} &y(\mathbf{s}_i) = \sum^K_{k=1} x_k(\mathbf{s}_i) \beta_k(\mathbf{s}_i) + \varepsilon(\mathbf{s}_i) \tag{1}\\ &\mathbb{E}[\varepsilon(\mathbf{s}_i)] = 0\\ &\mathbb{V}ar[\varepsilon(\mathbf{s}_i)] = \sigma^2 \end{align*} $$ 其中,$x_k(\mathbf{s}_i)$ 表示第 $k$ 个解释变量,$\beta_k(\mathbf{s}_i)$ 表示第 $k$ 个变系数,$\sigma^2$ 为方差参数。空间变系数建模旨在估计和推断 $\beta_k(\mathbf{s}_i)$。 **(1)地理加权回归** 地理加权回归 (GWR; Brunsdon 等, 1996 [6]) 是空间变系数建模的代表性方法。地理加权回归通过为附近样本分配比远处测点 $\mathbf{s}_i$ 的样本更多的权重来估计 $\beta_k(\mathbf{s}_i)$。估计 $\boldsymbol{\beta}(\mathbf{s}_i) = [\beta_1(\mathbf{s}_i), \ldots, \beta_k(\mathbf{s}_i)]^T$ 由下式给出(其中 `T` 表示转置算子): $$ \hat{\boldsymbol{\beta}}(\mathbf{s}_i) = [\mathbf{X}^T \mathbf{G}(\mathbf{s}_i)\mathbf{X}]^{-1} \mathbf{X}^T \mathbf{G}(\mathbf{s}_i) \mathbf{y} $$ 其中 $\mathbf{X}$ 是解释变量的 $N × K$ 矩阵,$\mathbf{y}$ 是响应变量的 $N × 1$ 向量,$\mathbf{G}(\mathbf{s}_i)$ 是 $N × N$ 对角矩阵,其第 $j$ 个元素 $g(\mathbf{s}_i, \mathbf{s}_j)$ 表示分配到第 $j$ 个样本的权重。$g(\mathbf{s}_i, \mathbf{s}_j)$ 由距离衰减核给出。例如,Wheeler 和 Calder (2007) [58] 以及 Wheeler 和 Waller (2009) [60] 使用指数核 $g(\mathbf{s}_i, \mathbf{s}_j) = \exp(−d(\mathbf{s}_i, \mathbf{s}_j)/b)$,其中 $b$ 是确定尺度的带宽变系数;当 $b$ 大时,$\hat{\boldsymbol{\beta}}(\mathbf{s}_i)$ 为大尺度地图模式,$b$ 小时为小尺度地图模式。通过最小化修正后的 Akaike 信息准则 (AIC) 或最小化交叉验证 (CV) 的预测误差,我们可以估计带宽 $b$。地理加权回归已广泛应用于环境研究(例如,Harris 等,2010a [30];Dong 等,2018 [12])、犯罪学(例如,Cahill 和 Mulligan,2007 [7])、流行病学(例如,Nakaya 等,2005 [48]),以及许多其他领域。 单一带宽隐含地强加了一个强有力的假设,即所有空间变系数具有相同的空间变化尺度。但是,一些系数可能比其他系数具有更大的尺度模式。为了考虑这种多尺度属性,Yang (2014) [61]和 Fotheringham 等(2017)[19] 提出了灵活带宽地理加权回归(FB-GWR,也称为多尺度地理加权回归),它用空间变系数特定带宽 $b_k$ 代替了常见的 $b$。多尺度地理加权回归通过反向拟合算法估算,该算法顺序迭代每个 $b_k$ 的 AIC 最大化(或 CV)直到收敛。最近,Lu 等 (2018)[41] 提出了一种计算效率高的多尺度地理加权回归模型估计算法,计算时间减少了 $60\%$ 以上。但是,原始多尺度地理加权回归即便在 $N ≤ 5,000$ 时也很慢,因此对于更大的样本量可能需要更快的算法。 **(2)贝叶斯空间变系数模型** `贝叶斯空间变系数模型( B-SVC ) ` 提供了另一种可用方法,参见 Gelfand 等,2003 年[21]。该模型假设第 $k$ 个空间变系数 $\boldsymbol{\beta}_k = [\beta_k(\mathbf{s}_1),\ldots, \beta_k(\mathbf{s}_N)]^T$ 服从以下多元高斯过程: $$ \beta_k \sim \mathcal{N}(b_k \mathbf{1}, \tau_k \mathbf{C}(r_k)) \tag{3} $$ 其中 $b_k$、$\tau_k$ 和 $r_k$ 是参数,$\mathbf{1}$ 是一个 $N × 1$ 向量。 $\mathbf{C}(r_k)$ 是一个 $N × N$ 相关矩阵,其第 $(i, j)$ 个元素 $c_{ij}(r_k)$ 由距离衰减核给出,以捕获空间相关性,例如指数核 $c_{ij}(r_k) =\exp[-d(\mathbf{s}_i, \mathbf{s}_j)/r_k]$,其中 $d(\mathbf{s}_i, \mathbf{s}_j)$ 是测点 $\mathbf{s}_i$ 和 $\mathbf{s}_j$ 之间的欧氏距离。`式 (1)` 和 `式 (2)` 的贝叶斯空间变系数模型通过马尔可夫链蒙特卡罗 (MCMC) 技术估计。 Wheeler 和 Waller (2009)[60],以及 Finley 等 (2011a)[16] 将贝叶斯空间变系数建模与地理加权回归进行了比较,并展示了贝叶斯空间变系数方法的稳健性。 不幸的是,当 $N$ 和/或 $K$ 很大时,贝叶斯空间变系数建模的计算成本令人失望(Finley 等,2011a [16])。因为 MCMC 模拟需要在每次迭代中求密集矩阵 $\mathbf{C}(r_1),\ldots, \mathbf{C}(r_k)$ 的逆。为了减轻这种成本,Finley 等 (2011b)[17] 对贝叶斯空间变系数模型应用了降阶。然而,当 $N = 8,774$ 、$K = 5$ 时,其 MCMC 模拟具有 $50,000$ 次迭代,仍然需要大约 72 小时。在实际工作中,即便更大的 $N$ 和 $K$ ,如果能够在几分钟内完成工作仍然大家愿意看到的。 **(3)莫兰特征向量空间滤波法** `Moran 特征向量空间变系数(M-SVC)` 建模方法(Griffith,2008)[27] 是 `Moran 特征向量空间滤波方法` 的扩展(参见 Griffith 2003 [25];Griffith 和 Chun,2014 [29]),为多尺度空间变系数建模提供了第三种选择。虽然 Helbich 和 Griffith(2016 年)[33] 以及 Oshan 和 Fotheringham(2018 年)[50] 提到了这种方法的不稳定性,但 Murakami 等 (2017) [45] 将其扩展为近似贝叶斯空间变系数模型,Murakami 等 (2017 [45]; 2018 [43]) 通过蒙特卡罗实验证明了其估计准确性。 与贝叶斯空间变系数建模方法不同,该空间滤波方法不需要 MCMC 迭代,但当 $N$ 很大时仍然很慢,因为它需要特征分解(复杂度为 $\mathcal{O}(N^3)$ )和 $2K$ 个参数的数值估计。 综上所述,如何在计算上有效地估计多尺度空间变系数仍然难以捉摸。但鉴于变系数模型的适用领域非常广泛且方法很流行,因此 **不依赖高性能计算环境实现快速计算** 仍然是大众所需的。 ## 3 莫兰特征向量空间变系数(M-SVC) 建模 ### 3.1 模型 该方法基于 Moran 系数(MC;Moran,1950 年)[42],它是空间依赖性的诊断统计量。$\mathbf{y} = [y(\mathbf{s}_1), \ldots, y(\mathbf{s}_N)]^T$ 的莫兰系数形式化为: $$ MC[\mathbf{y}] = \frac{N}{\mathbf{1}^T \mathbf{C} \mathbf{1}} \cdot \frac{\mathbf{y}^T (\mathbf{I} − \mathbf{1}\mathbf{1}^T/N) \mathbf{C}(\mathbf{I} − \mathbf{1}\mathbf{1}^T /N)\mathbf{y}}{ \mathbf{y}^T (\mathbf{I} − \mathbf{1}\mathbf{1}^T /N)\mathbf{y}} \tag{4} $$ 其中 $\mathbf{C}$ 是对角线为零的对称空间邻接矩阵,$(\mathbf{I} − \mathbf{1}\mathbf{1}^T/N)$ 是实现居中化的矩阵。如果 $y(\mathbf{s}_1), \ldots, y(\mathbf{s}_N)$ 空间正相关时,$MC[\mathbf{y}] > −\frac{ 1 }{N−1}$,如果它们负相关,则 $MC[\mathbf{y}] < − \frac{1}{N−1}$ (Griffith, 2003)[25]。可见邻接矩阵 $\mathbf{C}$ 对莫兰系数影响非常大。根据 Dray 等(2006) [13] 以及 Murakami 和 Griffith (2015) [44],我们可以采用如下方法定义矩阵 $\mathbf{C}$:其第 $(i, j)$ 个元素为 $\exp(−d(\mathbf{s}_i, \mathbf{s}_j)/r)$,其中变程参数 $r$ 由所有样本点连接(或样本点对)之间的最小生成树中那个最大距离给出。与传统方法不同,本文中变程 $r$ 并不固定,我们引入了另一个参数来控制空间依赖性的 “尺度/变程” 比。这种替换是快速计算所必需的。 假设矩阵 $(\mathbf{I} − \mathbf{1}\mathbf{1}^T/N) \mathbf{C}(\mathbf{I} − \mathbf{1}\mathbf{1}^T /N)$ 的特征值为 $\boldsymbol{\lambda}=\lambda_1,\ldots,\lambda_N$ ,相应的特征向量为 $\mathbf{e}=\mathbf{e}_1,\ldots,\mathbf{e}_N$,令 $\mathbf{E} = [\mathbf{e}_1, \ldots , \mathbf{e}_L]$ 是由其中 $L (< N)$ 个特征向量构成的 $N × L$ 矩阵,而 $\boldsymbol{\Lambda}$ 是对角元素由相应的 $L$ 个特征值组成的 $L \times L$ 对角矩阵。那么下面的等式成立: $$ MC[\mathbf{e}_l] = \frac{N}{\mathbf{1}^T\mathbf{C} \mathbf{1}}λ_l $$ 这意味着: **较大的正特征值对应的特征向量解释了较强的空间依赖性,而负空间依赖性则相反**。也就是说, **特征向量提供了潜在空间依赖性的正交映射模式描述**,其每一个量级都可以由莫兰系数值索引(Griffith,2003 年[25];Tiefelsdorf 和 Griffith,2007 年 [55])。在现有空间变系数研究(例如,Fotheringham 等,2002 年[18])中,一般都隐含地假设了正空间依赖性(现实世界中负空间依赖性比较少见,一般出现在两个区域之间存在某种竞争的情况),因此本研究仅使用了其中 $L$ 个正特征值对应的 $(\mathbf{E}, \boldsymbol{\Lambda})$ 特征对。 Murakami 等 (2017) 的 M-SVC 模型指定如下: $$ \begin{align*} \mathbf{y} &= b_1 \mathbf{1} + \sum^K_{k=2}{\mathbf{x}_k} \circ \boldsymbol{\beta}_k + \mathbf{E} \boldsymbol{\gamma}_1 + \boldsymbol{\varepsilon} \tag{5}\\ \boldsymbol{\gamma}_1 &\sim \mathcal{N}(0, τ_1^2 \boldsymbol{\Lambda}^{α_1})\\ \varepsilon &\sim \mathcal{N}(0, \sigma^2I) \end{align*} $$ 其中 “$\circ$” 表示列乘积运算符,$\mathbf{y}$ 是响应变量的 $N × 1$ 向量,$\mathbf{x}_k$ 是第 $k$ 个协变量的 $N × 1$ 向量。 $\mathbf{E} \boldsymbol{\gamma}_1$ 是捕获残差空间依赖性的项。 Murakami 和 Griffith (2018)[43] 表明,$L = 200$ 的 $\mathbf{E} \boldsymbol{\gamma}_1$ 项可以大大降低残差的空间依赖性(意即可以捕获大部分残差的空间依赖性)。 第 $k$ 个变系数可以参数化如下: $$ \boldsymbol{\beta}_k = b_k \mathbf{1} + \mathbf{E} \boldsymbol{\gamma}_k,\, \boldsymbol{\gamma}_k \sim \mathcal{N}(0, \tau_k^2 \boldsymbol{\Lambda}^{α_k}) \tag{6} $$ 其中 $b_k$ 是一个系数。空间变系数由常数项 $b_k \mathbf{1}$ 和空间变化项 $\mathbf{E} \boldsymbol{\gamma}_k$ 组成。$\mathbf{E} \boldsymbol{\gamma}_k$ 项具有以下性质: - **性质(1)**:可以根据莫兰系数进行解释; - **性质(2)**:特征向量均值为零。 `性质(1)` 对于准确建模空间依赖性的变化很重要,而 `性质(2)` 能使均值项 $b_k \mathbf{1}$ 与变化项 $\mathbf{E} \boldsymbol{\gamma}_k$ 之间可识别(参见 Gelfand 等,2003 年 [21])。 向量 $\boldsymbol{\gamma}_k$ 中包含受收缩参数 $\tau_k^2$ 和 $α_k$ 控制的随机系数。 - 参数 $\tau_k^2$ 控制空间变系数 $\boldsymbol{\beta}_k$ 的方差 - 参数 $\alpha_k$ 控制空间尺度 - 较大的 $\alpha_k$ 值会收缩具有小特征值的次要特征对上的系数,由此产生具有大尺度映射模式的空间变系数。 - 较小的 $\alpha_k$ 则相反。 采用变化的 $\alpha$ 值可以极大地加速模型估计,同时保持估计尺度的灵活性。 Murakami 和 Griffith (2018)[43] 表明,当估计 $\alpha_k$ 而不是 $r$ 时,所产生的估计误差非常小。 给定 $\mathbf{x}_1 = \mathbf{1}$ 和 $\widetilde{\mathbf{E}}_1 = (\mathbf{x}_1 \circ \mathbf{E}) = \mathbf{E}$,M-SVC 模型表示为: $$ \begin{align*} \mathbf{y} &= \mathbf{Xb} + \sum^{K}_{k=1} \widetilde{\mathbf{E}}_k \mathbf{V}(\boldsymbol{\theta}_k) \mathbf{u}_k + \boldsymbol{\varepsilon} \tag{7}\\ \mathbf{u}_k &\sim \mathcal{N}(0, \sigma^2 \mathbf{I}) \\ \boldsymbol{\varepsilon} &\sim \mathcal{N}(0, \sigma^2 \mathbf{I}) \end{align*} $$ 其中 $\mathbf{X}=[\mathbf{x}_1, \ldots, \mathbf{x}_k]$, $\mathbf{b}=[b_1, \ldots, b_k]^T$, $\boldsymbol{\theta}_k \in \{ \tau_k , \alpha_k \}$, $\mathbf{V}(\boldsymbol{\theta}_k) = (\tau_k / \sigma) \boldsymbol{\Lambda}^{\alpha_k/2}$。`式 (7)` 表明 M-SVC 模型与线性混合效应模型相同(例如,Bates,2010)[4]。 ### 3.2.参数估计
\hat{\theta} \triangleq \mathop{\arg\max}\limits_{\theta}log \ p(\mathcal D |\theta)
\lambda^{*}=\mathop{\arg\max} \limits_{\lambda}p(D| \lambda)
其中 $\lambda$ 是超参数,此类方法也被称为 经验贝叶斯方法
或者 第二类最大似然估计方法
