基于空间滤波的大型数据集空间变系数建模
〖摘 要〗 虽然空间变系数 (SVC) 建模在应用科学中很流行,但其计算负担很大。如果考虑空间变系数的多尺度属性,则尤其如此。鉴于此背景,本研究开发了一种基于 Moran 特征向量的空间变系数 (M-SVC) 建模方法,可有效地估计多尺度空间变系数模型。该估计通过 (1) 秩降低、(2) 预压缩和 (3) 顺序似然最大化来加速。步骤 (1) 和 (2) 从似然函数中消除样本大小 N;在这些步骤之后,似然最大化成本与 N 无关。步骤 (3) 进一步加速似然最大化,因此即使空间变系数的数量 K 很大,也可以估计多尺度空间变系数模型。通过蒙特卡罗模拟实验将 M-SVC 方法与地理加权回归 (GWR) 进行比较。这些模拟结果表明,当 N 很大时,本文方法比地理加权回归快得多,尽管数值估计了 2K 个参数,而地理加权回归仅数值估计了 1 个参数。然后,将所提出的方法应用于土地价格分析作为说明。开发的空间变系数估计方法在 R 包 “spmoran” 中实现
〖原 文〗 Murakami, D. and Griffith, D.A. (2019) ‘Spatially varying coefficient modeling for large datasets: Eliminating N from spatial regressions’, Spatial Statistics, 30, pp. 39–64. Available at: https://doi.org/10.1016/j.spasta.2019.02.003.
1. 导言
在地统计学(例如,Cressie,1993 [8])和空间计量经济学(例如,LeSage 和 Pace,2009[36])中提出的空间统计方法,通常需要计算复杂度为 $\mathcal{O}(N^3)$ 的密集协方差矩阵的逆,其中 $N$ 是样本量。这些方法不适用于大样本。 为了克服这一局限性,大空间数据建模得到了迅速发展。 地统计学家主要针对空间插值问题研究大数据建模。稀疏方法和低秩方法是其中的典型代表(参见 Heaton 等 2017 年的评论[32]): - 稀疏方法包括 - 协方差锥化(Furrer 等,2006 年[20]) - 使用随机偏微分方程(Lindgren 等,2011 年 [38]) - 最近邻高斯过程(Datta 等,2016 年[10]) - 低秩方法包括 - 固定秩克里金法(Cressie 和 Johannesson,2008 年[9]) - 预测过程建模(Banerjee 等,2008 年[3]) - 多分辨率近似(Nychka 等,2015 年[49])。 空间计量学家主要针对存在空间依赖性的回归问题研究大数据建模。例如: - 基于多项式的近似(Smirnov 和 Anselin,2001 [53];Griffith,2004 [26]) - 组合似然近似(Arbia,2014 [2]) - 其他似然近似(例如,LeSage 和 Pace,2007 [35])。 - Burden 等 (2015) [5] 提出了一种低秩方法。 - 空间两阶段最小二乘法(Kelejian 和 Prucha,1998 [34])被认为是一种计算效率高的方法。 虽然空间依赖性和空间异质性是空间数据的两个普遍性质(Tobler, 1970 [56]; Goodchild, 2004 [23]; Anselin, 2010 [1]),但之前的这些研究都更关注前者,却忽视了后者。尽管如此,空间异质性对进行恰当地空间数据建模至关重要(参见 Fotheringham 等,2002 [18];Geniaux 和 Martinetti,2018 [22];Debarsy 和 Yang,2018 [11])。 鉴于此背景,本研究重点关注空间变系数 (SVC) 建模,这是空间异质性建模的代表性方法。大量研究面向空间变系数建模( 见 `第 2 节`)。最近,Fotheringham 等 (2017)[19] 和 Murakami 等 (2018)[43] 揭示了考虑空间变系数的多尺度特性,在准确估计它们时的重要性;例如,第一个空间变系数可能具有比其他空间变系数更大比例的地图模式。然而, **如果考虑多尺度性质,计算成本会进一步迅速增加,不仅取决于 $N$,还取决于空间变系数的数量,如何在计算上高效估计多尺度空间变系数尚不明确**。 本研究的目的正是针对此局限性。具体来说,我们开发了一种方法,通过扩展 Moran 的特征向量空间过滤方法(Griffith 2003 [25];Murakami 等,2017 年 [45]),能够以计算有效的方式估计多尺度空间变系数模型。 随后的部分组织如下。 - `第 2 节` 简要回顾现有空间变系数建模方法,并比较了其计算特性。 - `第 3 节` 介绍了我们的空间变系数模型。 - `第 4 节` 开发了一种快速空间变系数估计方法。 - `第 5 节` 将所提出方法的计算时间与现有方法进行比较。 - `第 6 节` 介绍了一个实证应用。 - `第 7 节` 总结了我们的讨论。 ## 2. SVC 建模方法 假设响应变量 $y(\mathbf{s}_i)$ 在分布在研究区域 $D ⊂ \mathbb{R}^2$ 中的 $N$ 个样本点 $\mathbf{s}_i \mid i \in \{1,\ldots ,N\}$ 处被采样。线性空间变系数模型的公式如下: $$ \begin{align*} &y(\mathbf{s}_i) = \sum^K_{k=1} x_k(\mathbf{s}_i) \beta_k(\mathbf{s}_i) + \varepsilon(\mathbf{s}_i) \tag{1}\\ &\mathbb{E}[\varepsilon(\mathbf{s}_i)] = 0\\ &\mathbb{V}ar[\varepsilon(\mathbf{s}_i)] = \sigma^2 \end{align*} $$ 其中,$x_k(\mathbf{s}_i)$ 表示第 $k$ 个解释变量,$\beta_k(\mathbf{s}_i)$ 表示第 $k$ 个变系数,$\sigma^2$ 为方差参数。空间变系数建模旨在估计和推断 $\beta_k(\mathbf{s}_i)$。 **(1)地理加权回归** 地理加权回归 (GWR; Brunsdon 等, 1996 [6]) 是空间变系数建模的代表性方法。地理加权回归通过为附近样本分配比远处测点 $\mathbf{s}_i$ 的样本更多的权重来估计 $\beta_k(\mathbf{s}_i)$。估计 $\boldsymbol{\beta}(\mathbf{s}_i) = [\beta_1(\mathbf{s}_i), \ldots, \beta_k(\mathbf{s}_i)]^T$ 由下式给出(其中 `T` 表示转置算子): $$ \hat{\boldsymbol{\beta}}(\mathbf{s}_i) = [\mathbf{X}^T \mathbf{G}(\mathbf{s}_i)\mathbf{X}]^{-1} \mathbf{X}^T \mathbf{G}(\mathbf{s}_i) \mathbf{y} $$ 其中 $\mathbf{X}$ 是解释变量的 $N × K$ 矩阵,$\mathbf{y}$ 是响应变量的 $N × 1$ 向量,$\mathbf{G}(\mathbf{s}_i)$ 是 $N × N$ 对角矩阵,其第 $j$ 个元素 $g(\mathbf{s}_i, \mathbf{s}_j)$ 表示分配到第 $j$ 个样本的权重。$g(\mathbf{s}_i, \mathbf{s}_j)$ 由距离衰减核给出。例如,Wheeler 和 Calder (2007) [58] 以及 Wheeler 和 Waller (2009) [60] 使用指数核 $g(\mathbf{s}_i, \mathbf{s}_j) = \exp(−d(\mathbf{s}_i, \mathbf{s}_j)/b)$,其中 $b$ 是确定尺度的带宽变系数;当 $b$ 大时,$\hat{\boldsymbol{\beta}}(\mathbf{s}_i)$ 为大尺度地图模式,$b$ 小时为小尺度地图模式。通过最小化修正后的 Akaike 信息准则 (AIC) 或最小化交叉验证 (CV) 的预测误差,我们可以估计带宽 $b$。地理加权回归已广泛应用于环境研究(例如,Harris 等,2010a [30];Dong 等,2018 [12])、犯罪学(例如,Cahill 和 Mulligan,2007 [7])、流行病学(例如,Nakaya 等,2005 [48]),以及许多其他领域。 单一带宽隐含地强加了一个强有力的假设,即所有空间变系数具有相同的空间变化尺度。但是,一些系数可能比其他系数具有更大的尺度模式。为了考虑这种多尺度属性,Yang (2014) [61]和 Fotheringham 等(2017)[19] 提出了灵活带宽地理加权回归(FB-GWR,也称为多尺度地理加权回归),它用空间变系数特定带宽 $b_k$ 代替了常见的 $b$。多尺度地理加权回归通过反向拟合算法估算,该算法顺序迭代每个 $b_k$ 的 AIC 最大化(或 CV)直到收敛。最近,Lu 等 (2018)[41] 提出了一种计算效率高的多尺度地理加权回归模型估计算法,计算时间减少了 $60\%$ 以上。但是,原始多尺度地理加权回归即便在 $N ≤ 5,000$ 时也很慢,因此对于更大的样本量可能需要更快的算法。 **(2)贝叶斯空间变系数模型** `贝叶斯空间变系数模型( B-SVC ) ` 提供了另一种可用方法,参见 Gelfand 等,2003 年[21]。该模型假设第 $k$ 个空间变系数 $\boldsymbol{\beta}_k = [\beta_k(\mathbf{s}_1),\ldots, \beta_k(\mathbf{s}_N)]^T$ 服从以下多元高斯过程: $$ \beta_k \sim \mathcal{N}(b_k \mathbf{1}, \tau_k \mathbf{C}(r_k)) \tag{3} $$ 其中 $b_k$、$\tau_k$ 和 $r_k$ 是参数,$\mathbf{1}$ 是一个 $N × 1$ 向量。 $\mathbf{C}(r_k)$ 是一个 $N × N$ 相关矩阵,其第 $(i, j)$ 个元素 $c_{ij}(r_k)$ 由距离衰减核给出,以捕获空间相关性,例如指数核 $c_{ij}(r_k) =\exp[-d(\mathbf{s}_i, \mathbf{s}_j)/r_k]$,其中 $d(\mathbf{s}_i, \mathbf{s}_j)$ 是测点 $\mathbf{s}_i$ 和 $\mathbf{s}_j$ 之间的欧氏距离。`式 (1)` 和 `式 (2)` 的贝叶斯空间变系数模型通过马尔可夫链蒙特卡罗 (MCMC) 技术估计。 Wheeler 和 Waller (2009)[60],以及 Finley 等 (2011a)[16] 将贝叶斯空间变系数建模与地理加权回归进行了比较,并展示了贝叶斯空间变系数方法的稳健性。 不幸的是,当 $N$ 和/或 $K$ 很大时,贝叶斯空间变系数建模的计算成本令人失望(Finley 等,2011a [16])。因为 MCMC 模拟需要在每次迭代中求密集矩阵 $\mathbf{C}(r_1),\ldots, \mathbf{C}(r_k)$ 的逆。为了减轻这种成本,Finley 等 (2011b)[17] 对贝叶斯空间变系数模型应用了降阶。然而,当 $N = 8,774$ 、$K = 5$ 时,其 MCMC 模拟具有 $50,000$ 次迭代,仍然需要大约 72 小时。在实际工作中,即便更大的 $N$ 和 $K$ ,如果能够在几分钟内完成工作仍然大家愿意看到的。 **(3)莫兰特征向量空间滤波法** `Moran 特征向量空间变系数(M-SVC)` 建模方法(Griffith,2008)[27] 是 `Moran 特征向量空间滤波方法` 的扩展(参见 Griffith 2003 [25];Griffith 和 Chun,2014 [29]),为多尺度空间变系数建模提供了第三种选择。虽然 Helbich 和 Griffith(2016 年)[33] 以及 Oshan 和 Fotheringham(2018 年)[50] 提到了这种方法的不稳定性,但 Murakami 等 (2017) [45] 将其扩展为近似贝叶斯空间变系数模型,Murakami 等 (2017 [45]; 2018 [43]) 通过蒙特卡罗实验证明了其估计准确性。 与贝叶斯空间变系数建模方法不同,该空间滤波方法不需要 MCMC 迭代,但当 $N$ 很大时仍然很慢,因为它需要特征分解(复杂度为 $\mathcal{O}(N^3)$ )和 $2K$ 个参数的数值估计。 综上所述,如何在计算上有效地估计多尺度空间变系数仍然难以捉摸。但鉴于变系数模型的适用领域非常广泛且方法很流行,因此 **不依赖高性能计算环境实现快速计算** 仍然是大众所需的。 ## 3 莫兰特征向量空间变系数(M-SVC) 建模 ### 3.1 模型 该方法基于 Moran 系数(MC;Moran,1950 年)[42],它是空间依赖性的诊断统计量。$\mathbf{y} = [y(\mathbf{s}_1), \ldots, y(\mathbf{s}_N)]^T$ 的莫兰系数形式化为: $$ MC[\mathbf{y}] = \frac{N}{\mathbf{1}^T \mathbf{C} \mathbf{1}} \cdot \frac{\mathbf{y}^T (\mathbf{I} − \mathbf{1}\mathbf{1}^T/N) \mathbf{C}(\mathbf{I} − \mathbf{1}\mathbf{1}^T /N)\mathbf{y}}{ \mathbf{y}^T (\mathbf{I} − \mathbf{1}\mathbf{1}^T /N)\mathbf{y}} \tag{4} $$ 其中 $\mathbf{C}$ 是对角线为零的对称空间邻接矩阵,$(\mathbf{I} − \mathbf{1}\mathbf{1}^T/N)$ 是实现居中化的矩阵。如果 $y(\mathbf{s}_1), \ldots, y(\mathbf{s}_N)$ 空间正相关时,$MC[\mathbf{y}] > −\frac{ 1 }{N−1}$,如果它们负相关,则 $MC[\mathbf{y}] < − \frac{1}{N−1}$ (Griffith, 2003)[25]。可见邻接矩阵 $\mathbf{C}$ 对莫兰系数影响非常大。根据 Dray 等(2006) [13] 以及 Murakami 和 Griffith (2015) [44],我们可以采用如下方法定义矩阵 $\mathbf{C}$:其第 $(i, j)$ 个元素为 $\exp(−d(\mathbf{s}_i, \mathbf{s}_j)/r)$,其中变程参数 $r$ 由所有样本点连接(或样本点对)之间的最小生成树中那个最大距离给出。与传统方法不同,本文中变程 $r$ 并不固定,我们引入了另一个参数来控制空间依赖性的 “尺度/变程” 比。这种替换是快速计算所必需的。 假设矩阵 $(\mathbf{I} − \mathbf{1}\mathbf{1}^T/N) \mathbf{C}(\mathbf{I} − \mathbf{1}\mathbf{1}^T /N)$ 的特征值为 $\boldsymbol{\lambda}=\lambda_1,\ldots,\lambda_N$ ,相应的特征向量为 $\mathbf{e}=\mathbf{e}_1,\ldots,\mathbf{e}_N$,令 $\mathbf{E} = [\mathbf{e}_1, \ldots , \mathbf{e}_L]$ 是由其中 $L (< N)$ 个特征向量构成的 $N × L$ 矩阵,而 $\boldsymbol{\Lambda}$ 是对角元素由相应的 $L$ 个特征值组成的 $L \times L$ 对角矩阵。那么下面的等式成立: $$ MC[\mathbf{e}_l] = \frac{N}{\mathbf{1}^T\mathbf{C} \mathbf{1}}λ_l $$ 这意味着: **较大的正特征值对应的特征向量解释了较强的空间依赖性,而负空间依赖性则相反**。也就是说, **特征向量提供了潜在空间依赖性的正交映射模式描述**,其每一个量级都可以由莫兰系数值索引(Griffith,2003 年[25];Tiefelsdorf 和 Griffith,2007 年 [55])。在现有空间变系数研究(例如,Fotheringham 等,2002 年[18])中,一般都隐含地假设了正空间依赖性(现实世界中负空间依赖性比较少见,一般出现在两个区域之间存在某种竞争的情况),因此本研究仅使用了其中 $L$ 个正特征值对应的 $(\mathbf{E}, \boldsymbol{\Lambda})$ 特征对。 Murakami 等 (2017) 的 M-SVC 模型指定如下: $$ \begin{align*} \mathbf{y} &= b_1 \mathbf{1} + \sum^K_{k=2}{\mathbf{x}_k} \circ \boldsymbol{\beta}_k + \mathbf{E} \boldsymbol{\gamma}_1 + \boldsymbol{\varepsilon} \tag{5}\\ \boldsymbol{\gamma}_1 &\sim \mathcal{N}(0, τ_1^2 \boldsymbol{\Lambda}^{α_1})\\ \varepsilon &\sim \mathcal{N}(0, \sigma^2I) \end{align*} $$ 其中 “$\circ$” 表示列乘积运算符,$\mathbf{y}$ 是响应变量的 $N × 1$ 向量,$\mathbf{x}_k$ 是第 $k$ 个协变量的 $N × 1$ 向量。 $\mathbf{E} \boldsymbol{\gamma}_1$ 是捕获残差空间依赖性的项。 Murakami 和 Griffith (2018)[43] 表明,$L = 200$ 的 $\mathbf{E} \boldsymbol{\gamma}_1$ 项可以大大降低残差的空间依赖性(意即可以捕获大部分残差的空间依赖性)。 第 $k$ 个变系数可以参数化如下: $$ \boldsymbol{\beta}_k = b_k \mathbf{1} + \mathbf{E} \boldsymbol{\gamma}_k,\, \boldsymbol{\gamma}_k \sim \mathcal{N}(0, \tau_k^2 \boldsymbol{\Lambda}^{α_k}) \tag{6} $$ 其中 $b_k$ 是一个系数。空间变系数由常数项 $b_k \mathbf{1}$ 和空间变化项 $\mathbf{E} \boldsymbol{\gamma}_k$ 组成。$\mathbf{E} \boldsymbol{\gamma}_k$ 项具有以下性质: - **性质(1)**:可以根据莫兰系数进行解释; - **性质(2)**:特征向量均值为零。 `性质(1)` 对于准确建模空间依赖性的变化很重要,而 `性质(2)` 能使均值项 $b_k \mathbf{1}$ 与变化项 $\mathbf{E} \boldsymbol{\gamma}_k$ 之间可识别(参见 Gelfand 等,2003 年 [21])。 向量 $\boldsymbol{\gamma}_k$ 中包含受收缩参数 $\tau_k^2$ 和 $α_k$ 控制的随机系数。 - 参数 $\tau_k^2$ 控制空间变系数 $\boldsymbol{\beta}_k$ 的方差 - 参数 $\alpha_k$ 控制空间尺度 - 较大的 $\alpha_k$ 值会收缩具有小特征值的次要特征对上的系数,由此产生具有大尺度映射模式的空间变系数。 - 较小的 $\alpha_k$ 则相反。 采用变化的 $\alpha$ 值可以极大地加速模型估计,同时保持估计尺度的灵活性。 Murakami 和 Griffith (2018)[43] 表明,当估计 $\alpha_k$ 而不是 $r$ 时,所产生的估计误差非常小。 给定 $\mathbf{x}_1 = \mathbf{1}$ 和 $\widetilde{\mathbf{E}}_1 = (\mathbf{x}_1 \circ \mathbf{E}) = \mathbf{E}$,M-SVC 模型表示为: $$ \begin{align*} \mathbf{y} &= \mathbf{Xb} + \sum^{K}_{k=1} \widetilde{\mathbf{E}}_k \mathbf{V}(\boldsymbol{\theta}_k) \mathbf{u}_k + \boldsymbol{\varepsilon} \tag{7}\\ \mathbf{u}_k &\sim \mathcal{N}(0, \sigma^2 \mathbf{I}) \\ \boldsymbol{\varepsilon} &\sim \mathcal{N}(0, \sigma^2 \mathbf{I}) \end{align*} $$ 其中 $\mathbf{X}=[\mathbf{x}_1, \ldots, \mathbf{x}_k]$, $\mathbf{b}=[b_1, \ldots, b_k]^T$, $\boldsymbol{\theta}_k \in \{ \tau_k , \alpha_k \}$, $\mathbf{V}(\boldsymbol{\theta}_k) = (\tau_k / \sigma) \boldsymbol{\Lambda}^{\alpha_k/2}$。`式 (7)` 表明 M-SVC 模型与线性混合效应模型相同(例如,Bates,2010)[4]。 ### 3.2.参数估计
第一类最大似然和第二类最大似然准则
(1)第一类最大似然
在统计与概率论中,估计统计模型参数的一个常用方法是使用最大似然估计,具体定义如下
$$
\hat{\theta} \triangleq \mathop{\arg\max}\limits_{\theta}log \ p(\mathcal D |\theta)
$$
上述最大似然估计对应的似然通常称之为第一类最大似然。
(2)第二类最大似然
当使用贝叶斯方法时,可以通过数值优化方法先获得超参数的经验最优值,具体如下:
$$
\lambda^{*}=\mathop{\arg\max} \limits_{\lambda}p(D| \lambda)
$$
其中 $\lambda$ 是超参数,此类方法也被称为 经验贝叶斯方法
或者 第二类最大似然估计方法
,与交叉验证法评估不同超参数的方法相比,此方法更有效。
- [1] Anselin, L., 2010. Thirty years of spatial econometrics. Pap. Reg. Sci. 89(1), 3–25.
- [2] Arbia, G., 2014. Pairwise likelihood inference for spatial regressions estimated on very large datasets. Spat. Stat. 7, 21–39.
- [3] Banerjee, S., Gelfand, A. E., Finley, A. O., Sang, H., 2008. Gaussian predictive process models for large spatial data sets. J. R. Stat. Soc. Series B Stat. Methodol. 70 (4), 825–848.
- [4] Bates, D. M., 2010. lme4: Mixed-effects modeling with R. http://lme4.r-forge.rproject.org/book.
- [5] Burden, S., Cressie, N., Steel, D.G., 2015. The SAR model for very large datasets: a reduced rank approach. Econom. 3 (2), 317–338.
- [6] Brunsdon, C., Fotheringham, A.S., Charlton, M.E., 1996. Geographically weighted regression: a method for exploring spatial nonstationarity. Geogr. Anal. 28 (4), 281298.
- [7] Cahill, M., Mulligan, G., 2007. Using geographically weighted regression to explore local crime patterns. Soc. Sci. Comput. Rev. 25 (2), 174–193.
- [8] Cressie, N., 1993. Statistics for Spatial Data. John Wiley & Sons, New York.
- [9] Cressie, N., Johannesson, G., 2008. Fixed rank kriging for very large spatial data sets. J. R. Stat. Soc. Series B Stat. Methodol. 70 (1), 209–226.
- [10] Datta, A., Banerjee, S., Finley, A.O., Gelfand, A.E., 2016. Hierarchical nearestneighbor Gaussian process models for large geostatistical datasets. J. Am. Stat. Assoc. 111 (514), 800–812.
- [11] Debarsy. N. Yang, Y., 2018. Editorial for the special issue entitled: New advances in spatial econometrics: Interactions matter. Reg. Sci. Urban Econ. DOI: 10.1016/j.regsciurbeco.2018.02.004.
- [12] Dong, G., Nakaya, T., Brunsdon, C., 2018. Geographically weighted regression models for ordinal categorical response variables: An application to geo-referenced life satisfaction data. Comput. Environ. Urban Syst. 70, 35–42.
- [13] Dray, S., Legendre, P., PeresNeto, P.R., 2006. Spatial modelling: a comprehensive framework for principal coordinate analysis of neighbour matrices (PCNM). Ecol. Model. 196 (3–4), 483–493.
- [14] Drineas, P., Mahoney, M.W., 2005. On the Nyström method for approximating a Gram matrix for improved kernel-based learning. J. Mach. Learn. Res. 6, 2153–2175.
- [15] Farber, S., Páez, A., 2007. A systematic investigation of cross-validation in GWR model estimation: empirical analysis and Monte Carlo simulations. J. Geog. Sci. 9 (4), 371–396.
- [16] Finley, A.O., 2011. Comparing spatially-varying coefficients models for analysis of ecological data with non–stationary and anisotropic residual dependence. Methods Ecol. Evol. 2 (2), 143–154.
- [17] Finley, A.O., Banerjee, S., MacFarlane, D.W., 2011. A hierarchical model for quantifying forest variables over large heterogeneous landscapes with uncertain forest areas. J. Am. Stat. Assoc. 106 (493), 31–48.
- [18] Fotheringham, A.S., Brunsdon, C., Charlton, M., 2002. Geographically Weighted Regression: The Analysis of Spatially Varying Relationships. John Wiley & Sons Chichester, UK.
- [19] Fotheringham, A.S., Yang, W., Kang, W., 2017. Multiscale Geographically Weighted Regression (MGWR). Ann. Am. Assoc. Geogr. 107 (6), 1247–1265.
- [20] Furrer, R., Genton, M.G., Nychka, D., 2006. Covariance tapering for interpolation of large spatial datasets. J. Comput. Graph. Stat. 15 (3), 502–523.
- [21] Gelfand, A.E., Kim, H.J., Sirmans, C.F., Banerjee, S., 2003. Spatial modeling with spatially varying coefficient processes. J. Am. Stat. Assoc. 98 (462), 378–396.
- [22] Geniaux, G., Martinetti, D., 2018. A new method for dealing simultaneously with spatial autocorrelation and spatial heterogeneity in regression models. Reg Sci Urban Econ. DOI: 10.1016/j.regsciurbeco.2017.04.001.
- [23] Goodchild, M.F., 2004. The validity and usefulness of laws in geographic information science and geography. Ann. Assoc. Am. Geogr. 94 (2), 300–303.
- [24] Griffith, D.A., 2000. Eigenfunction properties and approximations of selected incidence matrices employed in spatial analyses. Linear Algebra Appl. 321 (1-3), 95112.
- [25] Griffith, D.A., 2003. Spatial Autocorrelation and Spatial Filtering: Gaining Understanding through Theory and Scientific Visualization. Springer, Berlin.
- [26] Griffith, D.A., 2004. Extreme eigenfunctions of adjacency matrices for planar graph employed in spatial analyses. Linear Algebra Appl. 388, 201–219.
- [27] Griffith, D.A., 2008. Spatial-filtering-based contributions to a critique of geographically weighted regression (GWR). Environ. Plann. A 40 (11), 2751–2769.
- [28] Griffith, D.A., 2015. Approximation of Gaussian spatial autoregressive models for massive regular square tessellation data. Int. J. Geogr. Inf. Sci. 29 (12), 2143–2173.
- [29] Griffith, D.A., Chun, Y., 2014. Spatial autocorrelation and spatial filtering. In: Fischer, M.M. and Nijkamp, N (eds). Handbook of Regional Science. Springer, Berlin, Heidelberg, pp. 1477–1507.
- [30] Harris, P., Fotheringham, A. S., Juggins, S., 2010a. Robust geographically weighted regression: a technique for quantifying spatial relationships between freshwater acidification critical loads and catchment attributes. Ann. Assoc. Am. Geogr. 100 (2), 286–306.
- [31] Harris, R., Singleton, A., Grose, D., Brunsdon, C., Longley, P., 2010B. Grid enabling geographically weighted regression: A case study of participation in higher education in England. Tran. GIS, 14(1), 43–61.
- [32] Heaton, M.J., Datta, A., Finley, A., Furrer, R., Guhaniyogi, R., Gerber, F., Gramacy, R.B., Hammerling, D., Katzfuss, M., Lindgren F., Nychka, D.W., Sun, F., ZammitMangion, A., 2017. A case study competition among methods for analyzing larg spatial data. Arxiv, 1710.05013.
- [33] Helbich, M., Griffith, D.A., 2016. Spatially varying coefficient models in real estate: Eigenvector spatial filtering and alternative approaches. Comput. Environ. Urban Syst. 57, 1–11.
- [34] Kelejian, H.H., Prucha, I.R., 1998. A generalized spatial two-stage least squares procedure for estimating a spatial autoregressive model with autoregressive disturbances. J. Real Estate Finance Econ. 17 (1), 99–121.
- [35] LeSage, J.P., Pace, R.K., 2007. A matrix exponential spatial specification. J. Econom. 140 (1), 190–214.
- [36] LeSage, J.P., Pace, R.K., 2009. Introduction to Spatial Econometrics. Chapman and Hall/CRC, New York.
- [37] Li, M., Bi, W., Kwok, J.T., Lu, B.L., 2015. Large-scale Nyström kernel matrix approximation using randomized SVD. IEEE Trans Neural Netw. Learn. 26 (1), 152164.
- [38] Lindgren, F., Rue, H., Lindström, J., 2011. An explicit link between Gaussian fields and Gaussian Markov random fields: the stochastic partial differential equation approach. J. R. Stat. Soc. Series B Stat. Methodol. 73 (4), 423–498.
- [39] Lu, B., Harris, P., Charlton, M., Brunsdon, C., 2014. The GWmodel R package further topics for exploring spatial heterogeneity using geographically weighted models. Geo-spatial Inform. Sci. 17 (2), 85–101.
- [40] Lu, B., Brunsdon, C., Charlton, M., Harris, P., 2017. Geographically weighted regression with parameter-specific distance metrics. Int. J. Geogr. Inf. Sci. 31 (5), 982–998.
- [41] Lu, B., Yang, W., Ge, Y., Harris, P., 2018. Improvements to the calibration of a geographically weighted regression with parameter-specific distance metrics and bandwidths. Comput. Environ. Urban Syst, DOI: 10.1016/j.compenvurbsys.2018.03.012.
- [42] Moran, P. A., 1950. Notes on continuous stochastic phenomena. Biometrika 37 (1/2), 17–23.
- [43] Murakami, D., 2018. spmoran: An R package for Moran's eigenvector-based spatial regression analysis. Arxiv, 1703.04467.
- [44] Murakami, D., Griffith, D.A., 2015. Random effects specifications in eigenvector spatial filtering: a simulation study. J. Geog. Sci. 17 (4), 311–331.
- [45] Murakami, D., Lu, B., Harris, P., Brunsdon, C., Charlton, M., Nakaya, T., Griffith, D.A., 2017. The importance of scale in spatially varying coefficient modeling. Arxiv, 1709.08764
- [46] Murakami, D., Griffith, D.A., 2018. Eigenvector spatial filtering for large data sets: fixed and random effects approaches. Geogr. Anal. DIO: 10.1111/gean.12156.
- [47] Murakami, D., Yoshida, T., Seya, H., Griffith, D.A., Yamagata, Y., 2017. A Moran coefficient-based mixed effects approach to investigate spatially varying relationships. Spat. Stat. 19, 68–89.
- [48] Nakaya, T., Fotheringham, A.S., Charlton, M., Brunsdon, C., 2005. Geographically weighted Poisson regression for disease associative mapping. Stat. Med. 24 (16), 2695–2717.
- [49] Nychka, D., Bandyopadhyay, S., Hammerling, D., Lindgren, F., Sain, S., 2015. A multiresolution Gaussian process model for the analysis of large spatial datasets. J. Comput. Graph. Stat. 24 (2), 579–599.
- [50] Oshan, T.M., Fotheringham, A.S., 2018. A comparison of spatially varying regression coefficient estimates using geographically weighted and spatial‐filter‐based techniques. Geogr. Anal. 50 (1), 53–75.
- [51] Sang, H., Huang, J. Z., 2012. A full scale approximation of covariance functions for large spatial data sets. J. R. Stat. Soc. Series B Stat. Methodol. 74 (1), 111–132.
- [52] Silvester, J.R., 2000. Determinants of block matrices. Math. Gazette 84 (501), 460467
- [53] Smirnov, O., Anselin, L., 2001. Fast maximum likelihood estimation of very large spatial autoregressive models: a characteristic polynomial approach. Comput. Stat. Data Anal. 35 (3), 301–319.
- [54] Stein, M.L., 2014. Limitations on low rank approximations for covariance matrices of spatial data. Spat. Stat. 8, 1–19.
- [55] Tiefelsdorf, M., Griffith, D.A., 2007. Semiparametric filtering of spatial autocorrelation: the eigenvector approach. Environ. Plann. A 39 (5), 1193.
- [56] Tobler, W.R., 1970. A computer movie simulating urban growth in the Detroit region. Econ. Geogr. 46, 234–240.
- [57] Tran, H.T., Nguyen, H.T., Tran, V.T., 2016. Large-scale geographically weighted regression on Spark. Proceedings of the 2016 International Conference on Knowledge and Systems Engineering (KSE), 127–132.
- [58] Wheeler, D.C., Calder, C.A., 2007. An assessment of coefficient accuracy in linear regression models with spatially varying coefficients. J. Geog. Sci. 9 (2), 145–166.
- [59] Wheeler, D.C., Tiefelsdorf, M., 2005. Multicollinearity and correlation among local regression coefficients in geographically weighted regression. J. Geog. Sci. 7 (2), 161–187.
- [60] Wheeler, D.C., Waller, L., 2009. Comparing spatially varying coefficient models: case study examining violent crime rates and their relationships to alcohol outlets and illegal drug arrests. J. Geog. Sci. 11 (1), 1–22.
- [61] Yang, W., 2014. An extension of geographically weighted regression with flexible bandwidths. PhD Thesis. University of St Andrews.
- [62] Zhang, K., Kwok, J.T., 2010. Clustered Nyström method for large scale manifold learning and dimension reduction. IEEE Trans. Neural Netw. 21 (10), 1576–1587.