【摘要】 在各种类型的局部统计模型的校准中获得的空间变化参数估计的研究是司空见惯的。这种估计的变化通常用空间变化过程来解释。本文强调,在将这种变化与空间变化过程相关联之前,应先检查非线性方面的空间变化参数估计的另一种解释。这可以通过描述和演示的简单筛选程序来实现,并且可以轻松应用于任何局部模型的结果。突出显示问题并展示解决方案,使用一组模拟数据,然后使用真实世界的数据集。该论文还强调了相反的情况,即当实际关系是线性但空间变化时,GAM 的不当应用会产生虚假的非线性结果。

【原 文】 M. Sachdeva, A. S. Fotheringham, Z. Li, and H. Yu, “Are We Modelling Spatially Varying Processes or Non‐linear Relationships?,” Geographical Analysis, vol. 54, no. 4, pp. 715–738, Oct. 2022, doi: 10.1111/gean.12297.

1 介绍

回归模型通常用于使用其他变量(自变量或协变量)的数据来解释观察到的数据模式(因变量)的变化,这些变量被理论化或假设对因变量的值有一些影响。回归保护伞内的不同技术可用于对因变量 (y) 和自变量 (x) 之间的关系建模,但主要区别在于允许关系中存在空间异质性的模型和不允许关系中存在空间异质性的模型。例如,普通最小二乘回归 (OLS) 假设 $y$ 和每个 $x$ 之间的条件关系在空间上是恒定的,因此来自研究区域中每个位置的数据在模型校准和单个参数中以相同的权重使用为模型中的每个关系获得估计值。这样的模型被称为“全局”。另一方面,多尺度地理加权回归 (MGWR) 等局部空间回归技术通过为每个位置校准单独的模型,允许关系中的空间非平稳性。这是通过根据数据与每个局部回归点的接近程度对数据进行加权来实现的。

有大量经验证据表明,即使考虑了模型复杂性的差异,局部模型在许多情况下也优于传统的全局模型(Zhang 等人,2004 年;Malczewski 和 Poetz,2005 年;Maroko 等人,2009 年;Cardozo 等人,2012 年; Li et al. 2012; Wang et al. 2018; Zhu et al. 2020)。

存在第三种类型的回归模型,它不关注关系的空间异质性,而是关注协变量域上关系的变化。此类模型称为广义加性模型 (GAM),它们通常用于模拟因变量和自变量之间的非线性关系。一个重要的,直到现在,被忽视的研究问题是:假设参数估计值在协变量空间中变化(即,关系是非线性的),并且协变量分布在空间上具有一定程度的空间依赖性,这可能说明MGWR 等局部模型的观察优势?也就是说,观察到的局部参数估计的空间变化可能只是反映了 $y$ 和 $x$ 之间的非线性条件关系,其中 $x$ 具有不同的空间模式。例如,如果当 $x$ 较大时参数估计为正,当 $x$ 较小时参数估计为负(表示 $y$ 和 $x$ 之间的 U 形非线性关系)并且 $x$ 分布在整个空间中,使得大值在东边,小值在东边位于西部,因此在 MGWR 等模型中估计的局部参数将具有独特的空间格局,即东正西负。因此,可以说,在 MGWR 和贝叶斯空间变化系数模型 (SVCM) 等模型的校准中报告的参数估计值的局部变化可能并不像所声称的那样代表本质上空间变化的关系,而只是反映了非线性条件 $y$ 和 $x$ 之间的关系。本文检验了这一论点,并提出了一个简单的程序来评估其在任何实证应用中的准确性。因此,它为一般的局部建模和空间分析提供了宝贵的补充。

本文的核心命题:空间局部的变化到底来自解释变量的非线性关系,还是来自于局部模型中潜在的空间过程或空间变化关系?该如何区分两者?

2 回归模型

回归模型是统计分析的重要组成部分。它们通常用于回答与我们在周围世界中观察到的数据有关的原因和内容问题。例如,诸如“为什么在美国有些人投票给民主党而有些人投票给共和党”之类的问题? “房子的哪些属性会影响它的价格”?以及“哪些社会经济和基础设施变量与高犯罪率相关”?都用回归分析回答了。

2.1 线性回归模型 (OLS)

“线性参数”回归模型估计因变量 $y$ 与一个或多个自变量 $x_1、x_2、x3、…、x_n$ 之间的条件关系,并以多元形式表示为:

其中 $β_0$ 是截距,$β_1、β_2、β3、…、β_n$ 是假定在所有观测值中保持不变的参数,ε 是随机误差项。在这种形式的回归模型中,假设每个自变量和因变量之间的条件关系是线性的,并且模型的残差呈正态分布,方差接近恒定。在违反这些假设中的任何一个的情况下,参数估计及其置信区间可能会产生误导。

$$
y = β_0 + β_1x_1 + β_2x_2 + β_3x_3 + ⋯ + β_nx_n + ε \tag{1}
$$

请注意,通过将 $x$ 替换为例如 $x$ 的对数或 $x$ 的二次表达式,可以在上述模型形式中提供 $y$ 和 $x$ 之间的简单形式的非线性关系。

2.2 广义加性模型 (GAM)

在线性回归模型中,假设每个自变量和因变量之间的条件关系是线性的,如上所述。由于可能不知道这种关系的确切性质,因此这种假设可能会导致错误指定。为了解决这个问题,开发出了广义加性模型 (GAM),其中响应变量的概率分布是参数化的,但预测变量是非参数化建模的(Hastie 和 Tibshirani 1990)。 GAM 的结构可以表示如下:

$$
y_i = \sum^{p}{j=1} f_j(x{ij}) \tag{2}
$$

其中 $f_j$ 表示未知的平滑函数,它可以采用多种形式来模拟 $x$ 和 $y$ 之间的条件关系(Hastie 和 Tibshirani 1990)。因此,GAM 可以对因变量和每个自变量之间的高度非线性和非单调函数关系建模,这用 式 (1) 中变量的简单变换无法完成。

2.3 局部回归模型

在空间数据的应用中,传统的线性回归模型假设自变量和因变量之间的建模关系在收集数据的地理区域中是恒定的。该假设表明,无论研究区域的位置如何,相同的刺激(自变量的变化)都会导致因变量的相同条件响应。如果被建模的关系存在空间变化,则在最小二乘线性模型的校准中得出的单个参数估计值将代表空间上的平均响应,并且模型将被错误指定(Fotheringham 和 Rogerson 2009)。这个问题可以通过检查最小二乘模型的残差值是否存在显著的空间依赖性来检测。如果模型残差中存在显著的空间依赖性,则表明建模关系中存在无法解释的空间变化。已经开发了地理加权回归 (GWR) 和 MGWR 等局部统计建模框架,以放宽在传统线性回归模型中建立的空间静止关系的假设(Brunsdon 等人,1996 年;Fotheringham 等,2002 年、2017 年;Yu 等, 2020)

GWR 框架内的模型通过在每个单独位置校准模型来估计每个预测响应关系的唯一局部参数。这是通过从周围位置借用数据并根据与回归焦点的距离对这些数据进行加权来实现的。 GWR 模型规范表示为:

$$
y_i = \sum_j \beta_{j} ( u_i, v_i ) x_{ji} + \varepsilon_i \tag{3}
$$

其中 $β_j$ 是为每个位置 $u_i$、$v_i$ 索引的第 $j$ 个协变量特定参数的向量,$y_i$ 是因变量,$x_{ji}$ 表示第 $j$ 个自变量,$ε_i$ 是随机误差项。

特定于位置的参数是通过使用附近位置的加权数据在每个位置运行简单线性回归模型的集合来估计的,遵循 Tobler 空间相关定律 (Tobler 1970)。空间内核将距离转换为从 $1$ 到 $0$ 不等的权重,其中 $1$ 是分配给回归位置数据的权重。空间核可以是 “自适应的” 或 “固定的”,指的是距离衰减率是否随局部回归点周围数据点的密度而变化。每个局部回归中使用的数据量,通过距离或最近邻居的数量来衡量,由带宽参数控制,该参数提供有关关系变化的空间尺度的信息。 GWR 模型规范包含假设每个协变量的带宽参数是恒定的,这是过度限制的,最近的进步是 MGWR,其中放宽了这个假设,以便在模型的校准中估计协变量特定的带宽。 MGWR模型规范表示为:

$$
y_i = \sum_j \beta_{bwj} \left( u_i, v_i \right) x_{ji} + \varepsilon_i \tag{4}
$$

其中 $β_{bwj}$ 中的 $bwj$ 下标表示模型校准中估计的第 $j$ 个协变量特定带宽(Fotheringham 等,2017 年)。有关带宽解释和 MGWR 推理的更多详细信息,请参阅 Fotheringham 等 (即将出版)和(Yu 等人,2020 年)。

3 空间局部回归模型中的非线性问题

原文标题:The issue of non-linearity in models producing location-specific parameter estimates

当校准局部模型(例如 MGWR 或贝叶斯 SVCM)时,局部参数估计值通常会被制图以显示其空间分布,该空间分布被假定代表了每个协变量与因变量之间的条件关系随空间变化的性质。但是,GAM 框架能够提供对这种空间变化性质的另一种解释。如果被建模的关系是非线性的,并且协变量自身随空间变化具有不同的空间模式,那么也会导致在局部模型的校准中获得空间变化的参数估计。因此,在确定局部建模中空间变化参数估计的来源时存在一个问题: 它们到底是因为被错误建模的非线性关系引起的,还是由真正的空间变化过程引起的?因此,必须检查空间变参数的根本原因,是否有可能是模型中对正确函数形式的错误指定,而并非来自空间变化过程

注解: 空间变参数模型本质上是将系数视为了一个空间过程。

本文的目的(同时强调一个似乎在文献中很少被注意到的问题)是:阐述一个简单的检验方法,可以用来支撑局部模型生成的参数估计是空间变化过程的表现,而非来源于协变量线性函数形式的错误指定。该检验首先通过一个模拟数据集进行展示,该数据集可以控制所建模关系中 空间非平稳性非线性 的程度,然后,将该检验方法应用于关于投票活动的真实数据集。

4 一种简单的检验方法

原文标题:A simple test to indicate the cause of spatially varying parameter estimates

本节描述一种简单但有效的诊断检验方法,然后将其应用于识别真实非线性关系被空间变参数估计所掩盖的情况。要了解此情况发生的原因,请考虑单变量的情况,其中 $y$ 是协变量 $x$ 的函数。如果 $y$ 和 $x$ 之间的关系是非线性的,但被错误地用线性函数进行了建模,则在该线性关系的局部建模中,模型参数(即线性系数)应该是协变量 $x$ 的函数。如果协变量 $x$ 表现出正空间依赖性,则局部参数估计也会表现出某种程度的正空间依赖性,这将导致我们在将局部参数估计值解释为过程非平稳性还是非线性关系方面产生混淆。因此,对局部参数估计进行检验,以区分参数变化来源于空间内在变化关系,还是来源于(本身随空间变化的)协变量的函数,是非常有用的。

下面提出了一个针对此项内容的检验,它可以很容易地应用于任何能够产生局部参数估计的模型结果。

确定空间变参数估计来源的显著方法是绘制局部参数估计值 $β_j$ 与协变量 $x_j$ 的相应值之间的关系图。如果空间变参数估计值来源于协变量 $x$ 和响应变量 $y$ 之间的非线性关系,则该图应该具有清晰的结构。相反,如果生成的图没有显示出可辨别的结构,则可以假设空间变参数估计来源于空间变化过程。

如果对局部变参数估计的任何非线性影响还有所怀疑,对于每个协变量,可以继续绘制部分依赖图。同样,如果 $y$ 和 $x$ 之间的条件关系存在非线性,则此图中的某些结构将很明显,表明非线性性质将在局部模型的改造中建模。构造的向量等同于由 GAM 产生的、表示为 $s(x_j, \text{edf})$ 的平滑项,其中 $\text{edf}$ 是平滑的有效自由度。这些部分依赖图表示了协变量 $x$ 和 $y$ 之间被估计处的条件关系。如果在此类图中观察到了结构,则表明本质上的非线性关系被错误地建模为局部参数模型;如果缺乏结构,则再次支持了被建模的关系属于某种空间变化。

部分依赖图:在 $y$ 轴上绘制的等于 (β_j ∗ xj) 的估计参数值的向量,相对于 $x$ 上的协变量 xj - 轴

TLDR: 举个例子来说明一下

诊断检验的应用和有效性可以在单变量示例中说明。考虑一个具有某些空间依赖性的协变量 $x$,如 图 1(a) 所示。响应变量 $y$ 构造为 $y = x^2 + error$,因此 $y$ 和 $x$ 之间存在全局非线性关系。如我们预见的,由 MGWR 模型产生的参数估计表面错误地表现出与协变量 $x$ 类似的空间依赖性( 图 1(c) )。如果不检查非线性的可能性,则这种空间变化将被错误地解释为空间过程的非平稳性。

Figure01

图 1: 人工构造的 $x$、$y = x^2$ 和估计出的 $β$ 表面。

为了防止这种错误解释,我们可以采用上述诊断检验,在 $y$ 轴上绘制局部参数估计值,在 $x$ 轴上绘制协变量 $x$,如 图 2(a) 所示。在此示例和后续示例中,我们使用 MGWR 作为局部参数估计的来源,但该来源同样可以是贝叶斯 SVCM 或 ESF,所有这三个模型都显示出相似的结果(Oshan 和 Fotheringham 2018;Wolf 等人, 2018 年;Murakami 等人 2019 年)。

该图中的结构清楚地表明,MGWR 模型产生的参数估计值与因变量线性相关,因此不是空间过程非平稳性的结果。为了进一步理解协变量 $x$ 和响应变量 $y$ 之间的条件关系,我们可以绘制 $\beta*x$ 相对于 $x$ 的图,如 图 2(b) 所示,图中曲线非常类似于在相同数据情况下,GAM 模型所产生的平滑项。

Figure02

图 2: 用于识别局部估计中非线性的诊断图

为了证明上述诊断检验的有效性,我们现在将其应用于受控模拟实验,随后应用于使用真实数据的经验示例。

4 受控实验展示

原文标题:Testing for spatial process nonstationarity versus nonlinearity in a controlled simulation experiment

为了检查上述诊断检验的有效性,我们现在在两种情况下探索 MGWR 和 GAM 模型的校准:

场景 1:被检查的过程是非平稳的,因变量通过一组线性关系与自变量相关;

场景 2:被检查的过程在空间上是静止的,但自变量具有一些预定义的空间依赖性,因变量与自变量非线性相关。

显然,在第一种情况下,MGWR 模型更合适,在第二种情况下,GAM 模型应该更优。然而,检查如果在每个场景中应用不适当的模型形式会发生什么是很有趣的——特别是,当在第二个场景中应用 MGWR 时会发生什么?它是否识别虚假的空间非平稳性,如果是,那么通过应用上述诊断图可以检测到多少?

为了检查这两个问题,我们构建了一个包含 2,500 个位置的数据集,这些位置排列在 50×50 的网格上,然后校准以下形式的模型:

$$
y = β_1x_1 + β_2x_2 + ε \tag{5}
$$

对于 MGWR 模型的校准,使用了 mgwr Python 包(Oshan 等人,2019 年),该包具有 Li 和 Fotheringham(2020)的计算改进;对于 GAM 的校准,使用了 R 的“mgcv”包中的 gam 函数(Wood 2011)。在 GAM 的校准中,包含一个明确的地理位置平滑项,以适应模型中任何基于位置的误差依赖性(Kammann 和 Wand 2003)。在 MGWR 校准中,采用自适应双平方核并使用 GWR 带宽初始化。

4.1 场景 1:存在过程非平稳性且线性模型正确

$β_1$、$β_2$、$x_1$ 和 $x_2$ 的局部表面使用高斯随机场 $\text{GRF}(0, \Omega )$ 进行模拟,其中 $\Omega $ 是使用平方指数空间协方差函数构造的每个表面的协方差,表示为:

$$
\Omega (h) = \exp \left(−0.5 ∗ \frac{d^2_{ij}}{h^2}\right) \tag{6}
$$

其中 $h$ 控制表面的空间依赖程度,$h$ 值的增加表示空间依赖性的增加。这里我们设置 $β_1$ 的 $h = 2$ 和 $β_2$ 的 $h = 5$ 以获得具有不同空间依赖程度的两个参数表面。为了模拟 $x_1$ 和 $x_2$ 的表面,$h$ 设置为 $1$。然后使用 式 (4) 生成因变量 $y$,其中 $x_1$ 和 $β_1$ 以及 $x_2$ 和 $β_2$ 彼此独立,$ε$ 是随机生成的值,均值为 $0$,标准偏差为 $0.3$。因此,在这种情况下,参数值和协变量水平之间没有依赖关系,这意味着参数估计中观察到的任何空间变化都可以仅归因于空间变化过程。参数以及自变量和因变量的模拟表面如 图 3 所示。

Figure03

图 3: 参数以及因变量和自变量的模拟表面

使用这些数据, 式 (4) 通过 MGWR 进行局部校准,通过 GAM 进行全局校准。预计从 MGWR 参数估计构建的诊断图不会表现出清晰的结构,因为任何局部参数估计异质性都不会由建模不正确的非线性关系引起。该结果清楚地显示在 图 4 中,其中任何一组估计的局部参数与其相应协变量的值之间没有关系。

Figure04

图 4: $β$ 和 $x$ 之间的建模关系(场景 1)

Figure05

图 5: 场景 1 的 GAM 和 MGWR 结果

MGWR 模型的 $R^2$ 为 $0.94$,表明模型与数据拟合良好( 图 5 ),而全球 GAM 模型拟合度低得多,解释偏差仅为 $29.5%$,这不足为奇。显然,在参数方差是过程非平稳性的结果时,平稳的 GAM 也(即使带空间平滑)也无法正确建模关系并导致模型拟合不佳。

从 MGWR 模型中恢复的参数估计值如 图 6 所示,与(确认准确模型估计的)已知值非常相似。

Figure06

图 6: 模拟出的参数和恢复出的参数(从 场景 1 的 MGWR 模型)。

在这种情况下,通过映射两个模型的残差提供了 MGWR 优于全局 GAM 的进一步证据,如 图 7 所示。MGWR 的残差没有显著的空间自相关并且非常接近于零,而来自 MGWR 的残差比 GAM 更大,并且表现出强烈的正显著空间自相关,Moran’s I 值为 $+0.73$,P 值为 40.0014。这表明当过程在空间上发生变化时,在 GAM 中添加空间平滑器并不能充分消除模型残差中的空间依赖性。

Figure07

图 7:场景 1 的 GAM 和 MGWR 残差。

尽管本文的重点是将空间变参数估计错误地归因于空间变化过程而不是非线性关系的可能性,但该实验还提供了一个相反情况的示例,其中错误地报告了虚假非线性关系而不是空间变化关系。要看到这一点,请回想一下,在这个实验中,被建模的关系是线性的,并由 式 (4) 描述。然而, 图 5 所示的全局 GAM 结果中显著且高的 $edf$ 值表明 $y$ 和 $x_1$ 以及 $y$ 和 $x_2$ 之间的关系是强非线性的。 GAM 结果中的 $edf$ 值反映了曲线的非线性程度 (Wood, 2006),等于 $1$ 的值表示线性关系,大于 $2$ 的值表示高度非线性关系 (Hunsicker 等,2016; Zuur 等, 2009)。为了更清楚地看到这一点,我们可以绘制 GAM 参数估计值及其各自的协变量,如 图 8 所示,其中建模的关系显然是非线性的。这种关系完全是虚假的,是由于将全局 GAM 错误地应用于一组空间变化的过程而引起的。

Figure08

图 8: 根据各自的协变量水平绘制的 GAM 输出的参数估计值

4.2 场景 2:不存在过程非平稳性但 x 和 y 之间存在非线性关系

使用与上述相同的 $2,500$ 个位置点,使用高斯随机场 $\text{GRF}(0, \Omega )$ 模拟自变量 $x_1$ 和 $x_2$,在 式 (5) 中,$x_1$ 的 $h = 2$ 和 $x_2$ 的 $h = 5$。然后使用以下方法模拟代表参数估计的 $\beta$ :

β_1 = 0.5 * x_1 \tag{7}

这意味着被建模的关系是非线性的,局部参数估计将反映两个独立变量的空间变化值,而不是空间变化过程。

β_2 =−0.8 * x_2 \tag{8}

因变量 $y$ 由 式 (4) 计算得出,其中 $ε$ 是随机生成的值,均值为 $0$,标准差为 $0.3$,类似于场景 1。结合 式 (4)式 (7)式 (8) 可得出响应变量被定义为:

$$
y = 0.5 * x_2 1 − 0.8 * x_2 2 +ε \tag{9}
$$

从而将 $y$ 建立为 $x^2_1$ 和 $x^2_2$ 的函数,并在关系中嵌入非线性。 图 9 给出了第二种情况的模拟参数表面以及自变量和因变量的表面。

Figure09

图 9: 参数以及因变量和自变量的模拟表面

为了检查 MGWR 的估计参数是否可以解释为空间过程非平稳性的指标, 图 10 中绘制了两组局部参数估计与其各自协变量值的关系。两种情况下的关系显然是线性的,表明局部参数估计不应解释为空间变化过程的指标。从 图 11 中得出相同的结论,其中 MGWR (β * x) 的平滑项等价物针对局部参数估计绘制,显示应建模的非线性性质。

Figure10

图 10: $β$ 和 $x$ 之间的建模关系(场景 2)。

Figure11

图 11: 与 MGWR 平滑项和协变量相关的图(场景 2)。

从 MGWR 恢复的参数估计如 图 12 所示,可以看出它们与已知值一致,MGWR 模型的 $R^2$ 为 $0.97$。因此,尽管不存在固有的过程非平稳性,但 MGWR 通过使用小带宽对具有局部线性近似的非线性进行建模,准确地恢复了空间变化的参数。这种情况下的问题是参数的空间变化性质不是由过程非平稳性引起的,而是由模型形式的错误指定引起的,模型中的协变量应该具有非线性形式而不是线性形式。这突出了应用此处描述的简单诊断检验的必要性,因为标准结果没有说明错误解释一组观察到的空间变化的局部参数估计的原因的问题,这些参数估计源自局部模型(例如 MGWR)。

Figure12

图 12: 从 MGWR 模型(场景 2)估计的模拟参数与恢复参数。

为了确认空间变化的参数估计是由错误建模的非线性关系引起的,我们使用与先前实验中相同的空间平滑器对数据进行校准,结果如下所示( 图 13 )。该模型的解释偏差为 $96.9%$,协变量的估计有效自由度为 $7.1$ 和 $7.9$,并且在 $0.001$ 水平上均显著。毫不奇怪,作为 $x$ 和 $y$ 坐标之间的交互作用添加的空间平滑项在 $0.05$ 水平上被观察到是微不足道的,GAM 的解释力完全来自 $y$ 和两个协变量之间的建模非线性关系。 GAM 的 AIC 为 $-1,577.4$,而 MGWR 模型的 AIC 为 $-1,050.8$,表明前者更适合这些数据。

Figure13

图 13: 场景 2 的 GAM 和 MGWR 结果

Figure14

图 14: 具有平方预测变量的场景 2 的 MGWR 结果。

使用空间自相关的 Moran’s I 检验再次检查两个模型的残差的空间依赖性:在这种情况下,两组残差均未表现出任何显著的空间自相关。

如果将更高阶的协变量引入模型,为了检查来自 MGWR 校准的虚假空间变化参数估计是否消失,校准了以 $x^2_1$ 和 $x^2_2$ 作为协变量的 MGWR 模型,结果如 图 14 所示。

非线性 MGWR 模型的解释变异为 $96.9%$,AIC 为 $−1,350.6$,表明模型拟合度优于具有线性预测变量的 MGWR 模型,但仍不如预期的 GAM 模型准确,因为没有过程空间这种情况下的非平稳性和全局 GAM 是合适的。来自具有协变量平方值的 MGWR 的估计参数表面显示接近恒定的参数值,$x^2_1$ 接近 $0.5$,$x^2_2$ 接近 $−0.8$,如 式 (9) 所预期的那样( 图 15 )。

Figure15

图 15: 使用平方预测变量在 MGWR 中建模和恢复参数估计。

5 美国投票数据的真实案例

原文标题:Testing for spatial process nonstationarity versus nonlinearity in US voting patterns

至此,我们已经确定,在 MGWR 模型的校准中获得的一组空间变化的局部参数估计可能是由空间非平稳过程或线性模型对非线性关系的误用引起的。我们进一步确定,在精心控制的模拟实验中,上述诊断检验程序可用于识别这种混淆并突出局部参数变化的原因。然而,我们需要确定该程序应用于嘈杂的真实世界数据时的有效性,为此,我们研究了 2016 年美国总统大选选民偏好决定因素的模型。 MGWR 校准了 式 (10) 中所示的县级民主党选票份额模型。

$$
\text{pct dem} = 𝛽0 + 𝛽_1 \text{sex ratio} + 𝛽_2 pct black + 𝛽_3 \text{pct hispanic} + 𝛽_4 \text{pct bachelors} + 𝛽_5 \text{median household income} + 𝛽_6 \text{pct elderly} + 𝛽_7 \text{pct age 18 − 29} + 𝛽_8 \text{Gini} + 𝛽_9 \text{pct manufacturing employed} + 𝛽{10} \text{ln pop density} + 𝛽_{11} \text{pct3rdparty vote} + 𝛽_{12} \text{turnout} + 𝛽_{13} \text{pct foreign born} + 𝛽_{14} \text{pct insured} \tag{10}
$$

在这种情况下,除了选票份额和人口密度之间的关系外,假定这些关系是线性的。 Fotheringham 等人 (2021)提供了局部参数估计和模型校准的进一步细节。因此,我们仅显示局部参数估计的一个表面,即每个县的西班牙裔百分比,作为一些局部参数估计的空间变化性质的示例,如 图 16 所示。在这种情况下,尽管关系对所有县都是积极的,每个县的西班牙裔人口百分比对民主党在每个县获得的选票百分比的影响似乎存在广泛的区域差异。例如,对一些中西部州的影响小于对西部州和新英格兰州的影响。

Figure16

图 16: 县级西班牙裔人口百分比地图和 MGWR 局部参数估计西班牙裔人口百分比

问题是:“这种空间变化的参数估计表面是否可以归因于局部变化的过程,或者它们可能是将线性模型应用于非线性关系的结果”?为了回答这个问题,我们应用上述诊断程序。

图 17 显示了局部参数估计值与相应协变量水平的关系图,用于从 式 (10) 中的模型产生的所有 $14$ 组局部参数估计值。对于大多数协变量,诊断图中没有明显的趋势表明模型中的变量形式是合理的,局部参数估计值的空间变化可归因于空间变化过程。然而,在两个协变量的情况下,一个县中西班牙裔人口的百分比和第三方投票份额的百分比,有证据表明非线性关系,$R^2$ 值分别为 $0.33$ 和 $0.35$。对于每个县的第三方投票份额,当第三方候选人的投票百分比增加时,局部参数估计值往往更负。然而,在这种情况下,对趋势的解释与非线性无关,而是由所测量的空间变化引起的。 2016 年大选期间全国占主导地位的第三方候选人并不统一,这导致投票给第三方候选人意味着什么空间差异。在某些地区,占主导地位的第三方候选人主要吸引了民主党选民的选票,而在其他地区,占主导地位的第三方候选人更吸引共和党选民。此外,第三方候选人的吸引力在全国各地差异很大,在某些县,第三方候选人的选票比例从零到超过 $40%$ 不等。局部模型很好地捕捉到的这两种效应的组合很可能是 图 17 中明显的非线性关系的原因

Figure17

图 17: 针对协变量水平绘制的 MGWR 参数估计值。

但是,对于民主党的选票份额与一个县的西班牙裔人口百分比之间的条件关系中非线性的存在,不存在这样的解释。通过绘制平滑的 “beta*协变量” 与协变量的关系图,可以看到与西班牙裔协变量的局部参数估计的空间变化性质的来源有关的进一步证据,如 图 18 所示。散点图表明轻微的凹向上关系表明西班牙裔人口的平方值在模型中可能更合适。对此的一种解释是,西班牙裔选民可能更有可能在西班牙裔比例较高的县投票。

Figure18

图 18: β*协变量 与西班牙裔变量协变量水平的关系图。

在用模型中该值的平方替换西班牙裔人口比例时,AIC 为 $970$,而原始模型的 AIC 为 $1,045$,表明西班牙裔变量的非线性形式更合适。 图 19 中所示的结果诊断图也表明平方项是合适的。针对各自的协变量水平绘制的局部参数估计没有结构,并且 beta*covariate 对协变量的值表示近乎完美的线性趋势

Figure19

图 19: 平方西班牙裔参数估计的诊断图。

最后,我们可以绘制平方西班牙变量的局部参数估计值的分布,如 图 20 所示。参数估计值的分布现在在全国范围内更加一致,大多数估计值在 $0.3$ 到 $0.4$ 之间,只有佛罗里达州的县以较低的值逆势而上,这可能反映出佛罗里达州的古巴裔美国人通常比其他西班牙裔社区更不支持民主党。

Figure20

图 20: 西班牙裔人口平方百分比的 MGWR 局部参数估计图。

6 讨论和结论

通常绘制特定位置参数估计值的统计模型的应用越来越普遍,包括贝叶斯空间变化系数模型的校准、特征向量空间过滤方法和各种类型的局部回归模型,如 GWR 和 MGWR(Fotheringham 等人,2018 年)。 2002 年;Banerjee 等人 2003 年;Gelfand 等人 2003 年;Griffith 2008 年;Fotheringham 等人 2017 年;Murakami 等人 2017 年;Yu 等人 2019 年)。通常,对局部参数估计值的空间变化进行统计检验,以区分显著变化与抽样变化预期的变化。通过此检验的任何变化通常归因于导致观察到的数据的过程(或条件关联)的变化。过程可能随空间变化是一个重要发现,因为应用于空间数据的传统模型假设过程在空间上是恒定的,因此模型中每个参数的单个全局估计就足够了。大量实证应用表明,获得空间数据模型中每个参数的单一估计值通常是不够的,并且可能隐藏 $y$ 和 $x$ 之间的条件关系中大量有趣的空间变化。

然而,本文表明,当被建模的关系是非线性的时,空间变化参数估计的另一个原因是局部线性模型的校准不正确。这是通过两个使用模拟数据的实验和一个对真实世界数据的应用来证明的。鉴于局部模型的经验应用数量以及几乎普遍缺乏对非线性进行的任何检查,强调这个问题的重要性至关重要。本文进一步描述并演示了一种简单但有效的建模后非线性检查。该检验涉及根据各自协变量的水平绘制局部参数估计值,应该构成任何局部建模应用程序的重要组成部分。如果不检查非线性,则存在将局部变化的参数估计值错误地归因于空间变化过程的风险。这并不是说过去对局部变化参数估计的所有解释都是不正确的。然而,如果不进行这里描述的简单检验,我们就无法确定局部变化参数估计的来源,因此该诊断应该作为任何形式的局部建模的整体检验过程的一部分。

虽然不是主要关注点,但本文还演示了相反的情况,即当关系是线性但空间变化时,GAM 错误地报告了全局非线性关系。因此,可以设想四种情况:

  1. 被检查的关系是线性的和空间固定的。在这种情况下,线性 MGWR 和全局 GAM 都将很好地拟合数据 MGWR 将反映通过趋于无穷大的协变量特定带宽建模的关系的全局性质,而全局 GAM 将在 $y$ 和每个协变量;

  2. 关系是非线性的和空间固定的。在这种情况下,正确指定了全局 GAM 而错误指定了线性 MGWR。然而,线性 MGWR 仍将通过产生局部变化的线性估计来解释关系中的非线性。本质上,MGWR 和其他产生空间变化参数估计的模型代表具有局部线性样条的非线性。因此,上述诊断检验的应用很重要,如果它表明非线性相对简单,则可以通过用适当的非线性表达式(例如,对数或多项式)代替不正确的线性表达式来在 MGWR 中解决这一问题

  3. 关系是线性的并且在空间上是非平稳的。在这里,正确指定了 MGWR,但错误指定了全局 GAM。但是,由于这种错误指定,GAM 可能会错误地报告非线性关系。目前尚不清楚是否存在简单的诊断检验,如上面针对 MGWR 错误地将非线性关系表示为局部变化的线性关系的情况。但是,可以通过添加空间平滑器使 GAM 成为局部的以解释空间非平稳关系,例如在 mgcv 包(Wood 2011)中所做的那样,并且谨慎地校准这样的模型以检查适当性全球 GAM。

  4. 关系是非线性的并且在空间上是非平稳的。在这种情况下,线性 MGWR 和全局 GAM 都将被错误指定,需要进行调整。可以使用空间坐标平滑器的张量积和 GAM 包(例如 mgcv)中的协变量,或者可以将属性空间(例如黄土)的权重与 MGWR 框架中的空间权重结合起来,以同时考虑空间和非线性效果。这两条路线都非常复杂,可能会在模型收敛以及结果的解释和可视化方面带来挑战。

总之,本文提出了空间变化参数模型是否可能捕获非线性但空间同质关系以及非线性模型是否可能捕获线性但空间异质关系的问题。对于前一种情况,这是本文的重点,提出了一种简单而有效的诊断检验,它应该消除任何混淆,并且应该应用于任何空间变化模型校准的输出。对于后一种情况可能有同样简单的诊断,但在开发之前,谨慎的做法是检查包含上述非线性诊断检验的局部建模框架是否比非线性模型的应用更合适。

最后,本文研究了由一种类型的模型指定错误引起的潜在混淆——当关系是非线性和空间平稳时,错误地将关系表示为线性和空间非平稳,或者当它们是线性和空间非平稳时,错误地表示为非线性和空间平稳。其他类型的错误指定也可能发生,一个明显的错误指定是由遗漏的变量引起的。虽然由遗漏变量引起的局部参数估计偏差已在特定起源空间相互作用模型的背景下得到识别和描述(Fotheringham 1983,1984),但关于遗漏变量在以下情况下的影响仍有待进一步研究此处描述的局部回归模型。

提示

已经开发了其他建模框架,这些框架在线性模型中产生局部参数估计,例如贝叶斯空间变化系数模型(Gelfand 等人,2003 年)和特征向量空间滤波(Griffith,2008 年)。然而,这些并不是真正的局部模型,因为它们使用整个数据集来拟合平滑函数。