空间思维及贝叶斯方法
【摘 要】本文首先从时空数据分析面临的空间依赖性、空间异质性、数据稀疏性和不确定性四个挑战谈起,阐述了空间统计思维的重要性。在简单描述了频率派思想和贝叶斯派思想的区别后,重点阐述了贝叶斯方法的优点和可行性,尤其是其中贝叶斯分层模型和贝叶斯空间计量学模型。本文节选自 Haining 的空间和时空数据建模一书,
【原 文】 R. P. Haining and G. Li, Chapter 1 ,Modelling spatial and spatial-temporal data: a Bayesian approach. Boca Raton: CRC Press, Taylor & Francis, 2020.
1 时空数据分析面临的挑战
1.1 空间依赖性
对于空间和时空数据,在空间和/或时间上靠得很近的值不太可能是独立的。依赖性(或缺乏独立性)是空间和时空数据的基本属性。在某个时间间隔内对某个区域观察到的数据值通常包含有关同一变量在同一(或附近)时间窗口内其他(附近)区域的数据值的一些信息。例如,仔细检查图 1.1 会发现,尽管存在例外情况(例如,参见标记为 x 和 + 的区域),但相邻区域的原始盗窃率通常往往比相邻区域的原始盗窃率更相似离的远。我们还可以观察到一些局部的犯罪事件高发区。一个地区的原始入室盗窃率计算为该地区报告的入室盗窃案件数量与该地区处于危险中的房屋数量之比。我们将这些称为原始入室盗窃率,因为计算仅基于数据而没有通过建模共享信息(参见后面的第 1.3.1 节)。在时空数据的情况下,图 1.2 中的地图序列说明了一个类似但更复杂的时空依赖结构——部分原因是使用了更小的空间单位。在一个空间单元中观察到的值往往不仅与其空间邻居的数据值相似,而且与其时间邻居的数据值以及每个空间邻居的时间邻居的数据值相似。在这里,如果两个区域共享一个公共边界,则它们被认为是彼此的邻居。对于时间,时间 t 的时间邻域被认为是 t – 1 和 t + 1。我们将在第 4 章返回定义空间邻域结构的主题,并分别在第 12 章和第 15 章返回时间和时空邻域结构。
这两个示例都显示了正自相关的证据,这是实践中经常遇到的一种特性。空间和时空数据中正自相关的存在意味着空间和/或时间上靠近的值往往相似。然而,正如我们将在第 3 章中讨论的那样,此属性取决于用于报告数据的空间和/或时空单位的规模。我们将在第 6 章中考虑对这些想法进行测试的方法。
但是依赖性不仅是我们观察到的数据值的一个属性,它还可以存在于代表空间和/或时间变化的统计属性的模型参数中。考虑将一个简单的线性趋势模型分别拟合到彼得伯勒 452 个人口普查输出区域 (COA) 中每个区域报告的入室盗窃计数的时间序列。坡度估计值的空间分布如图 1.3 所示,其中似乎有一种趋势,即靠近的区域随时间显示出类似的增加(减少)趋势。
数据中依赖性的存在对标准回归模型提出了挑战,其中假设模型误差是独立的。虽然协变量的使用可以解释结果数据中的一些依赖结构(例如,在分析疾病风险的背景下,附近社区呼吸系统疾病风险水平的相似性可能部分是由于,因此可以解释为,它们靠近主干道),通常情况下模型的残差仍然被发现在空间和/或时间上自相关。这可能有多种原因,但一个常见的原因是模型忽略了本身在空间和/或时间上自相关的重要协变量。因此,缺失协变量的这一特性被模型的残差继承,它代表了结果变量观测值变化中无法解释的部分
当存在正空间自相关时,应用假设独立误差的模型会导致低估参数不确定性(而如果存在负空间自相关,则会高估这种不确定性)。我们花点时间进一步扩展这一点,对其的讨论导致了对空间和时空数据建模的一些重要影响。
考虑以下使用一组 N 个观测值 x1,…,xN 来估计正态分布的未知均值 μ 的简单示例,这些观测值是从所讨论的正态分布中采样的。为简单起见,假设此正态分布的方差 σ2 已知。 μ 的无偏点估计由观测值的样本均值 x 给出。为了导出点估计的不确定性区间,我们需要估计误差方差(表示为 EV,因此 EV 给出标准误差),这是对 μ 估计值的可变性的度量。如果假定观测值是独立的,则误差方差由 $\widehat{EV}_{ind} = \frac{\sigma^2}{N}$ 估计。帽子符号( $\widehat$ )表示EVind是未知参数EVind的一个点esti ind = N mate,下标ind强调了对观测值的独立假设。但是,如果观察结果实际上是相关的,则上面给出的估计是基于错误指定的模型。虽然样本均值仍然是 2 μ 的无偏点估计,但误差方差现在是 EV dep = s +g^,其中 g^ 是 N 个样本自协方差,用于量化所有观察值之间的相关性。如果观测值之间存在正空间相关性,则 g^ > 0,因此 EVind 低估了我们对 μ 估计的不确定性。由此产生的不确定性区间变得太窄。在假设检验的情况下,我们可以看到犯 I 类错误的风险(例如,当结论在选定的显著性水平上不合理时,得出均值不等于零的结论)的风险增加了。事实上,情况通常会更糟,因为通常 σ2 是未知的,因此必须对其进行估计。在独立观察的情况下,σ 2 的 N 22 通常估计量是 s = 1 ∑(xi − x) 。 N − 1 i=1 然而,当观测值相关时,s2 低估了 σ2(参见 Haining,1988,p.579),从而进一步增加了 I 类错误的风险(参见练习 1.8)。
如果我们现在重新表述我们关于 μ 的论点,将其替换为一组协变量及其相关的回归系数,那么我们可以看到,同样的问题可以延续到关于不同协变量对解释变量的变化的贡献的假设检验。观察到的结果值。下面第 1.3.2.1 节中的示例提供了这一点的一些说明。
上述讨论为解释空间数据的依赖性提供了理由。所描述的结果的基础是一个事实,即有关感兴趣的参数(上图中的 μ)的“信息较少”包含在数据集中,其中观测值是正自相关的。这可以与观察独立的情况进行比较。 “有效”样本量一词已被创造出来并用于衡量一组自相关数据中的信息内容。与 N 个独立观察的情况相比,如果我们有 N 个正自相关数据值,则有效样本量小于 N(少多少取决于自相关数据值的强弱)。有效样本量可以被认为是可用于估计参数的独立观察的等效数量——见 Cressie (1991, p.14–15) 的一个简短示例。我们将在第 6 章回到有效样本量。正是这种数据信息量的减少增加了参数估计的不确定性,正如 EV dep EVind 所反映的那样。同样的数据属性导致回归参数的低效估计,我们根据这些参数得出关于协变量贡献的结论,以解释我们观察到的结果数据值的变化。
观察中正相关性的存在意味着邻居往往具有相似的观察值,这一特性对上一段中描述的以似然为中心的建模提出了挑战。一组正自相关观测值中的信息丢失的出现是因为每个观测值都包含我们所谓的关于其他观测值的“重叠”或“重复”信息(如果我们知道一个位置的数据值,它会告诉我们关于同一位置的数据值的一些信息在附近的位置可变)。然而,从另一个角度来看空间依赖性,事实证明,它为我们提供了一种解决上述挑战以及我们在建模空间和时空数据时遇到的其他一些问题的方法。由于依赖性的存在,我们所掌握的有关某个区域的某些特征的信息(例如入室盗窃率等参数)会告诉我们其他邻近区域的相同特征。正如我们将要看到的,空间和时空依赖性的存在最终证明在估计这些特征时提供了跨空间和/或时间“共享信息”的机会。这个想法是本书中描述的许多以过程为中心的建模的核心。关于“信息共享”(或“借力”)在实践中的含义,我们还有很多话要说,但现在我们转向分析空间数据时必须面对的四个挑战中的第二个。
1.2 空间异质性
事物很少在空间或时间上保持不变。收入水平因城市的一部分而异。虽然不同地区可能经历不同的疾病风险水平,但疾病风险的时间动态可能因地而异。例如,某些地区的风险可能仍然很高,而其他地区的风险则显示出随着时间的推移而降低的迹象。所有子集都具有相同统计属性的数据集被称为同质的。当同质性不成立时,数据集被称为异构的。异质性有时被称为空间数据仅次于空间依赖性的第二个基本属性,尽管它的存在可能取决于所研究的地理区域的大小(或范围),而不是地理空间中某个属性的固有属性。
空间异质性可以采取不同的形式。它可以出现在一组数据的平均水平上。在研究入室盗窃风险时,不同的地区可能会为潜在的窃贼提供不同的风险回报权衡,因此入室盗窃的风险因地区而异。因此,关于观察到的家庭入室盗窃率的数据将显示地理差异。图 1.4 说明了 2004 年英国剑桥郡(原始)盗窃率的不均匀空间分布。彼得伯勒(在西北部圈出)和剑桥(在南部圈出)这两个城市地区之间似乎存在显著差异) 一方面和农村地区(该县其他大部分地区)。城市地区的入室盗窃率较高(颜色较深)。造成这种差异的原因可能是,尽管城市和农村地区的风险因素相同,而且每个风险因素的影响也相同,但城市地区的风险因素水平高于农村地区。这种均值的异质性可以通过拟合标准回归模型来捕捉——不同地区不同水平的风险因素导致的均值差异(例如,贫困程度较高,社会凝聚力较低)。
城乡差异的另一种解释可能是,虽然相同的风险因素可能在城市和农村地区起作用,但就这些风险因素对患病率的影响而言,两种类型的地区之间可能存在差异。入室盗窃。换句话说,异质性可能存在于结果(Y)和风险因素(X)之间的关系中。 X 和 Y 之间的关系可能取决于位置。异质回归关系的假设通常会导致某种形式的“局部”回归模型的拟合。在这里,我们可能会根据空间单元是在农村还是城市地区来预期不同的参数值。对于某些局部回归模型,例如地理加权回归(参见第 6.3.3 节),每个区域都有自己的参数值(参见 Lloyd,2011,第 5 章)。但是这里要强调的一点是,为了应对异质性,我们可能需要构建很多未知参数的模型。而且,在某些模型的情况下,需要估计的参数比数据点多得多。这显然对估计提出了挑战
在分析时空数据的情况下,局部时间演化可能会出现异质性。图 1.5 显示了 2005 年至 2008 年英国彼得伯勒 452 个 COA 的年度原始入室盗窃率的各种趋势模式。特别是,突出显示的本地趋势显示的模式似乎与城市范围内的增长趋势截然不同。也就是说,需要谨慎行事。虽然图 1.5 作为探索性数据分析的工具很有用,我们将在第 6 章和第 13 章返回这个主题,但在得出任何结论之前,还需要考虑与这些风险估计相关的不确定性。
异质性带来的挑战是,所需的建模必须灵活,以适应可能随空间和/或时间变化的系统统计特性。正如我们将要解释和说明的那样,这个估计问题是通过对特定区域的参数施加适当的空间结构来解决的,以便假设这些参数是相关的,而不是独立的。 3换句话说,一个区域的回归系数假设依赖于其他(可能是附近)区域的回归系数。假设这样的依赖结构有效地减少了模型中待估计的参数数量。更重要的是,这种依赖假设为信息共享提供了基础,这是一个强大的建模概念,使我们能够为特定区域的参数提供可靠的估计。除了解决估计问题外,信息共享的想法还有助于解决数据稀疏性问题,这是我们接下来要分析的空间数据的第三个主要挑战。
1.3 数据稀疏性
空间和时空数据的可用性正在快速增长。特别是在较发达国家,此类数据可在精细的空间和/或时间尺度上提供。例如:
- 自 2010 年底以来,英格兰、威尔士和北爱尔兰的警察部队一直在发布有关街头犯罪和治安的月度数据 (https://www.police.uk)
- 美国的人口数据发布到
街区(block)
,而英国可以发布到输出片区(output area)
级别。 - 卫生健康数据可以按地理区域划分,并通过国家和地区卫生统计中心获得。
这些精细尺度的空间和时空数据提供了独特的机遇,使我们可以以更精细的空间和时间尺度来探索和揭示感兴趣的系统特征。 但 空间和时空精度以及样本数量,可能无法与统计精度相匹配。统计精度的缺乏是由于所选时空尺度上的数据不足造成的,该问题通常被称为 数据稀疏性
问题。
数据稀疏性可能来自两种情况:
- 第一种情况出现在我们分析的 空间数据或时空数据的总体本身较小或事件本身并不常见 的时候。这种情况通常与基于登记的数据相关联,例如警方记录的数据库中的犯罪事件或地区或国家卫生登记处的疾病计数。当在相对较短的时间内从小总体中观测时,事件计数通常太低而无法提供可靠的风险估计。这些估计的变化很大,造成不确定性区间变大。例如,
图
显示了 2005 年彼得伯勒盗窃率在人口普查区级别的点估计和区间估计值。每个人口普查区通常只包含大约 $100$ 所房屋。 2005 年,彼得伯勒 $452$ 个人口普查区中有 $79%$ 发生了两起或更少的盗窃案。仅使用这些稀疏数据,产生的不确定性区间非常宽,进而限制了使用这些数据所能解决的问题范围。在图
的情况下,所有不确定性区间相互重叠,表明所有这些人口普查区的潜在盗窃风险可并没有差异。然而,对于图最右边的人口普查区,尽管其不确定性区间与其他区间重叠,但其点估计值比其他区间大得多。这一观测结果可能会引发一个问题,即该人口普查区的潜在盗窃风险是否远高于其他。由于数据过于稀疏,图
中显示的逐区域估计值不允许我们回答此问题,但通过建模或许能够解答部分问题。
图 : 2005 年每 1000 所房屋的原始入室盗窃率(实心点)及其对应的不确定区间(垂直条),用于选择彼得伯勒的人口普查区(COA)。
- 第二种情况出现在我们 需要以比收集数据时更精细的空间或时空分辨率来分析数据 的时候。这种情况通常来自使用国家级调查数据进行地方行政区级别的分析。与第一种情况不同,这种情况下的地方行政区内的事件总体足够大,但在国家层面的调查中却没有做任何空间上的分层,这导致一些地方的采样点数量过少,而无法提供对总体的可靠估计。以英国纽卡斯尔地区的中等普查区级别平均每周家庭收入为例,该研究中使用的数据来自一项全国性调查,虽然数据量足够大,可以提供良好的全国估计,但当分解到中等普查区级别时(根据 2011 年英国普查区定义,英格兰大概有 $6800$ 个中等普查区),每个中等普查区的数据变得非常稀缺。
表 1
显示:纽卡斯尔的大多数中等普查区只有很少参与全国调查的家庭,有些普查区甚至一个都没有。这种分析级别的数据稀缺性给推断带来了严重问题。例如,如果仅使用每个中等普查区中的数据,则输出的结果区间估计要么太宽要么太窄,因为其宽度仅取决于极少量数据值的分布。同样,我们不能为没有数据的中等普查区提供点估计,也不能为只有一个数据的中等普查区提供区间估计。
1.4 不确定性
在任何统计分析中,我们需要考虑三个主要的不确定性来源:数据不确定性、模型(或过程)不确定性和参数不确定性。我们现在依次进行。
(1)数据不确定性
数据不确定性源于与所收集数据相关的不可避免的错误和不确定性。通常,我们使用概率分布(称为似然;参见第 5 章)来描述与某个时间间隔内记录的疾病数量、投票偏好或道路交通事故数量相关的随机性。概率模型捕获了我们对观察到的数据值的不确定性,认识到我们观察到的一些变化与我们分析的数据值背后的许多通常很复杂的过程有关。其中一些过程与数据收集活动本身相关(例如采样过程、测量过程、记录过程),一些过程具有生成我们观察到的结果值的潜在过程的固有随机性或复杂性。
数据的不确定性也源于数据值缺失和数据不兼容。当不同的属性在不同的空间框架和/或不同的时间尺度上报告不兼容的数据问题时,后者是空间和时空数据分析的一个特殊问题(例如参见 Gotway 和 Young(2002 年))。在本书后面的部分中,我们将遇到某些空间单元中数据值缺失的案例研究(请参阅第 7 章和第 8 章中的纽卡斯尔收入数据分析)和不兼容的数据问题(请参阅第 9.2 节,我们在其中对关系进行建模中风死亡率和空气污染之间的关系,其中健康和人口统计数据是在人口普查区收集的,而空气污染数据是在网格上报告的)。数据不确定性还源于这样一个事实,即我们在健康和社会科学中分析的大部分空间数据都来自形状不规则的小型行政区域,这些区域在物理和人口规模方面都有所不同。
(2)过程不确定性
所有形式的模型构建都存在不确定性,部分原因是建模涉及的所研究系统的内在简化。虽然没有一种模型可以代表“真相”,但不同的模型具有不同程度的有用性。即使是最简单的模型也能为下一步的模型构建提供信息。正如 George Box 多次评论的那样:所有模型都是错误的,但有些是有用的(参见 Box,1976,显然是第一个实例)。统计分析的目标之一是衡量不同模型的有用程度。
我们对健康和社会经济现象的理解常常充满争议。然而,在不同的统计模型可以表达不同的理论/理解的情况下,这些模型随后可能会针对数据进行测试,以量化每个模型及其背后的理论是否得到数据的支持。例如,海宁 (2003, p.356–358) 引用了两种不同的模型来解释汽油零售定价的空间格局。一种模型强调供应方,强调零售商之间的本地竞争效应以及地点效应(提供的其他服务的范围;地点的质量)和位置效应(零售商是否在主干道上)对解释价格的作用变化。另一个模型强调需求方面,尤其是消费者行为,重点关注无障碍站点与城市地区消费者流量的关系。
许多社会和公共卫生科学的观察性质使得严格识别变量之间的关联变得非常不确定,更不用说建立因果关系了。模型中包含哪些协变量存在挑战——可能是出于实际原因(数据不可用),也可能是因为无知。我们将在第 3 章进一步讨论在观察科学中得出有效结论时出现的问题。此时我们注意到,我们将在本书的许多地方遇到的应对策略之一是纳入所谓的“随机效应”过程模型中的术语。我们将遇到两种类型的随机效应——空间结构随机效应和空间非结构随机效应。这两种类型通常都包括在内,以应对模型规范中缺少协变量的影响,其中一些可能显示空间依赖性,而另一些则不然。在第 12 章对时间数据建模时以及在第 14 章到第 16 章对时空数据建模时,将会看到类似的想法。
(3)参数不确定性
在统计分析中,有些量的值是未知的。我们称这些量为参数,它们不仅包括回归系数和误差的方差,还包括任何缺失的数据值。我们使用数据来提供这些参数的估计值。然而,我们需要更进一步。与任何参数估计相关的不确定性应该在整个估计过程中传播。换句话说,参数的估计应该考虑与模型中其他参数相关的不确定性。例如,假设我们正在尝试评估一项干预措施的有效性。为此,我们需要将“治疗”区域的结果轨迹(随时间变化)与未治疗区域的结果轨迹进行比较。两条轨迹之间的任何差异都表明干预的影响。在进行这样的比较时,我们需要对未处理区域的结果轨迹进行建模,这将需要估计模型参数。这些估计将存在不确定性。在估计治疗区域模型的参数时,为了确定治疗区域自干预以来是否遵循不同的结果轨迹,我们应该承认并允许这种不确定性。当我们考虑评估由剑桥郡警察局引入的有针对性的小区域政策的问题时,我们将在第 16 章的第 16.2 节中看到对此的说明。练习 1.7 说明了估计正态分布方差 σ2 的不确定性如何影响该正态分布的未知均值 μ 的区间估计。在第 1.4.2 节中,我们将讨论如何合并参数不确定性。这构成了贝叶斯推理方法和频率论推理方法之间的根本区别,这两种统计框架通常用于分析空间和时空数据。
2 时空数据分析中的统计思维
统计思维涉及与观测结果建模密切相关的推理过程所需的一系列统计技术,其目的是揭示和理解系统的特征或一组变量之间的关系。图
确定统计思维过程中的一些关键阶段(改编自 Waller (2014),后者改编自 Box 等 (1978))。
在实际工作中,统计分析可能从基于特定领域的理论假设开始(理论驱动分析)。基础理论为模型指定提供了信息,包括模型中需要包含哪些协变量、需要收集哪些数据等。统计分析也可以从一组观测开始,目的是产生新见解或新假设(数据驱动分析)。上述两种统计分析思路来自于 Box 等 (1978) 讨论的实验设计,健康和社会科学中的空间分析通常来自于观测。
给定一组观测到的空间数据,统计分析既可以参与与理论驱动(例如检验理论)的分析,也可以参与数据驱动(例如以监测形式发现模式)的分析。从一个或多个数据驱动分析的结果产生的假设,有时可以作为使用一组新数据进行后续理论驱动分析的起点。
就所涉及的推断过程而言,这两种类型的统计分析在很大程度上是重叠的。它们仅在起点上有所不同,而起点反映了我们对目前所研究内容的了解程度。
图 : 统计思维的过程
数据的统计分析包括:模型建立、参数估计、模型评估、模型比较和结果解释。
对于将理论思想与实证数据进行对比的理论驱动分析,其目标是通过观测数据来评估初始假设及其推导出来的理论。
对于数据驱动的分析,发现的模式可能有助于产生新的研究假设,这些假设与一组新数据一起可能会启动下一轮理论驱动的分析。
无论是在数据驱动的分析中,还是在理论驱动的分析中,都需要构建概率模型来解释各种不确定性,并估计我们试图揭示和理解系统特征的各种参数。我们将采用的概率建模方法主要有两类:一是贝叶斯分层建模;二是贝叶斯空间计量经济学建模。
在进行任何形式的统计分析时,必须强调以下两点:
- 对系统的理论理解是统计推断过程的一个组成部分。统计模型不能与其学科领域分开,因为参数解释在很大程度上依赖于学科知识。
- 统计分析是一个迭代过程,每次迭代都会揭示对所研究系统的新见解。模型评估和模型比较是此过程的两个关键要素。
3 统计分析中的贝叶斯思想
参数推断(即参数估计)可以使用频率论方法或贝叶斯方法进行(参见 Bayarri 和 Berger(2004 )的深入讨论)。这两种推断方法在未知参数的定义方式方面存在根本差异,无论是采用 层次建模
还是 空间计量经济学
建模方法。
3.1 频率派方法
频率派方法将参数视为固定但未知的数量。
术语“固定”意味着不存在与任何这些未知量相关的不确定性。换句话说,假设每个参数都取一个值,尽管这个值是未知的。参数估计基于可能性(也称为数据模型),它是分析师指定的概率分布(或一组概率分布),用于对观测到的结果值建模。例如,为了评估 NCC 计划的总体影响(第 1.3.2.4 节),常客方法首先构建一个数据模型来描述在 NCC 组和非 NCC 组八年中每年观测到的年度盗窃计数-NCC 集团。通过数据模型,可以衡量 NCC 和非 NCC 组之间盗窃风险的政策后差异。两组之间在后政策时期的风险差异是感兴趣的参数,这些参数的点估计是通过最大化似然来获得的,即通过最大化两组观测到的计数数据的概率构建的统计模型下的组。数据模型的构建并不是频率论方法独有的。贝叶斯方法采取相同的步骤(参见下面的第 1.4.3.1 节)。然而,由于频率论者范式将任何未知量视为没有内在不确定性的固定量,因此置信区间的推导,即频率论者表达与未知参数相关的估计不确定性的方式,是基于“正在考虑的情况的无限假设复制”(韦克菲尔德,2013 年,第 23 页)。虽然“无限假设复制”的想法适用于可以重复实验的实验科学,但它很少适合健康和社会科学,因为科学的观测性质,通常没有机会进行可重复的实验。在 NCC 评估的情况下,我们只有一个系统的实现,并且不可能在相同条件下多次执行相同的实现,这是频率论方法所依赖的基础。
与通过无限大的重复实验集调查感兴趣事件的长期频率的频率论者的想法相反,贝叶斯推断依赖于使用我们观测到的数据更新我们对感兴趣事件的先验信念的想法。在NCC评估的案例中,在看到数据之前,我们可能会说“我们不知道NCC方案是否对NCC组的入室盗窃风险产生了影响”。换句话说,NCC组的入室盗窃风险可能比非NCC组更低,没有差异,甚至更高。这表达了我们的先验信念,其中“先验”是指上述陈述是我们在看到任何数据之前对潜在政策影响的看法。现在为了调查政策的影响,我们建立了一个贝叶斯模型,将我们先前的信念与我们观测到的数据(即在 NCC 和非 NCC 组中观测到的入室盗窃计数)相结合,以形成关于政策影响的更新信念.贝叶斯推断不引用重复实验的概念,而是关注观测到的数据在多大程度上导致我们修改我们对兴趣量的先前信念(例如,政策对盗窃风险的影响)。
3.2 贝叶斯方法
与频率派方法不同,贝叶斯推断将所有未知参数视为随机变量,每个变量都与概率分布相关联。在构建统计模型时,贝叶斯方法和频率论方法之间的主要区别在于,贝叶斯方法要求我们将先验概率分布(一种反映我们先验信念的数学方法)分配给所有未知参数,这一步骤不是在频率主义方法下需要。然而,贝叶斯方法下的这个“额外”步骤在分析空间和时空数据时带来了几个优势,影响了从模型构建、参数估计和解释到模型评估和模型比较的统计分析的各个方面。
先验分布的分配是贝叶斯推断中的一个独特要求,它提供了一种对大量(可能相关的)参数进行建模的自然方法。这在分析一组空间(或时空)数据时尤为重要,因为建模中涉及的未知参数的数量通常很大。例如,在收入示例(第 1.3.1 节)中,有 109 个参数,每个参数都与纽卡斯尔 109 个中等普查区之一的未知平均收入水平相关联。在评估 NCC 方案(第 1.3.2.4 节)的局部影响的情况下,我们有一组时空参数,每个参数都衡量 NCC(处理)区域和非 NCC(控制)区域之间盗窃风险的差异) 组在后政策年之一。为了处理异质性问题,需要如此大量的参数。我们可以将收入示例中的所有 109 个参数减少到只有一个,即纽卡斯尔平均水平,但假设纽卡斯尔的所有中等普查区都具有相同的平均收入水平是不现实的。同样的论点也适用于策略评估示例。假设所有 NCC 地区都受到政策的相同影响是值得怀疑的。此外,我们希望不仅在整体层面,而且在地方层面评估政策的影响。问题是如何对这些未知参数进行建模。使问题进一步复杂化的是,这些参数可能相互关联而不是相互独立。例如,一个中等普查区的平均收入水平可能与其他(可能附近的)MSOA 的平均收入水平相似。当地的 NCC 影响可能因一个处理区域而异,但根据该计划由同一警察部队实施且所有处理区域均为城市地区的观测结果,期望这些局部影响相似可能是不合理的彼得伯勒同城?当然,我们需要根据观测到的数据来验证这种假设的适当性,这个话题我们接下来会回到
那么我们应该如何解释这些参数中的这种依赖结构呢?贝叶斯处理是为未知参数(例如MSOA平均收入的109个参数和衡量每个NCC之间政策后风险差异的参数)制定多元先验概率分布,通常以多元正态分布的形式区域和非 NCC 组)。通过这些多元先验分布,我们可以在这些参数上施加依赖结构(在多元正态分布的情况下通过方差-协方差矩阵),使它们相关,从而解决观测数据中的依赖属性。另一个重要的含义是,当我们开始估计这些参数时,对这些参数强加的依赖结构会导致信息共享。除了使用该中等普查区中的可用数据(如果有的话)之外,对一个中等普查区中平均收入水平的估计还可以从其他中等普查区中借用信息。
通过各种多元先验分布联合建模参数有助于通过信息共享估计如此大量的参数并捕获数据中的依赖结构。然而,应该记住,强加于参数的依赖结构是基于我们的假设(例如,所有中等普查区具有相似的收入水平或所有 NCC 地区都经历相似的政策影响)。这就引出了一系列问题:“对于给定的一组参数和数据,什么是合理的依赖结构?”; “我们应该如何适当地借用信息——我们应该在全球范围内借用信息,即在估计一个区域的参数时,我们从所有其他区域借用信息,而不管这些区域在哪里,或者我们应该在本地借用信息,以便一个区域的空间(或时空)邻居对该区域的参数估计有更大的影响,与远处的邻居或两者的某种组合相比?”; “我们应该如何处理那些不能很好地融入整个画面的‘异常值’(例如图 1.1 中标有 x 和 + 的两个区域,在这种情况下,我们可能不想在本地借用信息,而是将它们区别对待与其他人相比)?”;以及“如果使用另一种似是而非的参数依赖结构,分析结果(例如 NCC 方案的功效)将如何改变?”解决这些问题需要我们对问题和手头的数据都有深刻的理解。贝叶斯方法提供了一种处理许多参数的自然方法,但我们建模者需要(更努力地)思考我们正在努力实现的目标。还值得注意的是,贝叶斯模型通过先验分布结合了我们关于参数依赖结构的假设。换句话说,在贝叶斯范式下,我们可以将一组区域的地理配置作为先验信息(或我们在 5.6.2 节中介绍的空间知识)的一种形式,补充来自更传统的信息数据形式(例如入室盗窃计数或家庭收入值)。在这方面,频率论方法可以说是低效的,因为推断仅基于观测到的数据(数据就是一切)而忽略任何其他形式的信息(包括空间知识)。
除了信息共享之外,在参数估计中采用贝叶斯方法的另一个优势是不确定性的传播。在贝叶斯方法下,参数推断基于后验分布——一种概率分布,它结合了来自数据的信息(通过可能性的规范)和我们在看到数据之前可能拥有的关于参数的任何先验信息(通过先验分布的规范)。后验分布不仅封装了可用信息,还封装了任何可能的不确定性来源:与数据相关的不确定性、与过程相关的不确定性和/或与参数相关的不确定性。将我们可以识别的所有不确定性放入后验分布的好处是模型中特定参数的估计考虑了与模型中其他参数相关的不确定性。例如,在贝叶斯方法下,NCC 影响的估计充分考虑了与非 NCC 组的估计盗窃风险相关的不确定性。相比之下,频率论者的方法忽略了这种不确定性。
在参数解释方面,由于我们有整个后验分布,除了提供常规的点和不确定性估计(例如,以后验均值和 95% 可信区间的形式;参见第 5.3.1 节),我们可以推导出概率陈述与手头的问题直接相关。例如,我们可以计算 NCC 方案对 10 个 NCC 区域中的每一个区域产生积极影响的后验概率。我们还可以构造和推断新数量,这些新数量是模型中参数的某种(可能是非线性的)变换。例如,图 1.13 中显示的盗窃率的整体和局部百分比变化不是模型中的参数,而是基于某些模型参数的非线性变换得出的(参见第 16.2.3 节)。这种变换后的参数的估计在频率论方法下通常是困难的。
对于模型评估,除了分析模型残差外,贝叶斯方法还允许我们研究所考虑的模型如何很好地描述观测到的数据以及使用后验预测检查的数据的某些特征。这种模型检查有助于突出观测到的数据和模型之间的任何差异,通知下一步以扩展或改进建模。
3.3 方法的选择
总之,与频率派方法相比,Spiegelhalter 等 (2004) 认为贝叶斯方法更灵活地适应每个独特的情况,更有效地使用所有可用的证据,并且在提供相关的定量总结方面更有用。使用贝叶斯推断进行分析通常被认为是根据数据更新先前的信念。与频率论者推断的基础相比,这可以说是观测科学中推断争议较小的基础。因此,贝叶斯推断已广泛应用于各种空间和时空环境,包括政策评估(Li 等,2013 )、疾病监测(Shekhar 等,2017 年)和空间流行病学(Maheswaran 等,2006;Blangiado 等,2017;Haining 等,2010 )。
鉴于此,我们在后文中将主要介绍分层模型和空间计量经济学模型的贝叶斯版本,即 贝叶斯分层模型
和 贝叶斯空间计量经济学模型
。
4 贝叶斯分层模型
第 1 节
中提出的挑战反映了空间和时空数据以及被认为生成这些数据的过程的复杂性。因此,空间和时空数据的分析需要一个灵活的建模框架,以便在处理数据稀疏性和各种不确定性来源的同时,将复杂的结构纳入数据和模型参数中。贝叶斯分层建模(Bayesian Hierarchical Models,BHM)
方法提供了所需的灵活性,并在社会、政治和健康科学中具有广泛的应用(例如参见 Gelman 和 Hill,2006 年;Jackman,2009 年;Lawson 等人,2016 年;Lawson,2018 年)。也可参阅 Banerjee 等(2004)、Cressie 和 Wikle (2011) 以及 Blangiardo 和 Cameletti (2015) 等阐述分层模型的的书。
4.1 分层思维
我们在 第 1 节
中提到了通常与空间和时空数据相关的两种复杂性:依赖性和异质性。如果要分析此类数据,我们需要足够灵活的建模框架来适应这些属性关系。分层模型(Hierarchical Models)提供了这样的框架。因为不同空间单元的观测之间不是独立的,所以关于一个空间单元的推断会影响对另一个空间单元的推断。例如,关于人口普查区犯罪率、疾病率、投票偏好的推断,会影响到对其他人口普查区的推断,进而影响我们干预犯罪率的措施,这可能对某些人口普查区产生比其他区域更大(或更小)的影响,我们希望模型能够考虑这种可能性。而分层模型为我们提供了处理与空间数据相关的复杂性的不同方法,可以使我们的推论更加可靠。
贝叶斯分层建模框架将统计模型形式化为三个组件(或层次,因此被称为 “hierarchical”):数据模型(data model)
、过程模型(process model)
和 参数模型(parameters model)
。三个层次的模型被指定用于处理与数据、过程和参数相关的不确定性。
我们建立统计模型的目的是:在存在不确定性的情况下,以观测到的数据为条件,了解由过程模型表示的数据生成过程,以及由参数模型指定未知参数。该目标可以表示为以下概率陈述:
$$
Pr(process,parameters | data)\tag{2}
$$
上面的表达式定义了一个条件概率。条件概率的基本思想是,对于 $A$ 和 $B$ 这两个事件,$\text{Pr(A|B)}$ 会问这样一个问题:“假设事件 $B$ 已经发生,事件 $A$ 发生的可能性有多大?” 换句话说,条件概率的作用是使我们能够从观测到的事物 $B$($B$ 已经发生)中,了解到未知事物 $A$ 是否会发生。式 1
使用完全相同的想法,但用过程和参数来定义了事件 $A$,用观测到的数据定义了事件 $B$。
在贝叶斯分析中,$\text{Pr (process, parameters|data)}$ 被称为过程和参数的联合后验概率分布。如 第 1.4 节
所述,过程和参数存在不确定性。我们使用概率来表达这种不确定性,而且还会使用概率来处理数据不确定性。
鉴于问题的复杂性,为过程和参数建立概率模型是相当困难的。这就是贝叶斯定理发挥重要作用的地方:它允许我们将一个复杂问题分解成更小、更易于管理的 “块”,即贝叶斯分层建模框架中的三个组件。根据贝叶斯定理,式 2
可以改写为:
$$
\begin{align*}
\text{Pr(process, parameters|data)} & \propto \text{Pr(data|process,parameters)}\
&\times \text{Pr (process p | parameters) }\
&\times \text{Pr (parameters)}
\end{align*} \tag{3}
$$
式 3
定义了贝叶斯分层模型的结构,使我们能够对感兴趣的复杂条件概率 $\text{Pr(process,parameters | data)}$ 建模, 将其表示为三个条件概率的乘积:
- 数据模型 $\rightarrow \text{Pr(data | process, parameters)}$
- 过程模型 $\rightarrow \text{Pr(process | parameters)}$
- 参数模型 $\rightarrow \text{Pr(parameters)}$
式中的符号 $ ∝ $ 是比例符号,意思是符号左边的概率等于右边的符号乘以一个常数。所以 $∝ $ 允许我们忽略常量,从而简化右侧的表达式。贝叶斯分层建模框架不仅灵活而且特别适用于建模空间和时空数据,主要是因为:
(1)分解为三个模型组件使我们能够以模块化方式构建复杂模型,三个模型组件可以单独构建,而不是同时考虑所有部分,三个模型组件同时考虑通常是一项几乎不可能完成的任务。
(2)以模块化方式构建模型的能力,使我们能够通过切换三个模型组件中的一个(或多个)的不同定义,快速尝试不同的假设,并进行适当的对比分析。
(3)三个模型组件的概率性质,使我们能够处理与数据、过程和参数相关的不确定性。
(4)条件概率的使用,将三个单独构建的模型组件结合在了一起,形成了关于过程和参数的联合推断,这意味着在最终的结果中,各种不确定性来源都得到了适当考虑。
除了上述之外,贝叶斯分层建模框架还有一些特点,特别适合于解决空间和时空数据中的依赖性和异质性特性,并且适合于贝叶斯推断方法。
(1)数据模型
在数据模型(似然)下,每个观测到的结果值都与一个结果变量相关联。为了反映与观测到的结果值相关的不确定性,每个结果变量都与一个概率分布相关联,因此每个结果变量都是一个随机变量。
在贝叶斯分层模型下,这些结果值(以及其相关联的结果变量)是根据潜在的空间(或时空)过程以及所有未知参数单独进行建模的。在对空间和时空数据建模时,这种对结果值建模的条件独立性假设,对模型指定和参数估计有两个重要含义:
- 首先,在指定数据模型时,不需要考虑数据的依赖结构,而是将每个结果变量独立对待(以过程和参数为条件)。因此,我们可以使用各种单变量的概率分布来模拟观测到的结果值。例如,可以指定泊松分布来描述一个地区报告的盗窃案件数量,或者指定正态分布来描述家庭的每周收入水平。
- 其次,观测结果中的空间或时空依赖结构并非置之不理,而是被纳入到过程模型中。
(2)过程模型
数据生成过程通过 过程模型
来建模。在过程模型中,存在于观测结果中的空间(和时空)依赖性将被建模。
- 我们可以通过包含在空间(和/或时间)上自相关的协变量,来解释观测结果数据中的依赖结构。
- 我们可以指定随机效应以捕获观测结果数据中的可变性部分,这些可变形通常无法通过上述的协变量来解释。
在大部分场景中,一个过程模型同时包括以上两者。由于数据模型中的条件概率,在过程模型中嵌入空间依赖会直接导致结果变量中存在空间依赖,进而导致观测结果数据中的依赖。
分层建模框架的这种分层建模特点,与在观测结果中直接使用一组结果变量进行建模的情况形成了鲜明对比,而后者是空间经济剂量学常用的方法。
(3)参数模型
参数模型描述了同时出现在数据模型和过程模型中的所有未知参数的属性。这些未知参数代表范围广泛的量,不仅包括统计参数(如回归系数和残差方差),还包括随机效应建模中涉及的参数(如随机效应方差和/或空间自相关参数)。在某些情况下,未知参数还包括协变量中的缺失值。
建模过程必须保证在模型所有部分中传播与这些未知量相关的不确定性,以便估计的参数值中能够包含所有可能的不确定性来源。这是贝叶斯分层建模框架的一个关键特征。对这些未知量处理方法的不同,也是 贝叶斯推断框架
和 频率论推断框架
的最大区别。
4.2 通过随机效应在贝叶斯分层模型中集成空间依赖结构
在贝叶斯分层模型中,空间(或时空)数据中存在的依赖结构在过程模型中被捕获。
通常情况下,仅使用可用的协变量通常无法完全解释观测结果数据中的可变性,因为很可能存在一组未被观测到(或未被测量)的协变量也在起作用。因此,在空间建模背景下,考虑可观测协变量效应之后的残差值,可能会挖掘出某些空间模式。当发现残差为正自相关时,不考虑残差中的自相关结构会导致回归系数的有偏估计和 I 类误差。为了解释此类被忽略协变量的效应,需要在模型中增加随机效应,将其作为这些未观测到(或未测量)的协变量的替代措施。
一组随机效应通常是指一组随机变量,其中每一个随机变量对应于一个空间单元(空间建模背景下),或者对应于一个时空单元(时空建模背景下)。这些随机变量可以通过多元(先验)概率分布联合建模,而我们正是通过对多元概率分布的指定,来建模空间(或时空)上的随机效应。为了将空间依赖性强加到一组特定区域的随机效应上,人们研究出了很多的专门模型结构,如 条件自回归 (CAR) 结构
、并发自回归(SAR)结构
等。
尽管不同的随机效应模型定义有所不同,但通常有一个重要的共同特征,那就是都依赖于对权重矩阵 ( $W$ ) 的指定,用于定义空间、时间或时空邻域结构。该矩阵定义了哪些空间单元(时间单元或时空单元)将被视为彼此的“邻居”,在某些情况下,还定义了这种相邻关系的 “强度”。通过空间(空间-时间)权重矩阵,我们可以在一张地图(或一系列地图)上,定义一组空间单元之间的关系。
应该注意的是:随机效应代表了被忽略协变量的联合效应,所以这些随机效应的依赖结构本质上是未知的。如果假设我们要获得所有被忽略协变量的值,并且制作这些协变量的空间变化地图,那么很可能其中一些地图会显示出随机变化模式,但另外一些地图可能显示出某些空间模式。而事实上,这些协变量在分析中并不存在,其空间(或时空)依赖结构也是如此。因此,我们对随机效应的建模方法,通常要反映出我们对未观测到的协变量是否存在空间结构化的某些假设(存在、不存在或两者都有)。
为了分别表示这三个假设,将为特定区域的随机效应引入三个建模选项:
- 可交换模型,其中假设所有随机效应相似并且来自一个共同的概率分布
- 空间结构化模型,其中对随机效应施加局部空间依赖结构
- 卷积模型,可以封装可交换模型和空间结构化模型。
此外,当存在空间结构时,也存在很多种定义随机效应空间依赖性的方法。
4.3 通过随机效应在贝叶斯分层模型中共享信息
空间和时空数据的分层模型包含了许多参数,所有参数都需要根据数据进行可靠估计。这给估计带来了挑战,尤其是当数据稀疏时。需要指出的是,一个可靠的参数估计不仅要求点估计接近 “真实” 值,而且其不确定性应当 “不太大”。换句话说,我们并不希望存在一个具有很大不确定性的无偏估计,或者,一个具有很小不确定性的有偏估计。而在另外一些情况下,与无偏估计量相关的不确定性可能太小,导致不确定性区间 “不切实际” 地狭窄。可靠的估算旨在在 偏差
和 方差(不确定性)
之间取得平衡。
在空间数据建模的背景下,参数通常与空间单元相关联(或者在建模时空数据的情况下与时空单元相关联)。特别是当数据稀疏时,在不同空间单元之间进行信息共享,在稳定与参数估计相关的不确定性方面起着关键作用,它会使不确定性区间既不太宽也不太窄。
同时,信息共享可能会引入一定程度的偏差,因为信息共享涉及平滑(正式术语为收缩 shringe
)。在全局信息共享(平滑)的情况下,空间单元参数的点估计会被拉向整体均值,或在局部信息共享(平滑)的情况下趋向于区域邻居的均值。平滑(收缩)量取决于许多因素,需要具体分析,而信息共享的平滑特性也突出了模型评估的重要性,因为我们需要确保从信息共享中获得的估计充分描述了观测数据(即估计不会 “太偏”)。
5 贝叶斯空间计量学
空间计量模型用户的主要兴趣之一是:量化区域 $i$ 的某种响应会如何影响其空间邻居的该响应;某个区域协变量的变化会如何影响其他区域的响应变量。这在空间计量学领域通常被称为 “空间溢出效应”,也可能会产生 “反馈效应”。
但更一般地说,空间计量经济学在将标准正态回归模型应用于空间数据时,认识到如下重要性:
- 需要处理空间依赖性
- 位于其他空间的解释因素的重要性(“空间距离解释因素”)
- 在分析空间数据时需要对空间进行显式建模
- 需要模拟各种形式的空间异质性
空间计量经济学为适应其空间数据的特殊要求,已经发展出标准回归模型的一个分支。在此过程中,它对某些类型的独特空间回归模型特别感兴趣。以 “空间滞后模型(SLM)” 为例,它在结果变量上直接指定一系列 $N$ 个联立方程(每个空间单元一个方程),形式如下:
$$
Y_i = \alpha + \delta \sum_{j=1}^N w_{ij}^* Y_j + X_i \beta + e_i \tag{5}
$$
上述公式反映了对估计不同空间单元结果之间相互作用的侧重:一个空间单元的结果影响其他空间单元的结果,即空间溢出概念。这种类型模型定义的结果是:结果变量集 $Y_1,\ldots,Y_N$ 可以通过多元正态分布联合建模。换句话说,空间滞后模型在数据模型(即似然)中反映了观测结果之间的依赖结构(典型的基于似然的模型特征之一),这与分层建模方法在过程模型中反映依赖结构的特点形成了鲜明对比。
通过似然对空间依赖性进行建模,需要注意:
- 需要使用多变量概率分布来对观测到的结果值进行建模
- 在解释协变量的影响时需要小心
- 需要推导出用于参数估计的特定算法
通过似然对结果值进行联合建模给模型指定和估计都带来了困难,不过正是这种联合建模特征,使空间计量经济学者们能够面对和解决一系列与溢出和反馈效应相关的独特问题。
6 小结
在社会、经济和公共卫生科学等领域中,存在着大量空间和时空数据可以发挥作用的机遇,如:提高小区域的统计精度、建模协变量-相应变量关系、检验社会科学理论、测试空间交互效应、评估(以地理为目标)政策干预产生的影响、实施有效的地理监测等。如果我们抓住这些机遇,就需要应对空间和时空数据统计建模的四大挑战:空间依赖性、空间异质性、数据稀疏性和不确定性(包含数据、过程和参数的不确定性)。
贝叶斯分层模型
将统计模型形式化为数据模型
、过程模型
和参数模型
,提供了应对上述四种挑战的方法,使我们能够应对大部分(但不是全部)机遇。 贝叶斯空间计量经济学模型
则是另一种重要方法,主要用于解决标准回归问题框架中,空间依赖性和空间异质性带来的挑战。
在估计模型参数时,我们推荐使用贝叶斯推断而不是频率论推断。理由如下:
- 贝叶斯模型允许我们整合各种不确定性来源,从而得出更可靠的推论
- 贝叶斯推断基于通过使用贝叶斯定理根据观测到的数据更新先前的信念(无论它们多么模糊)。这种推断方法与社会科学研究的相关性可能比频率论推断更大,因为在社会科学的许多领域,做重复性的研究实验几乎是不可能的,甚至有时是不道德的。
- 无论贝叶斯推断在智能上多么吸引人,如果没有能够将空间模型与实际数据相拟合的方法,也没有实际意义。不过这已经是几十年前的情况了,当前已经有各种各样的软件能够拟合贝叶斯空间和时空模型,具备推广使用的条件。