【摘 要】 空间数据集通常被分为三种类型:点参考数据、面元数据和点模式数据,本文重点介绍点参考数据的建模基础–空间随机场,讨论了空间随机场的一些基本假设和性质,及其形式化定义。

【原 文】 O. Schabenberger and C. A. Gotway, Chapter 2,Statistical methods for spatial data analysis. Boca Raton: Chapman & Hall/CRC, 2005.

1 随机过程与随机场

(1)随机过程与随机场

随机过程是随机变量族或集合,其成员可以根据某种度量来识别或索引。例如:

  • 时间序列 $Y (t),t = t_1,\ldots,t_n$ 由观测该序列的时间点 $t_1,\ldots,t_n$ 索引。
  • 空间过程也是随机变量的集合,只是其中的随机变量由包含空间坐标 $\mathbf{s} =[s_1,s_2, ···,s_d]^\prime$ 的某个集合 $D \subset \mathbb{R}^d$ 索引。对于平面内的一个过程,即 $d=2$,经纬度坐标常记为 $\mathbf{s}=[x,y]^\prime$。

如果随机过程的索引集维数 $d >1$,则随机过程通常称为随机场。在本文中,我们主要关注 $\mathbb{R}^2$ 中的空间随机过程(尽管高维空间的情况也隐含在许多推导中)。随机“场” 这个名称并不暗示二维平面,也和农田耕地无关,场概念相对更为通用。

(2)单样本试验的概念

随机过程的随机机制与传统方式存在很大不同:在经典应用统计中,随机实验的基础在于随机抽样,即多次的独立同分布观测,不同实验结果之间不相关;而时间序列 $Y (t)$ 或空间数据 $Z(\mathbf{s})$ 等随机过程,却认为观测结果之间有可能相关,并且随机实验只有一次。

具体来说,我们将在位置集合 $\mathbf{s}$ 处获得的观测(向量)$Z(\mathbf{s})$ 整体视为某一次随机实验 $\omega$ 的结果,而不是多次重复的随机实验。

为了讨论目的,我们稍微扩展一下符号,使用 $Z(\mathbf{s},\omega)$ 来显式地表示对随机实验的依赖。基于这种特殊的随机机制,对于空间随机场而言,做一次随机试验 $\omega$ 就会形成一个相应的表面(Surface) $Z(·,\omega)$。由于表面只是某一次随机实验的结果,所以 $Z(\mathbf{s})$ 也被称为 随机函数。也就是说, 构成空间数据集的 $n$ 个具有地理参考的观测值集合,并不代表大小为 $n$ 的样本,它们仅仅代表了对一次随机实验的不完整观测,是来自 $n$ 维分布的一个大小为 $1$ 的样本

这就提出了另一个重要的问题:如果我们提出诸如 $E[Z(\mathbf{s})] = \mu(\mathbf{s})$ 之类的表述,那么该期望是基于什么概率分布的呢?

答案是:该期望是基于随机实验 $\omega$ 的概率分布描述的(见 式 1),该期望表示了位置 $\mathbf{s}$ 处某属性的长期平均值:

$$
E[Z(\mathbf{s})] = E_\Omega[Z(\mathbf{s},\omega)] \tag{1}
$$

注: 上式中的 $\mathbf{s}$ 和 $E[Z(\mathbf{s})]$ 为元素之间一一对应的向量对,即每个位置 $s_i$ 处都有一个期望值。

想象一下,将沙子从桶中倒在一个表面上,沙子根据物理定律散布在表面上。如果有足够的资源,我们可以开发一个模型来准确地预测这些沙粒在地表上的分布。同样,在考虑到硬币被释放的角度和力量、空气条件、着陆的表面条件等因素后,我们也可以开发一个确定性模型来确定地预测一枚硬币是正面还是反面。但将抛硬币的结果视为随机实验的输出可能更容易接受,而且这种概率模型比确定性模型更简洁、更经济,并且使我们能够解决重要问题(如硬币是否公平)。

根据类似的推理,将沙子在表面上散布的精确位置作为一次随机实验的结果也是合适的。不过,多于随机场而言,问题并不在于沙粒的高度属性是否为随机事件(我们可将深度视为一个被观测的属性),而在于:无论我们在多少个位置测量了沙粒在表面上的高度,倾倒沙子这个实验只做了一次。根据 式 1 中对期望的定义,如果我们对特定位置 $s_0$ 处沙粒的长期平均表面高度感兴趣,我们就需要一遍又一遍地重复做倾倒沙子的实验,然后基于所有生成表面的概率分布求期望值。

上述概念定义和真实场景之间的存在巨大的矛盾,例如:

  • 如果只有一次可用的实验,那我们如何了解随机过程的变化特性?
  • 如果无法进行重复试验,那么关于长期均值的概念还有意义吗?
  • 我们是否仅对建模和预测已实验得到的表面更感兴趣,而不关心平均表面?
  • 我们如何在大小为 $1$ 的样本基础上通过统计推断取得进展?

(3)假设的重要性

根据随机过程的定义,如果将所有位置处的属性视为独立的随机变量,则通过一次随机试验结果确实无法得到对随机过程的推断结果。因此,需要对随机过程做一定的约束(或假设),才能够通过一次随机实验得到的若干随机样本,来推断整个随机过程。 在实际工作中,其中最重要的几种约束(或假设)是:独立性假设分布假设平稳性假设各向同(异)性假设异质性假设,不同的假设会带来不同的建模选择和推断结果:

  • 独立性假设:论域内随机变量之间相互是否独立?如果不独立,相互之间有什么依赖关系?一些常见的假设:
    • 独立同分布假设:随机变量之间相互独立,且具有相同的概率分布
    • 齐次马尔可夫假设:随机变量相互之间遵循同样阶次的依赖关系,如:一阶马尔可夫假设会假设随机变量仅仅和直接邻居相关,二阶马尔可夫假设则假设随机变量和邻居的邻居也可以相关
    • 其他相关性假设:可以显式或隐式地蕴含在平稳性假设当中,并用基于距离的相关函数、核函数等量化
  • 概率分布假设:论域内的随机变量是否呈某种约定的概率分布?如:
    • 高斯分布假设:假设随机变量是连续型变量,且呈高斯分布,相应的随机过程(场)被称为高斯随机过程(场)
    • 零均值高斯分布:假设随机变量呈高斯分布,且均值为零,方差可以不同
    • 等方差高斯分布:假设随机变量呈高斯分布,且方差相同
    • 泊松分布假设:假设随机变量为计数型变量,且呈泊松分布
    • 类别分布假设:假设随机变量为名义型变量,且呈类别分布
  • 平稳性假设:论域内的随机变量之间存在何种特定关系?
    • 强平稳性假设:论域内所有随机变量必须具有完全相同的概率分布,这意味着分布自身以及各种统计量都必须相同,如均值为 $0$、方差为 $1$ 的高斯分布。
    • 弱平稳性假设(二阶平稳性假设):不要求概率分布完全相同,只对前两个阶矩提出了要求,即不同随机变量之间的一阶原点矩(均值)和二阶中心矩(方差)为常数,并且任意两个随机变量之间的相关性(协方差)仅和其间的距离有关,与具体位置无关
    • 本征平稳性假设:要求不同随机变量之间的一阶原点矩(均值)为常数,并且不同位置处的随机变量之间的差值仅和其间的距离有关,与具体位置无关。本征平稳相比较二阶平稳来说更为宽松,因为并不要求方差为常数,而这也符合对实际问题的解释。已经证明,二阶平稳一定是本征平稳的,但本征平稳的空间过程不一定是二阶平稳的。
  • 各向同(异)性假设:论域内随机变量的联合概率分布是否和方向有关?
    • 各向同性:论域内不同方向具有相同的联合概率分布,模型相对容易构建;
    • 各向异性:论域内不同方向具有不同的联合概率分布,建模更为复杂;
  • 异质性假设: 与平稳性假设、各向同性假设等之间存在某种关系,异质性通常是导致非平稳性、各向异性的主要原因(参见 《空间异质性类型及检验方法》 一文 )。
    • 均值异质性(mean heterogeneity):指不同位置处随机变量的均值不同,可以通过对均值进行回归建模来解决。
    • 方差异质性(variance heterogeneity):指不同位置处随机变量的方差或协方差函数不同。
      • 异方差性(heteroscedasticity):不同位置处随机变量的方差不同,可以通过方差分析等手段应对。
      • 自相关异质性(heterogeneity in the autocorrelation structure):不同位置处随机变量的协方差函数不同,其测量值通常会出现聚簇模式。
    • 分层异质性(stratified heterogeneity):当由一组连续空间单元组成的区域可以被划分为若干空间段(层)时,层内可能表现出同质性,而层间可能表现出异质性
    • 相关关系异质性:不同位置处的多个变量之间的相关性存在差异,可以用空间变系数过程模型、地理加权回归模型、空间滤波等方法应对。

在上述若干假设中,平稳性假设主要针对点参考数据,部分平稳性假设当中隐式包含了独立性假设,我们将在下一节中介绍。不过,随机场中的平稳性假设经常会受到质疑,因为如果随机过程本身并不平稳,采用平稳性假设来分析该随机过程的观测结果,可能会导致错误的推论和结论。但是反过来,如果对平稳性(以及各向同性)问题没有很好的理解,对非平稳随机过程的研究也很难取得进展。

如前所述,对于点参考数据而言,独立性假设通常隐式蕴含在平稳性假设当中,但对于面元数据而言,离散特性使其无法像点参考数据那样作出连续性的相关假设,而只能根据邻接关系(直接邻居、邻居的邻居、或邻居的邻居的邻居…)来定义相关性。

来自其他文献的资料

考虑连续域 $\mathcal{D} \subseteq \mathbb{R}^d$ 上变化的空间变量的概率模型,其中空间维度通常为 $d=2$ 或 $d=3$。通常,我们依赖于空间随机过程 $\left{Z(s): s \in \mathcal{D} \subseteq \mathbb{R}^d\right}$ 的概念,在这个意义上:
$$
\begin{aligned}
&Z(s)=Z(s, \omega) \
&\text { spatial location chance } \
&s \in \mathcal{D} \subseteq \mathbb{R}^d \quad \omega \in \Omega \
&
\end{aligned} \tag{A.1}
$$

该过程是一个具有可定义联合分布的随机变量的集合。任何空间位置 $s \in \mathcal{D}$ 处的属性 $Z(s)$ 均被视为随机变量,可以更完整地写为 $Z(s ; \omega)$,其中 $\omega$ 是随机过程的一次随机实验,位于某个抽象样本空间 $\Omega$ 中。

如我们将聚焦于任意固定的、有限的空间位置集 $\left{s_1, \ldots, s_n\right} \subset \mathcal{D}$ ,那么其属性

$$
\left(Z\left(s_1\right), \ldots, Z\left(s_n\right)\right)^T \tag{A.2}
$$

就构成了一个随机向量,其多元分布反映了感兴趣变量的空间依赖特性。该向量中每个分量对应一个空间测点。如果实验 $\omega \in \Omega$ 已经确定,则有:

  • $\left{Z(s, \omega): s \in \mathcal{D} \subseteq \mathbb{R}^d\right}$ 是 式 (A.1) 中空间随机过程的一个实现
  • $\left(z_1, \ldots, z_n\right)^T=\left(Z\left(s_1, \omega\right), \ldots, Z\left(s_n, \omega\right)\right)^T$ 是 式 (A.2) 中随机向量的一个实现

上述随机过程可以推广到多属性(变量)空间随机过程,如果那样的话,$Z(s)$ 就从单一随机变量转变成了一个随机向量。形象地理解,通过一次随机实验可以得到多个表面。

确保空间随机过程的有效数学定义非常重要,而其基本思路就是利用单次实验的有效测点样本,来推断随机过程的整体。具体来说:

随机过程 $\left{Z(s): s \in \mathcal{D} \subseteq \mathbb{R}^d\right}$ 的分布由 式 (A.2) 中随机向量( $\mathcal{D}$ 中每一个 $n$ 和每一个集合 $s_1, \ldots, s_n$)的有限维联合分布的相关集合给出:

$$
F\left(z_1, \ldots, z_n ; s_1, \ldots, s_n\right)=\mathbb{P}\left(Z\left(s_1\right) \leq z_1, \ldots, Z\left(s_n\right) \leq z_n\right) \tag{A.3}
$$

Kolmogorov 存在定理 指出:如果有限维联合分布族在测点重新排序和边缘化的情况下能够保持一致性,那么随机过程模型有效。直觉上,这并不奇怪;但细节很繁琐,大家可以参考 Billingsley (1986) 的技术说明。

要证明空间随机过程的有效性其实比较复杂,但存在一个重要特例,那就是 高斯随机过程。在高斯随机过程中,对于域内的任意 $s$, $Z(s)$ 都是服从高斯分布,此时 式 (A.3) 中的有限维分布是一个由均值向量和协方差矩阵特征化的多元正态分布。在这种特殊情况下,Kolmogorov 存在定理的一致性条件,被简化为协方差矩阵非负定的一般性要求。

2 随机场的平稳性假设

一些随机过程的知识

概率知识和随机过程知识回顾:
(1) 严格平稳:是一种条件比较苛刻的平稳性定义,只有当随机过程中各时刻随机变量的概率分布不随时间偏移而发生变化时,该过程才能被认为是平稳的。严格平稳条件要求所有随机变量具有完全一致的分布,这很难得到保证。
(2) 二阶平稳(宽平稳):指随机过程中各时刻的随机变量无需一定具有相同的概率分布,只需保证其两个低阶矩在时间发生偏移时,保持不变即可,但同时要求任意两个随机变量之间的协方差,仅和两者之间的偏移量(滞后)有关。例如白噪声就是宽平稳的。宽平稳使用随机过程的特征统计量(各阶矩)来定义平稳性,它认为随机过程的统计性质主要由其低阶矩决定,因此,只要保证随机过程的低阶矩平稳(二阶矩),就能保证随机过程的主要性质近似稳定。
(3) 两者之间的关系:严平稳条件比宽平稳条件苛刻,通常情况下,低阶矩存在的严平稳肯定能推出宽平稳成立,但反之不成立。不过,高斯过程是一种非常重要的特例,一个宽平稳的高斯随机过程也同时满足严格平稳条件。这是因为高斯过程的概率密度由均值函数和方差函数完全确定,因此如果均值和方差满足二阶平稳条件,则概率密度函数也不会随时间的推移发生变化(即满足严格平稳条件)。

在统计概念中:

  • 随机变量的一阶矩为均值,指一阶原点矩,代表了分布所处的绝对位置;
  • 随机变量的二阶矩为方差,指二阶中心矩,代表了分布的散布程度;
  • 随机变量的三阶矩为偏态,指三阶中心矩,代表了分布的不对称性,偏态系数等于 $0$ 时表示对称分布,正负决定了其偏的方向。
  • 随机变量的四阶矩为峰度,指四阶中心矩,代表了分布与正态分布之间的偏离程度,完全符合正态分布时为 $0$;

峰度与偏态

(1)严格平稳假设

如果在空间发生位移时,空间随机变量的概率分布和所有统计性质保持不变,则该空间随机过程被称为严格平稳的。本质上,严格平稳意味着对于所有向量 $\boldsymbol{h} \in \mathbb{R}^d$ 都有

$$
F\left(y_1, \ldots, y_n ; \boldsymbol{s}_1+\boldsymbol{h}, \ldots, \boldsymbol{s}_n+\boldsymbol{h}\right)=F\left(y_1, \ldots, y_n ; \boldsymbol{s}_1, \ldots, \boldsymbol{s}_n\right) \tag{2}
$$

(2)二阶平稳假设

大多数用于空间数据分析的统计方法都无法满足基于概率分布本身的严格平稳条件;更多统计方法基于概率分布的某些统计量(如阶矩)定义的更为宽松的平稳性条件。其中,常用的二阶(弱)平稳性假设要求空间随机过程中各随机变量的均值为常数,且不同随机变量之间的协方差仅和其空间间距(滞后向量)有关(注:蕴含了等方差条件)。即有:

$$
\mathbb{E}(Z(s))=\mathbb{E}(Z(s+h))=\mu
$$

并且

$$
\operatorname{Cov}(Z(s), Z(s+h))=\operatorname{Cov}(Z(0), Z(h))=C(h)
$$

其中函数 $C(h),h \in \mathbb{R}^d$ 被称为 协方差函数

满足上述两个条件的空间过程(无论是否为高斯)都被称为 弱平稳二阶平稳

对于高斯随机过程(场)而言,其有限维联合分布由前二个阶矩(统计)性质决定,由此可见,满足 二阶平稳 条件的高斯过程,也符合严格平稳条件,这主要源于其多元高斯分布假设。

由于 $C(h)$ 不依赖于绝对坐标,并且有 $\text{Cov}[Z(s),Z(s + 0)] = Var[Z(s)] = C(0)$ ,因此二阶平稳的空间随机场具有独立于绝对坐标的 常量均值常量方差协方差函数

二阶平稳随机场的协方差函数 $C(\mathbf{h})$ 具有一些有用的性质:

  • (1)$C(\mathbf{0}) \geq 0$:空间随机过程自身方差大于零
  • (2)$C(\mathbf{h})=C(−\mathbf{h})$:协方差函数是一个偶函数
  • (3)$C(\mathbf{0}) \geq |C(\mathbf{h})|$:协方差函数值有界,且其绝对值小于随机过程自身方差
  • (4)$C(\mathbf{h})=\text{Cov}[Z(s),Z(s + \mathbf{h})] = \text{Cov}[Z(\mathbf{0}),Z(\mathbf{h})]$
  • (5)如果 $C_j(\mathbf{h})$ 是有效协方差函数,$j =1,···,k$,则 $\sum^k_{j=1} b_j C_j(\mathbf{h})$ 也是一个有效协方差函数
  • (6)如果 $C_j(\mathbf{h})$ 是有效协方差函数,$j =1,···,k$,则 $\prod^k_{j=1} b_j C_j(\mathbf{h})$ 也是一个有效协方差函数
  • (7)如果 $C_j(\mathbf{h})$ 是 $\mathbb{R}^d$ 中的有效协方差函数,则其在 $\mathbb{R}^p, p<d$ 中也是一个有效协方差函数

性质 (1)(2) 是比较直接的,因为 $C(\mathbf{h})=\operatorname{Cov}[Z(\mathbf{s}), Z(\mathbf{s}+\mathbf{h} )]$。在滞后 $\mathbf{h}=\mathbf{0}$ 时为随机过程方差。由于 $C(\mathbf{h})$ 不依赖于空间位置 $\mathbf{s}$,对于 $\mathbf{t}=\mathbf{s}+\mathbf{h}$我们有 $C(\mathbf{h})=\operatorname {Cov}[Z(\mathbf{s}), Z(\mathbf{s}+\mathbf{h})]=\operatorname{Cov}[Z(\mathbf{t}-\mathbf{h}), Z(\mathbf{t})]=$$C(-\mathbf{h})$ 。

由于 $R(\mathbf{h})=C(\mathbf{h}) / C(\mathbf{0})$ 是自相关函数并且有界 $-1 \leq R(\mathbf{h}) \leq 1$, 性质(3) 遵循 Cauchy-Schwarz 不等式。

二阶平稳随机场的坐标无关性是 性质(4) 背后的原因。该性质将有助于构建时空数据的协方差函数。

性质 (1)(2) 共同表明协方差函数在原点处具有真正的最大值。

性质 (5) 可用于将协方差模型构建为基本协方差模型的线性组合。它是协方差的非参数建模方法中的一种重要机制。$\mathbb{R}^d$ 中二阶平稳空间随机场的协方差函数 $C\left(\mathbf{s}i-\mathbf{s}j\right)$ 有效,$C$ 必须满足正定性条件
$$
\sum
{i=1}^k \sum
{j=1}^k a_i a_j C\left(\mathbf{s}_i-\mathbf{s}_j\right) \geq 0 \tag{3}
$$

对于任何一组位置和实数。这是一个明显需求,因为 式 (3) 是线性组合 $\mathbf{a}^{\prime}\left[Z\left(\mathbf{s}_1\right), \cdots, Z\left(\mathbf{s}_k\right)\right]$ 的方差。

(3)本征平稳假设

时间序列分析中的平稳性与空间数据一样重要,其中将非平稳序列转换为平稳序列的常见方法是对序列进行差分。

让我们考虑如下模型,$Y(t)$ 表示时间序列 $t$ 中的观测值并存在随机游走行为:

$$
Y(t)=Y(t-1)+e(t)
$$

其中 $e(t)$ 是均值为 $0$ 且方差为 $\sigma^2$ 的独立随机变量。此模型显然有以下特点:

  • 均值是常数: $\mathrm{E}[Y(t)]=\mathrm{E}[Y(t-k)]$
  • 方差不是常数: $\operatorname{Var}[Y(t)]=t \sigma^2$
  • 协方差只与间隔长度有关:$\operatorname{Cov}[Y(t), Y(t-k)]=(t-k) \sigma^2$

可以看出,此类随机游走信号自身 $Y(t)$ 不是二阶平稳的,但其一阶差分 $Y(t)-Y(t-1)$ 是二阶平稳的,因此可以充分利用该性质进行模型的推断。

在空间统计中使用了类似方法:即便 $Z(\mathbf{s})$ 并非二阶平稳的,但其增量 $Z(\mathbf{s})-Z(\mathbf{s+h})$ 却满足一定的平稳性。具有此特征的过程被称为 本征平稳 的。 其完整定义如下:

如果一个随机过程 $\left{Z(\mathbf{s}): \mathbf{s} \in D \subset \mathbb{R}^d\right}$ 同时满足:

(1)$\mathrm{E}[Z(\mathbf{s}) - Z(\mathbf{z+h})]=0$,亦即 $\mathrm{E}[Z(\mathbf{s})] = \mathrm{E}[Z(\mathbf{z+h})] = \mu$ ;

(2)$\operatorname{Var}[Z(\mathbf{s})-Z(\mathbf{s}+\mathbf{h})]=2 \gamma(\mathbf{h})$ ,

则该过程被称为本征平稳的。其中函数 $\gamma(\mathbf{h})$ 被称为该空间过程的半变异函数。

可以证明,本征平稳过程比二阶平稳过程更宽松。二阶平稳过程肯定是本征平稳的,因为其均值为常数,并且方差符合本征平稳的性质(2)要求:

$$
\begin{aligned}
\operatorname{Var}[Z(\mathbf{s})-Z(\mathbf{s}+\mathbf{h})] &=\operatorname{Var}[Z(\mathbf{s})]+\operatorname{Var}[Z(\mathbf{s}+\mathbf{h})]-2 \operatorname{Cov}[Z(\mathbf{s}), Z(\mathbf{s}+\mathbf{h})] \
&=2{\operatorname{Var}[Z(\mathbf{s})]-2 C(\mathbf{h})} \
&=2{C(\mathbf{0})-C(\mathbf{h})}=2 \gamma(\mathbf{h}) .
\end{aligned}
$$
但反之,本征平稳并不意味着二阶平稳。

由于 $2\gamma(\mathbf{h})=C(\mathbf{0})-C(\mathbf{h})$ 的关系,二阶平稳随机场的统计方法可以根据半变异函数或协方差函数来构建。尽管统计学家更熟悉方差和协方差,但许多地统计学家更喜欢半变异函数,因为与 $C(\mathbf{h})$ 相比,使用 $\gamma(\mathbf{h})$ 具有明显的优势,特别是在根据观测数据估计这些函数的时候。从随机过程参数的角度来看,它们可以被视为随机过程二阶结构的一种重参数化,两者是 “等价的”。但对于某些本征而非二阶平稳的过程,$C(\mathbf{h})$ 可能不存在,只能使用半变异函数 $\gamma(\mathbf{h})$。

3 特殊的高斯随机场

高斯随机场的形式化定义: 在坐标为 $s \in \mathcal{D}$ 的域 $\mathcal{D} \in \mathbb{R}^d$ 中,如果所有有限集合 ${x(\mathbf{s}_i)}$ 都构成多元高斯分布,则 $x(\mathbf{s})$ 是一个连续索引的高斯随机场。

经典统计中随机样本分析中普遍采用高斯(即正态)分布数据的假设。高斯分布在统计建模和推理中的中心地位源于中心极限定理等强大的结果及其数学上的简单性和优雅性。但是,如果将高斯标签附加到空间随机场,这意味着什么?

定义: 随机场 $\left{Z(\mathbf{s}): \mathbf{s} \in D \subset \mathbb{R}^d\right}$ 是一个高斯随机场(Gaussian Random Field, GRF),如果其累积分布函数

$$
\operatorname{Pr}\left(Z\left(\mathbf{s}_1\right)<z_1, Z\left(\mathbf{s}_2\right)<z_2, \cdots, Z\left(\mathbf{s}_k\right)<z_k\right)
$$

都是关于 $k$ 元(对于任意 $k$,)高斯随机变量的。

根据多元高斯分布的性质,多元高斯分布意味着每一个单变量 $Z\left(\mathbf{s}_i\right)$ 都是一个高斯随机变量。不幸的是,反向的结论不成立,也就是说,即便 $Z\left(\mathbf{s}_i\right) \sim G\left(\mu\left(\mathbf{s}_i\right), \sigma^2\left(\mathbf{s}_i \right)\right)$,也并不意味着 $Z\left(\mathbf{s}_1\right), \cdots, Z\left(\mathbf{s}_n\right)$ 的联合分布服从一个多元高斯分布。

与许多经典统计方法一样,高斯随机场的空间分析比其他情况更直接。例如,在未观测位置 $s_0$ 处的属性 $Z(s_0)$ 的最佳线性无偏预测,通常在此类受高斯约束的预测器中表现良好。如果一个随机场是高斯随机场,那么这些线性预测变量将成为数据所有可能函数中最好的预测变量(在平方误差损失下)。通常二阶平稳性并不意味着随机场的严格平稳性,但在高斯随机场中,这个意义成立。

高斯分布通常是经典统计中连续随机变量的默认总体模型。如果数据明显是非高斯分布的,从业者往往会花很长的时间进行转换,使数据看起来更像高斯分布。在空间统计中,我们需要区分空间数据的类型(与域 $D$ 的特征相关),并识别正在研究的属性 $Z$ 的分布特性。空间域 $D$ 是否连续与属性变量是否连续无关。人们可以在空间连续的区域中观察疾病(离散值)的存在与否。 $D$ 是离散的也并不妨碍位置 $s$ 处的属性 $Z(s)$ 可能服从高斯分布。同样的,空间域的连续性也并不意味着其一定是一个高斯随机场。

figue3

图 3: 在空间连续性程度不同的长度为 50 的样线上实现四个过程。更连续的过程有更平滑的实现,它们的连续值更相似。这表明对于相同的距离滞后具有更高的空间自相关性。实现 a) 是白噪声过程(不相关数据),b)–d) 是分别具有指数、球形和高斯协方差函数的高斯过程。改编自 Schabenberger 和 Pierce (2002)。

4 随机场的各向异性问题

注意: 此处可先略过

待完善

弱平稳随机场的二阶矩结构是空间分隔 $\mathbf{h}$ 的函数,但协方差函数可以取决于方向。在没有这种方向依赖性的情况下,即当协方差函数或半变异函数仅取决于点之间的绝对距离时,该函数被称为各向同性的。如果随机场是具有各向同性协方差函数的二阶平稳场,则 $C(\mathbf{h})=C^*(|\mathbf{h}|)$,其中 $|\mathbf{h }|$ 是滞后向量的欧几里德范数,
$$
|(\mathbf{s}+\mathbf{h})-\mathbf{s}|=|\mathbf{h}|=\sqrt{h_1^2+h_2^2} .
$$
类似地,如果本征(或弱)平稳过程的半变异函数是各向同性的,则 $\gamma(\mathbf{h})=\gamma^*(|\mathbf{h}|)$。请注意 $C$ 和 $C^*$ 是两个不同的函数( $\gamma$ 和 $\gamma^*$ 也是)。然而,在续集中我们不会使用“星号”符号。从上下文中可以明显看出协方差函数或半变异函数是各向同性的还是各向异性的。

示例 1

各向同性和各向异性随机场的实现如图 2.1 所示。该图左侧面板中的随机场表现出几何各向异性,这是协方差结构的一种特殊方向依赖性(参见§4.3.7)。在几何各向异性下,过程的方差在所有方向上都相同,但空间自相关的强度不同。左侧面板中的实现是通过东西方向比南北方向更强的自相关生成的。面板右侧的实现在所有方向上都具有与东西方向各向异性模型相同的协方差结构。

5 空间连续性与可微性

注:此节未精处理。

待完善

随机场 ${Z(\mathbf{s}): \mathbf{s} \in D \subset \mathbb{R}^d }$ 的偏导数 $\dot{Z}(\mathbf{s})= \frac{\partial Z(\mathbf{s})}{\partial s_j}$ 也是随机变量,其随机行为包含有关过程性质的重要信息;特别是其连续性。空间过程越连续,它的实现就越平滑,空间结构也越多。

图 3 显示了 $\mathbb{R}^1$ 中四个过程的实现。四个过程具有相同的方差,但从上到下的连续性程度增加。对于给定的滞后 $h$,高度连续过程的相关函数 $R(h)$ 将大于连续性较低过程的相关函数。因此,相邻值的变化会更慢( 图 4 )。

空间数据建模者需要了解自相关模型之间连续性的差异以及对统计推断的影响。一些相关性模型(如 图 4d 中的高斯相关性模型)比物理或生物过程所能支持的更平滑。随着空间相关模型的平滑度增加,统计推断往往对模型的错误指定更加敏感。从业者可能会争论是否要用指数型( 图 4b )或球型( 图 4c )相关性模型对特定实现进行建模。对于一组特定的数据,用于控制两个模型的参数的估计值会有所不同。拟合的相关性模型可能意味着相同程度的连续性。

figure4

图 4: 图 3 所示空间过程的相关函数。相关函数从原点下降得越剧烈,过程的连续性就越差。

我们聚焦在从原点附近的相关(或协方差)模型的行为推断连续性的程度。这比较直观,因为原点附近的行为控制着相关性模型较高的滞后区间。背后的理论原因在于随机场的均方连续性和可微性。考虑一系列随机变量 ${X_n}$。如果存在 $E[X^2] < ∞$ 的随机变量 $X$,使得 $E[(X_n − X)^2] → 0$,则我们称 ${X_n}$ 是均方连续的。对于空间随机场 ${Z(\mathbf{s}): \mathbf{s} \in D \subset \mathbb{R}^d }$ 具有常量均值和常量方差,$\mathbf{s}$ 处的均方连续性意味着

$$
\lim_{\mathbf{h \rightarrow 0}} E [(Z(\mathbf{s}) − Z(\mathbf{s} + \mathbf{h}))^2] =0
$$

由于 $E[(Z(\mathbf{s}) − Z(\mathbf{s + h}))^2] = 2 \text{Var}[Z(\mathbf{x})] − 2C(\mathbf{h})=2(C(\mathbf{0}) − C(\mathbf{h})) = 2\gamma(\mathbf{h})$,

我们从

$$
\lim_{\mathbf{h \rightarrow 0}} E [(Z(\mathbf{s}) − Z(\mathbf{s} + \mathbf{h}))^2] = \lim_{\mathbf{h \rightarrow 0}} 2(C(\mathbf{0}) − C(\mathbf{h}))
$$

得出结论,除非当 $\mathbf{h} \rightarrow \mathbf{0}$ 时,$C(\mathbf{h}) \rightarrow C(\mathbf{0})$。随机场在 $s$ 处不能连续。随机场将是均方连续的,当且仅当它在原点处是连续的。均方连续性可以通过协方差函数接近 $\mathbf{0}$ 的行为来验证。

一些过程似乎具有半变异函数,其中 $γ(\mathbf{h}) \rightarrow c \equiv \text{const.}$,当 $\mathbf{h} \rightarrow \mathbf{0}$ 时。虽然经验数据可能表明半变异函数不通过原点,解释这种被称为金块效应的现象令纯粹主义者满意是另一回事。在原点处表现出不连续性的过程不可能是均方连续的。均方连续性很重要,因为一些空间数据分析方法要求协方差函数是连续的。例如谱表示法和协方差函数估计的一些 “非参数”方法。有时有人争论说,函数不应被视为随机过程的协方差模型,除非它们是连续的。这从考虑中排除了具有金块效应的模型,并反映了只有研究均方连续过程才值得的观点。

均方连续性本身并不能很好地传达过程的平滑度以及它与协方差函数的关系。通过研究随机场的偏导数,平滑概念成为焦点。首先,考虑样线上弱平稳空间过程的特殊情况,${Z(s): s \in D \subset \mathbb{R}}$,均值 $\mu$ 和方差 $\sigma ^2$。此外,假设数据是以等间隔 $\delta$ 收集的。连续观察之间的梯度是

$$
\dot{Z}=\frac{Z(s+\delta)-Z(s)}{\delta},
$$
其中 $\mathrm{E}[\dot{Z}]=0$ 和方差
$$
\begin{aligned}
\operatorname{Var}[\dot{Z}] &=\delta^{-2}{\operatorname{Var}[Z(s+\delta)]+\operatorname{Var}[Z(s)]-2 \operatorname{Cov}[Z(s+\delta), Z(s)]} \
&=2 \delta^{-2}\left{\sigma^2-C(\delta)\right} \equiv \dot{\sigma}^2
\end{aligned} \tag{4}
$$

对于二阶平稳随机场,我们知道 $C(\mathbf{0})=\sigma^2$ 并且因此 $[d C(\delta) / d \delta]_{h=0}=0 $。额外的细节可以从 式(4) 中获得,因为

$$
C(\delta)=\sigma^2-\frac{\delta^2}{2} \dot{\sigma}^2 \tag{5}
$$

只有当 $\dot{\sigma}^2$ 是有限的时,才可以是 $C(\delta)$ 的限制形式(如 $\delta \rightarrow 0)$。作为 式(5) 的结果,$C(\delta)$ 的二阶导数的负数是均方导数 $\dot{\sigma}^2$;协方差函数在原点处具有真正的最大值。

注意 式(4) 可以写成 $\dot{\sigma}^2=2 \delta^{-2}{C(0)-C(\delta)}=2 \delta^{-2} \gamma(\delta)$,其中 $\gamma(\delta)$ 是 $Z$ 过程的半变异函数。对于有限的均方导数,半变异函数在 $\delta$ 中的上升速度不能比 $\delta^2$ 更快。这种情况被称为本征假设。事实上,它比 $2 \gamma(\delta) / \delta^2 \rightarrow \text{const.}$ 稍强,如 $\delta \rightarrow \infty$。有效的半变异函数必须满足 $2 \gamma(\delta) / \delta^2 \rightarrow 0$ 作为 $\delta \rightarrow \infty$。例如,幂半变异函数模型

$$
\gamma(\mathbf{h} ; \boldsymbol{\theta})= \begin{cases}0 & \mathbf{h}=\mathbf{0} \
\theta_1+\theta_2|\mathbf{h}|^{\theta_3} & \mathbf{h} \neq \mathbf{0}\end{cases}
$$

仅当 $0 \leq$ $\theta_3<2$ 时,才是本征平稳过程的有效半变异函数

对于具有协方差函数 $C$ 的 $\mathbb{R}$ 上的一般过程 $Z(s)$,定义

$$
\dot{Z}_h=\frac{Z(s+h)-Z(s)}{h}
$$

Stein (1999, Ch. 2.6) 证明 $Z(s)$ 是均方可微的,当且仅当 $C(h)$ 的二阶导数在 $h=0$ 处的求值存在并且是有限的。一般来说,$Z(s)$ 是 $m$ 次均方可微当且仅当

$$
\left[\frac{d^{2 m} C(h)}{d h^{2 m}}\right]_0
$$

存在且有限。 $\left(d^m Z(s)\right) /\left(d s^m\right)$ 的协方差函数为
$$
(-1)^m \frac{d^{2 m} C(h)}{d h^{2 m}} .
$$

空间随机场的平滑度随着均方可微的次数增加而增加。高斯协方差模型

$$
C\left(\mathbf{s}_i-\mathbf{s}_j\right)=\sigma^2 \exp \left{-3 \frac{\left|\mathbf{s}_i-\mathbf{s}_j\right|^2}{\alpha^2}\right} \tag{6}
$$

例如, 是无限可微的。具有协方差 (2.6) 的空间随机场是无限平滑的。 Stein $(1999$, p. 30) 认为这种平滑对于正常情况下的物理过程是不现实的。

6 常用形式化建模方法

注: 此处可参考 N. Cressie and M. T. Moores, “Spatial Statistics,” 2021, doi: 10.48550/ARXIV.2105.07216.

该文与本文的共同点是都基于空间随机场(或空间随机过程)假设。其区别在于:本文从空间分析所需的随机场表示方法出发,不仅包含常用空间表示,还包含频谱表示,而 Cressie 的文章则侧重于空间表示,其特点是将点参考数据、面元数据和点模式数据纳入了统一的贝叶斯模型,适合贝叶斯统计方法爱好者学习。

空间随机场的概念表示

$$
{ Z(s):s \in D \subset R^d } \tag{7}
$$

过于笼统,没有揭示任何关于随机场的结构信息。为了应用,必须在一个框架内对其形式化,并且该框架应当能够:

  • (1) 可以得出分析和推断的统计方法
  • (2) 可以研究统计估计的性质以及随机场本身的性质。

以二阶平稳随机场为例,其形式化的核心组分就必须包括:

  • 均值函数 $E[Z(s)] = μ(s)$
  • 协方差函数 $C(h)=\text{Cov}[Z(s),Z(s + h)]$
  • 空间域索引集合 $D$ 的性质(固定连续、固定离散或随机)。

在为 式 (7) 添加结构信息的各种已知形式当中,我们重点介绍其 在空间域中的随机场表示在频域中的频谱表示。空间域中的随机场 $Z(s)$ 用坐标 $s$ 的函数来表示,而频率域中的随机场 $X(\omega)$ 用频率 $\omega$ 的函数来表示。

6.1 统计模型基础

统计模型是数据生成机制的数学表示。它是生成数据的物理、生物、化学等过程的抽象;统计建模会强调过程中对分析重要的那些因素,并忽略(或降低权重)无关紧要的方面。最通用的统计模型将随机响应变量分解为两个部分: 一是用于描述均值的确定性数学结构,二是用于描述响应之间的差异和协变特性的加性随机结构。这种简单的分解通常象征性地表示为:

$$
\text { Data }=\text { Structure }+\text { Error. }
$$

上述分解形式也适用于随机场,而且我们特别关注其中一阶和二阶矩结构。

回想一下本征平稳和弱平稳性要求均值恒定 $\mathrm{E}[Z(\mathrm{~s})]=\mu$。如果随机场的均值会随位置发生变化,则 $\mu(\mathbf{s})$ 被称为随机场的大尺度趋势。在观测数据中遇到大尺度结构很常见,但根据平稳性定义,这会使随机场非平稳,似乎我们之前的大部分讨论都会受到质疑。因为如果不满足二阶平稳性第一个要求( 均值恒定性),作出平稳性假设也没有什么意义。

在实际应用中的解决方法是:只将平稳性与去除趋势以后的属性版本相关联,而不与属性 $Z(\mathrm{s})$ 直接关联。我们可以令:

$$
\mathbf{Z}(\mathbf{s})=\mathbf{f}(\mathbf{X}, \mathbf{s}, \boldsymbol{\beta}) + \mathbf{e}(\mathbf{s}) \tag{8}
$$

其中 $\mathbf{Z}(\mathbf{s})=\left[Z\left(\mathbf{s}_1\right), \cdots, Z\left(\mathbf{s}_n\right)\right]^{\prime}, 而 \mathbf{X}$ 是一个 $(n \times p)$ 的协变量矩阵, $\boldsymbol{\beta}$ 是参数向量,$\mathbf{e}(\mathbf{s})$ 是一个均值为 $\mathbf{0}$ 、方差为 $\boldsymbol{\Sigma}(\boldsymbol{\theta})$ 的随机向量。函数 $f$ 既可能是线性的也可能是非线性的,因此我们需要在模型中定义向量 $\mathbf{f}$ 所表示的内容。$\mathbf{f}$ 中的元素按如下方式堆叠:

$$
\mathbf{f}(\mathbf{X}, \mathbf{s}, \boldsymbol{\beta})=\left[\begin{array}{c}
f\left(\mathbf{x}_1, \mathbf{s}_1, \boldsymbol{\beta}\right) \
f\left(\mathbf{x}_2, \mathbf{s}_2, \boldsymbol{\beta}\right) \
\vdots \
f\left(\mathbf{x}_n, \mathbf{s}_n, \boldsymbol{\beta}\right)
\end{array}\right]
$$

式 (8) 可以看出:其中 $\mathrm{E}[\mathbf{Z}(\mathbf{s})]=\mathbf{f}(\mathbf{X}, \mathbf{s}, \boldsymbol{ \beta})$ 用于表示空间模型的大尺度趋势(均值结构)。$\mathbf{Z}(\mathbf{s})$ 的差异和协变则由 $\mathbf{e}(\mathbf{s})$ 的随机性质表示(随机结构)。也就是说,在所有空间随机场模型中:

  • 对象:平稳性假设均是针对模型的误差项 $\mathbf{e}(\mathbf{s})$ 的,并非直接针对属性 $\mathbf{Z}(\mathbf{s})$。
  • 均值:模型误差的零均值假设表明我们认可模型均值的正确性,也就是说,在对空间数据建模时,认识此平均过程所附着的随机机制是最重要的。
  • 方差:方差和协方差特性由协方差矩阵 $\boldsymbol{\Sigma}(\boldsymbol{\theta})$ 构造,协方差矩阵的结构反映了随机场的平稳特性,其元素值来自于本征或二阶平稳性假设下的协方差函数 $C(\mathbf{h})$ 或半变异函数 $\gamma(\mathbf{h})$ 。
  • 协方差矩阵:协方差矩阵的符号表达形式 $\boldsymbol{\Sigma}(\boldsymbol{\theta})$ 中显式地增加了对参数向量 $\boldsymbol{\theta}$ 的依赖,这主要是因为人们习惯于显式地参数化协方差函数 $C(\mathbf {h}) \equiv C(\mathbf{h}, \boldsymbol{\theta})$。

为方便讲解,本文对 式 (8) 的基本结构进行了简化和更改,得到 式(9)。我们将其中的均值结构简化表示为空间坐标的线性函数,即 $E[\mathbf{Z}(\mathbf{s})] = \mathbf{X}(\mathbf{s}) \boldsymbol{\beta}$。其中 $\mathbf{X}$ 为设计矩阵(或回归矩阵),依赖于 $\mathbf{s}$。设计矩阵 $\mathbf{X}(\mathbf{s})$ 可以表示除位置信息之外的其他变量。函数 $f$ 通常被假设为单调、可逆的函数,这使我们能够将广义线性模型理论扩展到空间上下文中。

$$
\begin{aligned}
Z(\mathbf{s}) &=f (\mathbf{x}^\prime(\mathbf{s}) \boldsymbol{\beta})+e(\mathbf{s})\
f^{−1}(E[Z(\mathbf{s})]) &= \mathbf{x}^\prime(s) \boldsymbol{\beta}
\end{aligned} \tag{9}
$$

上述空间过程的模型很重要,因为它让人关联到传统线性或非线性统计结构。不过,对于建模人员来说,该模型表示方法掩饰了人们对不同参数组分的重视程度。在实际工作中,对与均值有关的参数向量 $\boldsymbol{\beta}$ 和与协方差有关的参数向量 $\boldsymbol{\theta}$,建模人员很少给予同等的重视。例如,在空间回归或方差模型分析中,建模人员更关注对均值函数(大尺度趋势)的推断,而 $\boldsymbol{\theta}$ 则被认为是一个麻烦;但在空间预测任务中,协方差结构和参数 $\boldsymbol{\theta}$ 则至关重要,因为它们 “驱动” 了均方预测误差。

式 (8) 的模型有时被称为 直接建模,因为随机场 $e(\mathbf{s})$ 的协方差结构是通过参数化的函数 $\Sigma(\theta)$ 定义的。但实际上,对于随机场模型来说,还存在不利用协方差函数来建模的间接方式,这两者之间还是有些区别的。例如, 通过指定协方差矩阵而非协方差函数的方式来定义协方差结构 在面元数据模型、分层模型以及一些双变量平滑技术中很常见,而 利用协方差函数直接对协方差结构建模的方法 则在地统计数据中比较常见。

6.2 点参考数据模型

考虑一个具有可加性误差结构的随机场 $Z(\mathbf{s})$ 的统计模型

$$
Z(\mathbf{s})=\mu(\mathbf{s})+e(\mathbf{s}),
$$

其中误差项有协方差函数 $\operatorname{Cov}[e(\mathbf{s}), e(\mathbf{s}+\mathbf{h})]=C_e(\mathbf{h})$。

与其他统计模型一样,误差可能包含多个组分。因此,考虑以下过程分解是有帮助的:

$$
Z(\mathbf{s})=\mu(\mathbf{s})+W(\mathbf{s})+\eta(\mathbf{s})+\epsilon(\mathbf{s}) \tag{10}
$$
式(10) 有些类似于方差分析模型中变异性来源分解,不过在很大程度上是可操作的。

  • **均值函数 $\mu(\mathbf{s})$**:
    • $\mu(\mathbf{s})$ 是随机场的 宏观尺度 趋势。根据 式(8),可以将 $\mu(\mathbf{s})=$ 参数化为 $f(\mathbf{x}, \mathbf{s}, \boldsymbol{\beta})$。
  • 随机过程式(10) 右侧的其余三个组分构成了空间随机场。
    • 平滑尺度:$W(\mathbf{s})$ 被称为 平滑尺度 变化;它是一个具有协方差函数 $C_W(\mathbf{h})$ 或半变异函数 $\gamma_W(\mathbf{h})$ 的平稳随机过程。此过程的变程 $r_W$ 大于数据中观测到的最小滞后距离,即 $r_W>\min \left{\left|\mathbf{s}_i-\mathbf{s}_j\right|\right}, \forall i \neq j$。 空间随机过程 $W(\mathbf{s})$ 的空间自相关结构可以利用观测数据进行建模和估计。
    • 微尺度:第二个随机过程 $\eta(\mathbf{s})$ 被称为 微尺度 变化。它也是一个平稳过程,但其变程小于 $\min \left{\left|\mathbf{s}_i-\mathbf{s}_j\right|\right}$。该过程的空间自相关结构无法根据观测数据估计,只能寄希望于估计出其方差 $\sigma_\eta^2$,但即便如此也比较困难。
    • 白噪声:随机分量 $\epsilon(\mathbf{s})$ 表示方差为 $\sigma_\epsilon^2$ 的白噪声测量误差,具有独立性。

注意随机过程中变程 $r$ 的定义:$r$ 是指一个滞后(间隔长度)阈值,在空间表面上,滞后超过该阈值的任意两点之间不相关。由此可见,$W(s)$ 的变程大于样本中的最小滞后,因此反映了观测数据所能识别的尺度(平滑尺度)误差特性;而 $\eta(s)$ 的变程小于样本中的最小滞后,反映了更微小尺度上的误差特性。

在上述误差组分中,除非数据中存在真正的复制(通常情况下不可能这样),否则 $\sigma_\eta^2$ 和 $\sigma_\epsilon^2$ 是无法分别进行估计的。所以许多建模者考虑了将两者合并的如下形式:

$$
Z(\mathbf{s})=\mu(\mathbf{s})+W(\mathbf{s})+e^*(\mathbf{s})
$$

其中 $e^*(\mathbf{s})=\eta(\mathbf{s})+\epsilon(\mathbf{s})$。

由于 式(10) 中的三个组分之间相互独立,所以 $\mathbf{Z}(\mathbf{s})$ 的方差-协方差矩阵可以被分解为:

$$
\operatorname{Var}[\mathbf{Z}(\mathbf{s})]=\boldsymbol{\Sigma}(\boldsymbol{\theta})=\boldsymbol{\Sigma}_W\left(\boldsymbol{\theta}_W\right)+\boldsymbol{\Sigma}_\eta\left(\boldsymbol{\theta}_\eta\right)+\boldsymbol{\Sigma}_\epsilon\left(\boldsymbol{\theta}_\epsilon\right)
$$

基于 式 (10) ,我们可以进一步为点参考数据定义两种常见的分解形式:

(1)信号模型

  • 令 $S(\mathbf{s})=\mu(\mathbf{s})+W(\mathbf{s})+\eta(\mathbf{s})$ 表示随机过程中的信号部分,它包含了通过确定性源或随机源在空间上结构化的所有组分。
  • 则随机过程可以重新分解为: $Z(\mathbf{s})=S(\mathbf{s})+\epsilon(\mathbf{s})$ 。
  • 这在在空间预测应用中起着重要作用,因为在该应用中,建模者感兴趣的是信号 $S(\mathbf{s})$,而不是含噪声版本的 $Z(\mathbf{s})$。

(2)均值模型

如果建模者更关注宏观尺度的均值函数,并且需要考虑数据中的自相关结构,则均值模型通常是分析的切入点。

  • 令 $e(\mathbf{s})=W(\mathbf{s})+\eta(\mathbf{s})+\epsilon(\mathbf{s})$ 表示模型的误差过程。$e(\mathbf{s})$ 包含不同的空间误差过程,其中一些比其他的更具结构化;$W(\mathbf{s})$ 和 $\eta(\mathbf{s})$ 用于描述过程的平滑尺度和微尺度随机波动。
  • 则随机过程可以重新分解为:$Z(\mathbf{s})=\mu(\mathbf{s})+e(\mathbf{s})$。
  • 如果允许均值函数 $μ(\mathbf{s})$ 更灵活,还可以考虑一个吸收了部分随机变化的、具备局部变化特性的均值函数。例如,某些用于处理空间自相关性的早期方法(如趋势面模型和最近邻调整),曾试图通过向待处理结构中添加局部的确定性变化来对均值结构进行建模,以形成一个具有不相关误差的模型。

在经典的地统计学模型中,将空间随机过程分解为

$$
Z(s)=\mu(s)+ W(s) + e(s)
$$
其中 $e(s)= \eta(s) + \epsilon(s)$。均值函数 $\mu(s)$ 是确定性的,反映宏观尺度的趋势;随机场 $W(s)$ 具有零均值和连续性,$e(s)$ 是与空间不相关的零均值误差随机场,随机过程 $W$ 和 $e$ 之间相互独立。误差过程 $e$ 具有不连续的协方差函数
$$
\operatorname{Cov}(e(s), e(s+h))= \begin{cases}\sigma^2 \geq 0, & h=0 \ 0, & h \neq 0\end{cases}
$$
并且通常被称为块金效应。

块金效应描述了在任何单个测点(可能)重复测量中的观测误差,包含测量误差无法区分的微尺度变异性和白噪声。该术语源于采矿应用,其中块金的大小代表了微观变化的显著程度。下图 展示了欧几里德平面中有和没有块金组分的两个二阶平稳空间随机过程实现。没有块金效应时,样本路径是平滑的;有块金效应时,它是不规则且不可微的。

通常,地统计学模型的关注点在连续部分 $W(s)$ 的二阶平稳过程上,其具有连续的协方差函数。从实际应用来看,块金效应是唯一具有实际意义的不连续协方差函数(Gneiting、Sasvári 和 Schlather,2001 年)。

GaussianProcess

图 A.1:具有各向同性 Matern 协方差函数的二维高斯过程,平滑参数 $ν = 32$ 、尺度参数 $θ = 1$,没有块金效应(左)和有非常小的的块金效应(右)。

此外,Cliff 和 Ord 根据响应的性质,区分了 响应模型交互模型

  • 响应模型:测点对外部影响做出响应,例如,植物对根区养分的可用性做出反应。由于这种可用性在空间上有所不同,植物的生物量将表现出对养分可用性的回归依赖。按照这种推理,与营养相关的协变量都可以作为回归变量包含在均值函数 $f (x, s, β)$ 中。

  • 交互模型:测点不仅会对外部影响做出响应,而且与其他测点相互之间也会做出交互响应。例如,相邻的植物相互竞争资源。

Schabenberger 和 Pierce 认为:“当主要空间效应是由对外力响应引起的,这些效应应该是均值函数 $[ f (x, s, β) ]$ 的一部分;而交互效应 $[…]$ 则要求通过误差过程的自相关结构,对空间变异性进行建模”。

此处意味着响应效应应该通过均值函数来建模,而交互效应应当主要通过误差结构来建模。

响应模型和交互模型之间的区分并不是一分为二的,显著的自相关并不意味着它只能是交互模型而不是响应模型。空间自相关有时不好判别,例如,当随机变量的变化是由宏观尺度的趋势引起的,它就不属于空间自相关;但当随机变量的变化是由累积的小尺度、空间变化成分引起的,那么它就是属于自相属于自相关关。

6.3 面元数据模型

当空间域是离散的面元性质时,式(10) 的分解无法直接应用,因为随机过程 $W(\mathbf{s})$ 和 $\eta(\mathbf{s})$ 现在定义在一个固定的离散域上,不再代表连续的空间变化。其带来的后果就是:

  • 响应效应:可以象之前一样,直接通过均值函数 $\mu(\mathbf{s})$ 建模;
  • 交互效应:原先基于协方差函数( $C(\mathbf{h})$ )或半变异函数( $\gamma(h)$ )构建协方差矩阵的方式,在此可能不适用,需要修改模型的协方差结构

修改协方差结构的方式很多。例如 同步空间自回归 (SSAR) 模型

令 $\mu\left(\mathbf{s}_i\right)$ 表示位置 $\mathbf{s}_i$ 处随机场的均值,则 SSAR 模型 认为 $Z\left(\mathbf{s}_i\right)$ 可以由均值、相邻测点的贡献和随机噪声三个部分组成:

$$
\begin{aligned}
Z\left(\mathbf{s}_i\right) &=\mu\left(\mathbf{s}_i\right)+e\left(\mathbf{s}i\right) \
&=\mu\left(\mathbf{s}i\right)+\sum{j=1}^n b
{i j}\left{Z\left(\mathbf{s}_i\right)-\mu\left(\mathbf{s}_i\right)\right}+\epsilon\left(\mathbf{s}_i\right) .
\end{aligned} \tag{11}
$$

式 (11) 中的系数 $b_{i j}$ 描述了测点的空间连通性。如果所有 $b_{i j}=0$,模型将简化为由均值项 $\mu\left(\mathbf{s}i\right)$ 和不相关的误差项 $\epsilon\left(\mathbf{s} i\right)$ 构成的标准模型。系数 $b{i j}$ 控制了空间自相关结构,但并不是直接控制。即使 $b{i j}=0$,测点 $\mathbf{s}_i$ 和 $\mathbf{s}_j$ 的响应也可以相关。要看到这一点,请考虑线性均值函数 $\mu\left(\mathbf{s}_i\right)=\mathbf{x}\left(\mathbf{s}i\right)^{\prime} \boldsymbol{ \beta}$,将系数收集到矩阵 $\mathbf{B}=\left[b{i j}\right]$ 中,并将模型改写为:

$$
\begin{aligned}
\mathbf{Z}(\mathbf{s}) &=\mathbf{X}(\mathbf{s}) \boldsymbol{\beta}+\mathbf{B}(\mathbf{Z}(\mathbf{s})-\mathbf{X}(\mathbf{s}) \boldsymbol{\beta})+\epsilon(\mathbf{s}) \
\epsilon(\mathbf{s}) &=(\mathbf{I}-\mathbf{B})(\mathbf{Z}(\mathbf{s})-\mathbf{X}(\mathbf{s}) \boldsymbol{\beta}) .
\end{aligned}
$$

该模型遵循 $\operatorname{Var}[\mathbf{Z}(\mathbf{s})]=(\mathbf{I}-\mathbf{B})^{-1}\operatorname{Var}[\boldsymbol{\epsilon}(\mathbf{s})]\left(\mathbf{I}-\mathbf{B}^{\prime}\right)^{-1}$。如果噪声是等方差的 $\operatorname{Var}[\boldsymbol{\epsilon}(\mathbf{s})]$ 为 $\sigma^2 \mathbf{I}$, 那么 $\operatorname{Var}[\mathbf{Z}(\mathbf {s})]=\sigma^2(\mathbf{I}-\mathbf{B})^{-1}\left(\mathbf{I}-\mathbf{B}^{\prime}\right) ^{-1}$。虽然 $b_{i j}=0$ 可能存在,但我们仍然有 $\operatorname{Cov}\left[Z\left(\mathbf{s}_i\right), Z\left(\mathbf{s}_j\right)\right] \neq 0$。

在该模型中,$\mathbf{B}$ 是一个参数,包含很多未知数,所以建模者通常会对该邻域结构做参数化以方便做估计。其中一种常见的选择是 $\mathbf{B}=\rho \mathbf{W}$,其中 $\mathbf{W}$ 是用户自定义的空间连接矩阵(可以视为超参数),$\rho$ 是待估计的参数。

面元模型的空间协方差结构由 $\mathbf{B}$ 矩阵的选择和参数化导致的,因此该模型属于间接建模。

6.4 卷积表示

有一种可以同时应用于离散和连续空间域并且可以引入协方差结构的随机场表示方法,那就是基于随机噪声与核函数的卷积。

二阶平稳过程最重要的特征是协方差结构。根据二阶平稳性的定义,均值是一个常数,估计其大小比较简单;除了均值外,对于建模者来说,随机场的二阶属性是最主要的关注点。如上所述:

  • 对于地统计数据,可以用协方差函数、相关函数或半变异函数等来描述二阶平稳性;
  • 对于面元数据,可以通过连接矩阵与数据的某种参数化条件分布或联合分布来建模;
  • 对于点模式数据,随机过程的一阶和二阶属性由一阶和二阶强度函数描述。

式(8) 的模型表示形式对于地统计数据和面元数据很有用。在地统计模型中,随机场的二阶属性由误差项的方差-协方差矩阵 $\boldsymbol{\Sigma}(\boldsymbol{\theta})$ 直接定义;在面元模型中由连接矩阵 $\mathbf{B}$ 间接表示。式(8) 的模型表示很方便,因为它具有我们熟悉的结构。它承认空间自相关的存在,但不确定相关产生的来源。

(1)卷积概念

自相关是小尺度的、具有随机依赖性的随机新事物的结果。虽然不同位置的随机新事物相互独立,但最终观测到的属性值却是结合了这些新事物的混合过程的结果。这正是随机过程的卷积表示方法背后的一般思想, 它依赖于相关数据可以表示为不相关数据的线性组合的想法

考虑独立同分布的、服从 $\operatorname{Bernoulli}(\pi)$ 的伯努利随机变量 $X_1, \cdots, X_n$,则 $U=\sum_{i=1}^k X_i$ 是一个服从 $\operatorname{Binomial}(k, \pi)$ 二项分布随机变量,并且 $V=\sum_{i=1}^{k+m} X_i$ 是一个服从 $\operatorname{Binomial}(k+m, \pi)$ 的伯努利随机变量。显然,$U$ 和 $V$ 是相关的,因为它们共享了其中 $k$ 个观测值,$\operatorname{Cov}[U, V]=\min (k, k+m) \pi(1-\pi)$。

上述想法可以进一步推广,令 $X_i,(i=1, \cdots n)$ 表示具有共同均值 $\mu$ 和共同方差 $\sigma^2$ 的独立随机变量序列。我们定义一个权重函数 $K(i, j)$ (为简单起见,可以选择一个权重函数使得 $\sum_{i=1}^n K(i, j)=1$,但这不是必需的),则可以用加权平均值 $Z_j=\sum_{i=1}^n K(i, j) X_i$ 和 $Z_k=\sum_{i=1}^n K(i, k)$ 来创建两个相关的随机变量。两个新合成的随机变量之间的协方差可以表示为:

$$
\begin{aligned}
\operatorname{Cov}\left[Z_j, Z_k\right] &=\operatorname{Cov}\left[\sum_{i=1}^n K(i, j) X_i, \sum_{i=1}^n K(i, k) X_i\right] \
&=\sigma^2 \sum_{i=1}^n \sum_{m=1}^n K(i, j) K(m, k)
\end{aligned} \tag{12}

$$
根据公式可知,两个加权平均值之间的协方差由权重函数控制。

(2)从白噪声过程到空间随机过程

为了生成或表示空间随机场 $\left{Z(\mathbf{s}):\mathbf{s}\in D \subset \mathbb{R}^d\right}$,我们可以考虑一个白噪声过程 $X(\mathbf{s})$ ,并令 $\mathrm{E}[X(\mathbf{s})]=\mu_x$, $\operatorname{Var}[X(\mathbf{s})]=\sigma_x^2$,$\operatorname{Cov}[X(\mathbf{s}), X(\mathbf{s}+\mathbf{h})]=C_x(\mathbf{h})=0, \mathbf{h} \neq \mathbf{0}$。这样的一个随机场 $X(\mathbf{s})$ 也被称为激励场。

对于具有连续空间域 $D$ 的地统计数据,随机场 $Z(\mathbf{s})$ 可以根据激励场 $X(\mathbf{s})$ 写成如下卷积表示形式:
$$
Z(\mathbf{s})=\int_{\text {all } \mathbf{u}} K(\mathbf{s}-\mathbf{u}) X(\mathbf{u}) d \mathbf{u}=\int_{\text {all } \mathbf{v}} K(\mathbf{v}) X(\mathbf{s}+\mathbf{v}) d \mathbf{v} \tag{13}
$$

对于面元过程,积分被求和代替:

$$
Z(\mathbf{s})=\sum_{\mathbf{u}} K(\mathbf{s}-\mathbf{u}) X(\mathbf{u})=\sum_{\mathbf{v}} K(\mathbf{v}) X(\mathbf{s}+\mathbf{v}) \tag{14}
$$

式 (13)式 (14) 类似于非参数模型中的核平滑器。

(3)预测

考虑在设计点 $x_1<x_2<\cdots<x_n$ 处观测到的不相关数据 $Y_1, \cdots, Y_n$。数据是根据模型 $Y_i=f\left(x_i\right)+e_i$ 生成的,其中 $e_i$ 是一个均值为零且方差为 $\sigma^2$ 的不相关误差项。在特定点 $x_0$ 处,对 $Y$ 均值的预测可以通过对若干 $Y_i$ 的加权平均做估计。由于 $Y$ 的均值随 $x$ 而变化,因此,相对于 $\left|x_0-x_i\right|$ 较大的设计点,为接近 $x_0$ 的设计点处的观测值赋予更高权重似乎很合理。因此,可以考虑权重函数 $w\left(x_i, x_0, h\right)$,例如

$$
w\left(x_i, x_0, h\right)=\exp \left{-\left(x_i-x_0\right)^2 / h^2\right}
$$

权重通常会被标准化为总和为一,即
$$
K\left(x_i, x_0, h\right)=\frac{w\left(x_i, x_0, h\right)}{\sum_{i=1}^n w\left(x_i, x_0, h\right)}
$$

$x_0$ 点的预测值为

$$
\widehat{f}\left(x_0\right)=\sum_{i=1}^n K\left(x_i, x_0, h\right) Y_i \tag{15}
$$

式 (15) 的预测被称为 Nadaraya-Watson 估计(Nadaraya,1964;Watson,1964)。它是核函数 $K(\cdot)$ 和数据之间的卷积。参数 $h$ 被称为带宽,用于控制随机过程的平滑度。对于较大的 $h$,权重在观测值之间分布更均匀,预测函数 $\hat{f}(x)$ 将更平滑。将 式(15)式(13)式(14) 进行比较,函数 $K(\mathbf{s}-\mathbf{u})$ 可以被视为对白噪声过程 $X(\mathbf{s})$ 的核平滑。

根据 式(13) 的卷积表示,很快会得出以下引理:

引理 1 如果 式(13) 中的 $X(s)$ 是均值为 $\mu_x$ 且方差为 $\sigma_x^2$ 的白噪声过程,则在一些温和的正则条件下,

(1) $\mathrm{E}[Z(s)]=\mu_x \int_{\boldsymbol{u}} K(\boldsymbol{u}) d \boldsymbol{u}$

(2) $\operatorname{Cov}[Z(s), Z(s+\boldsymbol{h})]=\sigma_x^2 \int_{\boldsymbol{u}} K(\boldsymbol{u}) K(\boldsymbol{u}+\boldsymbol{h}) d \boldsymbol{u}$;

显然,这满足二阶平稳性的要求,因此空间过程 $Z(s)$ 是一个弱平稳随机场。

待完善

Proof. The proof is straightforward and requires only standard calculus but it is dependent on being able to exchange the order of integration (the regularity conditions that permit application of Fubini^\primes theorem). To show (iii), it is sufficient to establish that $\mathrm{E}[Z(\mathbf{s})]$ and $\operatorname{Cov}[Z(\mathbf{s}), Z(\mathbf{s}+\mathbf{h})]$ do not depend on s. Provided the order of integration can be exchanged, tackling (i) yields
$$
\begin{aligned}
\mathrm{E}[Z(\mathbf{s})] &=\int_X \int_{\mathbf{v}} K(\mathbf{v}) X(\mathbf{s}-\mathbf{v}) d \mathbf{v} F(d x) \
&=\int_{\mathbf{v}} K(\mathbf{v}) \int_X X(\mathbf{s}-\mathbf{v}) F(d x) d \mathbf{v} \
&=\mu_x \int_{\mathbf{v}} K(\mathbf{v}) d \mathbf{v} .
\end{aligned}
$$
To show (ii) assume that $\mu_x=0$. The result holds in general for other values of $\mu_x$. Then,
$$
\begin{aligned}
\operatorname{Cov}[Z(\mathbf{s}), Z(\mathbf{s}+\mathbf{h})] &=\int_{\mathbf{v}} \int_{\mathbf{t}} K(\mathbf{v}) K(\mathbf{t}) \mathrm{E}[X(\mathbf{s}-\mathbf{v}) X(\mathbf{s}+\mathbf{h}-\mathbf{t})] d \mathbf{v} d \mathbf{t} \
&=\int_{\mathbf{v}} \int_{\mathbf{t}} K(\mathbf{v}) K(\mathbf{t}) C_x(\mathbf{h}+\mathbf{v}-\mathbf{t}) d \mathbf{v} d \mathbf{t}
\end{aligned}
$$
Since $X(\mathbf{s})$ is a white noise random field, only those terms for which $\mathbf{h}+\mathbf{v}-\mathbf{t}=$ 0 need to be considered and the double integral reduces to
$$
\operatorname{Cov}[Z(\mathbf{s}), Z(\mathbf{s}+\mathbf{h})]=\sigma_x^2 \int_{\mathbf{v}} K(\mathbf{v}) K(\mathbf{h}+\mathbf{v}) d \mathbf{v} \tag{16}
$$
Since the mean and covariance function of $Z(\mathbf{s})$ do not depend on spatial location, (iii) follows. This completes the proof of the lemma. Similar results, replacing integration with summation, can be established in the case of a discrete domain (2.14)

示例 3

为了演示卷积白噪声的效果,我们考虑曲线上的一个激励过程 $X(s)$ 和两个核函数,其一为高斯核函数(核带宽 $h$ 对应于核的标准差),另外一个是均匀核函数(选择均匀分布的宽度,使其标准差也等于 $h$)。图 5 显示了激励场的实现和带宽为 $h =0.1; 0.05; 0.025$ 时,式(13) 中卷积的实现。对于给定带宽,均匀核卷积产生的实现结果不如高斯核的平滑;均匀核会均匀分配权重。对于特定的核函数,过程的平滑度随着带宽的增加而降低。

卷积核对比

图 5 高斯白噪声与高斯核函数(实线)、均匀核函数(虚线)的卷积。带宽 $h$ 对应于高斯核的标准差。均匀核的宽度被选择为具有与高斯核相等的标准差。锯齿线表示激励场的具体实现,实线表示高斯卷积的实线,虚线表示均匀核的实线。

这两个核函数导致明显不同的自相关函数( 图 6 )。对于均匀核,自相关随滞后线性下降。一旦滞后超过窗口宽度的一半,相关函数就正好为零。高斯核导致称为高斯模型的无限平滑相关函数 $C(h) = \exp {−h^2/α^2}$。与均匀核下的相关函数相比,高斯核对应的相关函数随着滞后的增加而缓慢下降,导致平滑实现(见图 5)。

figure6

图 6 根据 (16) 为图 5 中所示的卷积确定的相关函数。带宽 h 对应于高斯核的标准偏差。选择均匀核的宽度使其标准差等于高斯核的宽度。

(4)卷积表示的作用

空间随机过程的卷积表示有几个方面的作用:

  • 它根据潜在白噪声过程的激励来描述相关过程,并通过间接方式定义过程的协方差结构。与其考虑用什么参数模型 $Σ(θ)$ 来描述了空间依赖结构,还不如重新表述问题并询问哪个卷积核 $K(s − u, γ)$ 可能产生了数据。传统地统计方法中对协方差函数的参数 $\boldsymbol{\theta}$ 的估计,在卷积表示下被卷积核的参数 $γ$ 估计所取代。
  • 通过选择卷积核,可以对范围更为广泛的协方差结构进行建模。
  • 基于比参数模型更灵活的移动平均方法,卷积可用于导出协方差函数和半变异函数
  • 卷积技术对模拟非平稳过程很有吸引力。两种基本方法是:
    • 让卷积核 $K(u)$ 取决于空间位置,即 $K(u)= K_s(u)$。例如,$\mathbb{R}^2$ 中某个过程的核函数可能是二元高斯密度,其相关性和方差参数是 $\mathbf{s}$ 的函数。
    • 使用一个具有位置不变性的核函数,对表现出空间相关性的白噪声过程 $X(\mathbf{s})$ 进行卷积。
  • 式 (13) 的表示提出了一种基于卷积白噪声生成(模拟)空间随机场的方法。选择 $\int_{\mathbf{u}} K(\mathbf{u})d \mathbf{u} =1$ 且 $\int_\mathbf{u} \mathbf{u}K(\mathbf{u})d \mathbf{u} =0$ 的卷积核,其生成的空间随机场 $Z(\mathbf{s})$ 的均值和方差可以从激励场 $X(\mathbf{s})$ 的均值和方差中定向得到。这种生成(模拟)空间数据的方法有望为缺乏明显相关模型的场景、或联合分布非常难以处理的场景生成离散属性值 $Z$ 。

6.5 频域中的随机场

暂时不感兴趣

虽然频域方法在时间序列研究中很常见,但在空间统计中还没有(尚未)广泛使用。一个障碍可能是表面上更难的数学处理,另一个障碍是不熟悉关键量的解释,例如谱密度和周期图。希望接下来的阐述能够消除这些看法。以下两小节中的文字大量借鉴了 Priestley (1981, Ch. 4) 中的精彩讨论,并且只能提供谱分析的最基础知识。 Bloomfield (1976) 和 Chatfield (1996) 对谱分析(重点是时间序列)提供了最具可读性的介绍。 Vanmarcke (1983) 在文中详细讨论了随机场的频域和空域表示。我们的展示是这些资源的结合。

(1) 确定性函数的谱表示

通过频率内容表示函数在物理和工程科学中有着悠久的历史。要了解这些想法如何与我们对平面中随机过程的研究联系起来,我们需要退后一步并考虑确定性函数。一个(确定性)函数 $f (s)$ 是周期性的,如果 $f (s)=f (s + ip)$ 对于任何 $s$ 并且 $i = ···, −2, −1, 0, 1, 2, ···$。如果没有 $p$ 存在对所有 $s$ 都成立,则称 $f (s)$ 是非周期性的。否则,$f (s)=f (s + ip), ∀s$ 的最小 $p$ 称为函数的周期。例如,$cos(x)$ 是周期性的,周期为 $2π$。假设周期为 $2p$ 的周期函数 $f (s)$ 在 $[−p, p]$ 上绝对可积,$f (s)$ 可以写成傅里叶级数

(2)随机过程的谱表示

(3)协方差与谱密度函数的关系

(4)谱分布函数及其性质

(5)连续和离散谱

(6)线性位置不变滤波器

(7)谱分析的重要性

随机场的谱表示起初可能显得很麻烦;频域中的数学需要使用复值(随机)变量进行运算,并且对频谱的解释还不完全清楚。频谱密度函数将过程的可变性分布在频域上,这很吸引人,但“那又能怎样呢?” 以下是谱方法在空间数据分析中日益重要的一些原因:

  • 频域中的数学证明和推导通常更简单。处理随机过程的熟练统计学家在空间域和频域之间来回切换,具体取决于哪个 “空间” 更有希望简化论证和推导。
  • 平稳随机过程的谱密度函数和协方差函数密切相关;它们形成傅立叶变换对。在此基础上,通过协方差函数或谱密度研究随机场的二阶性质可以看作是等价的。然而
    • 谱密度和协方差是随机过程二阶属性的两种不同但互补的表示。协方差函数强调空间依赖性作为坐标分离的函数。谱密度函数强调可变性分量与频率的关联。从协方差函数中,我们收集了连续性的程度和空间自相关随着点分离的增加而衰减。从谱密度中,我们收集了过程中的周期性;
    • 在实践中通常很难从不同的协方差结构的数学形式或单独的函数图中识别出统计推断的含义。在随机属性方面存在显著差异的过程可能具有在图形化时看起来非常相似的协方差函数。谱密度函数比协方差函数更能放大和突出二阶结构中的细微差异。
  • 谱密度函数——作为协方差函数——可以通过周期图从数据中估计。在计算上,除了计算样本协方差之外,这不会带来任何特殊挑战,至少如果在网格上观察数据的话。从空间域中的数据计算得出的汇总统计数据通常是相关的。这种相关性源于同一数据点 $Z(si)$ 在多个摘要中重复使用的事实,和/或源于空间自相关。周期图的纵坐标是基于数据的谱密度函数估计,至少是渐近独立的,并且具有简单的分布特性。这使您能够构建具有标准属性的测试统计信息。
  • 谱表示及其后续结果的推导需要均方连续、二阶稳态随机场。此外,研究空间域中随机场的二阶特性通常还需要过程的各向同性。一个例子是点模式中空间依赖性的研究。 Ripley (1976) 提出的 $K$ 函数是研究空间中随机事件之间随机相关性的有用工具。许多论点支持 $K$ 函数方法,可能最重要的是可解释性。然而,它确实需要各向同性。确定点模式在空间域中是各向同性还是各向异性是很棘手的。频谱分析只需要二阶平稳性,事件之间的随机相关性可以从模式的频谱分析中收集到