【阅读建议】 本文是 Cressie 在 2021 年新撰写的一篇综述类文章,其主要看点包括:(1)用统一的形式化框架实现了点参考数据、面元数据、点模式数据的建模;(2)对多变量空间统计建模的统一形式化;(3)大数据的空间离散化处理方法(此处尚未理解其优势所在,需要进一步阅读引用的论文);
【摘 要】 空间统计是一个致力于与空间标签相关数据统计分析的研究领域。地理学家通常将 “位置信息” 与 “属性信息” 联系起来,并且定义了一个被称为 “空间分析” 的研究领域。许多操作空间数据的方法都是由算法驱动的,缺少与之相关的不确定性量化。如果空间分析是统计的(即结合了不确定性量化),则它属于空间统计的研究范畴。空间统计模型的主要特征是邻近的属性值比远处的属性值在统计上更相关,这也被称为地理学第一定律。
【原 文】 N. Cressie and M. T. Moores, “Spatial Statistics,” 2021, doi: 10.48550/ARXIV.2105.07216.
【参 考】
1 导言 
空间统计提供了一个概率框架,用于回答数据中包含空间位置信息、且所提问题与空间位置信息相关的科学问题。概率论在空间统计中的主要作用是对不确定性建模,这既包含科学理论中的不确定性,也包括空间数据中的不确定性。
在空间统计中,科学理论中的不确定性可以通过 空间随机过程  以概率形式表示,一般性地可以写成:
{ Y ( s ) : s ∈ D } (1) \{Y(\mathbf{s}) : \mathbf{s} \in \mathscr{D} \} \tag{1}
 { Y ( s ) : s ∈ D } ( 1 ) 
其中 Y ( s ) Y(\mathbf{s}) Y ( s ) s \mathbf{s} s D \mathscr{D} D d d d R d \mathbb{R}^d R d D \mathscr{D} D D D D D \mathscr{D} D D D D 
我们可以将由具有随机性的 { Y ( s ) : s ∈ D } \{Y(\mathbf{s}) : \mathbf{s} \in D\} { Y ( s ) : s ∈ D } D D D [ Y , D ] [Y, D] [ Y , D ] 空间过程模型(Spatial Process Model)。根据贝叶斯规则,有:
[ Y , D ] = [ Y ∣ D ] [ D ] (2) [Y, D] = [Y \mid D][D] \tag{2}
 [ Y , D ] = [ Y ∣ D ] [ D ] ( 2 ) 
对于一般性的随机变量 A A A B B B [ A , B ] [A, B] [ A , B ] B B B A A A [ A ∣ B ] [A \mid B] [ A ∣ B ] B B B [ B ] [B] [ B ] 式 (2) 给出了 Cressie(1993 年)作出的空间统计模型的一般性形式化定义。
根据对 D D D 式 (2) 涵盖了三个主要空间统计领域,导致了三种不同类型的空间随机过程 [ Y ∣ D ] [Y \mid D] [ Y ∣ D ] 第 2 节 的 “空间过程模型”。过去,人们习惯于根据空间数据类型 Z \mathbf{Z} Z Y Y Y 
在本文中,我们将根据过程模型 式 (2) 对空间统计建模选择进行了分类;而数据 Z \mathbf{Z} Z 式 (2) 中的 Y Y Y D D D z \mathbf{z} z 
[ Z ∣ Y , D ] (3) [\mathbf{Z} \mid Y,D] \tag{3}
 [ Z ∣ Y , D ] ( 3 ) 
例如,空间数据 Z \mathbf{Z} Z { s 1 , . . . , s n } ⊂ D \{\mathbf{s}_1, . . . , \mathbf{s}_n \} \subset D { s 1  , ... , s n  } ⊂ D Y \mathbf{Y} Y 
[ Z ∣ Y , D ] = ∏ i = 1 n [ Z ( s i ) ∣ Y , D ] (4) [\mathbf{Z} \mid Y, D] = \prod^n_{ i=1} [Z(\mathbf{s}_i) \mid Y, D] \tag{4}
 [ Z ∣ Y , D ] = i = 1 ∏ n  [ Z ( s i  ) ∣ Y , D ] ( 4 ) 
这里需要注意的是:尽管 式 (4) 来自于条件独立性假设,但边缘分布 [ Z ∣ D ] [\mathbf{Z} \mid D] [ Z ∣ D ] Z \mathbf{Z} Z [ Y ∣ D ] [Y \mid D] [ Y ∣ D ] 式 (4),并且有:
[ Z ∣ D ] = ∫ [ Z ∣ Y , D ] [ Y ∣ D ] d Y [\mathbf{Z} \mid D] = \int [\mathbf{Z} \mid Y, D][Y \mid D]dY
 [ Z ∣ D ] = ∫ [ Z ∣ Y , D ] [ Y ∣ D ] d Y 
另一个例子是 D D D Z = { N , s 1 , … , s n } \mathbf{Z} = \{N, \mathbf{s}_1, \ldots , \mathbf{s}_n\} Z = { N , s 1  , … , s n  } N N N D \mathscr{D} D D = \{\mathbf{s}_1,\lots , \mathbf{s}_n\}  是点的随机位置。如果存在与 D D D { Z ( s 1 ) , … , Z ( s n ) } \{Z(\mathbf{s}_1), \ldots, Z(\mathbf{s}_n)\} { Z ( s 1  ) , … , Z ( s n  )} Z \mathbf{Z} Z 
Z = { N , ( s 1 , Z ( s 1 ) ) , . . . , ( s n , Z ( s n ) ) } (5) \mathbf{Z} = \{N, (\mathbf{s}_1, Z(\mathbf{s}_1)) , . . . , (\mathbf{s}_n, Z(\mathbf{s}_n))\} \tag{5}
 Z = { N , ( s 1  , Z ( s 1  )) , ... , ( s n  , Z ( s n  ))} ( 5 ) 
式 (2) 和 式 (3) 给出的空间统计描述,捕获了待解决科学问题中的(已知)不确定性,即空间过程模型中( 式 (2) )的科学不确定性和数据模型中( 式 (3)) 的测量不确定性。 式 (2) 和 式 (3) 一起定义了一个适用于空间数据的分层统计模型。不过,这种条件概率分布 [ Z ∣ Y , D ] [\mathbf{Z} \mid Y, D] [ Z ∣ Y , D ] [ Y ∣ D ] [Y \mid D] [ Y ∣ D ] [ D ] [D] [ D ] 
式 (2) 和 式 (3) 隐含了一个条件,即与 过程模型 和 数据模型 相关的所有参数 θ \theta θ θ \theta θ [ θ ] [ \theta ] [ θ ] 参数模型(或先验模型)。通过使用显式符号,所研究科学问题中的所有不确定性,都可以通过联合概率形式表示为:
[ Z , Y , D , θ ] = [ Z , Y , D ∣ θ ] [ θ ] = [ Z ∣ Y , D , θ ] [ Y ∣ D , θ ] [ D ∣ θ ] [ θ ] \begin{align*}
[\mathbf{Z},Y,D, \theta ] &= [\mathbf{Z},Y,D \mid \theta ][ \theta ] \tag{6}\\
&= [\mathbf{Z} \mid Y, D, \theta ][Y \mid D, \theta ][D \mid \theta ][ \theta ] \tag{7}
\end{align*}
 [ Z , Y , D , θ ]  = [ Z , Y , D ∣ θ ] [ θ ] = [ Z ∣ Y , D , θ ] [ Y ∣ D , θ ] [ D ∣ θ ] [ θ ]  ( 6 ) ( 7 )  
非常出名的 贝叶斯分层模型 就是使用了式 (7) 给出的链式分解形式。不过,也存在一种 经验分层模型,它将 θ \theta θ θ ^ \hat{\theta} θ ^ 式 (6) 左侧的第一个因子中,形成如下模型:
[ Z , Y , D ∣ θ ^ ] = [ Z ∣ Y , D , θ ] [ Y ∣ D , θ ] [ D ∣ θ ^ ] (8) [\mathbf{Z},Y,D \mid \hat{ \theta} ] = [\mathbf{Z} \mid Y, D, \theta ][Y \mid D, \theta ][D \mid \hat{\theta} ] \tag{8}
 [ Z , Y , D ∣ θ ^ ] = [ Z ∣ Y , D , θ ] [ Y ∣ D , θ ] [ D ∣ θ ^ ] ( 8 ) 
从空间数据 Z \mathbf{Z} Z θ \theta θ Y Y Y 式(8) 中的 θ \theta θ 
[ Z , Y , D ] = [ Z ∣ Y , D ] [ Y ∣ D ] [ D ] (9) [\mathbf{Z},Y,D] = [\mathbf{Z} \mid Y, D][Y \mid D][D] \tag{9}
 [ Z , Y , D ] = [ Z ∣ Y , D ] [ Y ∣ D ] [ D ] ( 9 ) 
通过贝叶斯法则,可以利用预测分布来推断未知的 Y Y Y D D D 
[ Y , D ∣ Z ] = [ Z ∣ Y , D ] [ Y ∣ D ] [ D ] [ Z ] (10) [Y, D \mid \mathbf{Z}] = \frac{[\mathbf{Z} \mid Y, D][Y \mid D][D]}{[\mathbf{Z}]} \tag{10}
 [ Y , D ∣ Z ] = [ Z ] [ Z ∣ Y , D ] [ Y ∣ D ] [ D ]  ( 10 ) 
其中 [ Z ] [\mathbf{Z}] [ Z ] 式 (10) 右侧积分(或总和)为 1 1 1 D D D 式 (10) 和贝叶斯公式中删除 D D D 
[ Y ∣ Z ] = [ Z ∣ Y ] [ Y ] [ Z ] (11) [Y \mid \mathbf{Z}] = \frac{[\mathbf{Z} \mid Y][Y]}{[\mathbf{Z}]} \tag{11}
 [ Y ∣ Z ] = [ Z ] [ Z ∣ Y ] [ Y ]  ( 11 ) 
上式是 Y Y Y D D D 式 (2) 和 式 (3) 的高斯分布假设下,可以很容易发现简单克里格预测是 式 (11) 的预测均值(Cressie 和 Wikle,2011)。
本文结构如下:
第 2 节 介绍 “空间过程模型” ,包括常用空间过程模型和多变量模型。第 3 节 介绍 “空间离散化” ,重点考虑 D ⊂ R d D \subset \mathbb{R}^d D ⊂ R d 式 (10) 或 式 (11) 的预测分布时,这是极其重要的因素之一。第 4 节 介绍 “时空过程模型” ,讨论空间过程模型到时空过程模型的扩展。第 5 节 为 “结论”,简要讨论了空间统计领域近期的重要研究课题,但由于篇幅有限,我们无法完整呈现。 
2 空间过程模型 
在本节中,我们讨论式 (10) 贝叶斯法则中的概率分布 [ Y ∣ D ] [Y \mid D] [ Y ∣ D ] [ Y ] [Y] [ Y ] [ D ] [D] [ D ] [ Z ∣ D ] [\mathbf{Z} \mid D] [ Z ∣ D ] [ Z ] [\mathbf{Z}] [ Z ] [ Z ∣ D ] [\mathbf{Z} \mid D] [ Z ∣ D ] [ Y ∣ D ] [Y \mid D] [ Y ∣ D ] [ D ] [D] [ D ] [ Z ∣ Y , D ] [\mathbf{Z} \mid Y,D] [ Z ∣ Y , D ] 式(10) 的贝叶斯法则允许我们通过预测分布 [ Y , D ∣ Z ] [Y, D \mid \mathbf{Z}] [ Y , D ∣ Z ] Y Y Y D D D 
我们提出了三种类型的空间过程模型,它们的区别是根据定义过程 Y Y Y D D D 
对于地统计过程,D = D G D = D^G D = D G > 0 > 0 > 0  
对于格元过程,D = D L D = D^L D = D L D L D^L D L  
对于点过程,D = D P D = D^P D = D P R d \mathbb{R}^d R d  
 
2.1 地统计过程 
在本节中,我们假设空间位置 D D D D G D^G D G D G D^G D G 式(10) 中的任何概率分布中删除 D D D 式(11)。这使我们能够专注于 Y Y Y Y Y Y { Y ( s ) : s ∈ D G } \{Y(\mathbf{s}) : \mathbf{s} \in D^G\} { Y ( s ) : s ∈ D G } D G D^G D G s \mathbf{s} s 
传统上,地统计过程被指定为二阶矩。从最一般性的定义开始,我们有
μ Y ( s ) ≡ E ( Y ( s ) ) ; s ∈ D G C Y ( s , u ) ≡ cov  ( Y ( s ) , Y ( u ) ) ; s , u ∈ D G \begin{align*}
\mu_Y(\mathbf{s}) &\equiv E (Y(\mathbf{s})) ; &\mathbf{s} \in D^G \tag{12}\\
C_Y (\mathbf{s,u}) &\equiv \operatorname{cov}(Y(\mathbf{s}),Y(\mathbf{u})); \quad &\mathbf{s,u} \in D^G \tag{13}
\end{align*}
 μ Y  ( s ) C Y  ( s , u )  ≡ E ( Y ( s )) ; ≡ cov ( Y ( s ) , Y ( u )) ;  s ∈ D G s , u ∈ D G  ( 12 ) ( 13 )  
从 式(12) 和 式(13) 中,我们的目标是获得域内任意点 s 0 \mathbf{s}_0 s 0  Y ( s 0 ) Y(\mathbf{s}_0) Y ( s 0  ) Y ^ ( s 0 ) \hat{Y}(\mathbf{s}_0) Y ^ ( s 0  ) Z ≡ ( Z ( s 1 ) , . . . , Z ( s n ) ) ′ \mathbf{Z} \equiv (Z(\mathbf{s}_1), ..., Z(\mathbf{s}_n))^\prime Z ≡ ( Z ( s 1  ) , ... , Z ( s n  ) ) ′ n n n D G ∗ ≡ { s 1 , … , s n } ⊂ D G D^{G∗} \equiv \{\mathbf{s}_1, \ldots , \mathbf{s}_n \} \subset D^G D G ∗ ≡ { s 1  , … , s n  } ⊂ D G n n n 
在实际工作中,由于缺乏重复数据(来自于随机过程的单样本假设),完全估计出 式(12) 和 式(13) 中的参数 θ \theta θ 本征平稳 的平稳性假设。也就是说,对于所有 s , u ∈ D G \mathbf{s,u} \in D^G s , u ∈ D G 
E ( Y ( s ) ) = μ Y o var  ( Y ( s ) − Y ( u ) ) = 2 γ Y o ( s − u ) \begin{align*}
E(Y(\mathbf{s})) &= \mu ^o_Y \tag{14}\\
\operatorname{var} (Y(\mathbf{s}) −Y(\mathbf{u})) &= 2 \gamma^o_Y (\mathbf{s} − \mathbf{u}) \tag{15}
\end{align*}
 E ( Y ( s )) var ( Y ( s ) − Y ( u ))  = μ Y o  = 2 γ Y o  ( s − u )  ( 14 ) ( 15 )  
其中 式(15) 等于 C Y ( s , s ) + C Y ( u , u ) − 2 C Y ( s , u ) C_Y (\mathbf{s,s}) + C_Y (\mathbf{u,u}) − 2C_Y (\mathbf{s,u}) C Y  ( s , s ) + C Y  ( u , u ) − 2 C Y  ( s , u ) 2 γ Y o ( ⋅ ) 2 \gamma^o_Y (·) 2 γ Y o  ( ⋅ ) γ Y o ( ⋅ ) \gamma^o_Y(·) γ Y o  ( ⋅ ) 
如果 式(15) 中的假设被替换为
cov  ( Y ( s ) , Y ( u ) = C Y o ( s − u ) ,  for all  s , u ∈ D G (16) \operatorname{cov}(Y(\mathbf{s}),Y (\mathbf{u}) = C^o_Y (\mathbf{s} − \mathbf{u}), \text{ for all } \mathbf{s,u} \in D^G \tag{16}
 cov ( Y ( s ) , Y ( u ) = C Y o  ( s − u ) ,  for all  s , u ∈ D G ( 16 ) 
那么 式(16) 和 式(14) 一起称为二阶平稳。 Matheron 选择 式(15) 是因为本征平稳可以在无需知道或估计 μ Y o \mu^o_Y μ Y o  Y ( s 0 ) Y(\mathbf{s}_0) Y ( s 0  ) Y ^ ( s 0 ) \hat{Y}(\mathbf{s}_0) Y ^ ( s 0  ) 
E [ ( Y ^ ( s 0 ) − Y ( s 0 ) ) 2 ] ,  for any  s 0 ∈ D G (17) E \left[ (\hat{Y}(\mathbf{s}_0) −Y(\mathbf{s}_0))^2 \right] , \text{ for any } \mathbf{s}_0 \in D^G \tag{17}
 E [ ( Y ^ ( s 0  ) − Y ( s 0  ) ) 2 ] ,  for any  s 0  ∈ D G ( 17 ) 
其中 Y ^ ( s 0 ) ≡ ∑ i = 1 n λ i Z ( s i ) \hat{Y}(\mathbf{s}_0) \equiv \sum^n_{i=1} \lambda_i Z(\mathbf{s}_i) Y ^ ( s 0  ) ≡ ∑ i = 1 n  λ i  Z ( s i  ) 
式(17) 的最小化受无偏估计 E ( Y ^ ( s 0 ) ) = E ( Y ( s 0 ) ) E(\hat{Y}(\mathbf{s}_0)) = E (Y (\mathbf{s}_0)) E ( Y ^ ( s 0  )) = E ( Y ( s 0  )) { λ i } \{\lambda_i\} { λ i  } ∑ i = 1 n λ i = 1 \sum^n_{i=1} \lambda_i = 1 ∑ i = 1 n  λ i  = 1 { λ i : i = 1 , . . . , n } \{\lambda _i : i = 1, ..., n\} { λ i  : i = 1 , ... , n } { λ i } \{\lambda_i\} { λ i  } Y ( s 0 ) Y(\mathbf{s}_0) Y ( s 0  ) 
图 1:2009 年 1 月澳大利亚温度的克里金预测图,叠加在数据的空间位置上。
 
图 2:图 1 中克里金预测对应的克里金标准差,式(18) 。
 
式(14) 中的常量均值假设可以扩展到线性回归 E ( Y ( s ) ) ≡ X ( s ) ′ β E(Y(\mathbf{s})) \equiv \mathbf{X}(\mathbf{s})^\prime \boldsymbol{\beta} E ( Y ( s )) ≡ X ( s ) ′ β s ∈ D G \mathbf{s} \in D^G s ∈ D G β \boldsymbol{\beta} β X ( s ) \mathbf{X}(\mathbf{s}) X ( s ) 1 1 1 E ( Y ( s ) ) E(Y(\mathbf{s})) E ( Y ( s )) 普通克里金法 被推广为 通用克里金法,同样记为 Y ^ ( s 0 ) \hat{Y}(\mathbf{s}_0) Y ^ ( s 0  ) 图 1 显示了 2009 年 1 月澳大利亚温度的 通用克里金 预测,覆盖了整个澳洲大陆 D G D^G D G Z \mathbf{Z} Z D G ∗ = { s 1 , … , s n } D^{G*} = \{\mathbf{s}_1, \ldots, \mathbf{s}_n\} D G ∗ = { s 1  , … , s n  } Y ^ ( s 0 ) \hat{Y}(\mathbf{s}_0) Y ^ ( s 0  ) 
式(17) 的 MSPE 被称为 克里金方差,其平方根称为 克里金标准差:
σ k ( s 0 ) ≡ ( E ( Y ^ ( s 0 ) − Y ( s 0 ) ) 2 ) 1 / 2 , for any  s 0 ∈ D G (18) \boldsymbol{\sigma}_k(\mathbf{s}_0) \equiv \left( E (\hat{Y} (\mathbf{s}_0) −Y (\mathbf{s}_0))^2\right) ^{1/2} ,\text{ for any } \mathbf{s}_0 \in D^G \tag{18}
 σ k  ( s 0  ) ≡ ( E ( Y ^ ( s 0  ) − Y ( s 0  ) ) 2 ) 1/2 ,  for any  s 0  ∈ D G ( 18 ) 
图 2 显示了与 图 1 中克里金预测变量相关的克里金标准差 D G D^G D G σ k ( s 0 ) \boldsymbol{\sigma}_k(\mathbf{s}_0) σ k  ( s 0  ) s 0 \mathbf{s}_0 s 0  普通克里金法 和 通用克里金法 能够生成最佳线性预测,但还有一个更好的预测,被称为 最佳最优预测 (best optimal predictor, BOP),它是在附加约束(如线性)下获得的所有最优预测中最好的那个。根据 式(10) 的贝叶斯规则,在没有任何约束的情况下最小化 MSPE 式(16) 得到的最优预测 Y ∗ ( s 0 ) ≡ E ( Y ( s 0 ) ∣ Z ) Y^∗(\mathbf{s}_0) \equiv E (Y (\mathbf{s}_0) \mid \mathbf{Z}) Y ∗ ( s 0  ) ≡ E ( Y ( s 0  ) ∣ Z ) Y ∗ ( s 0 ) Y^∗(\mathbf{s}_0) Y ∗ ( s 0  ) E ( Y ∗ ( s 0 ) ) = E ( Y ( s 0 ) ) E(Y^∗(\mathbf{s}_0)) = E(Y(\mathbf{s}_0)) E ( Y ∗ ( s 0  )) = E ( Y ( s 0  )) 
2.2 格元过程 
在本节中,我们假设空间位置 D D D D L D^L D L D L D^L D L R d \mathbb{R}^d R d D L ≡ { s 1 , s 2 , … } D^L \equiv \{\mathbf{s}_1, \mathbf{s}_2,\ldots \} D L ≡ { s 1  , s 2  , … } s i \mathbf{s}_i s i  N ( s i ) ⊂ D L   s i \mathscr{N}(\mathbf{s}_i) \subset D^L \ \mathbf{s}_i N ( s i  ) ⊂ D L   s i  
通常,邻居由 空间依赖矩阵 W W W s j ∈ N ( s i ) \mathbf{s} j \in \mathscr{N}(\mathbf{s}_i) s j ∈ N ( s i  ) w i , j w_{i, j} w i , j  W W W W W W ∥ s i − s j ∥ \| \mathbf{s}_i − \mathbf{s}_j \| ∥ s i  − s j  ∥ 1 1 1 0 0 0 W W W 邻接矩阵,而且当 s j ∈ N ( s i ) \mathbf{s}_j \in \mathscr{N}(\mathbf{s}_i) s j  ∈ N ( s i  ) s i ∈ N ( s j ) \mathbf{s}_i \in \mathscr{N}(s_j) s i  ∈ N ( s j  ) 
考虑 R 2 \mathbb{R}^2 R 2 D L = { ( x , y ) : x , y = 1 , … , 5 } D^L = \{(x, y) : x, y = 1, \ldots , 5\} D L = {( x , y ) : x , y = 1 , … , 5 } ( x , y ) (x, y) ( x , y ) N ( x , y ) = { ( x − 1 , y ) , ( x , y − 1 ) , ( x + 1 , y ) , ( x , y + 1 ) } \mathscr{N}(x, y) = \{(x − 1, y), (x, y − 1), (x + 1, y), (x, y + 1)\} N ( x , y ) = {( x − 1 , y ) , ( x , y − 1 ) , ( x + 1 , y ) , ( x , y + 1 )} 
其中网格节点 s i \mathbf{s}_i s i  × × × ∙ \bullet ∙ 
最常见的格元过程类型是 马尔可夫随机场 (MRF),它需要在空间域 R d \mathbb{R}^d R d s i ∈ D L \mathbf{s}_i \in D^L s i  ∈ D L { Y ( s ) : s ∈ D L } \{Y(\mathbf{s}) : \mathbf{s} \in D^L\} { Y ( s ) : s ∈ D L } 
[ Y ( s i ) ∣ Y ( D L ¬ s i ) ] = [ Y ( s i ) ∣ Y ( N ( s i ) ) ] (19) [Y(\mathbf{s}_i) \mid \mathbf{Y}(D^L  \neg{\mathbf{s}_i})] = [Y(\mathbf{s}_i) \mid \mathbf{Y}(\mathscr{N}(\mathbf{s}_i))] \tag{19}
 [ Y ( s i  ) ∣ Y ( D L ¬ s i  )] = [ Y ( s i  ) ∣ Y ( N ( s i  ))] ( 19 ) 
上式中 Y ( A ) ≡ { Y ( s j ) : s j ∈ A } \mathbf{Y}(A) \equiv \{Y (\mathbf{s}_j) : \mathbf{s}_j \in A\} Y ( A ) ≡ { Y ( s j  ) : s j  ∈ A } 
马尔可夫随机场是根据 式(19) 的条件概率定义的,这些条件概率表示只在相邻节点之间存在统计依赖性,这与地统计过程中的协方差函数(或变异函数)完全不同。具体来说,格元过程中的空间依赖性可以表示为:
[ Y ( s i ) ∣ Y ( D L ¬ s i ) ] = exp  { − f ( Y ( s i ) , Y ( N ( s i ) ) ) } C (20) [Y(\mathbf{s}_i) \mid \mathbf{Y}(D^L  \neg{\mathbf{s}_i})] =\frac{\exp \{− f (Y (\mathbf{s}_i), \mathbf{Y}(\mathscr{N}(\mathbf{s}_i)))\}}{C} \tag{20}
 [ Y ( s i  ) ∣ Y ( D L ¬ s i  )] = C exp { − f ( Y ( s i  ) , Y ( N ( s i  )))}  ( 20 ) 
其中 C C C 式(20) 的右侧积分(或求和)为 1 1 1 式(20) 在统计力学中也被称为吉布斯随机场,因为在正则条件下,Hammersley-Clifford 定理将联合概率分布与吉布斯测度联系在了一起(Besag,1974)。函数 f ( Y ( s i ) , Y ( N ( s i ) ) ) f (Y (\mathbf{s}_i), \mathbf{Y}(\mathscr{N}(\mathbf{s}_i))) f ( Y ( s i  ) , Y ( N ( s i  ))) { [ Y ( s i ) ∣ Y ( N ( s i ) ) ] : s i ∈ D L } \{[Y (\mathbf{s}_i) \mid \mathbf{Y}(\mathscr{N}(\mathbf{s}_i))] : \mathbf{s}_i \in D^L \} {[ Y ( s i  ) ∣ Y ( N ( s i  ))] : s i  ∈ D L } [ { Y ( s i ) : s i ∈ D L } ] [\{Y (\mathbf{s}_i) : \mathbf{s}_i \in D^L\}] [{ Y ( s i  ) : s i  ∈ D L }] 
让我们重新审视之前在 R 2 \mathbb{R}^2 R 2 D L D^L D L D 1 L D^L_1 D 1 L  D 2 L D^L_2 D 2 L  D 1 L D^L_1 D 1 L  D 2 L D^L_2 D 2 L  
这形成了一个棋盘图案,其中给定由 ∘ \circ ∘ D 2 L D^L_2 D 2 L  { Y ( u ) : u ∈ D 2 L } \{Y (\mathbf{u}) : \mathbf{u} \in D^L_2 \} { Y ( u ) : u ∈ D 2 L  } ∙ \bullet ∙ D 1 L D^L_1 D 1 L  { Y ( s ) : s ∈ D 1 L } \{Y(\mathbf{s}) : \mathbf{s} \in D^L_1 \} { Y ( s ) : s ∈ D 1 L  } 
Besag (1974) 引入了 条件自回归 (CAR) 模型,它是一个根据条件均值和方差定义的高斯马尔可夫随机场。我们也建议读者参考 LeSage 和 Pace (2009) 中讨论的另外一种格元过程模型,被称为 同步自回归 (SAR) 模型,并将其与条件自回归模型进行比较。对于 s i ∈ D L \mathbf{s}_i \in D^L s i  ∈ D L Y ( s i ) Y(\mathbf{s}_i) Y ( s i  ) 
E ( Y ( s i ) ∣ Y ( N ( s i ) ) ) = ∑ s j ∈ N ( s i ) c i , j Y ( s ) var  ( Y ( s i ) ∣ Y ( N ( s i ) ) ) = τ i 2 \begin{align*}
E(Y (\mathbf{s}_i) \mid \mathbf{Y}(\mathscr{N}(\mathbf{s}_i))) &= \sum_{\mathbf{s}_j \in \mathscr{N}(\mathbf{s}_i)} c_{i,j} Y (\mathbf{s}_) \tag{21} \\
\operatorname{var}(Y (\mathbf{s}_i) \mid \mathbf{Y}(\mathscr{N}(\mathbf{s}_i))) &= {\tau}^2_i \tag{22}
\end{align*}
 E ( Y ( s i  ) ∣ Y ( N ( s i  ))) var ( Y ( s i  ) ∣ Y ( N ( s i  )))  = s j  ∈ N ( s i  ) ∑  c i , j  Y ( s )  = τ i 2   ( 21 ) ( 22 )  
其中 c i , j c_{i, j} c i , j  c 1 , 1 = … = c n , n = 0 c_{1,1} = \ldots = c_{n,n} = 0 c 1 , 1  = … = c n , n  = 0 { τ i 2 } \{ \tau^2_i \} { τ i 2  } { s i } \{ \mathbf{s}_i \} { s i  } 
Y ∼ Gau  ( 0 , ( I − C ) − 1 M ) (23) \mathbf{Y} \sim \operatorname{Gau}(\mathbf{0}, (\mathbf{I-C})^{−1}\mathbf{M}) \tag{23}
 Y ∼ Gau ( 0 , ( I − C ) − 1 M ) ( 23 ) 
其中 Gau  ( μ , Σ ) \operatorname{Gau}( \boldsymbol{\mu }, \boldsymbol{\Sigma}) Gau ( μ , Σ ) μ \boldsymbol{\mu} μ Σ \boldsymbol{\Sigma} Σ M ≡ diag  ( τ 1 2 , … , τ n 2 ) \mathbf{M} \equiv \operatorname{diag}(\tau^2_1,\ldots,\tau^2_n) M ≡ diag ( τ 1 2  , … , τ n 2  ) 式(21) 中的系数 C ≡ { c i , j } \mathbf{C} \equiv \{c_{i, j}\} C ≡ { c i , j  } M − 1 ( I − C ) \mathbf{M}^{−1}(\mathbf{I-C}) M − 1 ( I − C ) R 2 \mathbb{R}^2 R 2 
格元过程对应的数据向量为 Z ≡ ( Z ( s 1 ) , … , Z ( s n ) ) ′ \mathbf{Z} \equiv (Z(\mathbf{s}_1), \ldots, Z(\mathbf{s}_n))^\prime Z ≡ ( Z ( s 1  ) , … , Z ( s n  ) ) ′ D L ∗ ≡ { s 1 , … , s n } ⊂ D L D^{L∗} \equiv \{\mathbf{s}_1,\ldots , \mathbf{s}_n \} \subset D^L D L ∗ ≡ { s 1  , … , s n  } ⊂ D L 第 1 节 定义,数据模型为 [ Z ∣ { Y ( s ) : s ∈ D L } ] [\mathbf{Z} \mid \{Y(\mathbf{s}) : \mathbf{s} \in D^L \}] [ Z ∣ { Y ( s ) : s ∈ D L }] θ \theta θ [ Z ∣ Y , θ ] [\mathbf{Z} \mid Y, \theta ] [ Z ∣ Y , θ ] [ { Y ( s ) : s ∈ D L } ∣ θ ] ≡ [ Y ∣ θ ] [\{Y(\mathbf{s}) : \mathbf{s} \in D^L \} \mid \boldsymbol{\theta}] \equiv [Y \mid \boldsymbol{\theta} ] [{ Y ( s ) : s ∈ D L } ∣ θ ] ≡ [ Y ∣ θ ] L ( θ ) ≡ ∫ [ Z ∣ Y , θ ] [ Y ∣ θ ] d Y \mathscr{L} ( \boldsymbol{\theta} ) \equiv \int [\mathbf{Z} \mid Y, \theta ] [Y \mid \theta ] dY L ( θ ) ≡ ∫ [ Z ∣ Y , θ ] [ Y ∣ θ ] d Y θ \theta θ 
对于空间预测任务,根据 s 0 ∈ D L \mathbf{s}_0 \in D^L s 0  ∈ D L θ \theta θ Y ( s 0 ) Y(\mathbf{s}_0) Y ( s 0  ) Y ∗ ( s 0 ) ≡ E ( Y ( s 0 ) ∣ Z , θ ) Y^∗(\mathbf{s}_0) \equiv E(Y (\mathbf{s}_0) \mid \mathbf{Z}, \theta) Y ∗ ( s 0  ) ≡ E ( Y ( s 0  ) ∣ Z , θ ) s 0 \mathbf{s}_0 s 0  D L ∗ D^{L*} D L ∗ s 0 \mathbf{s}_0 s 0  Y ∗ ( s 0 ) Y^*(\mathbf{s}_0) Y ∗ ( s 0  ) Y ( s 0 ) Y(\mathbf{s}_0) Y ( s 0  ) Y Y Y 
2.3 空间点过程和随机集 
空间点过程是随机位置 D ≡ D P ⊂ D D \equiv D^P \subset \mathscr{D} D ≡ D P ⊂ D { N ( A ) : A ⊂ D } \{ N(A) : A \subset \mathscr{D}\} { N ( A ) : A ⊂ D } D \mathscr{D} D A A A D \mathscr{D} D A A A { s i } \{\mathbf{s}_i\} { s i  } N ( A ) = 2 N(A) = 2 N ( A ) = 2 D P = { s i } D^P = \{\mathbf{s}_i\} D P = { s i  } A A A N ( A ) N(A) N ( A ) 
显然,对于包含在 D \mathscr{D} D { A j : j = 1 , … , m } \{A_j : j = 1, \ldots, m\} { A j  : j = 1 , … , m } m = 0 , 1 , 2 , … m = 0, 1, 2,\ldots m = 0 , 1 , 2 , … [ N ( A 1 ) , … , N ( A m ) ] [N(A_1), \ldots, N(A_m)] [ N ( A 1  ) , … , N ( A m  )] { A j } \{A_j \} { A j  } A 1 A_1 A 1  A 2 A_2 A 2  m = 2 m = 2 m = 2 A 1 ∩ A 2 A_1 \cap A_2 A 1  ∩ A 2  A 1 A_1 A 1  A 2 A_2 A 2  
[ N ( A 1 ) , N ( A 2 ) ] = [ N ( A 1 ) ] [ N ( A 2 ) ] (24) [N(A_1), N(A_2)] = [N(A_1)] [N(A_2)] \tag{24}
 [ N ( A 1  ) , N ( A 2  )] = [ N ( A 1  )] [ N ( A 2  )] ( 24 ) 
最基础的点过程被称为 泊松点过程 ,其具有 式(24) 的独立性,其相关的计数过程满足:
[ N ( A ) ] = exp  { − λ ( A ) } λ ( A ) N ( A ) N ( A ) ! ; A ⊂ D (25) [N(A)] = \exp\{−\lambda (A)\} \frac{\lambda (A)^{N(A)}}{ N(A)!} ; A \subset \mathscr{D} \tag{25}
 [ N ( A )] = exp { − λ ( A )} N ( A )! λ ( A ) N ( A )  ; A ⊂ D ( 25 ) 
其中 λ ( A ) ≡ ∫ A λ ( s ) d s \lambda (A) \equiv \int_A \lambda(\mathbf{s})d \mathbf{s} λ ( A ) ≡ ∫ A  λ ( s ) d s 式(25) 中,λ ( ⋅ ) \lambda (·) λ ( ⋅ ) 
λ ( s ) ≡ lim  ∣ δ s ∣ → 0 E ( Y ( δ s ) ) ∣ δ s ∣ (26) \lambda (\mathbf{s}) \equiv \lim_{| \boldsymbol{\delta}_{\mathbf{s}} | \rightarrow 0} \frac{ E (Y (\boldsymbol{\delta}_{\mathbf{s}})) }{| \boldsymbol{\delta}_{\mathbf{s}} | } \tag{26}
 λ ( s ) ≡ ∣ δ s  ∣ → 0 lim  ∣ δ s  ∣ E ( Y ( δ s  ))  ( 26 ) 
其中 δ s \boldsymbol{\delta}_\mathbf{s} δ s  s ∈ D \mathbf{s} \in \mathscr{D} s ∈ D ∣ δ s ∣ | \boldsymbol{\delta}_{\mathbf{s}} | ∣ δ s  ∣ 
在 式(25) 中,对于所有 s ∈ D \mathbf{s} \in \mathscr{D} s ∈ D λ ( s ) ≡ λ \lambda(\mathbf{s}) \equiv \lambda λ ( s ) ≡ λ 图 3 所示。该模拟是使用与 式(25) 等效的概率表示获得的计数随机变量 N ( D ) N(\mathscr{D}) N ( D ) D = [ 0 , 1 ] × [ 0 , 1 ] \mathscr{D} = [0, 1] × [0, 1] D = [ 0 , 1 ] × [ 0 , 1 ] N ( D ) N(\mathscr{D}) N ( D ) { s 1 , … , s N ( D ) } \{\mathbf{s}_1, \ldots , \mathbf{s}_N(\mathscr{D})\} { s 1  , … , s N  ( D )} 
[ u ] = { 1 λ ( D ) ; u ∈ D 0 ;  elsewhere  (27) [\mathbf{u}]=\left\{\begin{array}{l}
\frac{1}{\lambda(\mathscr{D})} ; \quad \mathbf{u} \in \mathscr{D} \\
0 ; \text { elsewhere }
\end{array}\right . \tag{27}
 [ u ] = { λ ( D ) 1  ; u ∈ D 0 ;  elsewhere   ( 27 ) 
上述表示也解释了为何齐次泊松点过程通常被称为 完全空间随机 (CSR) 过程,以及为什么它被用做点过程中不存在空间依赖性的测试基线。也就是说, 在将空间模型拟合到点模式之前,通常会对点模式源自完全空间随机过程的原假设进行检验 。拒绝完全空间随机过程然后证明空间相关点过程与数据的拟合才是合理的(例如,Ripley,1981;Diggle,2013)。
图 3: 在单位正方形 D = [ 0 , 1 ] × [ 0 , 1 ] \mathscr{D}=[0,1]\times[0,1] D = [ 0 , 1 ] × [ 0 , 1 ] 式 25),其中参数 λ = 50 \lambda= 50 λ = 50 N ( D ) = 46 N(\mathscr{D})=46 N ( D ) = 46 
 
很多关于点过程的早期研究致力于建立对各种类型 CSR 过程偏离敏感的测试统计数据(例如,Cressie,1993,第 8.2 节)。随后是研究人员定义并估计空间相关性度量,例如二阶强度函数和 K K K 式(25) 中的 λ ( ⋅ ) \lambda (·) λ ( ⋅ ) { log  ( λ ( s ) ) : s ∈ D } \{\log(\lambda (\mathbf{s})) : \mathbf{s} \in \mathscr{D}\} { log  ( λ ( s )) : s ∈ D } λ ( ⋅ ) \lambda (·) λ ( ⋅ ) 
如果属性过程 { Y ( s i ) : s i ∈ D P } \{Y (\mathbf{s}_i) : \mathbf{s}_i \in D^P\} { Y ( s i  ) : s i  ∈ D P } D P D^P D P 标记点过程(例如,Cressie,1993,第 8.7 节)。例如,对天然森林的研究,其中位置 { s i } \{\mathbf{s}_i\} { s i  } { Y ( s i ) } \{Y (\mathbf{s}_i)\} { Y ( s i  )} { Y ( s i ) : s i ∈ D P } \{Y (\mathbf{s}_i) : \mathbf{s}_i \in D^P\} { Y ( s i  ) : s i  ∈ D P } 式(10) 的贝叶斯规则(其中 Y Y Y D ( = D P ) D (= D^P) D ( = D P ) Y Y Y D P D^P D P [ Y , D P ∣ Z ] [Y, D^P \mid \mathbf{Z}] [ Y , D P ∣ Z ] Z \mathbf{Z} Z 式(5) 中所示。通过边缘化,我们可以得到空间点过程 D P D^P D P [ D P ∣ Z ] [D^P \mid \mathbf{Z}] [ D P ∣ Z ] 
空间点过程是 随机集(Random Set) 的特例。随机集是欧几里德空间中的随机量,由 Matheron (1975) 严格定义。一些地质过程更自然地建模为 以集合做为值 的现象(例如,矿化相),但是随机集过程的推断落后于空间点过程的推断。很难根据 集合值 数据来定义似然,这阻碍了统计上有效的推断;尽管如此,基本的矩估计方法通常还是可用的。允许从 集合值 数据中进行推断的最著名随机集是 布尔模型(Boolean Model)(例如,Cressie 和 Wikle,2011,第 4.4 节)。
2.4 多元空间过程 
前面的小节介绍了单个空间统计过程,但是随着模型成为复杂世界的更真实的表示,需要表达多个过程之间的相互作用。这通过对矢量值 “地统计过程” { Y ( s ) : s ∈ D G } \{ \mathbf{Y}(\mathbf{s}) : \mathbf{s} \in D^G \} { Y ( s ) : s ∈ D G } { Y ( s i ) : s i ∈ D L } \{ \mathbf{Y}(\mathbf{s}_i) : \mathbf{s}_i \in D^L \} { Y ( s i  ) : s i  ∈ D L } k k k Y ( s ) ≡ ( Y 1 ( s ) , … , Y k ( s ) ) ′ \mathbf{Y}(\mathbf{s}) \equiv (Y_1(\mathbf{s}),\ldots ,Y_k(\mathbf{s}))^\prime Y ( s ) ≡ ( Y 1  ( s ) , … , Y k  ( s ) ) ′ s ∈ D \mathbf{s} \in D s ∈ D k k k { s 1 , i , … , s k , i } \{ { \mathbf{s}_{1,i} },\ldots, { \mathbf{s}_{k,i} } \} { s 1 , i  , … , s k , i  } 
在下文中,我们简要描述了构建多元地统计过程的两种方法,一种基于联合方法,另一种基于条件方法。我们考虑 k = 2 k = 2 k = 2 { ( Y 1 ( s ) , Y 2 ( s ) ) ′ : s ∈ D G } \{(Y_1(\mathbf{s}),Y_2(\mathbf{s}))^\prime : \mathbf{s} \in D^G\} {( Y 1  ( s ) , Y 2  ( s ) ) ′ : s ∈ D G } 
(1)联合方法 
对于 s ∈ D G \mathbf{s} \in D^G s ∈ D G μ ( s ) ≡ ( μ 1 ( s ) , μ 2 ( s ) ) ′ ≡ ( E ( Y 1 ( s ) ) , E ( Y 2 ( s ) ) ) ′ \boldsymbol{\mu} (\mathbf{s}) \equiv ( \mu_1(\mathbf{s}), \mu_2(\mathbf{s}))^\prime \equiv (E(Y_1(\mathbf{s})), E(Y_2(\mathbf{s})))^\prime μ ( s ) ≡ ( μ 1  ( s ) , μ 2  ( s ) ) ′ ≡ ( E ( Y 1  ( s )) , E ( Y 2  ( s )) ) ′ 
cov  ( Y l ( s ) , Y m ( u ) ) ≡ C l m ( s , u ) ; l , m = 1 , 2 (28) \operatorname{cov}(Y_l(\mathbf{s}),Y_m(\mathbf{u})) \equiv C_{lm}(\mathbf{s,u}); l, m = 1, 2 \tag{28}
 cov ( Y l  ( s ) , Y m  ( u )) ≡ C l m  ( s , u ) ; l , m = 1 , 2 ( 28 ) 
对于 s , u ∈ D G \mathbf{s,u} \in D^G s , u ∈ D G μ ( ⋅ ) \boldsymbol{\mu} (·) μ ( ⋅ ) 
类似于单变量情况,协方差和互协方差函数集 { C 11 ( ⋅ , ⋅ ) , C 22 ( ⋅ , ⋅ ) , C 12 ( ⋅ , ⋅ ) , C 21 ( ⋅ , ⋅ ) } \{C_{11}(·,·), C_{22}(·,·), C_{12}(·,·), C_{21}(·,·)\} { C 11  ( ⋅,⋅ ) , C 22  ( ⋅,⋅ ) , C 12  ( ⋅,⋅ ) , C 21  ( ⋅,⋅ )} C 12 ( s , u ) ≠ C 21 ( s , u ) C_{12}(\mathbf{s,u}) \neq C_{21}(\mathbf{s,u}) C 12  ( s , u )  = C 21  ( s , u ) C 12 ( s , u ) = C 21 ( s , u ) C_{12}(\mathbf{s,u}) = C_{21}(\mathbf{s,u}) C 12  ( s , u ) = C 21  ( s , u ) 
(2)条件方法 
条件方法 (Cressie and ZammitMangion, 2016) 中 k k k k = 2 k = 2 k = 2 Y 1 ( ⋅ ) Y_1(·) Y 1  ( ⋅ ) Y 2 ( ⋅ ) Y_2(·) Y 2  ( ⋅ ) 
[ Y 1 ( ⋅ ) , Y 2 ( ⋅ ) ] = [ Y 2 ( ⋅ ) ∣ Y 1 ( ⋅ ) ] [ Y 1 ( ⋅ ) ] (29) [Y_1(·),Y_2(·)] = [Y_2(·) \mid Y_1(·)][Y_1(·)] \tag{29}
 [ Y 1  ( ⋅ ) , Y 2  ( ⋅ )] = [ Y 2  ( ⋅ ) ∣ Y 1  ( ⋅ )] [ Y 1  ( ⋅ )] ( 29 ) 
其中 [ Y 2 ( ⋅ ) ∣ Y 1 ( ⋅ ) ] [Y_2(·) \mid Y_1(·)] [ Y 2  ( ⋅ ) ∣ Y 1  ( ⋅ )] [ Y 2 ( ⋅ ) ∣ { Y 1 ( s ) : s ∈ D G } ] [Y_2(·) \mid \{Y_1(s) : \mathbf{s} \in D^G \}] [ Y 2  ( ⋅ ) ∣ { Y 1  ( s ) : s ∈ D G }] 
[ Y 1 ( ⋅ ) ] [Y_1(·)] [ Y 1  ( ⋅ )] μ 1 ( ⋅ ) \mu_1(·) μ 1  ( ⋅ ) C 11 ( ⋅ , ⋅ ) C_{11}(·,·) C 11  ( ⋅,⋅ ) Y 2 ( ⋅ ) Y_2(·) Y 2  ( ⋅ ) Y 1 ( ⋅ ) Y_1(·) Y 1  ( ⋅ ) s , u ∈ D G \mathbf{s,u} \in D^G s , u ∈ D G 
E [ Y 2 ( s ) ∣ Y 1 ( ⋅ ) ] ≡ μ 2 ( s ) + ∫ D G b ( s , v ) ( Y 1 ( v ) − μ 1 ( v ) ) d v cov  ( Y 2 ( s ) , Y 2 ( u ) ∣ Y 1 ( ⋅ ) ) ≡ C 2 ∣ 1 ( s , u ) \begin{align*}
E[Y_2(s) \mid Y_1(·)] &\equiv \mu_2(s) + ∫ D^G b(s, v) (Y_1(v) − \mu_1(v)) dv \tag{30}\\
\operatorname{cov}(Y_2(s),Y_2(u) \mid Y_1(· )) &\equiv C_{2 \mid 1}(s, u) \tag{31}
\end{align*}
 E [ Y 2  ( s ) ∣ Y 1  ( ⋅ )] cov ( Y 2  ( s ) , Y 2  ( u ) ∣ Y 1  ( ⋅ ))  ≡ μ 2  ( s ) + ∫ D G b ( s , v ) ( Y 1  ( v ) − μ 1  ( v )) d v ≡ C 2 ∣ 1  ( s , u )  ( 30 ) ( 31 )  
其中 C 2 ∣ 1 ( ⋅ , ⋅ ) C_{2 \mid 1}(·,·) C 2 ∣ 1  ( ⋅,⋅ ) b ( ⋅ , ⋅ ) b(·,·) b ( ⋅,⋅ ) ( Y 1 ( ⋅ ) , Y 2 ( ⋅ ) ) ′ (Y_1(·),Y_2(·))^\prime ( Y 1  ( ⋅ ) , Y 2  ( ⋅ ) ) ′ 式(30) 和 式(31) 给出的条件矩假设会随之而来。
Cressie 和 Zammit-Mangion (2016) 表明,根据 式(30) 和 式(31),
C 12 ( s , u ) = ∫ D G C 11 ( s , v ) b ( u , v ) d v C 21 ( s , u ) = ∫ D G C 11 ( v , u ) b ( v , s ) d v C 22 ( s , u ) = C 2 ∣ 1 ( s , u ) + ∫ D G ∫ D G b ( s , v , v ) C 11 ( v , w ) b ( u , w ) d v d w \begin{align*}
C_{12}(\mathbf{s,u}) &= ∫ D^G C_{11}(\mathbf{s,v})b(\mathbf{u,v}) d \mathbf{v} \tag{32}\\
C_{21}(\mathbf{s,u}) &= \int D^G C_{11}(\mathbf{v,u})b(\mathbf{v,s}) d \mathbf{v} \tag{33} \\
C_{22}(\mathbf{s,u}) &= C_{2 \mid 1}(\mathbf{s,u}) + \int_{D^G} \int_{D^G} b(\mathbf{s,v}, \mathbf{v})C_{11}(\mathbf{v,w})b(\mathbf{u,w}) d \mathbf{v} d \mathbf{w} \tag{34}
\end{align*}
 C 12  ( s , u ) C 21  ( s , u ) C 22  ( s , u )  = ∫ D G C 11  ( s , v ) b ( u , v ) d v = ∫ D G C 11  ( v , u ) b ( v , s ) d v = C 2 ∣ 1  ( s , u ) + ∫ D G  ∫ D G  b ( s , v , v ) C 11  ( v , w ) b ( u , w ) d v d w  ( 32 ) ( 33 ) ( 34 )  
对于 s , u ∈ D G \mathbf{s,u} \in D^G s , u ∈ D G μ 1 ( ⋅ ) \mu_1(·) μ 1  ( ⋅ ) μ 2 ( ⋅ ) \mu_2(·) μ 2  ( ⋅ ) C 11 ( ⋅ , ⋅ ) C_{11}(·,·) C 11  ( ⋅,⋅ ) 式(32)– 式(34) 定义了一个有效的双变量地统计过程 [ Y 1 ( ⋅ ) , Y 2 ( ⋅ ) ] [Y_1(·),Y_2(·)] [ Y 1  ( ⋅ ) , Y 2  ( ⋅ )] 
条件方法的一个显著特性是,如果 b ( s , u ) ≠ b ( u , s ) b(\mathbf{s,u}) \neq b(\mathbf{u,s}) b ( s , u )  = b ( u , s ) C 12 ( s , u ) ≠ C 21 ( s , u ) C_{12}(\mathbf{s,u}) \neq C_{21}(\mathbf{s,u}) C 12  ( s , u )  = C 21  ( s , u ) 
总之,条件方法允许通过简单地指定 μ ( ⋅ ) = ( μ 1 ( ⋅ ) , μ 2 ( ⋅ ) ) ′ \mu (·) = ( \mu_1(·), \mu_2(·))^\prime μ ( ⋅ ) = ( μ 1  ( ⋅ ) , μ 2  ( ⋅ ) ) ′ C 1 ( ⋅ , ⋅ ) C_1(·,·) C 1  ( ⋅,⋅ ) C 2 ∣ 1 ( ⋅ , ⋅ ) C_{2 \mid 1}(·,·) C 2 ∣ 1  ( ⋅,⋅ ) b ( ⋅ , ⋅ ) b(·,·) b ( ⋅,⋅ ) 
3 空间离散化 
尽管地统计过程是在连续空间域 D G D^G D G n n n n × n n × n n × n n 3 n^3 n 3 n 2 n^2 n 2 
在实际应用中,空间统计推断需要只需要达到有限空间分辨率即可,因此,许多方法希望通过将空间域 D \mathscr{D} D 图 4 所示。作为这种离散化的结果,地统计过程可以转而通过格元过程来近似,例如高斯马尔可夫随机场(例如,Rue 和 Held,2005 年,第 5.1 节),但有时这会导致不希望的离散化误差和伪影。目前,已经开发出了一些更复杂的方法,来获得在不规则网格上评估地统计(即连续索引)空间过程的高精度近似。
令原始域 D \mathscr{D} D { A j ⊂ D : j = 1 , . . . , m } \{A_j \subset \mathscr{D} : j = 1, . . . , m\} { A j  ⊂ D : j = 1 , ... , m } D = ∪ j = 1 m A j \mathscr{D} = \cup^m_{ j=1} A_j D = ∪ j = 1 m  A j  j ≠ k ∈ { 1 , … , m } j \neq k \in \{1, \ldots , m\} j  = k ∈ { 1 , … , m } A j A ^ k A_j \hat A_k A j  A ^ k  图 4 给出了三角形基本区域单元的示例。可以在基本区域单元上定义空间基函数 { ϕ ( ⋅ ) : l = 1 , … , r } \{\phi(·) : l = 1, \ldots , r\} { ϕ ( ⋅ ) : l = 1 , … , r } r > m r > m r > m r < m r < m r < m 
Vecchia 近似(例如,Datta 等人,2016 年;Katzfuss 等人,2020 年)也是使用离散点网格 D L ⊂ D G ⊂ D D^L \subset D^G \subset \mathscr{D} D L ⊂ D G ⊂ D D G ∗ = { s 1 , … , s n } D^{G∗} = \{\mathbf{s}_1, \ldots , \mathbf{s}_n\} D G ∗ = { s 1  , … , s n  } { s n + 1 , … , s n + p } \{\mathbf{s}_{n+1}, \ldots , \mathbf{s}_{n+p}\} { s n + 1  , … , s n + p  } [ X ] ≡ [ Z , Y ] [\mathbf{X}] \equiv [\mathbf{Z},Y ] [ X ] ≡ [ Z , Y ] Z \mathbf{Z} Z Y Y Y D L ≡ { s 1 , … , s n , s n + 1 , … , s n + p } D^L \equiv \{ \mathbf{s}_1, \ldots , \mathbf{s}_n, \mathbf{s}_{n+1}, \ldots , \mathbf{s}_{n+p} \} D L ≡ { s 1  , … , s n  , s n + 1  , … , s n + p  } 
[ X ] = ∏ i = 1 n + p [ X ( s i ) ∣ X ( s 1 ) , … , X ( s i − 1 ) ] (35) [\mathbf{X}] =\prod^{n+p}_{i= 1} [X(\mathbf{s}_i) \mid X(\mathbf{s}_1),\ldots , X(\mathbf{s}_{i−1})] \tag{35}
 [ X ] = i = 1 ∏ n + p  [ X ( s i  ) ∣ X ( s 1  ) , … , X ( s i − 1  )] ( 35 ) 
在上一节中,空间坐标集 D L D^L D L { s 1 , … , s n + p } \{\mathbf{s}_1,\ldots, \mathbf{s}_{n+p}\} { s 1  , … , s n + p  } { s ( 1 ) , … , s ( n + p ) } \{\mathbf{s}_{(1)}, \dots, \mathbf{s}_{(n+p)}\} { s ( 1 )  , … , s ( n + p )  } N ( s ( i ) ) ⊂ { s ( 1 ) , … , s ( i − 1 ) } N (\mathbf{s}_{(i)}) \subset \{\mathbf{s}_{(1)}, \dots, \mathbf{s}_{(i−1)}\} N ( s ( i )  ) ⊂ { s ( 1 )  , … , s ( i − 1 )  } j < i j < i j < i s ( j ) \mathbf{s}_{(j)} s ( j )  N ( s ( i ) ) N(\mathbf{s}_{(i)}) N ( s ( i )  ) s ( i ) \mathbf{s}_{(i)} s ( i )  N ( s ( j ) ) N(\mathbf{s}_{(j)}) N ( s ( j )  ) q ≪ n q \ll n q ≪ n ∣ N ( s ( i ) ) ∣ ≤ q | N(\mathbf{s}_{(i)}) | \leq q ∣ N ( s ( i )  ) ∣ ≤ q { N ( s i ) : i = 1 , … , n + p } \{N (\mathbf{s}_i) : i = 1, \ldots, n + p \} { N ( s i  ) : i = 1 , … , n + p } D \mathscr{D} D 
然后由 式(35) 给出的联合分布 [ X ] [\mathbf{X}] [ X ] 
∏ i = 1 n + p [ X ( s ( i ) ) ∣ X ( N ( s ( i ) ) ) ] ≡ [ X ~ ] (36) \prod^{n+ p}_{i= 1} [X (\mathbf{s}_{(i)}) \mid \mathbf{X}(N (\mathbf{s}_{(i)}))] \equiv [\tilde{\mathbf{X}}] \tag{36}
 i = 1 ∏ n + p  [ X ( s ( i )  ) ∣ X ( N ( s ( i )  ))] ≡ [ X ~ ] ( 36 ) 
这是一个偏序的马尔可夫模型 (POMM; Cressie and Davidson, 1998)。Vecchia 近似 [ X ~ ] [\tilde{\mathbf{X}}] [ X ~ ] D G D^G D G log  ( λ ( s ) ) \log(\lambda (\mathbf{s})) log  ( λ ( s )) [ X ~ ∣ Z ] [\tilde{\mathbf{X}} \mid \mathbf{Z}] [ X ~ ∣ Z ] [ x ∣ Z ] [ \mathbf{x} \mid \mathbf{Z}] [ x ∣ Z ] 
4 时空过程 
标题为“多变量空间过程”的部分介绍了以矢量形式编写的过程,
Y ( s ) ≡ ( Y 1 ( s ) , … , Y k ( s ) ) ′ ; s ∈ D G (37) \mathbf{Y}(\mathbf{s}) \equiv (Y_1(\mathbf{s}), \ldots,Y_k(\mathbf{s}))^\prime; \mathbf{s} \in D^G \tag{37}
 Y ( s ) ≡ ( Y 1  ( s ) , … , Y k  ( s ) ) ′ ; s ∈ D G ( 37 ) 
在那一节中,我们区分了多元空间统计建模的联合方法和条件方法,并且在条件方法下,我们使用有向无环图来给出多元空间相关性的蓝图。
现在,考虑一个时空过程,
{ Y ( s ; t ) : s ∈ D G ; t ∈ T } \{ Y (\mathbf{s};t) : \mathbf{s} \in D^G; t \in \mathcal{T} \}
 { Y ( s ; t ) : s ∈ D G ; t ∈ T } 
其中 T \mathcal{T} T T = { 1 , 2 , … } \mathcal{T} = \{1, 2, \ldots\} T = { 1 , 2 , … } 式(38) 就变成了时间序列的空间过程,{ Y ( s ; 1 ) , Y ( s ; 2 ) , … : s ∈ D G } \{Y (\mathbf{s}; 1),Y (\mathbf{s}; 2),\ldots : \mathbf{s} \in D^G \} { Y ( s ; 1 ) , Y ( s ; 2 ) , … : s ∈ D G } T = { 1 , 2 , … , k } \mathcal{T} = \{1, 2, \ldots, k \} T = { 1 , 2 , … , k } Y j ( s ) ≡ Y ( s ; j ) Y_j(\mathbf{s}) \equiv Y(\mathbf{s}; j) Y j  ( s ) ≡ Y ( s ; j ) j = 1 , … , k j = 1,\ldots, k j = 1 , … , k 式(37) 给出的多元空间过程.毫不奇怪,与多变量空间过程一样,时空过程也会出现相同的统计依赖性建模方法二分法(即联合与条件)。
描述 Y Y Y ( s ; t ) (\mathbf{s};t) ( s ; t ) ( u ; v ) (\mathbf{u};v) ( u ; v ) d d d R d \mathbb{R}^d R d ( d + 1 ) (d + 1) ( d + 1 ) 
C ( s ; t , u ; v ) ≡ cov  ( Y ( s ; t ) , Y ( u ; v ) ) ; s , u ∈ D G , t , v ∈ T (39) C(\mathbf{s};t, \mathbf{u}; v) \equiv \operatorname{cov}(Y (\mathbf{s};t),Y (\mathbf{u}; v)); \mathbf{s,u} \in D^G, t, v \in \mathcal{T} \tag{39}
 C ( s ; t , u ; v ) ≡ cov ( Y ( s ; t ) , Y ( u ; v )) ; s , u ∈ D G , t , v ∈ T ( 39 ) 
当然,时间维度与空间维度的单位不同,未来是不可观察的,其解释也不同。因此,基于 式(39) 的空间和时间的联合建模必须小心进行,以在这种时空建模的描述性方法中考虑时间维度的特殊性质
从当前和过去的时空数据 Z \mathbf{Z} Z Y Y Y Y Y Y Y Y Y 
描述动态方法的最佳方式是将空间域离散化。上一节“空间离散化”描述了实现此目的的多种方法;在这里,我们将考虑在计算机内存中存储属性和位置信息最自然的离散化,即像素或体素(“体积元素”的缩写)的精细分辨率格元 D L D^L D L { Y ( s ; t ) : s ∈ D G , t = 1 , 2 , … } \{Y (\mathbf{s};t) : \mathbf{s} \in D^G, t = 1, 2, \ldots \} { Y ( s ; t ) : s ∈ D G , t = 1 , 2 , … } { Y ( s ; t ) : s ∈ D L , t = 1 , 2 , } \{Y (\mathbf{s};t) : \mathbf{s} \in D^L, t = 1, 2, \} { Y ( s ; t ) : s ∈ D L , t = 1 , 2 , } D^L \equiv {\mathbf{s}_1, \ldots,\mathbf{s}_m\}  是构成 D G D^G D G { s 1 , … , s m } × { 1 , 2 , … } \{\mathbf{s}_1, \ldots,\mathbf{s}_m \} × \{1, 2, \ldots\} { s 1  , … , s m  } × { 1 , 2 , … } Y Y Y 
定义 Y t ≡ ( Y ( s ; t ) : s ∈ D L ) ′ Y_t \equiv (Y (\mathbf{s};t) : \mathbf{s} \in D^L)^\prime Y t  ≡ ( Y ( s ; t ) : s ∈ D L ) ′ m m m { Y ( s ; t ) : s ∈ D L , t = 1 , . . . , k } \{Y (\mathbf{s};t) : \mathbf{s} \in D^L, t = 1, ..., k\} { Y ( s ; t ) : s ∈ D L , t = 1 , ... , k } t = 1 t = 1 t = 1 t = k t = k t = k 
[ Y 1 , Y 2 , … , Y k ] = [ Y 1 ] [ Y 2 ∣ Y 1 ] … [ Y k ∣ Y k − 1 , … , Y 2 , Y 1 ] [\mathbf{Y}_1, \mathbf{Y}_2, \ldots, \mathbf{Y}_k] = [\mathbf{Y}_1][\mathbf{Y}_2 \mid \mathbf{Y}_1] \ldots [\mathbf{Y}_k \mid \mathbf{Y}_{k-1}, \dots, \mathbf{Y}_2, \mathbf{Y}_1]
 [ Y 1  , Y 2  , … , Y k  ] = [ Y 1  ] [ Y 2  ∣ Y 1  ] … [ Y k  ∣ Y k − 1  , … , Y 2  , Y 1  ] 
与 式(35) 具有相同的形式。请注意,这种空间和时间的条件建模是一种自然的方法,因为时间是完全有序的。下一步是做出马尔可夫假设,因此 式(40) 可以写成
[ Y 1 , Y 2 , … , Y k ] = [ Y 1 ] ∏ j = 2 k [ Y j ∣ Y j − 1 ] [\mathbf{Y}_1, \mathbf{Y}_2, \ldots, \mathbf{Y}_k] = [\mathbf{Y}_1] \prod^{k}_{j= 2} [\mathbf{Y}_j \mid \mathbf{Y}_{j-1}]
 [ Y 1  , Y 2  , … , Y k  ] = [ Y 1  ] j = 2 ∏ k  [ Y j  ∣ Y j − 1  ] 
这与我们之前在“格元过程”中讨论的马尔可夫属性相同,只是它现在应用于完全有序的一维域,m a t h c a l T = { 1 , 2 , … } \\mathcal{T} = \{1, 2, \ldots \} ma t h c a l T = { 1 , 2 , … } N ( j ) = j − 1 N(j) = j −1 N ( j ) = j − 1 N ( j ) = j − 1 N(j) = j − 1 N ( j ) = j − 1 [ Y j ∣ Y j − 1 , … , Y 2 , Y 1 ] = [ Y j ∣ Y j − 1 ] [\mathbf{Y}_j \mid \mathbf{Y}_{j−1}, \ldots, \mathbf{Y}_2, \mathbf{Y}_1] = [\mathbf{Y}_j \mid \mathbf{Y}_{ j−1}] [ Y j  ∣ Y j − 1  , … , Y 2  , Y 1  ] = [ Y j  ∣ Y j − 1  ] 式(41)。
有关 式(39) 给出的描述性方法中使用的模型类型和 式(41) 给出的动态方法中使用的模型类型的更多信息,请参见 Cressie 和 Wikle(2011 年,第 6-8 章)和 Wikle 等人. (2019 年,第 4 章和第 5 章)。对来自这些过程的观察结果的统计分析称为时空统计。使用 R 软件从时空数据推断(估计和预测)可以在 Wikle 等人中找到。 (2019)。
5 结论 
空间统计方法对估计或预测中的不确定性提供了经过良好校准的量化,从而使其与地理和环境科学中的其他空间分析方法有了明显区别。
(1)总结 
在本文中,空间科学现象中的不确定性由空间过程模型 { Y ( s ) : s ∈ D } \{Y(\mathbf{s}) : \mathbf{s} \in D\} { Y ( s ) : s ∈ D } R d \mathbb{R}^d R d D D D Z \mathbf{Z} Z 
在 第 1 节 中,我们了解了如何使用贝叶斯规则来组合上述两个模型来计算统计推断所需的总体不确定性。
除了一些例外情况(例如,Cressie 和 Kornak,2003 年),空间统计模型很少考虑 D \mathscr{D} D D ∗ ≡ { u i : i = 1 , … , n } D^∗ \equiv \{\mathbf{u}_i : i = 1, \ldots, n\} D ∗ ≡ { u i  : i = 1 , … , n } [ D ∗ ∣ D ] [D^* \mid D] [ D ∗ ∣ D ] [ D ] [D] [ D ] Z ≡ { ( u i , Z ( u i ) ) : i = 1 , … , n } \mathbf{Z} \equiv \{(\mathbf{u}_i, Z(\mathbf{u}_i)) : i = 1, \ldots , n\} Z ≡ {( u i  , Z ( u i  )) : i = 1 , … , n } [ Y , D ] [Y, D] [ Y , D ] [ Z ∣ Y , D ] [\mathbf{Z} \mid Y,D] [ Z ∣ Y , D ] 式(10) 给出的贝叶斯规则从预测分布 [ Y , D ∣ Z ] [Y, D \mid \mathbf{Z}] [ Y , D ∣ Z ] 
空间过程模型主要分为三种类型:
地统计过程:过程 Y Y Y D = D G D = D^G D = D G  
格元过程:过程 Y Y Y Y Y Y D = D L D = D^L D = D L  
点过程:在空间域 D = D P D = D^P D = D P  
 
多个空间过程可以相互影响,形成多元空间过程。重要的是,过程可以随时间和空间变化,形成时空过程。
随着空间数据集的规模急剧增加,越来越多的注意力集中在空间统计模型的可扩展计算上。特别受关注的是使用 “空间离散化” 来近似连续空间域 D G D^G D G 
(2)最新进展 
我们认为值得一提的是空间统计方面的其他最新进展,这里进行简短的介绍:
关于非平稳性 :物理障碍有时会中断空间上非常接近的位置之间的统计关联。已经开发了障碍模型(Bakka 等人,2019 年)来解释空间相关函数中的这些类型的不连续性。对空间过程模型中的非平稳性、各向异性和异方差性进行建模的其他方法是一个活跃的研究领域。
 
关于先验的选择 :通常很难为平稳空间过程的参数选择合适的先验分布,例如其相关长度尺度。惩罚复杂性先验(Simpson 等人,2017 年)是一种通过支持参数值来鼓励简约的方法,这些参数值会产生与数据一致的最简单模型。点过程或非高斯格元模型的似然函数在分析和计算上都是难以处理的。已经开发了替代模型、仿真器和准似然来近似这些棘手的似然(Moores 等人,2020 年)。
 
关于多变量建模 :Copula (Krupskii 和 Genton,2019 年)是对多变量数据中的空间依赖性进行建模的替代方法,尤其是当数据是非高斯数据时。可能出现非高斯性的一个领域是对极端事件之间的空间关联进行建模,例如温度或降水(Tawn 等,2018 年;Bacro 等,2020 年)。
 
关于小样本建模 :来自有限数量观测的可数空间随机变量,可以通过离散化过程来精细化。在现代计算环境中,这是进行空间统计推断(包括克里金法)的关键。