【摘 要】许多应用的目标是建立一套回归模型,以便在空间相关性假设下对感兴趣区域上的响应变量作出解释。在几乎所有这些工作中,回归系数都假定为在该区域内恒定。但在某些应用中,预测系数会在局部或子区域水平上有所不同,而这种情形正是本文的重点。尽管空间表面( Surface )的参数化建模是可能的(如多项式表面建模、样条建模等),但我们认为将其视为空间随机过程的一次实现更为自然和灵活。在本文中,我们展示了在高斯响应背景下,如何对这种建模方法进行形式化,使其能够在随机效应和残差分析方面提供更有吸引力的解释。我们还提供了广义线性模型和时空场景的扩展。文中将在单户住宅售价数据集上展示静态和动态建模和解释能力。
【参 考】
Gelfand, A. E., Kim, H.-J., Sirmans, C. F., & Banerjee, S. (2003). Spatial modeling with spatially varying coefficient processes. Journal of the American Statistical Association, 98(462), 387–396. https://doi.org/10.1198/016214503000170 )
Finley, a. O., & Banerjee, S. (2020). Bayesian spatially varying coefficient models in the spBayes R package. Environmental Modelling & Software, 125, 104608. https://doi.org/10.1016/j.envsoft.2019.104608
1 引言
快速、廉价计算的广泛可用性以及功能强大、用户友好的地理信息系统 (GIS) 软件导致在房地产/金融、流行病学、环境计量学/生态、通讯等领域产生了大量空间和时空数据。反过来,这也推动统计社区增加了大量空间建模和数据分析的活动。
(1)问题的提出
在许多应用中,目标是建立回归模型来解释在感兴趣区域(例如 D D D )上观测到的响应变量,并且假设响应是空间相关的。也就是说,虽然可以通过均值完成一些空间建模,但我们还是可以预期响应之间存在依赖性,并且随着两个响应变量之间在空间中变得更接近,这种依赖会变得更强。对于以点为参考的连续响应场景,如果作出高斯分布假设(可能在一个变换后的尺度上),则通常直接使用高斯过程对这种依赖性进行建模。已经有大量这方面的文献资料, Cressie (1993) 的书也许是一个起点。例如,在二值响应或计数响应情况下,通常会采用分层建模方法,在第一阶段(数据模型阶段)使用指数族模型,然后将高斯分布的空间随机效应引入到(与链接函数相关的)变换后尺度的均值结构中(这里指采用广义线性回归模型对数据建模,而过程模型则是高斯响应的;参见如 Diggle、Tawn 和 Moyeed 1998)。
在几乎所有这些工作中,回归系数被假定在整个区域内是恒定的。在某些应用中,这并不合适。回归系数有可能会在局部或次区域水平上有所不同。例如:
Assunçao、Gamerman (1999) 引入了 贝叶斯空间变化参数模型
来检验巴西农业中的微观区域要素生产率和要素可替代性。
Agarwal、Gelfand、Sirmans 和 Thibadeau(2003 年)在局部平稳空间建模背景下,引入了影响学区(和子学区)层面房价因素的局部回归模型。
Gamerman、Moreira 和 Rue (2001) 通过模拟研究开发了一种用于空间变化回归模型的灵活建模方法。
这些作者都做出了相当严格的假设,即系数在特定空间单元(面元)上保持恒定。这些空间单元上的表面(Surface)使用独立或有条件的自回归规范进行建模。因此,会产生新的担忧,如空间单元分辨尺度的随意性问题、表面缺乏平滑度的问题、表面是否所有位置都能内插的问题等。
当使用点参考数据时,如果能够允许系数随位置变化,形成一个特定系数的空间表面似乎更具吸引力。例如,在我们的应用中,模拟了单户住宅的(对数)售价,解释变量包括房屋年龄、居住面积、其他区域面积、浴室数量。如果感兴趣的地区是一个城市或更大的大都市区,那么很明显,资本化率(如年龄)将在整个地区有所不同。该地区中,某些区域的二手房价值将高(或低)于其他地区。如果允许年龄的回归系数随位置变化,我们就可以解决上述问题。考虑到实际价值(如房地产评估),我们可以预测任意属性的回顾系数,而不仅仅是在调查期间出售的那些。在对特定污染物的环境暴露进行建模时也会出现类似的问题,其中协变量可能包括温度和降水。
(2)一些解决办法及存在问题
一种可能的方法是对参数化系数的空间表面建模。在最简单的情况下,可以采用任意多项式表面函数来指定;这可能会导致一系列表面过于有限或过于灵活。
在二维空间上使用样条曲面也可以引入更多灵活性(参见例如,Luo 和 Wahba 1998),但需要在空间中选择样条函数并确定结点数量和位置。此外,对于多个系数,样条曲面的多变量指定是必需的。
(3)本文思路
本文采用的方法更自然,至少同样灵活。我们将空间变系数的表面建模为空间过程的实现。对于多个回归系数,则使用多元空间过程模型。事实上,我们使用了一个平稳性假设,可以通过选择协方差函数(例如 Matèrn 类)来模拟所需过程进而实现平滑度。 Kent (1989) 和 Stein (1999a) 提供了关于单变量过程的讨论; Banerjee 和 Gelfand (2003) 提供了有关多元过程的讨论。
我们的建模框架采用贝叶斯方法。这在建议的设置中很有吸引力,因为我们对随机空间效应的推断特别感兴趣。特别是,我们可以在观测到和未观测到的位置获得 空间系数过程
的完整后验,以及所有模型参数的后验。在任何其他框架中似乎都无法对既没有观测值也没有残差解释的过程进行插值。对于高斯型响应,虽然可以通过似然方法进行一些推断,但它更有限,特别是区间估计依赖于可能不合适的渐近。对于非高斯数据,几乎肯定需要近似值,可以采用我们在 第 7 节
中提供的形式,但推断仍然会受到限制。
为了清晰地解释和实现:
首先,我们在 单个协变量
的情况下开发一般性方法,因此有两个空间变化的系数过程,一个用于 “截距”,一个用于 “斜率”。
然后,我们转向多个协变量的情况。因为即使在基本多元回归设置中,系数估计通常也会显示出一些强相关性,因此预计空间变系数过程的集合是相互依赖的。因此,我们使用多变量过程模型。实际上,我们提出了进一步的概括,以建立多元回归模型的空间模拟(例如,参见 Goldstein 1995)。
我们还考虑了灵活的时空可能性。
上文提到的房地产场景提供了测点级别的协变量,其系数具有相当大的实际意义,来自洛杉矶巴吞鲁日的单户住宅销售数据集可以进行说明。除了表现出特殊地形的区域外,我们预计空间变化系数模型将比趋势面模型更有用。也就是说,将纬度和经度的多项式合并到均值结构中这种做法,不会被期望用于允许跨区域变化的代理模型。
文章的结构安排如下:
第 2 节详细介绍了单个协变量的高斯建模方法。
第 3 节讨论了多协变量的情况。
第 4 节提出了时空环境中一系列不同的系数指定。
第 5 节评论简要介绍了模型比较。
第 6 节展示了一个使用上述单户住宅销售数据的示例。
第 7 节以对广义线性模型设置的一些讨论结束。
第 8 节讨论大 n 问题j
第 9 节介绍可用的软件包。
2 单自变量的空间变系数模型
2.1 传统非变系数的空间过程模型
回想一下普通的单变量高斯平稳空间过程模型( Cressie, 1993):
Y ( s ) = μ ( s ) + W ( s ) + ϵ ( s ) (1) Y(\mathbf{s})=\mu(\mathbf{s})+W(\mathbf{s})+\epsilon(\mathbf{s}) \tag{1}
Y ( s ) = μ ( s ) + W ( s ) + ϵ ( s ) ( 1 )
其中:
μ ( s ) = x ( s ) T β \mu(\mathbf{s})=\mathbf{x}(\mathbf{s})^T \boldsymbol{\beta} μ ( s ) = x ( s ) T β ,含截距项 β 0 \beta_0 β 0
ϵ ( s ) \epsilon(\mathbf{s}) ϵ ( s ) 是白噪声过程,其均值为 E ( ϵ ( s ) ) = 0 \mathbb{E}(\epsilon(\mathbf{s}))=0 E ( ϵ ( s )) = 0 ,方差为 Var ( ϵ ( s ) ) = τ 2 \operatorname{Var}(\epsilon(\mathbf{s}))=\tau^2 Var ( ϵ ( s )) = τ 2 ,且任意两点之间的噪声相互独立,即有 Cov ( ϵ ( s ) , ϵ ( s ′ ) ) = 0 \operatorname{Cov}( \epsilon(\mathbf{s}),\epsilon(\mathbf{s}^{\prime}))=0 Cov ( ϵ ( s ) , ϵ ( s ′ )) = 0
W ( s ) W(\mathbf{s}) W ( s ) 为空间随机效应项,是二阶平稳的零均值空间过程,该过程独立于噪声过程。
均值 E ( W ( s ) ) = 0 \mathbb{E}(W(\mathbf{s}))=0 E ( W ( s )) = 0
方差 Var ( W ( s ) ) = σ 2 \operatorname{Var}(W(\mathbf{s}))=\sigma^2 Var ( W ( s )) = σ 2
任意两点之间的协方差 Cov ( W ( s ) , W ( s ′ ) ) = σ 2 ρ ( s , s ′ ; ϕ ) \operatorname{Cov} (W(\mathbf{s}), W(\mathbf{s}^{\prime}))=\sigma^2 \rho(\mathbf{s}, \mathbf { s}^{\prime}; \phi) Cov ( W ( s ) , W ( s ′ )) = σ 2 ρ ( s , s ′ ; ϕ ) ,即协方差可以由方差和相关函数 ρ \rho ρ 计算得到,其中相关函数 ρ \rho ρ 通常是两点之间某种空间距离的函数。
式 (1)
隐含地定义了一个分层模型。
2.2 截距的空间随机过程
如果令 μ ( s ) = β 0 + β 1 x ( s ) \mu(\mathbf{s})=\beta_0+\beta_1 x(\mathbf{s}) μ ( s ) = β 0 + β 1 x ( s ) ,并将 W ( s ) W(\mathbf{s}) W ( s ) 改写为 W ( s ) = β 0 ( s ) W(\mathbf{s})=\beta_0(\mathbf{s}) W ( s ) = β 0 ( s ) 的形式,则可以定义一个辅助符号 β ~ 0 ( s ) = β 0 + β 0 ( s ) \tilde{\boldsymbol{\beta}}_0(\mathbf{s})=\beta_0+\beta_0(\mathbf{s}) β ~ 0 ( s ) = β 0 + β 0 ( s ) 。也就是说,β 0 ( s ) \beta_0(\mathbf{s}) β 0 ( s ) 可以被解释为在位置 s \mathbf{s} s 处对截距 β 0 \beta_0 β 0 的随机空间调整,而对应的 β ~ 0 ( s ) \tilde{\boldsymbol{\beta}}_0(\mathbf{s}) β ~ 0 ( s ) 可以被视为关于截距的随机过程。
非空间变系数模型主要建模空间依赖性,其中线性分量 β 1 x ( s ) \beta_1 x(\mathbf{s}) β 1 x ( s ) 可以视为趋势面,而空间过程 β 0 ( s ) \beta_0(\mathbf{s}) β 0 ( s ) 可以被视为截距 β 0 \beta_0 β 0 的随机效应。之所以该模型并非变系数模型,是因为该模型中只有截距项是空间变化的,与因变量 x ( s ) x(\mathbf{s}) x ( s ) 有关的斜率项 β 1 \beta_1 β 1 并非空间变化的。或者换句话说,非空间变系数模型只有截距项是空间变化的,所有反映因变量和响应变量之间关系的斜率项和空间变化无关。
现在再来看 式(1)
,对于观测到的一组位置 s 1 , s 2 , … , s n \mathbf{s}_1, \mathbf{s}_2, \ldots, \mathbf{s}_n s 1 , s 2 , … , s n ,当给定 β 0 \beta_0 β 0 , β 1 \beta_1 β 1 ,{ β 0 ( s i ) } \{\beta_0(\mathbf {s}_i)\} { β 0 ( s i )} 、τ 2 \tau^2 τ 2 时,响应变量 Y ( s i ) = β 0 + β 1 x ( s i ) + β 0 ( s i ) + ϵ ( s i ) Y(\mathbf{s}_i)=\beta_0+\beta_1 x(\mathbf{s}_ {\mathbf{i}})+\beta_0(\mathbf{s}_{\mathbf{i}})+\epsilon(\mathbf{s}_{\mathbf{i} }) Y ( s i ) = β 0 + β 1 x ( s i ) + β 0 ( s i ) + ϵ ( s i ) 条件独立( i = 1 , … , n i=1, \ldots, n i = 1 , … , n )。因此第一阶段的似然可以形式化为:
L ( β 0 , β 1 , { β 0 ( s i ) } , τ 2 ; y ) = ( τ 2 ) − n 2 exp { − 1 2 τ 2 ∑ [ Y ( s i ) . . . . − ( β 0 + β 1 x ( s i ) + β 0 ( s i ) ) 2 ] } (2) L (\beta_0, \beta_1,\{\beta_0 (\mathbf{s}_i)\}, \tau^2; \mathbf{y})= (\tau^2)^{-\frac{n}{2}} \exp \{-\frac{1}{2 \tau^2} \sum [Y(\mathbf{s}_i).. ..-(\beta_0+\beta_1 x(\mathbf{s}_i)+\beta_0(\mathbf{s}_i))^2]\} \tag{2}
L ( β 0 , β 1 , { β 0 ( s i )} , τ 2 ; y ) = ( τ 2 ) − 2 n exp { − 2 τ 2 1 ∑ [ Y ( s i ) .... − ( β 0 + β 1 x ( s i ) + β 0 ( s i ) ) 2 ]} ( 2 )
根据前面的定义,向量 β 0 = ( β 0 ( s 1 ) , … , β 0 ( s n ) ) T \boldsymbol{\beta_0}=(\beta_0(\mathbf{s}_1), \ldots, \beta_0(\mathbf{s} _n))^T β 0 = ( β 0 ( s 1 ) , … , β 0 ( s n ) ) T 显然服从零均值的多元高斯分布:
f ( β 0 ∣ σ 0 2 , ϕ 0 ) = N ( 0 , σ 0 2 H 0 ( ϕ 0 ) ) (3) f(\boldsymbol{\beta}_0 \mid \sigma_0^2, \phi_0)=N(\mathbf{0}, \sigma_0^2 H_0(\phi_0)) \tag{3}
f ( β 0 ∣ σ 0 2 , ϕ 0 ) = N ( 0 , σ 0 2 H 0 ( ϕ 0 )) ( 3 )
其中任意两个测点之间的相关性函数表示为 ( H 0 ( ϕ 0 ) ) i j = ρ 0 ( s i − s j ; ϕ 0 ) (H_0(\phi_0))_{i j}=\rho_0(\mathbf{s}_i-\mathbf{s}_j ; \phi_0) ( H 0 ( ϕ 0 ) ) ij = ρ 0 ( s i − s j ; ϕ 0 ) ,很明显和两点之间的距离定义 ∥ s − s ′ ∥ \| \mathbf{s}-\mathbf{s^\prime} \| ∥ s − s ′ ∥ 有关。对于接下来的所有讨论和示例,我们都将采用 Matèrn 相关函数
ρ ( h , ϕ ) \rho(\mathbf{h}, \phi) ρ ( h , ϕ ) 来表示,其中 ρ ( h , ϕ ) ∝ ( γ ( ∥ h ∥ ) ) v K v ( γ ( ∥ h ∥ ) ) \rho(\mathbf{h}, \phi) \propto(\gamma(\|\mathbf{h}\|))^v K_v (\gamma(\|\mathbf{h}\|)) ρ ( h , ϕ ) ∝ ( γ ( ∥ h ∥ ) ) v K v ( γ ( ∥ h ∥ )) 。该相关函数中,K v K_v K v 是一个修改后的 Bessel 函数
,参数 ϕ = ( γ , ν ) \boldsymbol{\phi}=(\gamma, \nu) ϕ = ( γ , ν ) ,其中 γ \gamma γ 是衰减参数,ν \nu ν 是平滑度参数。一旦指定了 β 0 \beta_0 β 0 、β 1 \beta_1 β 1 、τ 2 \tau^2 τ 2 、σ 0 2 \sigma_0^2 σ 0 2 和 ϕ 0 \phi_0 ϕ 0 的先验,贝叶斯分层模型的定义就完成了。
在 式 (2)
和 式 (3)
下,可以对 β 0 \boldsymbol{\beta_0} β 0 进行积分,从而得到模型参数的边缘似然:
L ( β 0 , β 1 , τ 2 , σ 0 2 , ϕ 0 ; y ) = x ∣ σ 0 2 H 0 ( ϕ 0 ) + τ 2 I ∣ − 1 2 × exp { − 1 2 ( y − β 0 1 − β 1 x ) T ( σ 0 2 H 0 ( ϕ 0 ) + τ 2 I ) − 1 × ( y − β 0 1 − β 1 x ) } (4) \begin{aligned}
L (\beta_0, \beta_1, \tau^2, \sigma_0^2, \phi_0 ; \mathbf{y}) = &x | \sigma_0^2 H_0 (\phi_0) + \tau^2 I |^{-\frac{1}{2}} \\
&\times \exp \{ -\frac{1}{2} (\mathbf{y}-\beta_0 \mathbf{1}-\beta_1 \mathbf{x})^T (\sigma_0^2 H_0(\phi_0)+\tau^2 I)^{-1} \times(\mathbf{y}-\beta_0 \mathbf{1}-\beta_1 \mathbf{x})\} \tag{4}
\end{aligned}
L ( β 0 , β 1 , τ 2 , σ 0 2 , ϕ 0 ; y ) = x ∣ σ 0 2 H 0 ( ϕ 0 ) + τ 2 I ∣ − 2 1 × exp { − 2 1 ( y − β 0 1 − β 1 x ) T ( σ 0 2 H 0 ( ϕ 0 ) + τ 2 I ) − 1 × ( y − β 0 1 − β 1 x )} ( 4 )
其中 x = ( x ( s 1 ) , … , x ( s n ) ) T \mathbf{x}=(x(\mathbf{s}_1), \ldots, x(\mathbf{s}_n))^T x = ( x ( s 1 ) , … , x ( s n ) ) T 。
我们可以关注下其与普通高斯随机效应模型的对比:
普通模型为 Y i j = β 0 + β 1 x i j + α i + e i j Y_{i j}=\beta_0+\beta_1 x_{i j}+\alpha_i+e_{i j} Y ij = β 0 + β 1 x ij + α i + e ij ,其中 α i \alpha_i α i 为 N ( 0 , σ α 2 ) N(0, \sigma_\alpha^2) N ( 0 , σ α 2 ) 的独立同分布样本,ϵ i j \epsilon_{i j} ϵ ij 是 N ( 0 , σ ϵ 2 ) N(0, \sigma_\epsilon^2) N ( 0 , σ ϵ 2 ) 的独立同分布样本。此模型通常无法识别(分离)方差分量 σ α 2 \sigma_\alpha^2 σ α 2 和 σ ϵ 2 \sigma_\epsilon^2 σ ϵ 2 。但在新模型中,由于 β 0 ( s i ) \beta_0 (\mathbf{s}_i) β 0 ( s i ) 之间存在依赖关系,而噪声分量之间相互独立,因此能够识别不同的方差分量,如 式 (4)
所示。此外,如果 U ( s ) U(\mathbf{s}) U ( s ) 表示回归模型中的总误差,则 U ( s ) U(\mathbf{s}) U ( s ) 可以被分解为 “截距过程误差” 和 “纯噪声误差”。
如果我们采用随机模拟的方法用 式(4)
中的边缘似然来拟合贝叶斯模型,则必须获取来自于后验分布 f ( β 0 , β 1 , τ 2 , σ 0 2 , ϕ ∣ y ) f(\beta_0, \beta_1, \tau^2, \sigma_0^2, \phi \mid \mathbf{y}) f ( β 0 , β 1 , τ 2 , σ 0 2 , ϕ ∣ y ) 的样本。但布 β 0 ∣ y \boldsymbol{\beta}_0 \mid \mathbf{y} β 0 ∣ y 的样本仍然可以一对一获得,因为:
f ( β 0 ∣ y ) = ∫ f ( β 0 ∣ β 0 , β 1 , τ 2 , . . σ 0 2 , ϕ 0 , y ) × f ( β 0 , β 1 , τ 2 , σ 0 2 , ϕ 0 ∣ y ) (5) \begin{aligned}
f(\boldsymbol{\beta}_0 \mid \mathbf{y})=\int f(\boldsymbol{\beta}_0 \mid \beta_0, \beta_1, \tau^2,.&.\sigma_0^2, \phi_0, \mathbf{y}) \\
& \times f(\beta_0, \beta_1, \tau^2, \sigma_0^2, \phi_0 \mid \mathbf{y})
\end{aligned} \tag{5}
f ( β 0 ∣ y ) = ∫ f ( β 0 ∣ β 0 , β 1 , τ 2 , . . σ 0 2 , ϕ 0 , y ) × f ( β 0 , β 1 , τ 2 , σ 0 2 , ϕ 0 ∣ y ) ( 5 )
其中
f ( β 0 ∣ β 0 , β 1 , τ 2 , σ 0 2 , ϕ 0 , y ) = N ( ( 1 τ 2 I + 1 σ 0 2 H 0 − 1 ( ϕ 0 ) ) − 1 1 τ 2 ( y − β 0 1 − β 1 x ) , ( 1 τ 2 I + 1 σ 0 2 H 0 − 1 ( ϕ 0 ) ) − 1 ) \begin{aligned}
f(\beta_0 \mid \beta_0, \beta_1, \tau^2, \sigma_0^2, \phi_0, \mathbf{y}) \\
&=\mathcal{N} ( ( \frac{1}{\tau^2} I + \frac{1}{\sigma_0^2} H_0^{-1} ( \phi_0 ))^{-1} \frac{1}{\tau^2} (\mathbf{y} - \beta_0 \mathbf{1}- \beta_1 \mathbf{x}),
(\frac{1}{\tau^2} I + \frac{1}{\sigma_0^2} H_0^{-1} ( \phi_0 ))^{-1} )
\end{aligned}
f ( β 0 ∣ β 0 , β 1 , τ 2 , σ 0 2 , ϕ 0 , y ) = N (( τ 2 1 I + σ 0 2 1 H 0 − 1 ( ϕ 0 ) ) − 1 τ 2 1 ( y − β 0 1 − β 1 x ) , ( τ 2 1 I + σ 0 2 1 H 0 − 1 ( ϕ 0 ) ) − 1 )
我们也可以从 β 0 ( s ) \beta_0(\mathbf{s}) β 0 ( s ) 过程的后验分布中获取新位置处的样本,例如对于新位置 s new \mathbf{s}_{\text {new}} s new ,我们可以得到 β 0 ( s ) \beta_0(\mathbf{s}) β 0 ( s ) 表面的如下插值预测:
f ( β 0 ( s new ) ∣ y ) = ∫ f ( β 0 ( s new ) ∣ β 0 , σ 0 2 , ϕ 0 ) f ( β 0 , σ 0 2 , ϕ 0 ∣ y ) (6) f(\beta_0(\mathbf{s}_{\text {new }}) \mid \mathbf{y})=\int f(\beta_0(\mathbf{s}_{\text {new }}) \mid \boldsymbol{\beta}_0, \sigma_0^2, \phi_0) f(\beta_0, \sigma_0^2, \phi_0 \mid \mathbf{y}) \tag{6}
f ( β 0 ( s new ) ∣ y ) = ∫ f ( β 0 ( s new ) ∣ β 0 , σ 0 2 , ϕ 0 ) f ( β 0 , σ 0 2 , ϕ 0 ∣ y ) ( 6 )
积分下的第一个密度是一个单变量高斯分布,可以直接从 β 0 ( s ) \beta_0(\mathbf{s}) β 0 ( s ) 的定义给出。对于给定 y \mathbf{y} y 时的预测 y ( s new ) y(\mathbf{s}_{\text {new }}) y ( s new ) ,我们要求:
f ( y ( s new ) ∣ y ) = ∫ f ( y ( s n e w ) ∣ β 0 , β 1 , β 0 ( s n e w ) , τ 2 ) × f ( β 0 ( s new ) ∣ β 0 , σ 0 2 , ϕ 0 ) × f ( β 0 , β 0 , β 1 , τ 2 , σ 0 2 , ϕ 0 ∣ y ) (7) \begin{aligned}
f(y(\mathbf{s}_{\text {new }}) \mid \mathbf{y})=\int & f(y(\mathbf{s}_{n e w}) \mid \beta_0, \beta_1, \beta_0(\mathbf{s}_{n e w}), \tau^2) \\
& \times f(\beta_0(\mathbf{s}_{\text {new }}) \mid \beta_0, \sigma_0^2, \phi_0) \\
& \times f(\boldsymbol{\beta}_0, \beta_0, \beta_1, \tau^2, \sigma_0^2, \phi_0 \mid \mathbf{y})
\end{aligned} \tag{7}
f ( y ( s new ) ∣ y ) = ∫ f ( y ( s n e w ) ∣ β 0 , β 1 , β 0 ( s n e w ) , τ 2 ) × f ( β 0 ( s new ) ∣ β 0 , σ 0 2 , ϕ 0 ) × f ( β 0 , β 0 , β 1 , τ 2 , σ 0 2 , ϕ 0 ∣ y ) ( 7 )
积分符号下的第一项是正态密度。同样,从该预测分布中获取样本也很简单。
2.3 斜率的空间随机过程
根据上述改进,我们很快就会想到一个空间变系数模型的设计思想。假设我们令自变量的系数 β 1 \beta_1 β 1 也出现随机效应:
Y ( s ) = β 0 + β 1 x ( s ) + β 1 ( s ) x ( s ) + ϵ ( s ) (8) Y(\mathbf{s})=\beta_0+\beta_1 x(\mathbf{s})+\beta_1(\mathbf{s}) x(\mathbf{s})+\epsilon(\mathbf{s}) \tag{8}
Y ( s ) = β 0 + β 1 x ( s ) + β 1 ( s ) x ( s ) + ϵ ( s ) ( 8 )
与传统模型的推导很类似,只是在 式(8)
中,β 1 ( s ) \beta_1(\mathbf{s}) β 1 ( s ) 是一个二阶平稳的零均值高斯过程,其方差为 σ 1 2 \sigma_1^2 σ 1 2 ,相关函数为 ρ 1 ( ⋅ ; ϕ 1 ) \rho_1(\cdot ; \phi_1 ) ρ 1 ( ⋅ ; ϕ 1 ) 。如果令 β ~ 1 ( s ) = β 1 + β 1 ( s ) \tilde{\boldsymbol{\beta}}_1(\mathbf{s})=\beta_1+\beta_1(\mathbf{s}) β ~ 1 ( s ) = β 1 + β 1 ( s ) ,则现在 β 1 ( s ) \beta_1(\mathbf{s}) β 1 ( s ) 可以被解释为在位置 s \mathbf{s} s 处,对整体斜率 β 1 \beta_1 β 1 的随机空间调整。等效地,β ~ 1 ( s ) \tilde{\boldsymbol{\beta}}_1(\mathbf{s}) β ~ 1 ( s ) 可以被视为关于斜率的一个随机过程。实际上,我们正在使用一个无限维函数来解释 x ( s ) x(\mathbf{s}) x ( s ) 和 Y ( s ) Y(\mathbf{s}) Y ( s ) 之间的关系。
式 (8)
对 式 (2)
和 式 (3)
做了明显修改。特别是,由此产生的边缘似然变成了:
L ( β 0 , β 1 , τ 2 , σ 1 2 , ϕ 1 ; y ) = ∣ σ 1 2 D x H 1 ( ϕ 1 ) D x + τ 2 I ∣ − 1 2 × exp { − 1 2 ( y − β 0 1 − β 1 x ) T ( σ 1 2 D x H 1 ( ϕ 1 ) D x + τ 2 I ) − 1 . . × ( y − β 0 1 − β 1 x ) } (9) \begin{aligned}
&L(\beta_0, \beta_1, \tau^2, \sigma_1^2, \phi_1 ; \mathbf{y}) \\
&=|\sigma_1^2 D_x H_1(\phi_1) D_x+\tau^2 I|^{-\frac{1}{2}} \\
&\quad \times \exp \{-\frac{1}{2}(\mathbf{y}-\beta_0 \mathbf{1}-\beta_1 \mathbf{x})^T(\sigma_1^2 D_x H_1(\phi_1) D_x+\tau^2 I)^{-1}. \\
&.\quad \times(\mathbf{y}-\beta_0 \mathbf{1}-\beta_1 \mathbf{x})\}
\end{aligned} \tag{9}
L ( β 0 , β 1 , τ 2 , σ 1 2 , ϕ 1 ; y ) = ∣ σ 1 2 D x H 1 ( ϕ 1 ) D x + τ 2 I ∣ − 2 1 × exp { − 2 1 ( y − β 0 1 − β 1 x ) T ( σ 1 2 D x H 1 ( ϕ 1 ) D x + τ 2 I ) − 1 . . × ( y − β 0 1 − β 1 x )} ( 9 )
其中 D x D_x D x 是以 ( D x ) i i = x ( s i ) (D_x)_{i i}=x(\mathbf{s}_i) ( D x ) ii = x ( s i ) 为对角线的对角矩阵。此外,由于 β 1 = ( β 1 ( s 1 ) , … , β 1 ( s n ) ) T \boldsymbol{\beta}_1=(\beta_1(\mathbf{s}_1), \ldots, \beta_1(\mathbf{s}_n))^T β 1 = ( β 1 ( s 1 ) , … , β 1 ( s n ) ) T ,使用 类似 式 (5)
和 式 (6)
的方式,我们可以得到 f ( β 1 ∣ y ) f(\boldsymbol{\beta}_1 \mid \mathbf{y}) f ( β 1 ∣ y ) 和新位置处 f ( β 1 ( s new ) ∣ y ) f(\beta_1(\mathbf{s}_{\text {new }}) \mid \mathbf{y}) f ( β 1 ( s new ) ∣ y ) 的样本 。
请注意,式 (8)
为数据提供了一个异构的、非平稳的过程,而与过程 β 1 ( s ) \beta_1(\mathbf{s}) β 1 ( s ) 的协方差函数选择无关。这里,Var ( Y ( s ) ∣ β 0 , β 1 , τ 2 , σ 1 2 , ϕ 1 ) = x 2 ( s ) σ 1 2 + τ 2 \operatorname{Var}(Y(\mathbf{s}) \mid \beta_0, \beta_1, \tau^2, \sigma_1^2, \phi_1)= x^2(\mathbf{s}) \sigma_1^2+\tau^2 Var ( Y ( s ) ∣ β 0 , β 1 , τ 2 , σ 1 2 , ϕ 1 ) = x 2 ( s ) σ 1 2 + τ 2 , Cov ( Y ( s ) , Y ( s ′ ) ∣ β 0 , β 1 , τ 2 , σ 1 2 , ϕ 1 ) = \operatorname{Cov}(Y(\mathbf{s}), Y(\mathbf{s}^{\prime} ) \mid \beta_0,\beta_1, \tau^2, \sigma_1^2, \phi_1)= Cov ( Y ( s ) , Y ( s ′ ) ∣ β 0 , β 1 , τ 2 , σ 1 2 , ϕ 1 ) = σ 1 2 x ( s ) x ( s ′ ) ρ 1 ( s − s ′ ; ϕ 1 ) \sigma_1^2 x(\mathbf{s}) x(\mathbf{s} ^{\prime}) \rho_1(\mathbf{s}-\mathbf{s}^{\prime} ; \phi_1) σ 1 2 x ( s ) x ( s ′ ) ρ 1 ( s − s ′ ; ϕ 1 ) 。
我们在实际工作中观察到,只有当 x ( s ) > 0 x(\mathbf{s})>0 x ( s ) > 0 时,式 (8)
才是合理的。事实上,在其他模型中倡导的中心化和缩放在这里并不合适。使用中心化后的 x ( s ) x(\mathbf{s}) x ( s ) ,我们会发现一些站不住脚的现象,方差 Var ( Y ( s ) ) \operatorname{Var}(Y(\mathbf{s})) Var ( Y ( s )) 减少了,而 x ( s ) x(\mathbf {s}) x ( s ) 却增加了。更糟糕的是,对于本质上是中心化的 x ( s ) x(\mathbf{s}) x ( s ) ,我们会发现 Y ( s ) Y(\mathbf{s}) Y ( s ) 独立于任意 Y ( s ′ ) Y(\mathbf{s}^{\prime} ) Y ( s ′ ) 。此外,对 x ( s ) x(\mathbf{s}) x ( s ) 的缩放也基本无济于事。β 1 ( s ) \beta_1(\mathbf{s}) β 1 ( s ) 将被反向重新缩放,因为模型仅识别 β 1 ( s ) x ( s ) \beta_1(\mathbf{s}) x(\mathbf{s}) β 1 ( s ) x ( s ) 。
这导致了对向量 x \mathbf{x} x 与向量 1 \mathbf{1} 1 可能近似共线性的担忧。式 (9)
表明,如果 x ≈ c 1 \mathbf{x} \approx c \mathbf{1} x ≈ c 1 ,将出现结果较差的似然。幸运的是,我们可以将 式 (8)
重参数化为 Y ( s ) = Y(\mathbf{s})= Y ( s ) = β 0 ′ + β 1 ′ x ~ ( s ) + β 1 ( s ) x ( s ) + ϵ ( s ) \beta_0^{\prime}+\beta_1^{\prime} \tilde{x}(\mathbf{s})+\beta_1(\mathbf{s}) x(\mathbf{s})+\epsilon(\mathbf{s}) β 0 ′ + β 1 ′ x ~ ( s ) + β 1 ( s ) x ( s ) + ϵ ( s ) ,其中 x ~ ( s ) \tilde{x}(\mathbf{s}) x ~ ( s ) 根据 β 0 ′ \beta_0^{\prime} β 0 ′ 和 β 1 ′ \beta_1^{\prime} β 1 ′ 的定义中心化和缩放。现在 β ~ 1 ( s ) = \tilde{\boldsymbol{\beta}}_1(\mathbf{s})= β ~ 1 ( s ) = β 1 ′ / s x + β 1 ( s ) \beta_1^{\prime} / s_x+\beta_1(\mathbf{s}) β 1 ′ / s x + β 1 ( s ) ,其中 s x s_x s x 是 x ( s ) x(\mathbf{s}) x ( s ) 的样本标准差。
就像 式 (4)
,我们可以与普通的纵向数据线性模型进行类比,其中 Y i j = β 0 + Y_{i j}=\beta_0+ Y ij = β 0 + β 1 x i j + β 1 i x i j + ϵ i j \beta_1 x_{i j}+\boldsymbol{\beta}_{1 i} x_{i j}+\epsilon_{ i j} β 1 x ij + β 1 i x ij + ϵ ij ,即每个样本都对应有随机的斜率。此外, 式 (8)
中回归模型的总误差 U ( s ) U(\mathbf{s}) U ( s ) 现在被划分为 “斜率过程误差” 和 “纯噪声误差”。
2.4 单自变量的通用模型
包含 (1) 和 (7) 的更通用的模型定义将是:
Y ( s ) = β 0 + β 1 x ( s ) + β 0 ( s ) + β 1 ( s ) x ( s ) + ϵ ( s ) (10)
Y(\mathbf{s})=\beta_0+\beta_1 x(\mathbf{s})+\beta_0(\mathbf{s})+\beta_1(\mathbf{s}) x(\mathbf{s})+\epsilon(\mathbf{s}) \tag{10}
Y ( s ) = β 0 + β 1 x ( s ) + β 0 ( s ) + β 1 ( s ) x ( s ) + ϵ ( s ) ( 10 )
式 (10)
引入了平行于普通线性模型的 截距过程
和 斜率过程
。新模型需要一个双变量空间过程来定义来确定 β 0 \boldsymbol{\beta_0} β 0 和 β 1 \boldsymbol{\beta_1} β 1 的联合分布。我们将在 第 3 节
再次探讨此问题。但是,在过程独立性假设下,式(10)
可以很容易地在 β 0 \boldsymbol{\beta_0} β 0 和 β 1 \boldsymbol{\beta_1} β 1 上被边缘化,生成:
L ( β 0 , β 1 , τ 2 , σ 0 2 , σ 1 2 , ϕ 0 , ϕ 1 ; y ) = ∣ σ 0 2 H 0 ( ϕ 0 ) + σ 1 2 D x H 1 ( ϕ 1 ) D x + τ 2 I ∣ − 1 2 × exp { − 1 2 ( y − β 0 1 − β 1 x ) T . × ( σ 0 2 H 0 ( ϕ 0 ) + σ 1 2 D x H 1 ( ϕ 1 ) D x + τ 2 I ) − 1 . × ( y − β 0 1 − β 1 x ) } (11) \begin{aligned}
L(\beta_0, \beta_1, \tau^2, \sigma_0^2, \sigma_1^2, \phi_0, \phi_1 ; \mathbf{y}) \\
=&|\sigma_0^2 H_0(\phi_0)+\sigma_1^2 D_x H_1(\phi_1) D_x+\tau^2 I|^{-\frac{1}{2}} \\
& \times \exp \{-\frac{1}{2}(\mathbf{y}-\beta_0 \mathbf{1}-\beta_1 \mathbf{x})^T.\\
& \times(\sigma_0^2 H_0(\phi_0)+\sigma_1^2 D_x H_1(\phi_1) D_x+\tau^2 I)^{-1} \\
&.\times(\mathbf{y}-\beta_0 \mathbf{1}-\beta_1 \mathbf{x})\}
\end{aligned} \tag{11}
L ( β 0 , β 1 , τ 2 , σ 0 2 , σ 1 2 , ϕ 0 , ϕ 1 ; y ) = ∣ σ 0 2 H 0 ( ϕ 0 ) + σ 1 2 D x H 1 ( ϕ 1 ) D x + τ 2 I ∣ − 2 1 × exp { − 2 1 ( y − β 0 1 − β 1 x ) T . × ( σ 0 2 H 0 ( ϕ 0 ) + σ 1 2 D x H 1 ( ϕ 1 ) D x + τ 2 I ) − 1 . × ( y − β 0 1 − β 1 x )} ( 11 )
同样,通过模拟方法抽取来自 f ( β 0 ∣ y ) f(\boldsymbol{\beta}_0 \mid \mathbf{y}) f ( β 0 ∣ y ) 和 f ( β 1 ∣ y ) f(\boldsymbol{\beta}_1 \mid \mathbf{y}) f ( β 1 ∣ y ) 的样本,预测 f ( β 0 ( s new ) ∣ y ) f(\boldsymbol{\beta}_0(\mathbf {s}_{\text {new }}) \mid \mathbf{y}) f ( β 0 ( s new ) ∣ y ) 、 f ( β 1 ( s new ) ∣ y ) f(\beta_1(\mathbf{s}_{\text {new }}) \mid \mathbf{y}) f ( β 1 ( s new ) ∣ y ) , 和 f ( y ( s new ) ∣ y ) f(y(\mathbf{s}_{\text {new }}) \mid \mathbf{y}) f ( y ( s new ) ∣ y ) 也很直接。
在任意位置预测空间表面的能力,为贝叶斯推断方法提供了一个令人信服的案例。经典克里金法无法解决这个问题,因为 β 0 ( s i ) \beta_0(\mathbf{s}_i) β 0 ( s i ) 或 β 1 ( s i ) \beta_1(\mathbf{s}_i) β 1 ( s i ) 无法被观测到。此外,在 式(10)
中,总误差被划分为三个独立组分,且具有明确的解释。在任意 s i \mathbf{s}_i s i 处,误差分量的相对大小可以通过三个部分来研究:
一是 E ( β 0 ( s i ) ∣ y ) E(\beta_0(\mathbf{s}_i) \mid \mathbf{y}) E ( β 0 ( s i ) ∣ y )
二是 E ( β 1 ( s i ) x ( s i ) ∣ y ) E(\beta_1(\mathbf{s}_i) x(\mathbf{s}_i) \mid \mathbf{y}) E ( β 1 ( s i ) x ( s i ) ∣ y )
三是 E ( ϵ ( s i ) ∣ y ) E(\epsilon(\mathbf{s}_i) \mid \mathbf{y}) E ( ϵ ( s i ) ∣ y ) 。
三者之间的相对贡献,可以通过计算期望值 E ( τ 2 ∣ y ) E(\tau^2 \mid \mathbf{y}) E ( τ 2 ∣ y ) , E ( σ 0 2 ∣ y ) E(\sigma_0^2 \mid \mathbf{y}) E ( σ 0 2 ∣ y ) 和 x ˉ 2 E ( σ 1 2 ∣ y ) \bar{x}^2 E(\sigma_1^2 \mid \mathbf{y}) x ˉ 2 E ( σ 1 2 ∣ y ) 来衡量,其中 x ˉ = ∑ x ( s i ) / n \bar{x}=\sum x(\mathbf{s} _i) / n x ˉ = ∑ x ( s i ) / n 。在 ρ 0 \rho_0 ρ 0 和 ρ 1 \rho_1 ρ 1 都是各向同性情况下,范围的后验推断结果可以被用来对截距过程和斜率过程的变程作比较。两个系数的后验均值曲面 E ( β 0 ( s ) ∣ y ) E(\beta_0(\mathbf{s}) \mid \mathbf{y}) E ( β 0 ( s ) ∣ y ) 和 E ( β 1 ( s ) ∣ y ) E(\beta_1(\mathbf{s}) \mid \mathbf{y }) E ( β 1 ( s ) ∣ y ) 可以在任意位置的网格处获得,并使用常规软件以图形方式显示。
使用 Agarwal 和 Gelfand (2001) 讨论的切片 Gibbs 采样很容易拟合使用 式 (4)
、 式 (9)
或 式 (11)
中边缘似然的贝叶斯模型(也参见 Neal 2002)。
特别是,在 式 (11)
下,我们可以添加一个辅助变量 U ∼ unif ( 0 , L ( β 0 , β 1 , τ 2 , σ 0 2 , σ 1 2 , ϕ 0 , ϕ 1 ; y ) ) U \sim \operatorname{unif}(0, L(\beta_0, \beta_1, \tau^2, \sigma_0^2, \sigma_1^2, \phi_0, \phi_1 ; \mathbf{y})) U ∼ unif ( 0 , L ( β 0 , β 1 , τ 2 , σ 0 2 , σ 1 2 , ϕ 0 , ϕ 1 ; y )) ,则后验 f ( β 0 , β 1 , τ 2 , σ 0 2 , σ 1 2 , ϕ 0 , ϕ 1 , U ∣ y ) ∝ I ( U < L ) π ( β 0 ) , β 1 , τ 2 , σ 0 2 , σ 1 2 , ϕ 0 , ϕ 1 ) f(\beta_0, \beta_1, \tau^2, \sigma_0^2, \sigma_1^2, \phi_0, \phi_1, U \mid \mathbf{y}) \propto I( U<L) \pi(\beta_0),\beta_1, \tau^2, \sigma_0^2, \sigma_1^2, \phi_0, \phi_1) f ( β 0 , β 1 , τ 2 , σ 0 2 , σ 1 2 , ϕ 0 , ϕ 1 , U ∣ y ) ∝ I ( U < L ) π ( β 0 ) , β 1 , τ 2 , σ 0 2 , σ 1 2 , ϕ 0 , ϕ 1 ) ,其中 π \pi π 是参数的先验。切片 Gibbs 采样使用均匀抽取来更新 U U U ,并使用受指标限制的先验抽取来更新其他参数。该算法是 “现成的”,不需要调整。它比 Metropolis 替代方案收敛得更快,并且可以避免这些替代方案经常出现的自相关问题。
3 多自变量的空间变系数模型
本节我们转向在位置 s \mathbf{s} s 处存在 p p p 个协变量的更复杂场景。X ( s ) \mathbf{X}(\mathbf{s}) X ( s ) 代表点 s \mathbf{s} s 处的 p × 1 p \times 1 p × 1 协变量向量,为了向量化表示方便起见,我们在 X ( s ) \mathbf{X}(\mathbf{s}) X ( s ) 中再增加一个 1 1 1 作为截距项。则 式 (10)
可以泛化为:
Y ( s ) = X T ( s ) β ~ ( s ) + ϵ ( s ) (12) Y(\mathbf{s})=\mathbf{X}^T(\mathbf{s}) \tilde{\boldsymbol{\beta}}(\mathbf{s})+\epsilon(\mathbf{s}) \tag{12}
Y ( s ) = X T ( s ) β ~ ( s ) + ϵ ( s ) ( 12 )
其中 β ~ ( s ) \tilde{\boldsymbol{\beta}}(\mathbf{s}) β ~ ( s ) 被假设为服从 p p p 元变量的空间过程模型。
对于观测到的位置 s 1 , s 2 , … , s n \mathbf{s}_1, \mathbf{s}_2, \ldots, \mathbf{s}_n s 1 , s 2 , … , s n ,令 X T X^T X T 为 n × n p n \times np n × n p 的块对角矩阵,其中块为第 i i i 行的 X T ( s i ) \mathbf{X}^T (\mathbf{s}_i) X T ( s i ) 。我们可以写成 Y = X T β ~ + ϵ \mathbf{Y}=X^T \tilde{\boldsymbol{\beta}}+\epsilon Y = X T β ~ + ϵ ,其中 β ~ \tilde{\boldsymbol{\beta}} β ~ 为 n p × 1 n p \times 1 n p × 1 的向量,是 β ~ ( s ) \tilde {\boldsymbol{\beta}}(\mathbf{s}) β ~ ( s ) 串接后形成的向量,而 ϵ ∼ N ( 0 , τ 2 I ) \epsilon \sim \mathcal{N}(0, \tau^2 I) ϵ ∼ N ( 0 , τ 2 I ) 。
在实际工作中,假设 β ~ ( s ) \tilde{\boldsymbol{\beta}}(\mathbf{s}) β ~ ( s ) 中的组分过程之间相互独立可能是不合适的。典型的例子是,在简单线性回归的简单情况下,经常会看到斜率和截距之间的负相关而非独立。在 第 6 节
的示例表明,在结合依赖性时模型性能得到显著改进。为了给 β ~ ( s ) \tilde{\boldsymbol{\beta}}(\mathbf{s}) β ~ ( s ) 指定多元高斯过程,我们需要均值和交叉协方差函数。对于前者,依据 第 2 节
,我们将其设为 μ β = ( β 1 , … , β p ) T \mu_{\boldsymbol{\beta}}=(\beta_1, \ldots, \boldsymbol{\beta}_p)^T μ β = ( β 1 , … , β p ) T 。对于后者,我们需要一个有效选择 p p p 个变量。在后续工作中,我们将使用 Mardia 和 Goodall (1993) 的可分离设计(在这方面另见 Banerjee 和 Gelfand 2002)。
更准确地说,令 C ( s , s ′ ) \boldsymbol{C}(\mathbf{s}, \mathbf{s}^{\prime}) C ( s , s ′ ) 为 p × p p\times p p × p 矩阵,其中第 ( l , m ) (l, m) ( l , m ) 个元素为 Cov ( β ~ l ( s ) , β m ~ ( s ′ ) ) \operatorname{Cov}(\tilde{\boldsymbol{\beta}}_l(\mathbf{s}), \tilde{\boldsymbol{\beta}_m}(\mathbf{s}^{ \prime})) Cov ( β ~ l ( s ) , β m ~ ( s ′ )) ,并令
C ( s , s ′ ) l m = ρ ( s − s ′ ; ϕ ) τ l m (13) C(\mathbf{s}, \mathbf{s}^{\prime})_{l m}=\rho(\mathbf{s}-\mathbf{s}^{\prime} ; \phi) \tau_{l m} \tag{13}
C ( s , s ′ ) l m = ρ ( s − s ′ ; ϕ ) τ l m ( 13 )
其中 ρ \rho ρ 是一个有效的二维标量值的相关函数,T p × p T_{p \times p} T p × p 使得 ( T ) l m = τ l m (T)_{l m}=\tau_{l m} ( T ) l m = τ l m 是正定对称的。换句话说,T T T 是与任何空间位置的观测向量相关联的协方差矩阵,ρ \rho ρ 捕获了跨空间关联的衰减。和上一节一样,如果我们将 ρ ( s − s ′ ; ϕ ) \rho(\mathbf{s}-\mathbf{s}^{\prime}; \phi) ρ ( s − s ′ ; ϕ ) 的集合收集到一个 n × n n \times n n × n 的矩阵 $H(\phi) $ 中,那么,当 ⊗ \otimes ⊗ 表示 Kronecker 积时,β \boldsymbol{\beta} β 的分布是
β ~ ∼ N ( 1 n × 1 ⊗ μ β , H ( ϕ ) ⊗ T ) (14) \tilde{\boldsymbol{\beta}} \sim \mathcal{N}(\mathbf{1}_{n \times 1} \otimes \boldsymbol{\mu}_{\boldsymbol{\beta}}, H(\phi) \otimes T) \tag{14}
β ~ ∼ N ( 1 n × 1 ⊗ μ β , H ( ϕ ) ⊗ T ) ( 14 )
与上一节一样,如果 β ~ = β + 1 n × 1 ⊗ μ β \tilde{\boldsymbol{\beta}} = \boldsymbol{\beta} + \mathbf{1}_{n \times 1} \otimes \boldsymbol{\mu}_{\boldsymbol{\beta}} β ~ = β + 1 n × 1 ⊗ μ β ,那么我们可以将 式 (12)
写为
Y ( s ) = X T ( s ) μ β + X T ( s ) β ( s ) + ϵ ( s ) (15) Y(\mathbf{s})=\mathbf{X}^T(\mathbf{s}) \boldsymbol{\mu}_{\boldsymbol{\beta}}+\mathbf{X}^T(\mathbf{s}) \boldsymbol{\beta}(\mathbf{s})+\epsilon(\mathbf{s}) \tag{15}
Y ( s ) = X T ( s ) μ β + X T ( s ) β ( s ) + ϵ ( s ) ( 15 )
在式 (15) 中,回归模型中的总误差被划分为 p + 1 p+1 p + 1 个组分,每个组分都有一个明显的解释。根据 第 2 节
,使用 式 (12)
和 式 (14)
,我们可以对 β \boldsymbol{\beta} β 进行积分以获得
L ( μ β , τ 2 , T , ϕ ; y ) = ∣ X ( H ( ϕ ) ⊗ T ) X T + τ 2 I ∣ − 1 2 × exp { − 1 2 ( y − X ( 1 ⊗ μ β ) ) T ( X ( H ( ϕ ) ⊗ T ) X T + τ 2 I ) − 1 × ( y − X ( 1 ⊗ μ β ) ) } (16) \begin{aligned}
&L(\boldsymbol{\mu}_{\boldsymbol{\beta}}, \tau^2, T, \phi ; \mathbf{y}) \\
&=|X(H(\phi) \otimes T) X^T+\tau^2 I|^{-\frac{1}{2}} \\
&\quad \times \exp \{-\frac{1}{2}(\mathbf{y}-X(\mathbf{1} \otimes \mu_{\boldsymbol{\beta}}))^T(X(H(\phi) \otimes T) X^T+\tau^2 I)^{-1} \\
&\qquad \times(\mathbf{y}-X(\mathbf{1} \otimes \boldsymbol{\mu}_{\boldsymbol{\beta}}))\} \tag{16}
\end{aligned}
L ( μ β , τ 2 , T , ϕ ; y ) = ∣ X ( H ( ϕ ) ⊗ T ) X T + τ 2 I ∣ − 2 1 × exp { − 2 1 ( y − X ( 1 ⊗ μ β ) ) T ( X ( H ( ϕ ) ⊗ T ) X T + τ 2 I ) − 1 × ( y − X ( 1 ⊗ μ β ))} ( 16 )
可能令人生畏的 式 (16)
仍然只涉及 n × n n \times n n × n 的矩阵。
完成贝叶斯模型,需要首先指定 f ( μ β , τ 2 , T , ϕ ) f(\mu_{\boldsymbol{\beta}}, \tau^2, T, \phi) f ( μ β , τ 2 , T , ϕ ) 的先验,我们假设其为乘积的形式 f ( μ β ) f ( τ 2 ) f ( T ) f ( ϕ ) f(\boldsymbol{\mu}_{\boldsymbol{\beta}}) f(\tau^2) f(T) f(\phi) f ( μ β ) f ( τ 2 ) f ( T ) f ( ϕ ) 。这些分量分别服从高斯、逆gamma、逆 Wishart-gamma、gamma 分布,当使用 Matèrn 相关函数时,ϕ = ( γ , ν ) \phi=(\gamma,\nu) ϕ = ( γ , ν ) 。使用 式 (16)
和上述先验,模型很容易通过切片 Gibbs 采样进行基于模拟的拟合。
关于类似于 式 (5)
的预测,f ( β ~ ∣ y ) f(\tilde{\boldsymbol{\beta}} \mid \mathbf{y}) f ( β ~ ∣ y ) 可以利用来自 f ( μ β , τ 2 , T , ϕ ∣ y ) f( \boldsymbol{\mu}_{\boldsymbol{\beta}}, \tau^2, T, \phi \mid \mathbf{y}) f ( μ β , τ 2 , T , ϕ ∣ y ) 的样本使用 f ( β ~ ∣ μ β , τ 2 , T , ϕ , y ) f(\tilde{\boldsymbol{\beta}} \mid \boldsymbol{\mu} _{\boldsymbol{\beta}}, \tau^2, T, \phi, y) f ( β ~ ∣ μ β , τ 2 , T , ϕ , y ) 一对一获得。即 N ( B b , B ) N(B \mathbf{b}, B) N ( B b , B ) ,其中 B = ( X T X / τ 2 + H − 1 ( ϕ ) ⊗ T − 1 ) − 1 B=(X^T X / \tau^2 + H^{-1}(\phi) \otimes T^{-1})^{-1} B = ( X T X / τ 2 + H − 1 ( ϕ ) ⊗ T − 1 ) − 1 和 b = X T y / τ 2 + ( H − 1 ( ϕ ) ⊗ T − 1 ) ( 1 ⊗ μ β ) \mathbf{b}=X^T \mathbf{y} / \tau^2 + (H^{-1}(\phi) \otimes T^{-1})(\mathbf{1} \otimes \boldsymbol{\mu}_{\boldsymbol{\beta}}) b = X T y / τ 2 + ( H − 1 ( ϕ ) ⊗ T − 1 ) ( 1 ⊗ μ β ) 。 B B B 是一个 n p × n p np \times np n p × n p 的大型矩阵,但对于 β ~ \tilde{\boldsymbol{\beta}} β ~ 的采样,只需要 B B B 的 Cholesky 分解并且仅用于保留的后验样本。新位置 s new \mathbf{s}_{\text {new }} s new 处的预测,类似于 式 (6)
,需要 f ( β ~ ( s new ) ∣ β ~ , μ β , τ 2 , T , ϕ ) f(\tilde{\boldsymbol{\beta}}(\mathbf{s} _{\text {new }}) | \tilde{\boldsymbol{\beta}}, \boldsymbol{\mu}_{\boldsymbol{\beta}}, \tau^2, T, \phi) f ( β ~ ( s new ) ∣ β ~ , μ β , τ 2 , T , ϕ ) 。 将 h new ( ϕ ) \mathbf{h}_{\text {new }}(\phi) h new ( ϕ ) 定义为 n × 1 n \times 1 n × 1 向量,其中第 i i i 行元素 ρ ( s i − s new ; ϕ ) \rho(\mathbf{s}_i- \mathbf{s}_{\text {new }} ; \phi) ρ ( s i − s new ; ϕ ) ,这个分布是均值为 μ β + ( h 新 T ( ϕ ) ⊗ T ) ( H − 1 ( ϕ ) ⊗ T − 1 ) ( β ~ − m a t h b f 1 n x 1 ⊗ μ β ) = \boldsymbol{\mu}_{\boldsymbol{\beta}}+(\mathbf{h}_{\text {新 }}^T(\phi) \otimes T)(H^{-1}(\phi) \otimes T^{-1})(\tilde{\boldsymbol{\beta}}-\ mathbf{1}_{n x 1} \otimes \boldsymbol{\mu}_{\boldsymbol{\beta}})= μ β + ( h 新 T ( ϕ ) ⊗ T ) ( H − 1 ( ϕ ) ⊗ T − 1 ) ( β ~ − ma t hb f 1 n x 1 ⊗ μ β ) = μ β + ( h new T ( ϕ ) H − 1 ( ϕ ) ⊗ I ) ( β ~ − 1 n x 1 ⊗ μ β ) \boldsymbol{\mu}_{\boldsymbol{\beta}}+(\mathbf{h}_{\text {new } }^T(\phi) H^{-1}(\phi) \otimes I)(\tilde{\boldsymbol{\beta}}-\mathbf{1}_{n x 1} \otimes \boldsymbol{\mu }_{\boldsymbol{\beta}}) μ β + ( h new T ( ϕ ) H − 1 ( ϕ ) ⊗ I ) ( β ~ − 1 n x 1 ⊗ μ β ) 和协方差矩阵为 T − ( h new T ( ϕ ) ⊗ T ) ( H − 1 ( ϕ ) ⊗ T − 1 ) ( h new ( ϕ ) ⊗ T ) = T-(\mathbf{h}_{\text {new }}^T(\phi) \otimes T)(H^{-1 }(\phi) \otimes T^{-1})(\mathbf{h}_{\text {new }}(\phi) \otimes T)= T − ( h new T ( ϕ ) ⊗ T ) ( H − 1 ( ϕ ) ⊗ T − 1 ) ( h new ( ϕ ) ⊗ T ) = ( I − h new T ( ϕ ) H − 1 ( ϕ ) h new ( ϕ ) ) T (I- \mathbf{h}_{\text {new }}^T(\phi) H^{-1}(\phi) \mathbf{h}_{\text {new }}(\phi)) T ( I − h new T ( ϕ ) H − 1 ( ϕ ) h new ( ϕ )) T 的高斯分布。最后,Y ( s new ) Y(\mathbf{s}_{\text {new }}) Y ( s new ) 的预测分布 f ( Y ( s new r i g h t ) ∣ y ) f(Y(\mathbf{s}_{\text {new }}\ right) \mid \mathbf{y}) f ( Y ( s new r i g h t ) ∣ y ) 可以用类似于 式 (7)
的方法采样。
当我们在位置 s \mathbf{s} s 处重复测量时,注意 式 (12)
的扩展。也就是说,假设我们有
Y ( s , l ) = X T ( s , l ) β ( s ) + ϵ ( s , l ) (17) Y(\mathbf{s}, l)=\mathbf{X}^T(\mathbf{s}, l) \boldsymbol{\beta}(\mathbf{s})+\epsilon(\mathbf{s}, l) \tag{17}
Y ( s , l ) = X T ( s , l ) β ( s ) + ϵ ( s , l ) ( 17 )
其中 l = 1 , … , L s l=1, \ldots, L_{\mathbf{s}} l = 1 , … , L s ,L s L_{\mathbf{s}} L s 是在 s \mathbf{s} s 处测量的次数, ϵ ( s , l ) \epsilon(\mathbf{ s}, l) ϵ ( s , l ) 仍然是白噪声。例如,在我们之前提到的房地产估值场景中,s \mathbf{s} s 可能表示一个公寓楼的位置,l l l 索引该楼中已售出的公寓,其中第 l l l 套公寓具有 X ( s , l ) \mathbf{X}(\mathbf{s}, l) X ( s , l ) 。进一步假设 Z ( s ) \mathbf{Z}(\mathbf{s}) Z ( s ) 为表示测点处各种等级特征的 r × 1 r \times 1 r × 1 向量。对于一个公寓楼,这些特征可能包括 “提供的便利设施” 、“与中央商务区的距离” 等。然后 式 (17)
可以扩展到 Goldstein (1995) 或 Raudenbush 和 Bryk (2002) 中所定义的 多级模型(Multilevel Model)
。特别是,我们可以写
β ( s ) = ( Z T ( s ) γ 1 ⋮ Z T ( s ) γ p ) + W ( s ) (18) \boldsymbol{\beta}(\mathbf{s})=(\begin{array}{c}
\mathbf{Z}^T(\mathbf{s}) \boldsymbol{\gamma}_1 \\
\vdots \\
\mathbf{Z}^T(\mathbf{s}) \boldsymbol{\gamma}_p
\end{array})+\mathbf{W}(\mathbf{s}) \tag{18}
β ( s ) = ( Z T ( s ) γ 1 ⋮ Z T ( s ) γ p ) + W ( s ) ( 18 )
在 式 (18)
中,γ j \boldsymbol{\gamma}_j γ j 是与 β ~ j ( s ) \tilde{\boldsymbol{\beta}}_j(\mathbf{s}) β ~ j ( s ) 和 W ( s ) \mathbf{W}(\mathbf{s}) W ( s ) 相关的 r × 1 r\times 1 r × 1 向量,服从均值为 0 \mathbf{0} 0 的多元高斯空间过程。在 式 (18)
中,如果 W ( s ) \mathbf{W}(\mathbf{s}) W ( s ) 是独立的,那么我们将有一个普通的多级模型。在 Z ( s ) \mathbf{Z}(\mathbf{s}) Z ( s ) 只是一个捕获截距的标量时,我们就回到了本节的初始模型。
4 时空数据的空间变系数模型
前面部分建模的自然扩展是数据在空间位置上随时间相关的情况。此类数据经常出现在生态、环境和气象环境中。如果假设时间在一定尺度上被离散化为一组有限的等距点,那么我们可以概念化一个时间序列的空间过程,这些空间过程仅在空间位置 s 1 , … , s n \mathbf{s}_1, \ldots, \mathbf {s}_n s 1 , … , s n 处进行观测。
采用与 式 (10)
相似的通用符号,令
Y ( s , t ) = X T ( s , t ) β ~ ( s , t ) + ϵ ( s , t ) , t = 1 , 2 , … , M (19) Y(\mathbf{s}, t)=\mathbf{X}^T(\mathbf{s}, t) \tilde{\boldsymbol{\beta}}(\mathbf{s}, t)+\epsilon(\mathbf{s}, t), \quad t=1,2, \ldots, M \tag{19}
Y ( s , t ) = X T ( s , t ) β ~ ( s , t ) + ϵ ( s , t ) , t = 1 , 2 , … , M ( 19 )
也就是说,我们引入了时空变化的截距和斜率。如果我们写成 β ( s , t ) = β ( s , t ) + μ β \boldsymbol{\beta}(\mathbf{s}, t)=\boldsymbol{\beta}(\mathbf{s}, t)+\mu_{\boldsymbol{\beta}} β ( s , t ) = β ( s , t ) + μ β ,那么总误差将被划分为 p + 1 p+1 p + 1 个包含 ϵ ( s , t ) \epsilon(\mathbf{s}, t) ϵ ( s , t ) 的空间-时间截距片段,每个片段都有明显的解释。我们继续假设 ϵ ( s , t ) \epsilon(\mathbf{s}, t) ϵ ( s , t ) 独立同分布且服从 N ( 0 , τ 2 ) \mathcal{N}(0, \tau^2) N ( 0 , τ 2 ) ,但需要为 β ~ ( s , t ) \tilde{\boldsymbol{\beta}}(\mathbf{s}, t) β ~ ( s , t ) 指定一个模型。无论如何,式 (19)
定义了一个非平稳过程,该过程的数学期望为 E [ Y ( s , t ) ] = X T ( s , t ) β ~ ( s , t ) \mathbb{E}[Y(\mathbf{s}, t)] = \mathbf{X}^T(\mathbf{s}, t) \tilde{\boldsymbol{\beta } }(s, t) E [ Y ( s , t )] = X T ( s , t ) β ~ ( s , t ) ,方差为 Var ( Y ( s , t ) ) = X T ( s , t ) Σ β ~ ( s , t ) X ( s , t ) + τ 2 \operatorname{Var}(Y(\mathbf{s}, t)) = \mathbf{X}^T(\mathbf{s}, t) \Sigma_{\tilde{\boldsymbol{\beta}}(\mathbf{s}, t)} \mathbf{X}(\mathbf{s},t) + \tau^2 Var ( Y ( s , t )) = X T ( s , t ) Σ β ~ ( s , t ) X ( s , t ) + τ 2 , 而协方差为 Cov ( Y ( s , t ) , Y ( s ′ , t ′ ) ) = X T ( s , t ) Σ β ~ ( s , t ) , β ~ ( s ′ , t ′ ) X ( s ′ , t ′ ) \operatorname{Cov}(Y(\mathbf{s } , t), Y(\mathbf{s}^{\prime}, t^{\prime})) = \mathbf{X}^T(\mathbf{s}, t) \Sigma_{\tilde{\boldsymbol{\beta}}(\mathbf{s}, t), \tilde{\boldsymbol{\beta}}(\mathbf{s}^{\prime}, t^{\prime})} \mathbf{X}(\mathbf{s}^{\prime}, t^{\prime}) Cov ( Y ( s , t ) , Y ( s ′ , t ′ )) = X T ( s , t ) Σ β ~ ( s , t ) , β ~ ( s ′ , t ′ ) X ( s ′ , t ′ ) 。
我们为 β ( s , t ) \boldsymbol{\beta}(\mathbf{s}, t) β ( s , t ) 提出了四个模型。
(1)模型一
当时间序列通常很短时,平行于惯用的纵向数据建模假设,我们可以设置
β ( s , t ) = β ( s ) \boldsymbol{\beta}(\mathbf{s}, t)=\boldsymbol{\beta}(\mathbf{s})
β ( s , t ) = β ( s )
其中 β ( s ) \boldsymbol{\beta}(\mathbf{s}) β ( s ) 的建模与前述小节相同。模型 1
可以被看作是一个局部线性模型。
(2) 模型二
接下来,我们有
β ( s , t ) = β ( s ) + α ( t ) \boldsymbol{\beta}(\mathbf{s}, t)=\boldsymbol{\beta}(\mathbf{s})+\alpha(t)
β ( s , t ) = β ( s ) + α ( t )
其中 β ( s ) \boldsymbol{\beta}(\mathbf{s}) β ( s ) 再次与 模型 1
中一样。在建模 α ( t ) \boldsymbol{\alpha}(t) α ( t ) 时,我们考察了两种似然。第一种似然将 α k ( t ) \alpha_k(t) α k ( t ) 视为时间虚拟变量,将这组 p M pM pM 个变量视为先验独立且同分布的。第二种似然将 α ( t ) \alpha(t) α ( t ) 建模为随机游走或自回归过程,我们可以假设组件在 k k k 上是独立的,但为了更通用,我们将其视为依赖的,使用 式 (13)
的类比,将 s \mathbf{s} s 替换为 t t t 和 ρ \rho ρ ,现在是一个有效的一维相关函数。例如,Gelfand、Ecker、Knight 和 Sirmans (2003) 在错误结构的通常建模情况下讨论了这种空间和时间的可加性。
(3)模型三
在 模型 3
中,我们考虑了 Waller、Carlin、Xia 和 Gelfand (1997) 中面元嵌套效应(另见 Gelfand 等,2002 年)。特别是有:
β ( s , t ) = β ( t ) ( s ) \boldsymbol{\beta}(\mathbf{s}, t)=\boldsymbol{\beta}^{(t)}(\mathbf{s})
β ( s , t ) = β ( t ) ( s )
在这里,我们有嵌套在时间中的空间变化系数过程。假设这些过程在t t t (本质上是时间虚拟过程)中是独立的,并允许系数过程的时间演化。在第 3 节之后,过程 β ( t ) ( s ) \boldsymbol{\beta}^{(t)}(\mathbf{s}) β ( t ) ( s ) 将是均值 0 ,在时间 t t t , C ( t ) ( s , s ′ ) C^{(t )}(\mathbf{s}, \mathbf{s}^{\prime}) C ( t ) ( s , s ′ ) , 其中 ( C ( t ) ( s , s ′ ) ) l m = ρ ( s − s ′ ; ϕ ( t ) ) τ l m ( t ) (C^{(t)}(\mathbf{s}, \mathbf{ s}^{\prime}))_{l m}=\rho(\mathbf{s}-\mathbf{s}^{\prime} ; \phi^{(t)} ) \tau_{l m}^{(t)} ( C ( t ) ( s , s ′ ) ) l m = ρ ( s − s ′ ; ϕ ( t ) ) τ l m ( t ) 。我们已经指定模型 3 具有跨时间的通用 μ β \mu_{\boldsymbol{\beta}} μ β ,这使得与我们提出的其他模型具有一定的可比性。但是,我们可以通过将 μ β \mu_{\boldsymbol{\beta}} μ β 替换为 μ β ( t ) \mu_{\boldsymbol{\beta}}^{(t)} μ β ( t ) 来增加灵活性。
(4)模型四
最后,模型 4
提出了空间和时间上的可分离协方差规范,扩展了 Gelfand、Zhu 和 Carlin (2001) 的工作:
β ( s , t ) \boldsymbol{\beta}(\mathbf{s}, t)
β ( s , t )
使得 Σ [ β ( s , t ) , β ( s p r i m e , t ′ ) ] = ρ ( 1 ) ( s − s ′ ; ϕ ) × \Sigma_{[\boldsymbol{\beta}(\mathbf{s}, t), \boldsymbol{\beta}(\mathbf{s}^{\ prime}, t^{\prime})]}=\rho^{(1)}(\mathbf{s}-\mathbf{s}^{\prime} ; \phi) \times Σ [ β ( s , t ) , β ( s p r im e , t ′ )] = ρ ( 1 ) ( s − s ′ ; ϕ ) × ρ ( 2 ) ( t − t ′ ; γ ) T \rho^{(2)}(t-t^{\prime} ; \gamma) T
ρ ( 2 ) ( t − t ′ ; γ ) T
其中ρ ( 1 ) \rho^{(1)} ρ ( 1 ) 是有效的二维相关函数,ρ ( 2 ) \rho^{(2)} ρ ( 2 ) 是有效的一维选择,T T T 是正定对称的。这里 ρ ( 1 ) \rho^{(1)} ρ ( 1 ) 获得了与前面部分一样的空间关联,它随着时间的推移被 ρ ( 2 ) \rho^{(2)} ρ ( 2 ) 衰减。得到的全向量 β \boldsymbol{\beta} β 的协方差矩阵,被站点和站点内的时间阻塞,具有方便的形式 H 2 ( γ ) ⊗ H 1 ( ϕ ) ⊗ T H_2(\gamma) \otimes H_1(\phi) \otimes T H 2 ( γ ) ⊗ H 1 ( ϕ ) ⊗ T 。
在上述每个模型中,我们都可以像前面部分中所做的那样边缘化 β ( s , t ) \boldsymbol{\beta}(\mathbf{s}, t) β ( s , t ) 。根据模型,按站点或按时间对数据分块在计算上可能更方便。我们省略了细节,只注意到对于 n n n 个站点和 T T T 个时间点,得到的似然将涉及 n T × n T nT \times nT n T × n T 矩阵的行列式和逆矩阵。
请注意,所有上述建模都可以应用于横截面数据的情况,其中观测到的位置集随 t t t 而变化。例如,房地产数据就是这种情况。我们仅在交易时观测售价。在 t t t 年有 n t n_t n t 个位置,除 模型 3
之外的所有似然都将涉及 ∑ n t × ∑ n t \sum n_t \times \sum n_t ∑ n t × ∑ n t 矩阵。
5 模型比较
在纯空间情况或时空情况下,我们可能会寻求比较模型。例如,在 第 2 节
和 第 3 节
中的空间情况下,我们可以考虑只有系数的子集在空间上变化的模型,其中系数过程是独立的,或者假设多元依赖版本。在时空情况下,我们可以考虑模型 1-4(在模型 2 和 3 的情况下可能包含子模型)。
我们使用 Gelfand 和 Ghosh (1998) 的后验预测损失方法。在时空上下文中说明,对于 式 (19)
中的每个 ( s , t ) (\mathbf{s}, t) ( s , t ) ,令 Y new ( s , t ) Y_{\text {new }}(\mathbf{s}, t) Y new ( s , t ) 是在该位置获得的新观测值和给定 X ( s , t ) \mathbf{X}(\mathbf{s}, t) X ( s , t ) 的时间。如果在特定模型下,μ ( s , t ) \mu(\mathbf{s}, t) μ ( s , t ) 和 σ 2 ( s , t ) \sigma^2(\mathbf{s}, t) σ 2 ( s , t ) 表示给定 Y o b s Y_{obs} Y o b s (所有观测到的 Y Y Y 的集合)时 Y new ( s , t ) Y_{\text {new }}(\mathbf{s}, t) Y new ( s , t ) 的预测分布的均值和方差,则准则变为
D k = ∑ ( s , t ) ( Y o b s ( s , t ) − μ ( s , t ) ) 2 + k ∑ ( s , t ) σ 2 ( s , t ) (20) D_k=\sum_{(\mathbf{s}, t)}(Y_{o b s}(\mathbf{s}, t)-\mu(\mathbf{s}, t))^2+k \sum_{(\mathbf{s}, t)} \sigma^2(\mathbf{s}, t) \tag{20}
D k = ( s , t ) ∑ ( Y o b s ( s , t ) − μ ( s , t ) ) 2 + k ( s , t ) ∑ σ 2 ( s , t ) ( 20 )
在 式 (20)
中,第一项是拟合优度分量 ( G ) (G) ( G ) ,第二项是模型复杂度分量 ( P ) (P) ( P ) 的惩罚。常数 k k k 对这些组件进行加权,通常设置为 1 1 1 。选择使 式 (20)
产生最小值的模型。
6 应用案例
(略)
7 广义线性模型设置
我们简要考虑 式(12)
的广义线性模型版本,将高斯第一阶段替换为:
f ( y ( s i ) ∣ θ ( s i ) ) = h ( y ( s i ) ) exp ( θ ( s i ) y ( s i ) − b ( θ ( s i ) ) ) (21) f(y(\mathbf{s}_i) \mid \theta(\mathbf{s}_i))=h(y(\mathbf{s}_i)) \exp (\theta(\mathbf{s}_i) y(\mathbf{s}_i)-b(\theta(\mathbf{s}_i))) \tag{21}
f ( y ( s i ) ∣ θ ( s i )) = h ( y ( s i )) exp ( θ ( s i ) y ( s i ) − b ( θ ( s i ))) ( 21 )
其中,使用规范链接,θ ( s i ) = X T ( s i ) β ~ ( s i ) \theta(\mathbf{s}_i)=\mathbf{X}^T(\mathbf{s}_i) \tilde{\boldsymbol{\beta}} (\mathbf{s}_i) θ ( s i ) = X T ( s i ) β ~ ( s i ) .该规范生成 Diggle 等人的模型。 (1998 年)。在 (19) 中,我们可以包含一个几乎没有额外复杂性的离散度参数。
由此产生的第一阶段似然变为
L ( β ~ : y ) = exp { ∑ y ( s i ) X T ( s i ) β ~ ( s i ) − b ( X T ( s i ) β ~ ( s i ) ) } (22) L (\tilde{\boldsymbol{\beta}}: \mathbf{y})=\exp \{\sum y(\mathbf{s}_i) \mathbf{X}^T(\mathbf{s}_i) \tilde{\boldsymbol{\beta}}(\mathbf{s}_i)-b(\mathbf{X}^T(\mathbf{s}_i) \tilde{\boldsymbol{\beta}}(\mathbf{s}_i))\} \tag{22}
L ( β ~ : y ) = exp { ∑ y ( s i ) X T ( s i ) β ~ ( s i ) − b ( X T ( s i ) β ~ ( s i ))} ( 22 )
选择 式(14)
中 β ~ \tilde{\boldsymbol{\beta}} β ~ 上的先验, 贝叶斯模型可以在 ϕ \phi ϕ 、T T T 、μ β \mu_{\boldsymbol{\beta}} μ β 的先验基础上实现。
可以使用 Gibbs 采样器形式的概念上简单的马尔可夫链蒙特卡罗算法来拟合该模型,该算法将使用自适应拒绝采样(Gilks 和狂野 1992)。在T T T 上使用逆Wishart,得到的T T T 的完整条件再次是逆Wishart。更新 ϕ \phi ϕ 通常是很麻烦的,因为它在 (14) 中以 Kronecker 形式输入。 Metropolis 更新很难设计,但可能提供了最好的似然。同样有问题的是 β ~ \tilde{\boldsymbol{\beta}} β ~ 的重复组件更新。这种分层居中的参数化(Gelfand, Sahu, and Carlin 1995, 1996)比使用 μ β \mu_{\boldsymbol{\beta}} μ β 和 β \boldsymbol{\beta} β 更可取,但该算法在自相关问题上仍然运行得很慢。
组件更新的替代方法是通过 Langevin 扩散引入阻塞的 Metropolis 更新(参见,例如,Roberts、Gelman 和 Gilks 1997;Christensen、Möller 和 Waagepetersen 2000)。更新整个 n p × 1 n p \times 1 n p × 1 向量 β ~ \tilde{\boldsymbol{\beta}} β ~ 似乎不切实际。通过组件进程阻止 β ~ \tilde{\boldsymbol{\beta}} β ~ 在计算上本质上是难以处理的,并且通过站点阻止 β ~ \tilde{\boldsymbol{\beta}} β ~ 会产生强自相关问题。显然,需要做更多的工作来为这些模型提供有效的模型拟合策略。
8 大 N 问题
可参见高斯过程的大 n 解决方案。
9 软件包
(1)spBayes
Finley 等(2015 年)专注于制定计算高效且灵活的 MCMC 算法,以估计一系列时空高斯过程 (GP) 模型。但尽管所提出的采样算法非常通用,但在 spBayes 软件包中只实现了很有限的一组模型。具体来说,用户只能在模型的截距项参数上设定单变量或多变量的高斯过程,而无法将其扩展到所有系数(即空间变系数模型)。现在,通过将 spSVC 函数添加到 spBayes 软件包,使用户可以在任何模型回归系数集合上设置高斯过程,从而为用户提供更多选项。
(2)相关文献
文献情况:
通用变系数模型方面:
Hastie, T., Tibshirani, R., 1993. Varying-coefficient models. J. R. Stat. Soc. Ser. B 55 (4), 757–796.
Fan, J., Zhang, W., 2008. Statistical methods with varying coefficient models. Stat. Interface 1 (1), 179–195.
空间变系数模型方面:
Gelfand, A.E., Kim, H.J., Sirmans, C.F., Banerjee, S., 2003. Spatial modeling with spatially varying coefficient processes. J. Am. Stat. Assoc. 98 (462), 387–396.
(3)类似软件
此类功能并非独一无二,已经有几个 R 包能够拟合空间变系数模型。其中有一些专门用于处理空间或时空数据,而另一些则面向更为通用的可变化变量集,只是这些变量可以是坐标系中的索引。这些包大多采用了一些基于样条或核的回归方法,以允许预测变量的不同影响。
地理加权回归类:
spgwr 包:该软件包(Bivand 和 Yu,2017)实现了地理加权回归,如 Fotheringham 等(2002 年)提出的那样。
样条回归类:
mgcv 包(Wood,2017)
svcm 包(Heim,2007)
np 包(Hayfield 和 Racine,2008)
mboost 包(Hothorn 等,2018)。
基于树的方法:
vcrpart 包:Bürgin 和 Ritschard (2017) 最近开发了一种基于树的变系数模型 (TVCM) 算法。
时空贝叶斯方法:
walker 包 (Helske, 2019; Vihola et al., 2017)
spTimer 包(Bakar and Sahu, 2018)
spTDyn 包(Bakar et al., 2017, Bakar et al., 2015a, 2015b; 2015b)
其他使用通用贝叶斯软件的方法
INLA (Rue et al., 2009; Lindgren and Rue, 2015; Bakka et al., 2018)
Stan (Carpenter et al., 2017; Stan Development Team, 2018)