近似受限似然方法
〖摘 要〗 由于计算负担,似然法通常难以用于大型、位置不规则的空间数据集。即使对于高斯模型,精确计算 $n$ 个观测值的似然也需要 $\mathcal{O}(n^3)$ 运算。任何联合密度都可以写成基于某些观测顺序的条件密度之积,因此一种减少计算的方法是在计算上述条件密度时,仅以部分的 “过去” 观测为条件。本文重点探讨了此类方法如何应用于受限似然的近似,特别展示了如何利用 估计方程方法 判断近似的有效性。此外,过前的工作通常建议以当前观测的历史最近邻观测为条件,但我们通过理论、数值和实例表明,以一些远距离的观测为条件,通常也可以带来相当大的好处。
〖原 文〗 Stein, M.L., Chi, Z. and Welty, L.J. (2004) ‘Approximating likelihoods for large spatial data sets’, Journal of the Royal Statistical Society: Series B (Statistical Methodology), 66(2), pp. 275–296. Available at: https://doi.org/10.1046/j.1369-7412.2003.05512.x.
1 引言
估计空间协方差结构是地统计学的基础。空间过程经常在不规则的位置点进行观测,这使得对空间过程协方差结构的估计变得相当困难。在地统计学文献中,关于各向同性随机场的二阶结构的推断 通常基于经验变异函数:根据某个点间距离范围内所有观测值对(pairs)计算得到的均方增量,通常表示为距离的函数。由于变异函数必须有条件地负定(Chiles 和 Delfiner,1999)[2],实际的变异函数估计通常需要选择变异函数的某种参数化类型,并估计最优的参数值。 **(1)高斯场与似然方法** 在估计空间协方差函数的参数时,很自然地会考虑基于似然方法(如最大似然)和贝叶斯方法。 对于高斯随机场而言,可以很容易地写出似然函数的精确表达式。尽管基于高斯假设的似然方法尚未被地统计学界完全接受(Chiles 和 Delfiner (1999) [2],第 110 页),但近年来它们已经被更频繁地应用(Lark,2000 年 [12];Pardo-Iguzquiza,1998 年[16];Pardo-Iguzquiza 和 Dowd,1997 年[17],1998 年[18];Park 和 Baek,2001 年[19])。此外,对某些非高斯随机场的推断算法来说,计算高斯随机场的似然是必不可少的步骤 (Diggle 等,1998)[4]。但不幸的是,即使仅限于高斯随机场,当 $n$ 个观测值的位置分布不规则时,似然函数的每次计算都需要 $\mathcal{O}(n^3)$ 次运算,这对于大型数据集来说不切实际。 **(2)基于条件分解的近似似然** Vecchia (1988) [25] 基于联合密度的乘法法则(即任何联合密度都可以写成条件密度的乘积),建议对空间数据的似然进行简单近似。令符号 $p$ 表示密度(可能是有条件的),假设随机向量 $\mathbf{Z} = (Z_1, \ldots ,Z_n)^{\prime}$ 具有联合密度 $p(\mathbf{Z};\boldsymbol{\phi})$,其中 $\boldsymbol{\phi}$ 是未知的参数向量。如果将 $\mathbf{Z}$ 划分为(可能不同长度的)子向量 $\mathbf{Z}_1, \ldots ,\mathbf{Z}_b$,并定义向量符号 $\mathbf{Z}_{(j)}= (\mathbf{Z}_1 \ldots \mathbf{Z}_j)$,则根据乘法法则,我们有: $$ p(\mathbf{Z}; \boldsymbol{\phi} ) = p(\mathbf{Z}_1; \boldsymbol{\phi} ) \prod^{b}_{j=2} p(\mathbf{Z}_j \mid \mathbf{Z}_{(j-1)}; \boldsymbol{\phi} ) \tag{1} $$ Vecchia (1988)[25] 指出,在计算 $p(\mathbf{Z}_j \mid \mathbf{Z}_{(j-1)};\boldsymbol{\phi} )$ 时,没有必要严格地以 $\mathbf{Z}_{(j-1)}$ 的所有分量为条件,而是可以只取部分分量作为条件,这样能够有效减少似然计算中矩阵运算的复杂度。特别地,如果对于 $j = 1, \ldots ,b−1$ 来说,$\mathbf{S}_{(j)}$ 是 $\mathbf{Z}_{(j)}$ 的某个子向量,则联合概率密度可以近似为: $$ p(\mathbf{Z}; \boldsymbol{\phi} ) \approx p(\mathbf{Z}_1; \boldsymbol{\phi} ) \prod^{b}_{j=2} p(\mathbf{Z}_j \mid \mathbf{S}_{(j-1)}; \boldsymbol{\phi} ) $$ 上式是 Vecchia 近似似然的广义形式, $\mathbf{Z}_j$ 被称为第 $j$ 个预测向量,$\mathbf{S}_{(j-1)}$ 被称为条件向量(或条件集),而 $\mathbf{Z}_{(j)}$ 通常被称为完全条件。 Vecchia (1988) 的原始论文中,只考虑了长度为 $1$ 的预测向量,即 $\mathbf{Z}_j = Z_j$,但其实允许更长的预测向量是有用的。Pardo-Iguzquiza 和 Dowd (1997) [17] 描述了一个使用 Vecchia 的方法来近似高斯随机场似然的软件。Eide 等 (2002)[5] 使用这种形式的近似似然,作为在地震数据贝叶斯分析中实施 MCMC 算法(注:贝叶斯方法也需要计算似然函数)的一个步骤。
**(3)基础模型设置** 在本文整个工作中,我们将假设 $\mathbf{Z} \sim \mathcal{N}\{F\boldsymbol{\beta}, K(\boldsymbol{\theta})\}$,即均值函数为一个线性函数,其中 $F$ 是秩为 $p$ 的已知 $n × p$ 矩阵,$\boldsymbol{\beta} \in \mathbb{R}^p$ 是未知系数的向量;而 $\boldsymbol{\theta} \in \boldsymbol{\Theta}$ 是 $\mathbf{Z}$ 的协方差矩阵的未知参数向量,其长度为 $q$。因此模型的总参数向量为 $\boldsymbol{\phi} = (\boldsymbol{\beta}, \boldsymbol{\theta})$。 **(4)受限最大似然法** 为了估计协方差矩阵的参数 $\boldsymbol{\theta}$,最大似然法通常会假设 $\boldsymbol{\beta}$ 已知,但这往往会造成对空间过程变异性的低估(Stein(1999)[23], `第 6.4 节` )。 **受限最大似然法 (Restricted maximum likelihood,REML)** 在估计 $\boldsymbol{\theta}$ 时,仅使用 ** “比照” (contrast)**,或使用均值不依赖于 $\boldsymbol{\beta}$ 的那些 **观测值的线性组合**,进而避免了低估可变性的问题。 Kitanidis (1983)[11] 是第一个建议使用受限最大似然法来估计空间协方差函数参数的人。受限最大似然法和最大似然法的比较将在 `第 2 节` 的末尾进行。 我们发现 Vecchia (1988)[25] 的方法也适用于对受限似然方法(高斯观测)的近似。为了实现近似,首先注意,对于高斯场 $\mathbf{Z}$,条件分布 $p(\mathbf{Z}_j \mid \mathbf{Z}_{(j-1)};\boldsymbol{\phi})$ 作为 $\boldsymbol{\phi}$ 的函数,其作用是依据 $\mathbf{Z}_{(j-1)}$ 来预测 $\mathbf{Z}_j$ 的 **最佳线性预测器 (固定效应部分) 的误差**的密度。因此,Vecchia 的近似方法其实是用 **基于 $\mathbf{S}_{(j-1)}$ 的 $\mathbf{Z}_j$ 最佳线性预测器误差的密度** 替换了 **基于 $\mathbf{Z}_{(j-1)}$ 的 $\mathbf{Z}_j$ 最佳线性预测器误差的密度**。正如可以用最佳线性预测器误差的密度来表示完全似然一样(即概率的乘法法则),受限似然也可以用 **最佳线性无偏预测误差的密度** 来表示。例如,在给定 $\mathbf{Z}$ 的( 不包含 $Z_1$ 的 )子向量 $\mathbf{S}$ 时,$Z_1$ 的最佳线性无偏预测是能够最小化 $Z_1 − \boldsymbol{λ}^{\prime}\mathbf{S}$ 方差的 $\boldsymbol{λ}^{\prime}\mathbf{S}$ 线性组合,其约束条件是:对于 $\boldsymbol{\beta}$ 的所有可能值 $Z_1 − \boldsymbol{λ}^{\prime}\mathbf{S}$ 均值为 $0$。 `第 2 节` 中的 〖命题 1〗 表明,可以使用类似于 `式 (1)` 的表达式来计算受限似然。具体来说,如果我们用 $\mathbf{Z}_1$ 的一个线性独立 “比照” 集的联合密度替换 $p(\mathbf{Z}_1; \boldsymbol{\phi} )$,并且用基于 $\mathbf{Z}_{(j-1)}$ 的 $\mathbf{Z}_j$ 最佳线性无偏预测误差的联合密度来替换 $p(\mathbf{Z}_j \mid \mathbf{Z}_{(j-1)};\boldsymbol{\phi} )$,我们就可以获得受限似然,它仅通过 $\boldsymbol{\theta}$ 依赖于 $\boldsymbol{\phi}$。因此,我们通过 $\mathbf{S}_{(j-1)}$ 而不是 $\mathbf{Z}_{(j-1)}$ 考虑 $\mathbf{Z}_j$ 的最佳线性无偏预测误差密度,进而获得了 Vecchia 近似似然的天然模拟。 **(5) 观测数据的排序** 为了实现这种近似,我们需要以某种方式对观测结果进行排序,并选择预测向量和条件向量。我们同意 Vecchia (1988) 的观点,即观测数据的排序并不重要,我们使用简单排序(例如观测位置沿某个轴的投影排序)。 Vecchia (1988) 建议 $\mathbf{S}_{(j-1)}$ 由最接近 $Z_j$ 的 $m$ 个观测值组成。这种选择的优点是相当简单。正如 Vecchia (1988) 指出的那样,条件向量 $\mathbf{S}_{(j-1)}$ 的更具统计相关性的选择准则,通常取决于未知参数。这使得很难找到在整个参数空间中都能很好工作的条件向量。不过,在许多情况下,选择包含一些远距离观测值的条件向量,其效率增益可能足够大,以至于值得做出这样的选择。 Jones 和 Zhang (1997)[9] 讨论了 Vecchia 的方法在时空过程中的应用。由于空间和时间的不可通约性,他们建议在对时空相关函数的一些初步估计基础上,通过相关强度来定义最近邻。这种选择无法解决我们在使用 Vecchia 方法时发现的问题 ( `第 3 节`和`第 4 节` ),因为我们考虑的相关函数都是距离的单调函数。不过,他们确实指出了当不同坐标不可比时选择条件集合的困难性。我们将在`第 6 节`的应用中就将面临此问题,其中水平维度的变化与垂直维度的变化存在根本的不同。 **(6)采用的评估方法** Lark (2000)[12] 指出,迄今为止还没有任何尝试来评估 Vecchia 的近似似然对最终参数估计的影响。我们将在`第 2 节`中展示,估计方程方法提供了一种评估近似似然的天然方法。具体来说,通过将受限近似似然对 $\boldsymbol{\theta}$ 分量的导数设置为 $0$,我们可以得到一组 $\boldsymbol{\theta}$ 的无偏估计方程。 然后,可以使用稳健的信息准则(Heyde (1997)[8],第 12 页)来评估各种预测向量和条件向量选择的统计效率。然而,对于足够大的数据集,即使计算此信息度量也会变得令人望而却步,此时,我们建议通过在`第 2 节`中介绍的抽样方法对其进行近似。 **(6)论文结构** `第 3 节` 考虑了两个简单的例子,其中可以 “比照” 以下三个标准来选择当预测向量是标量时选择给定长度的条件向量:选择与预测量最近的邻居(被预测的数量),选择条件最小化预测误差方差的向量,并选择最适合估计未知参数的条件向量。第一个标准总是独立于参数的真实值给出相同的条件向量,但第二个和第三个通常不会。然而,对于 `第 3 节` 中的第一个示例,预测误差准则选择相同的条件向量而不考虑真实参数值,并且这种选择不是由最近的邻居组成的。第二个例子表明,预测误差准则可以选择相同的条件向量,而不管参数值如何,但这种条件向量的选择对于参数估计来说是很差的。 `第 4 节` 通过使用所得估计方程的信息度量来比较选择调节和预测向量的不同方法的效率。所有示例均基于方形区域中 $1000$ 个不规则位置的观测结果。调节向量的长度为 $m = 8、16、32$,并且将其全部、四分之三或一半的分量选择为预测向量的最近邻,而其余分量则为更远的观测值。在许多情况下,选择条件向量的某些分量不是最近邻可以显著提高结果估计器的效率。对于 $m = 8$,有时情况正好相反,但是对于 $m = 32$,选择一些距离较远的观测值几乎一致地优于仅选择最近的邻居。 对于固定协方差函数,当空间相关性最弱时,最近邻设计往往表现更好,但很难进行进一步的概括。在实践中,我们可能希望在最终选择条件向量之前获得初步的参数估计。 `第 5 节` 讨论了实施我们的程序时的计算问题。我们认为,在某些情况下,两倍于预测集大小的条件集可能是一个不错的选择,这表明具有多个观测值的预测集通常是可取的。 `第 6 节` 描述了我们的近似受限似然法在密歇根湖超过 $13000$ 次叶绿素水平测量数据集上的应用。数据以不规则的锯齿状模式获取,叶绿素水平在水平和垂直维度上的变化明显不同,这为调节集的选择带来了有趣的挑战。我们发现,在条件集中包含一些远距离观测值可以显著提高某些参数估计的效率。 `第 7 节` 讨论了这项工作引起的一些计算和推断问题,值得进一步关注。 ## 2 方法论 本节介绍如何使用最佳线性无偏预测将受限似然写成类似于 `式 (1)` 的形式,然后得出类似于 Vecchia (1988) 的受限近似似然版本。我们表明,关于该近似的未知协方差参数的导数,会产生这些参数的无偏估计方程。此外,估计方程框架提供了一种评估近似效果的天然方法。 ### 2.1 受限似然的定义 我们将在整个工作中假设协方差矩阵 $K(\boldsymbol{\theta})$ 对于所有 $\boldsymbol{\theta} \in \Theta$ 都是正定的。令 $\mathbf{Z}_i$ 的长度为 $n_i$,并取 $F_i$ 为 $F$ 的第 $n_i$ 行,使得 $E(\mathbf{Z}_i) = F_i \boldsymbol{\beta}$。假设 $\text{rank}(F_i) = p$ 并定义 $n_{(j)} = n_1 + \ldots + n_j$。 当 $j>1$ 时,对于所有 $\boldsymbol{\theta} \in \Theta$,随机变量 $\mathbf{Z}_j$ 可以根据 $\mathbf{Z}_{(j−1)}$ 得到最佳线性无偏预测。 当 $j>1$ 时,令 $\boldsymbol{\theta}$ 的函数 $B_j(\boldsymbol{\theta})$ 是一个 $n_j × n$ 的矩阵,使得 $\mathbf{W}_j(\boldsymbol{\theta}) = B_j(\boldsymbol{\theta}) \mathbf{Z}$ 是 $\mathbf{Z}_j$ 基于 $\mathbf{Z}_{(j-1)}$ 的最佳线性无偏预测的误差向量。因此,$B_j(\boldsymbol{\theta})$ 的最后 $n − n_{(j−1)}$ 列等于 $(\mathbf{I}_{n_j} O)$,其中 $\mathbf{I}_{n_j}$ 是 $n_j$ 阶的单位矩阵,$O$ 是 $0$ 矩阵。 当 $j = 1$ 时,将 $B_1(\boldsymbol{\theta})$ 设为大小为 $(n_1 − p) × n$ 且秩为 $n_1 − p$ 的固定矩阵(独立于参数 $\boldsymbol{\theta}$),使得 $\mathbf{W}_1(\boldsymbol{\theta}) = B_1(\boldsymbol{\theta})\mathbf{Z}$ 是 $\mathbf{Z}_1$ 的一组 “比照” 。令 $B(\boldsymbol{\theta})^{\prime} = (B_1(\boldsymbol{\theta})^{\prime} \ldots B_b(\boldsymbol{\theta})^{\prime})$ 并且 $\mathbf{W}(\boldsymbol{\theta})^{\prime} = (\mathbf{W}_1(\boldsymbol{\theta})^{\prime} \ldots \mathbf{W}_b(\boldsymbol{\theta})^{\prime})$。 则 $\mathbf{W}_j(\boldsymbol{\theta}) \sim \mathcal{N}{\mathbf{0}, V_j(\boldsymbol{\theta})}$,其中 $V_j(\boldsymbol{\theta}) = B_j(\boldsymbol{\theta}) K(\boldsymbol{\theta}) B_j(\boldsymbol{\theta})^{\prime}$。 从现在开始,在不引起混淆的情况下,我们将隐藏 $V_j$ 和 $\mathbf{W}_j$ 对 $\boldsymbol{\theta}$ 的依赖。事实证明 $\mathbf{W}_1, \ldots ,\mathbf{W}_b$ 是独立的,导致以下结果(证明见附录 A.1)。 〖**命题 1**〗 以 $\mathbf{Z}$ 表示的 $\boldsymbol{\theta}$ 的受限对数似然由下式给出 $$ \text{rl}(\boldsymbol{\theta}; \mathbf{Z}) = − \frac{n − p}{2} \log(2π) − \frac{1}{2}\sum^{b}_{j=1} \left [\log \{ \det(V_j)\} + \mathbf{W}^{\prime}_j V^{−1}_j \mathbf{W}_j \right] $$ ### 2.2 近似受限似然的定义 现在考虑通过仅根据 $\mathbf{Z}_{(j-1)}$ 的某个子向量计算 $\mathbf{Z}_j$ 的最佳线性无偏预测来近似受限似然,注意确保存在基于该子向量的 $\mathbf{Z}_j$ 的线性无偏预测器。对于 $j>1$,条件向量 $\mathbf{S}_{(j-1)}$ 现在是 $\mathbf{Z}_{(j-1)}$ 的子向量,$\mathbf{Z}_j$ 的最佳线性无偏预测基于该子向量。令 $S$ 为子向量 $\mathbf{S}_{(1)}, \ldots ,\mathbf{S}_{(b−1)}$ 的集合。 定义 $\mathbf{W}_1(S) = \mathbf{W}_1$,对于 $j>1$,$\mathbf{W}_j(S)$ 是 $\mathbf{Z}_j$ 基于 $\mathbf{S}_{(j-1)}$ 的最佳线性无偏预测误差。令 $V_j(S)$ 为 $\mathbf{W}_j(S)$ 的协方差矩阵。考虑 $\text{rl}(\boldsymbol{\theta};\mathbf{Z})$ 的如下近似形式: $$ \text{rl}(\boldsymbol{\theta}; S) =− \frac{n − p}{2} \log(2π) − \frac{1}{2} \sum^{b}_{j=1} (\log \left [ \det\{ V_j(S) \}\right] + \mathbf{W}_j(S)^{\prime} V_j(S)^{−1} \mathbf{W}_j(S)) \tag{2} $$ 与 Vecchia (1988) 相比,上述近似包含两项创新:(1)它适用于受限似然而不是完全似然,后者取决于 $\boldsymbol{\beta}$ 和 $\boldsymbol{\theta}$;(2) Vecchia (1988) 只考虑了每个预测向量只有一个观测值的特殊情况。 ### 2.3 协方差参数的无偏估计 我们可以使用 `式(2)` 来定义一组 $\boldsymbol{\theta}$ 的无偏估计。记符号 $\partial _k$ 代表 $\partial / \partial \boldsymbol{\theta}_k$,并令 $g_k(S) = \partial _k \text{rl}(\boldsymbol{\theta}; S)$,则我们有: $$ \begin{align*} g_k(S) &= -\frac{1}{2} \sum^{b}_{j=1} \left[ \text{tr}\{V_j(S)^{−1} \partial _kV_j(S)\} + 2 \mathbf{W}_j(S)^{\prime} V_j(S)^{−1} \partial _k \mathbf{W}_j(S) − \mathbf{W}_j(S )^{\prime} V_j(S)^{−1}\{\partial _k V_j(S)\} V_j(S)^{−1} \mathbf{W}_j(S) \right]\\ \mathbf{G}(S) &= (g_1(S) \ldots g_q(S))^{\prime} \tag{3} \end{align*} $$ 其中 $\partial _k V_j(S)$ 和 $\partial _k \mathbf{W}_j(S)$ 的明确表达式由『附录 B』 给出。 $\mathbf{G}(S)$ 被称为 $\boldsymbol{\theta}$ 的 **估计函数**,而 $\mathbf{G}(S) = 0$ 被称为 $\boldsymbol{\theta}$ 的 **估计方程**。 当 $j>1$ 时,对于 $\Theta$ 中的任意可能的两组参数值 $θ_0$ 和 $θ_1$,残差 $\mathbf{W}_j(θ_0;S) − \mathbf{W}_j(θ_1; S)$ 是仅依赖于子向量 $\mathbf{S}_{(j-1)}$ 的 ** “比照” (contrast)**,因此 $\partial _k \mathbf{W}_j(S)$ 也是 $\mathbf{S}_{(j-1)}$ 的 “比照” ,因此,$\partial _k \mathbf{W}_j(S)$ 和 $\mathbf{W}_j(S)$ 在 $\boldsymbol{\theta}$ 下是独立的,因为最佳线性无偏预测误差独立于观测的所有 “比照” 。此外,$\mathbf{W}_1(S)$ 不依赖于 $\boldsymbol{\theta}$,所以 $\partial _k \mathbf{W}_1(S) = 0$ 并且完全独立于 $\mathbf{W}_1(S)$。从 `式 (3)` 可以看出,对于所有 $\boldsymbol{\theta} \in \Theta$ 有 $E\{\mathbf{G}(S)\} = 0$,并且 $\mathbf{G}(S) = 0$ 是 $\boldsymbol{\theta}$ 的无偏估计方程。 我们现在可以使用估计方程理论来研究 $\mathbf{G}(S) = 0$ 的解性质,这也为我们提供了一种研究各种 $S$ 子向量有效性的天然方法。如 Heyde (1997) [8]所述,将 $\dot{\mathbf{G}}(S)$ 定义为一个 $q × q$ 的矩阵,其第 $(k, l)$ 个元素为 $\partial g_k(S)=\partial θ_l$。估计函数 $\mathbf{G}(S)$ 中关于 $\boldsymbol{\theta}$ 的稳健信息度量为 [8]: $$ \mathcal{E}\{\mathbf{G}(S)\} = (E\{\dot{\mathbf{G}}(S)\})^{\prime}\left[ E\{\mathbf{G}(S) \mathbf{G}(S)^{\prime}\} \right]^{−1} E \{\dot{\mathbf{G}}(S) \} $$ 估计方程的一个基本目标是使 $\mathcal{E}\{\mathbf{G}(S)\}$ 在非负定矩阵的偏序中变大。如果对 $S$ 没有限制,那么我们可以设置 $\mathbf{S}_{(j)} = \mathbf{Z}_{(j)}$ ( $j = 1, \ldots ,b − 1$ ),在这种情况下 $\mathcal{E}\{\mathbf{G}(S)\}$ 只是 “比照” 的 Fisher 信息矩阵,即偏序下 $\mathcal{E}\{\mathbf{G}(S)\}$ 的最大化器。 当 $n$ 太大时,为了计算 $\text{rl}(θ; \mathbf{Z})$ 时可行,我们可能会寻求在某些约束下将 $\mathcal{E}\{\mathbf{G}(S)\}$ 变大,例如,预测和条件向量的长度受到某些限制。与 Vecchia (1988) 一样,我们寻求产生良好结果的简单规则。 Vecchia 只考虑了长度为 $1$ 且 $m$ 相当小的 $\mathbf{Z}_j$(最多 $m=10$)。当 $j> m$ 时,Vecchia 令 $\mathbf{S}_{(j-1)}$ 是 $\mathbf{Z}_{(j-1)}$ 中 $\mathbf{Z}_j$ 的 $m$ 个最近邻居。 Vecchia (1988) 表明,这种选择在某些情况下能够产生似然的良好近似,但在其示例中,空间相关性仅在远小于观测区域直径的距离处才不可忽略。但 `第 4 节` 中的示例表明,有时选择条件向量中的一些观测值与预测向量中的观测值相距甚远会有相当大的优势。 现在让我们考虑 $\mathcal{E}\{\mathbf{G}(S)\}$ 的计算。和 $\boldsymbol{\theta}$ 一样,我们隐藏了 $V_j$ 和 $\mathbf{W}_j$ 对 $S$ 的依赖。利用任意 $\mathbf{S}_{(j-1)}$ 的 “比照” 的 $\mathbf{W}_j$ 的独立性,我们再次生成: $$ E\{\partial _l g_k(S) \} = − \sum^{b}_{j=1} \left[\frac{1}{2} \text{tr}\{ V^{-1}_j(\partial _l V_j) V^{-1}_{j} (\partial _k V_j)\} + \text{tr}\{V^{-1}_j \text{cov}(\partial _k\mathbf{W}_j, \partial _l \mathbf{W}^{\prime}_j)\}\right] \tag{4} $$ 此外, $$ \begin{align*} E\{g_k(S) g_l(S)\} &= \sum^{b}_{i,j=1} [\text{tr}\{V^{-1}_i \text{cov}(\mathbf{W}_i, \mathbf{W}^{\prime}_j) V^{-1}_j \text{cov}(\partial _l\mathbf{W}_j, \partial _k\mathbf{W}^{\prime}_i)\} \\ &+ \text{tr}\{ V^{-1}_i \text{cov}(\mathbf{W}_i, \partial _l \mathbf{W}^{\prime}_j) V^{-1}_j \text{cov}(\mathbf{W}_j, \partial _k \mathbf{W}^{\prime}_i)\} \\ &− \text{tr} \{V^{-1}_i \text{cov}(\mathbf{W}_i, \mathbf{W}^{\prime}_j) V^{-1}_j (\partial _l V_j) V^{-1}_j \text{cov}(\mathbf{W}_j, \partial _k \mathbf{W}^{\prime}_i)\} \\ &− \text{tr}\{ V^{-1}_j \text{cov}(\mathbf{W}_j, \mathbf{W}^{\prime}_i) V^{-1}_i (\partial _k V_i) V^{-1}_i \text{cov}(\mathbf{W}_i, \partial _l \mathbf{W}^{\prime}_j)\} \\ &+ \frac{1}{2} \text{tr}\{ V^{-1}_i (\partial _k V_i) V^{-1}_i \text{cov}(\mathbf{W}_i, \mathbf{W}^{\prime}_j) V^{-1}_j (\partial _l V_j) V^{-1}_j \text{cov}(\mathbf{W}_j, \mathbf{W}^{\prime}_i)\} ] \end{align*} \tag{5} $$ 通过重复应用 $$ \begin{align*} \text{cov}(\mathbf{X}^{\prime}_1 A_1 \mathbf{Y}_1, \mathbf{X}^{\prime}_2 A_2 \mathbf{Y}_2) &= \text{tr}\{A_1 \text{cov}(\mathbf{Y}_1, \mathbf{Y}^{\prime}_2) A^{\prime}_2 \text{cov}(\mathbf{X}_2, \mathbf{X}^{\prime}_1)\} \\ &+ \text{tr}\{A_1 \text{cov}(\mathbf{Y}_1, \mathbf{X}^{\prime}_2) A_2 \text{cov}(\mathbf{Y}_2 , \mathbf{X}^{\prime}_1)\} \end{align*} $$ $(\mathbf{X}^{\prime}_1、\mathbf{Y}^{\prime}_1、\mathbf{X}^{\prime}_2、\mathbf{Y}^{\prime}_2)$ 是均值为 $\mathbf{0}$ 的多元高斯,且 $A_1$ 和 $A_2$ 具有适当阶数的固定矩阵。当 $\mathbf{S}_{(j)} = \mathbf{Z}_{(j)}$ ( $j = 1,\dots, b − 1$ )时,`式 (5)` 得到大大简化,使得 $\mathbf{G}(S)$ 是得分函数。在这种情况下,当 $i- [1] Abramowitz, M. and Stegun, I. (1965) Handbook of Mathematical Functions, 9th edn. New York: Dover Publications.
- [2] Chiles, J. and Delfiner, P. (1999) Geostatistics: Modeling Spatial Uncertainty. New York: Wiley.
- [3] Christensen, R. (1996) Plane Answers to Complex Questions: the Theory of Linear Models, 2nd edn. New York: Springer.
- [4] Diggle, P. J., Tawn, J. A. and Moyeed, R. A. (1998) Model-based geostatistics (with discussion). Appl. Statist., 47, 299–350.
- [5] Eide, A. L., Omre, H. and Ursin, B. (2002) Prediction of reservoir variables based on seismic data and well observations. J. Am. Statist. Ass., 97, 18–28.
- [6] Genton, M. G. and Gorsich, D. J. (2002) Nonparametric variogram and covariogram estimation with FourierBessel matrices. Comput. Statist. Data Anal., 41, 47–57.
- [7] Golub, G. H. and van Loan, C. F. (1996) Matrix Computations, 3rd edn. Baltimore: Johns Hopkins University Press.
- [8] Heyde, C. C. (1997) Quasi-likelihood and Its Application: a General Approach to Optimal Parameter Estimation. New York: Springer.
- [9] Jones, R. H. and Zhang, Y. (1997) Models for continuous stationary space-time processes. In Modelling Longitudinal and Spatially Correlated Data (eds T. G. Gregoire, D. R. Brillinger, P. J. Diggle, E. Russek-Cohen, W. G. Warren and R. D. Wolfinger), pp. 289–298. New York: Springer.
- [10] Kang, W., Wan Shin, D. and Lee, Y. (2003) Biases of the restricted maximum likelihood estimators for ARMA processes with polynomial time trend. J. Statist. Planng Inf., 116, 163–176.
- [11] Kitanidis, P. K. (1983) Statistical estimation of polynomial generalized covariance functions and hydrologic applications. Wat. Resour. Res., 19, 909–921.
- [12] Lark, R. M. (2000) Estimating variograms of soil properties by the method-of-moments and maximum likelihood. Eur. J. Soil Sci., 51, 717–728.
- [13] Lark, R. M. (2002) Optimized spatial sampling of soil for estimation of the variogram by maximum likelihood. Geoderma, 105, 49–80.
- [14] Mardia, K. V. and Marshall, R. J. (1984) Maximum likelihood estimation of models for residual covariance in spatial regression. Biometrika, 73, 135–146.
- [15] McGilchrist, C. A. (1989) Bias of ML and REML estimators in regression models with ARMA errors. J. Statist. Computn Simuln, 32, 127–136.
- [16] Pardo-Iguzquiza, E. (1998) Maximum likelihood estimation of spatial covariance parameters. Math. Geol., 30, 95–108.
- [17] Pardo-Iguzquiza, E. and Dowd, P. A. (1997) AMLE3D: a computer program for the inference of spatial covariance parameters by approximate maximum likelihood estimation. Comput. Geosci., 23, 793–805.
- [18] Pardo-Iguzquiza, E. and Dowd, P. A. (1998) Maximum likelihood inference of spatial covariance parameters of soil properties. Soil Sci., 163, 212–219.
- [19] Park, J. S. and Baek, J. S. (2001) Efficient computation of maximum likelihood estimators in a spatial linear model with power exponential covariogram. Comput. Geosci., 27, 1–7.
- [20] Pettitt, A. N. and McBratney, A. B. (1993) Sampling designs for estimating spatial variance components. Appl. Statist., 42, 185–209.
- [21] Press, W. H., Flannery, B. P., Teukolsky, S. A. and Vetterling, W. T. (1992) Numerical Recipes, 2nd edn. Cambridge: Cambridge University Press.
- [22] Shapiro, A. and Botha, J. D. (1991) Variogram fitting with a general class of conditionally non-negative definite function. Comput. Statist. Data Anal., 11, 87–96.
- [23] Stein, M. L. (1999) Interpolation of Spatial Data: Some Theory for Kriging. New York: Springer.
- [24] Tunnicliffe Wilson, G. (1989) On the use of marginal likelihood in time series model estimation. J. R. Statist. Soc. B, 51, 15–27.
- [25] Vecchia, A. V. (1988) Estimation and model identification for continuous spatial processes. J. R. Statist. Soc. B, 50, 297–312.
- [26] Welty, L. J. and Stein, M. L. (2003) Modeling phytoplankton: covariance and variogram model specification for phytoplankton levels in Lake Michigan. In Geostatistics for Environmental Applications. Boston: Kluwer. To be published. (Available from http://galton.uchicago.edu/∼cises/research/cises-tr1.pdf.)
- [27] Whittle, P. (1954) On stationary processes in the plane. Biometrika, 49, 305–314.
- [28] Wilson, P. D. (1988) Maximum likelihood estimation using differences in an autoregressive-1 process. Communs Statist Theory Meth., 17, 17–26.
- [29] Zhu, Z. (2002) Optimal sampling design and parameter estimation of Gaussian random fields. PhD Dissertation. Department of Statistics, University of Chicago, Chicago.