海量空间数据集的多分辨率近似(MRA )
【摘 要】 卫星和飞机上的自动传感仪器能够收集大空间区域空间场的大量高分辨率观测数据。如果可以有效地利用这些数据集,它们可以为各种问题提供新的见解。然而,传统的空间统计技术(如克里金法)在计算上对于大数据集不可行。我们提出了在空间不规则位置观测到的高斯过程的多分辨率近似 (M-RA)。 M-RA 过程被指定为多个空间分辨率级别的基函数的线性组合,它可以捕获从非常精细到非常大尺度的空间结构。自动选择基函数来近似给定的协方差函数,该协方差函数可以是非平稳的。所有涉及 M-RA 的计算,包括参数推断和预测,对于海量数据集都是高度可扩展的。至关重要的是,推断算法也可以并行化,以充分利用大型分布式内存计算环境。在使用模拟数据和大型卫星数据集进行比较时,M-RA 优于相关的最新技术
【原 文】 Katzfuss, M. (2017) ‘A Multi-Resolution Approximation for Massive Spatial Datasets’, Journal of the American Statistical Association, 112(517), pp. 201–214. Available at: https://doi.org/10.1080/01621459.2015.1123632.
1 简介
卫星和飞机上的自动传感仪器已经能够收集大型和非均匀空间域上空间场的大量高分辨率观测数据。如果可以有效地利用这些类型的数据集,它们可以为各种各样的问题提供新的见解,例如气候变化的温室气体浓度、精准农业的土壤特性以及天气预报的大气状态。基于(隐式或显式)高斯过程,空间统计领域为分析此类数据提供了丰富的工具包,包括估计未知参数,预测未观测到的位置的空间场,以及适当量化预测和参数中的不确定性(例如, Cressie 和 Wikle, 2011 [7])。 然而,传统的空间统计技术(如克里金法)在计算上对于大数据集不可行,因为需要分解密集的 $n \times n$ 矩阵,其中 $n$ 是测量的数量。 **(1)纯数值计算方法** 通用方法,例如预处理共轭梯度算法(例如,Golub 和 Van Loan,2012 年 [15])或概率预测(例如,Halko 等,2011 年 [17];Stein 等,2013 年 [45])可以求解大型线性系统。但是,对于此类算法来说,计算基于似然推断所需的数据协方差矩阵的行列式具有挑战性,因为此类协方差矩阵很大,通常很密集,并且可能具有缓慢衰减的频谱。 **(2)近似推断方法** 文献中提出了更专门的近似空间推断方法,这些方法明确尝试利用数据中的空间信息,但其中: - 大多数方法都需要对协方差函数进行限制性假设(例如,Fuentes,2007 年 [12];Lindgren 等,2011 年 [32]) - 或者忽略了很多精细尺度的依赖性(例如,Higdon,1998 年 [20];Mardia 等,1998 年 [33];Calder,2007 年 [3];Cressie 和 Johannesson,2008 年 [6];Katzfuss 和 Cressie,2009 年 [24];Lemos 和 Sans o,2009 年 [31];Katzfuss and Cressie, 2011 [25], 2012 [26]) - 大规模依赖(例如,Furrer 等,2006 年 [13];Kaufman 等,2008 年 [29];Shaby 和 Ruppert,2012 年 [40])。 - 复合似然法(例如,Vecchia,1988 年 [47];Curriero 和 Lele,1999 年 [8];Stein 等,2004 年 [46];Caragea 和 Smith,2007 年 [4];Bevilacqua 等,2012 年 [2];Eidsvik 等,2014 年 [9])通过处理观测块作为条件独立的,但不清楚如何为不同块中的位置获得适当的联合预测分布。 **(3)本文方法** 我们在这里提出了在空间中不规则(即非网格)位置观测到的高斯过程的多分辨率近似(M-RA)。 **在模型结构方面:** **M-RA 过程被定义为多个空间分辨率级别基函数的线性组合,它可以捕获从非常精细到非常大尺度的空间结构**。 - **与多分辨率模型的关系**:多分辨率模型(例如 Chui,1992 年;Johannesson 等,2007 年;Nychka 等,2015 年 [35])在空间统计方面非常成功,因为它们能够灵活地捕捉多个空间尺度的依赖性,同时在计算上是可行的。 **与这些多分辨率模型方法相比, M-RA 中的基函数及其权重分布是通过对指定协方差函数的 “预测过程” 递归优化选择的,而多分辨率模型则大多事先选定基函数的形式**。具体来说,每一级分辨率的每一个子区域的基函数,都是根据预测过程(Quinonero Candela 和 Rasmussen,2005 年 [36];Banerjee 等,2008 年 [1])的规则递归选择的,其基本方法是将空间域递归划分为越来越小的子区域,每个区域内有一组 “结点” 。 - **与全尺度近似方法的关系**:**M-RA 是全尺度近似的泛化**(Snelson 和 Ghahramani,2007 年 [42];Sang 等,2011 年 [38];Sang 和 Huang,2012 年 [37]),全尺度近似是目前最先进的面向大数据的协方差近似方法,它只有一个层级的域划分和一种分辨率的基函数。我们将在后文中广泛比较这两种方法。
**在模型推断方面:** 基于基函数的模型推断,本质上包含对基函数权重(注:被视为随机变量)后验分布的推断。在之前的方法中: - 通过将基函数的数量限制在较小范围内(例如,Higdon,1998 年 [20];Quinonero Candela 和 Rasmussen,2005 年 [36];Cressie 和 Johannesson,2008 年 [6]) - 或指定权重随机向量的协方差矩阵为对角矩阵或稀疏矩阵(例如,Higdon,1998 年 [20];Lindgren 等,2011 年[32];Nychka 等,2015 年 [35])。 M-RA 结合了这两种方法:它产生了多分辨率(块)的稀疏精度矩阵,但每个区域内的空间基函数数量很少,允许重复应用 **Sherman-Morrison-Woodbury 公式**(Sherman 和 Morrison,1950 年[41];Woodbury,1950 年 [48])(注: 参见 [《固定秩克里金法》](75ca3fa4.html) 的 `第 2.3 节`)。这导致 M-RA 的高度可扩展推断算法(注:该算法也可以应用于任何具有类似结构的多分辨率基函数模型)。至关重要的是,基于之前工作(Katzfuss 和 Hammerling,2014 [27])中描述的特殊情况下的 M-RA 并行算法,我们推导出可以在多个节点之间有效拆分计算任务的算法。这样,可以对大量空间数据集在多个节点上进行并行空间推断,每个节点只处理数据集的一个子集。如果有足够计算节点可用,这能够确保 M-RA 的可扩展性,即使对于具有数百万个观测值的数据集也是如此。 这篇文章的结构安排如下: - 在 `第 2 节` 中,我们介绍了 M-RA 并讨论了它的一些属性。 - 在 `第 3 节` 中,我们介绍了参数推断和空间预测的算法,并描述了 M-RA 的计算复杂度。 - 在 `第 4 节` 中,我们将 M-RA 应用于大型模拟数据集和真实数据示例,并将 M-RA 与全面近似进行比较。 - 在 `第 5 节` 总结。所有证明都在附录 A 中给出。 ## 2 多分辨率近似(M-RA) 我们从描述要近似的真实高斯过程开始本节( `第 2.1 节` )。经过一些准备工作( `第 2.2 节` ),我们介绍了多分辨率近似 (M-RA)( `第 2.3 节` )并讨论了它的属性( `第 2.4 节` 和 `第 2.5 节` )。 ### 2.1 真正的高斯过程 令 $\{y_0(\mathbf{s}) : \mathbf{s} \in \mathcal{D}\}$ 或 $y_0(·)$ 为连续(非网格)域 $\mathcal{D} \subset \mathbb{R}^d$, $d \in \mathbb{N}^+$ 上的真实空间场或感兴趣过程。我们假设 $y_0(·) \sim \mathcal{GP}(0, C_0)$ 是一个具有协方差函数 $C_0$ 的零均值高斯过程。我们对 $C_0$ 没有任何限制,只是假设它是 $\mathcal{D}$ 上的正定函数,直到参数向量 $\boldsymbol{\theta}$ 为已知。在实际应用中,$y_0(·)$ 的均值通常不为零,但估计和减去均值通常不是太大的问题。一旦在一组 $n$ 个空间位置 $\mathcal{S} = \{\mathbf{s}_1,\ldots , \mathbf{s}_n\}$ 处观测到 $y_0(·)$, 则数据的分布由下式给出: $$ y_0(\mathcal{S}) := (y_0(\mathbf{s}_1), \ldots , y_0(\mathbf{s}_n))^{\prime} \sim \mathcal{N}_n(\mathbf{0}, \mathbf{C}_0(\mathcal{S,S})) $$ 一个具有协方差矩阵 $C_0(\mathcal{S,S}) = (C_0(\mathbf{s}_i, \mathbf{s}_j))_{i,j=1,\ldots ,n}$ 的 $n$ 元高斯分布。 空间统计的基本目标是(基于似然的)对参数 $\boldsymbol{\theta}$ 进行推断,并在一组新位置 $\mathcal{S}^P$ 处获得 $\mathbf{y}_{\boldsymbol{\theta}}(·)$ 的空间预测,即获得 $\mathbf{y}_0(\mathcal{S}^P)$ 的后验分布。这需要对观测的协方差矩阵 $\mathbf{C}_0(\mathcal{S, S})$ 进行多次 Cholesky 分解,一般具有 $\mathcal{O}(n^3)$ 的时间复杂度和 $\mathcal{O}(n^2)$ 内存复杂度。当 $n = 10^5$ 或更大时,这在计算上是不可行的。此外,推断计算也很难并行化,因为密集的巨大协方差矩阵的计算,需要大量通信开销。因此,计算挑战不能通过强力使用高性能计算系统来解决,需要近似或简化假设。 ### 2.2 域划分和节点 **(1)空间域的划分** 为了定义 M-RA,我们要对空间域 $\mathcal{D}$ 进行递归划分,即对于其 $J$ 个区域( $\mathcal{D}_1,\ldots, \mathcal{D}_J$), 进一步划分成 $J$ 个更小的子区域,依此类推,直到层级 $M$: $$ \mathcal{D}_{j_1,\ldots ,j_{m-1}} =\dot{\cup}_{j_m=1,\ldots ,J} \mathcal{D}_{j_1,\ldots ,j_m},\qquad \text{where} \quad j_1,\ldots , j_{m-1} = 1,\ldots,J ; m = 1,\ldots,M $$ 对于高斯过程 $x(·) \sim \mathcal{GP}(0, C)$,我们将 $[x(·)]_{[m]}$ 定义为 $x(·)$ 的分辨率为 $m$ 的区域之间的 “块独立” 版本;也就是说,将高斯过程定义为 $[x(·)]_{[m]} \sim \mathcal{GP}(0, [C]_{[m]})$ 的分块协方差矩阵版本,其中如果 $\mathbf{s}_1$, $\mathbf{s}_2$ 位于分辨率为 $m$ 的同一区域 $\mathcal{D}_{j_1,\ldots,j_m}$ 中,则 $[C]_{[m]}(\mathbf{s}_1, \mathbf{s}_2) = C(\mathbf{s}_1, \mathbf{s}_2)$ ,否则 $[C]_{[m]}(\mathbf{s}_1, \mathbf{s}_2) = 0$。 **(2)结点的设置** 我们还需要一组多多分辨率 “结点”,例如 $\mathcal{Q}_{j_1,\ldots ,j_m}$ 是一组 $r$ 个 “结点”($r \ll n$),它们都位于子区域 $\mathcal{D}_{j_1,\ldots ,j_m}$ 中。为了便于标记,我们假设分辨率为 $M$ 的每区域中的节点,由其观测位置给出:$\mathcal{Q}_{j_1,\ldots ,j_M} = \mathcal{S}_{j_1,\ldots ,j_M}$ 。此外,对于分辨率为 $m$,我们记 $\mathcal{Q}^{(m)} = \{\mathcal{Q}_{j_1,\ldots ,j_m} : j_1,\ldots , j_m = 1,\ldots , J \}$ 为该分辨率中所有 $rJ^{m}$ 个结点构成的集合。 对于一维玩具示例, `图 1` 的顶行显示了 $M = 1$ 和 $M = 3$ 的 M-RA 的 “分区” 和节点。节点是基函数达到最大值的位置。请注意,我们假设子区域数 ($J$) 和节点数 ($r$) 在各 “分区” 之间保持一致,不过这只是为了符号方便,并非必需。此后,我们将假设域划分和节点是固定已知的。 `第 2.5 节` 给出了他们选择的进一步讨论。 ![Fig01](https://xishansnowblog.oss-cn-beijing.aliyuncs.com/images/ntk/stats-20230401183024-eb9a.png) > 图 1:在 $n = 54$ 个观察(从指数协方差函数生成)的一维空间域 $\mathcal{D} = [0, 1]$ 的玩具示例中,当具有相同的计算复杂度(两种模型的 $M r = 6$)时,全尺度近似 (1-RA) 与具有 $3$ 个分辨率的多分辨率近似 (3-RA) 之间的比较。图 (c) 和 (d) 显示协方差近似使用的基函数达到分辨率 $m$,其中 $m = 0, \ldots, M$。随着 $m$ 的增加,真实协方差和近似协方差之间的偏差只会出现在越来越小的尺度(距离)上。当 $m = M$ 时,3-RA 的协方差和预测与 0-RA 的真实协方差和预测完全相同,而使用 1-RA 的协方差近似和预测与真实值不同。请注意,对于其他协方差函数或更高维度,M-RA 通常不准确(请参阅 `第 2.5 节`)。 ### 2.3 多分辨率近似(M-RA)的定义 回忆 `第 2.1 节` 中的真实高斯过程 $y_0(·) \sim \mathcal{GP}(0, C_0)$。我们暂时假设协方差函数 $C_0$ 已知(超参数的推断将在 `第 3.3 节` 中讨论)。 M-RA 过程以分辨率 $m = 0,\ldots , M$ 迭代地近似 $y_0(·)$ 及其协方差 $C_0$,基于 `第 2.2 节` 中指定的 “结点” 和 “分区” 。在每个分辨率 $m$ 处,各区域 $\mathcal{D}_{j_1,\ldots ,j_m}$ 之间相互独立地使用预测过程(Banerjee 等,2008 年 [1])来近似 “残余” 项( 即 $y_0(·)$ 和较低分辨率下的近似之间的差异 )。如 `图 1(d)` 所示,低 M-RA 分辨率捕获低频(即远距离)的可变性,导致随着 $m$ 的增加, “残余项” 在越来越小的尺度上表现出可变性,因此近似 “残余项” 在更精细的 “分区” 中产生更小的近似误差。 更具体地说,我们从 $y_0(·)$ 的预测过程近似 $\tau_0(\mathbf{s}) := \mathbb{E}(y_0(\mathbf{s}) \mid \mathbf{y}_0(\mathcal{Q}^{(0)}))$, $\mathbf{s} \in \mathcal{D}$ 开始,在假设区域 $\mathcal{D}_1,\ldots , \mathcal{D}_J$ 独立的情况下,得到分辨率 $1$ 的近似 “残余项” 过程 $\delta_1(·) = [y_0(·) − \tau_0(·)]_{[1]}$ (Sang 等, 2011 [38])。然后,我们再将此 “残余项” 过程近似为其预测过程 $\tau_1(\mathbf{s}) = \mathbb{E}(\delta_1(\mathbf{s}) | \delta_1(\mathcal{Q}^{(1)}))$,$\mathbf{s} \in \mathcal{D}$ 与近似 “残余项” $\delta_2(·) = [ \delta_1(·) − \tau_1(·)]_{[2]}$ 之和。依此类推,直到 $M$ 级。这导致 M-RA 的以下表达式: $$ y_M(·) = \tau_0(·) + \tau_1(·) + \ldots + \tau_{M-1}(·) + \delta_M(·) \tag{1} $$ 其中预测过程 $\tau_m(\mathbf{s}) = \mathbb{E}(\delta_m(\mathbf{s}) | \delta_m(\mathcal{Q}^{(m)}))$, $\mathbf{s} \in \mathcal{D}$;“残余项” 为 $\delta_m(·) = [\delta_{m−1}(·) − \tau_{m−1}(·)]_{[m]} \sim \mathcal{GP}(0, v_m)$。 注意到,对于 $m = 0,\ldots , M − 1$, 我们可以将 $\mathbf{s} \in \mathcal{D}_{j_1,\ldots ,j_m}$ 的每个预测过程写成基函数的线性组合 (参考 Katzfuss, 2013 [23]) 形式:, $\tau_m(\mathbf{s}) = \mathbf{b}_{j_1,\ldots ,j_m}(\mathbf{s})^{\prime} \boldsymbol{η}_{j_1,\ldots ,j_m}$ ,其中 $\boldsymbol{η}_{j_1,\ldots ,j_m} \sim \mathcal{N}_r(\mathbf{0}, \mathbf{K}_{j_1,\ldots ,j_m})$, 和 $$ \begin{align*} \mathbf{b}_{j_1,\ldots ,j_m} (\mathbf{s}) &:= v_m({\mathbf{s}}, \mathcal{Q}_{j_1,\ldots ,j_m}), \mathbf{s} \in \mathcal{D}_{j_1,\ldots ,j_m} \\ \mathbf{K}^{-1}_{j_1,\ldots ,j_m} &:= v_m(\mathcal{Q}_{j_1,\ldots ,j_m}, \mathcal{Q}_{j_1,\ldots ,j_m})\\ v_{m+1}(\mathbf{s}_1, \mathbf{s}_2) &:= v_m(\mathbf{s}_1, \mathbf{s}_2) − \mathbf{b}_{j_1,\ldots ,j_m} (\mathbf{s}_1)^{\prime} \mathbf{K}_{j_1,\ldots ,j_m} \mathbf{b}_{j_1 ,\ldots ,j_m}(\mathbf{s}_2), \quad \mathbf{s}_1, \mathbf{s}_2 \in \mathcal{D}_{j_1,\ldots ,j_m} \end{align*} \tag{2} $$ 其中如果 $\mathbf{s}_1$ 和 $\mathbf{s}_2$ 在第 $m$ 个分辨率下位于不同区域,则 $v_{m+1}(\mathbf{s}_1, \mathbf{s}_2) = 0$ ,并且我们设置 $v_0 = C_0$。 因此,`式(1)` 的 M-RA 也可以写成分辨率 $0,\ldots , M − 1$ 中基函数的线性组合, 再加上 $M$ 分辨率处的 “残余项” : $$ \mathbf{y}_M(\mathbf{s}) = \mathbf{b}(\mathbf{s})^{\prime} \boldsymbol{η} + \mathbf{b}_{j_1}(\mathbf{s})^{\prime} \boldsymbol{η}_{j_1} + \ldots + \mathbf{b}_{j_1,\ldots ,j_{M−1}}(\mathbf{s})^{\prime} \boldsymbol{η}_{j_1,\ldots ,j_{M−1}} + \delta_M(\mathbf{s}), \qquad \mathbf{s} \in \mathcal{D}_{j_1,\ldots ,j_M} \tag{3} $$ 其中权重向量相互独立且与 $\delta_M(·) \sim \mathcal{GP}(0, v_M )$ 无关。 `图 1 (a)` 和 `图 1 (c)` 显示了玩具示例中的基函数。一旦我们在位置 $\mathcal{S}$ 处观测到数据,我们也可以将 `式 (3)` 中的 “残余项” $\delta_M(·)$ 写为基函数的线性组合,如 `式 (2)` 中 $\delta_M(\mathbf{s}) = \mathbf{b}_{j_1,\ldots ,j_M}(\mathbf{s})^{\prime} \boldsymbol{η}_{j_1,\ldots,j_M}$, $\mathbf{s} \in \mathcal{D}_{j_1,\ldots ,j_M}$,其中 $\mathcal{Q}_{j_1,\ldots,j_M} = \mathcal{S}_{j_1,\ldots ,j_M}$。 ### 2.4 M-RA 的特性 **(1)许多基函数** 与依赖于少量或中等数量基函数的所谓低秩方法(参见如,Stein,2014 [44],此类方法通常难以捕获小尺度变化)相比, $M > 0$ 的 M-RA 模型的基函数总数 $r_{total}$ 大于测量次数 $n$: $r_{total} = r \sum^{M}_{m=0} J^M = rJ^M + r \sum^{M-1}_{m=0} J^m = n + r \frac{ J^M −1}{J−1} > n$。这使得 M-RA 能够捕获所有空间尺度的变化,包括非常小的尺度。 **(2)正交分解** 因为预测过程是一个条件期望,也是一个投影运算,对于所有 $m = 0,\ldots , M − 1$,预测过程 $\tau_m(·)$ 均独立于 “残余项” $\delta_m(·) − \tau_m(·)$。因此,我们将 `式 (1)` 中的 M-RA 定义为正交分量之和。在 `式 (3)` 中,M-RA 是空间基函数的加权和,其权重 $\boldsymbol{η}_{j_1,\ldots ,j_m}$ 在概率空间上是块正交的(注:根据 KL 定理,权重被视为随机变量),但如果 $\mathcal{D}_{j_1,\ldots ,j_{m_1}} \cap D_{i_1,\ldots ,i_{m_2}} = \emptyset$,则两组基函数 $\mathbf{b}_{j_1,\ldots, j_{m_1}$ 和 $\mathbf{b}_{i_1,\ldots,i_{m_2}$ 仅在物理空间中是块正交的。 **(3)有效的高斯过程** **【命题 1】 M-RA 是具有非负定协方差函数 $C_M$ 的有效高斯过程** **(4)“最优” 的基函数** 在每个分辨率 $m = 0,\ldots , M −1$ 和在每个区域 $\mathcal{D}_{j_1,\ldots ,j_m}$ 内,`式 (1)` 中 M-RA 的目标是尽可能接近地近似 “残余项” 过程 $\delta_m(·)$,其中 $$ \delta_m(·) = [\delta_{m−1}(·) − \tau_{m−1}(·)]_{[m]} = [y_0(·) − \sum^{m-1}_{l=0} \tau_l(·)]_{[m]} \tag{4} $$ 因此,在每个区域中,`式 (1)` 中的 $\delta_m(·)$ 是真实过程 $y_0(·)$ 与较低分辨率下的 “先前” 项 $\sum^{m-1}_{l=0} \tau_l(·)$ 之间的差异。我们选择 $\tau_m(·)$ 作为 $\delta_m(·)$ 的预测过程近似。由于这是一个条件期望,$\tau_m(·)$ 是以 $\delta_m(\mathcal{Q}^{(m)})$ 为条件,最小化 $\delta_m(\mathbf{s})$ 和$\delta_m(\mathcal{Q}^{(m)})$ 之间期望平方差的一个函数(Banerjee 等,2008 年[1])。此外,$\tau_m(·)$ 可以被视为每个区域 $\mathcal{D}_{j_1,\ldots ,j_m}$ 内 $\delta_m(·)$ 的最佳秩 $r$ 表示的近似,因为 $\tau_m(·)$ 是 $\delta_m(·)$ 的 Karhunen–Loeve 展开中前 $r$ 项的 Nystrom 近似(Sang 和 Huang,2012 [37])。这进一步证明,在每个分辨率下,预测过程都会捕获低频的可变性,而大部分较高频率的可变性将在较小的子区域内以较高分辨率捕获。随着 $r$ 的增加,$\tau_m(·)$ 将越来越接近 $\delta_m(·)$。事实上,如果 $\mathcal{Q}_{j_1,\ldots ,j_m}$ 等于 $\mathcal{S}_{j_1,\ldots ,j_m}$,即 $\mathcal{D}_{j_1,\ldots ,j_m}$ 中的观测位置集,那么可以直接证明 $\tau_m(\mathcal{S}_{j_1,\ldots ,j_m}) = \delta_m(\mathcal{S}_{j_1,\ldots ,j_m})$。从这个意义上说,$\tau_m(·)$ 及其基函数表示是 $\delta_m(·)$ 的 “最优” 近似。 与空间数据的许多其他多分辨率方法相比,M-RA 因此自动提供基函数表示来近似给定的协方差函数 $C_0$(基于特定的域划分和节点集),而对 $C_0$ 没有任何限制.这在 `图 2` 中进行了说明,它显示了高度非平稳协方差函数 $C_0$ 的 3-RA 的基函数。 ![Fig02](https://xishansnowblog.oss-cn-beijing.aliyuncs.com/images/ntk/stats-20230401214739-4332.png) > 图 2:对于在一维域 $\mathcal{D} = [0, 1]$ 上具有范围为 $0.15$ 和空间变化(增加)平滑度 $ν(s) = 0.2+0.7s$ 的非平稳 Matern 协方差函数的空间过程,基函数和 $J = 2$ 和 $r = 3$ 的 M -RA 的划分。请注意基函数如何适应真实协方差函数的平滑度增加以及根据基函数在较低分辨率下的设置。 **(5)协方差近似的质量** 在分辨率为 $m$ 时,M-RA 尝试通过预测过程基函数分量 $\mathbf{b}_{j_1,\ldots ,j_m}(·)^{\prime} \boldsymbol{η}_{j_1,\ldots ,j_m}$。 M-RA 的协方差 $C_M(\mathbf{s}_1, \mathbf{s}_2)$ 与真实协方差 $C_0(\mathbf{s}_1, \mathbf{s}_2)$ 的接近程度取决于 $\mathbf{s}_1$ 和 $\mathbf{s}_2$ 处于同一区域的分辨率。如果 $\mathbf{s}_1$ 和 $\mathbf{s}_2$ 在分辨率为 $M$ 的同一区域中,则 $C_M(\mathbf{s}_1, \mathbf{s}_2) = C_0(\mathbf{s}_1, \mathbf{s}_2)$。 (要证明这一点,只需将 `式 (1)` 与 `式 (4)` 结合起来。)这也意味着 $y_0(·)$ 和 $y_M(·)$ 的方差相同。如果 $\mathbf{s}_1$ 和 $\mathbf{s}_2$ 在分辨率为 $m- [1] Banerjee, S., Gelfand, A. E., Finley, A. O., and Sang, H. (2008). Gaussian predictive process models for large spatial data sets. Journal of the Royal Statistical Society, Series B, 70(4):825–848.
- [2] Bevilacqua, M., Gaetan, C., Mateu, J., and Porcu, E. (2012). Estimating space and space-time covariance functions for large data sets: A weighted composite likelihood approach. Journal of the American Statistical Association, 107(497):268–280.
- [3] Calder, C. A. (2007). Dynamic factor process convolution models for multivariate space-time data with application to air quality assessment. Environmental and Ecological Statistics, 14(3):229–247.
- [4] Caragea, P. C. and Smith, R. L. (2007). Asymptotic properties of computationally efficient alternative estimators for a class of multivariate normal models. Journal of Multivariate Analysis, 98(7):1417–1440.
- [5] Chui, C. (1992). An Introduction to Wavelets. Academic Press.
- [6] Cressie, N. and Johannesson, G. (2008). Fixed rank kriging for very large spatial data sets. Journal of the Royal Statistical Society, Series B, 70(1):209–226.
- [7] Cressie, N. and Wikle, C. K. (2011). Statistics for Spatio-Temporal Data. Wiley, Hoboken, NJ.
- [8] Curriero, F. and Lele, S. (1999). A composite likelihood approach to semivariogram estimation. Journal of Agricultural, Biological, and Environmental Statistics, 4(1):9–28.
- [9] Eidsvik, J., Shaby, B. A., Reich, B. J., Wheeler, M., and Niemi, J. (2014). Estimation and prediction in spatial models with block composite likelihoods using parallel computing. Journal of Computational and Graphical Statistics, 23(2):295–315.
- [10] Evensen, G. (1994). Sequential data assimilation with a nonlinear quasi-geostrophic model using Monte Carlo methods to forecast error statistics. Journal of Geophysical Research, 99(C5):10143–10162.
- [11] Forsythe, J. M., Dodson, J. B., Partain, P. T., Kidder, S. Q., and Haar, T. H. V. (2012). How total precipitable water vapor anomalies relate to cloud vertical structure. Journal of Hydrometeorology, 13(2):709721.
- [12] Fuentes, M. (2007). Approximate likelihood for large irregularly spaced spatial data. Journal of the American Statistical Association, 102(477):321–331.
- [13] Furrer, R., Genton, M. G., and Nychka, D. W. (2006). Covariance tapering for interpolation of large spatial datasets. Journal of Computational and Graphical Statistics, 15(3):502–523.
- [14] Gneiting, T. and Katzfuss, M. (2014). Probabilistic forecasting. Annual Review of Statistics and Its Application, 1(1):125–151.
- [15] Golub, G. H. and Van Loan, C. F. (2012). Matrix Computations. JHU Press, 4th edition.
- [16] Gramacy, R. and Lee, H. (2008). Bayesian treed Gaussian process models with an application to computer modeling. Journal of the American Statistical Association, 103(483):1119–1130.
- [17] Halko, N., Martinsson, P., and Tropp, J. (2011). Finding structure with randomness: Probabilistic algorithms for constructing approximate matrix decompositions. SIAM Review, 53(2):217–288.
- [18] Harville, D. A. (1997). Matrix Algebra From a Statistician’s Perspective. Springer, New York, NY.
- [19] Henderson, H. and Searle, S. (1981). On deriving the inverse of a sum of matrices. SIAM Review, 23(1):53–60.
- [20] Higdon, D. (1998). A process-convolution approach to modelling temperatures in the North Atlantic Ocean. Environmental and Ecological Statistics, 5(2):173–190.
- [21] Hoeting, J. A., Madigan, D., Raftery, A. E., and Volinsky, C. T. (1999). Bayesian model averaging: A tutorial. Statistical Science, 14(4):382–417.
- [22] Johannesson, G., Cressie, N., and Huang, H.-C. (2007). Dynamic multi-resolution spatial models. Environmental and Ecological Statistics, 14(1):5–25.
- [23] Katzfuss, M. (2013). Bayesian nonstationary spatial modeling for very large datasets. Environmetrics, 24(3):189–200.
- [24] Katzfuss, M. and Cressie, N. (2009). Maximum likelihood estimation of covariance parameters in the spatialrandom-effects model. In Proceedings of the Joint Statistical Meetings, pages 3378–3390, Alexandria, VA. American Statistical Association.
- [25] Katzfuss, M. and Cressie, N. (2011). Spatio-temporal smoothing and EM estimation for massive remotesensing data sets. Journal of Time Series Analysis, 32(4):430–446.
- [26] Katzfuss, M. and Cressie, N. (2012). Bayesian hierarchical spatio-temporal smoothing for very large datasets. Environmetrics, 23(1):94–107.
- [27] Katzfuss, M. and Hammerling, D. (2014). Parallel inference for massive distributed spatial data using low-rank models. arXiv:1402.1472.
- [28] Katzfuss, M., Stroud, J. R., and Wikle, C. K. (2015). Understanding the ensemble Kalman filter. The American Statistician, forthcoming.
- [29] Kaufman, C. G., Schervish, M., and Nychka, D. W. (2008). Covariance tapering for likelihood-based estimation in large spatial data sets. Journal of the American Statistical Association, 103(484):1545–1555.
- [30] Kidder, S. Q. and Jones, A. S. (2007). A blended satellite total precipitable water product for operational forecasting. Journal of Atmospheric and Oceanic Technology, 24(1):74–81.
- [31] Lemos, R. T. and Sans ́o, B. (2009). A spatio-temporal model for mean, anomaly, and trend fields of North Atlantic sea surface temperature. Journal of the American Statistical Association, 104(485):5–18.
- [32] Lindgren, F., Rue, H., and Lindstr ̈om, J. (2011). An explicit link between Gaussian fields and Gaussian Markov random fields: the stochastic partial differential equation approach. Journal of the Royal Statistical Society, Series B, 73(4):423–498.
- [33] Mardia, K., Goodall, C., Redfern, E., and Alonso, F. (1998). The kriged Kalman filter. Test, 7(2):217–282.
- [34] McLeod, A. I., Yu, H., and Krougly, Z. (2007). Algorithms for linear time series analysis: With R package. Journal of Statistical Software, 23(5).
- [35] Nychka, D. W., Bandyopadhyay, S., Hammerling, D., Lindgren, F., and Sain, S. R. (2015). A multi-resolution Gaussian process model for the analysis of large spatial data sets. Journal of Computational and Graphical Statistics, in press.
- [36] Quinonero Candela, J. and Rasmussen, C. (2005). A unifying view of sparse approximate Gaussian process regression. Journal of Machine Learning Research, 6:1939–1959.
- [37] Sang, H. and Huang, J. Z. (2012). A full scale approximation of covariance functions. Journal of the Royal Statistical Society, Series B, 74(1):111–132.
- [38] Sang, H., Jun, M., and Huang, J. Z. (2011). Covariance approximation for large multivariate spatial datasets with an application to multiple climate model errors. Annals of Applied Statistics, 5(4):2519–2548.
- [39] Schlather, M., Malinowski, A., Menck, P. J., Oesting, M., and Strokorb, K. (2015). Analysis, simulation and prediction of multivariate random fields with package RandomFields. Journal of Statistical Software, 63(8):1–25.
- [40] Shaby, B. A. and Ruppert, D. (2012). Tapered Covariance: Bayesian Estimation and Asymptotics. Journal of Computational and Graphical Statistics, 21(2):433–452.
- [41] Sherman, J. and Morrison, W. (1950). Adjustment of an inverse matrix corresponding to a change in one element of a given matrix. Annals of Mathematical Statistics, 21(1):124–127.
- [42] Snelson, E. and Ghahramani, Z. (2007). Local and global sparse Gaussian process approximations. In Artificial Intelligence and Statistics 11 (AISTATS).
- [43] Stein, M. L. (2011). 2010 Rietz lecture: When does the screening effect hold? Annals of Statistics, 39(6):2795–2819.
- [44] Stein, M. L. (2014). Limitations on low rank approximations for covariance matrices of spatial data. Spatial Statistics, 8:1–19.
- [45] Stein, M. L., Chen, J., and Anitescu, M. (2013). Stochastic approximation of score functions for Gaussian processes. The Annals of Applied Statistics, 7(2):1162–1191.
- [46] Stein, M. L., Chi, Z., and Welty, L. (2004). Approximating likelihoods for large spatial data sets. Journal of the Royal Statistical Society: Series B, 66(2):275–296.
- [47] Vecchia, A. (1988). Estimation and model identification for continuous spatial processes. Journal of the Royal Statistical Society, Series B, 50(2):297–312.
- [48] Woodbury, M. (1950). Inverting modified matrices. Memorandum Report 42, Statistical Research Group, Princeton University.