🔥 空间数据和时空数据的统计深度学习
【摘 要】 近年来,深度神经网络模型变得无处不在,并已应用于几乎所有科学、工程和工业领域。这些模型对于在空间(例如,图像)和时间(例如,序列)中具有强依赖性的数据特别有用。事实上,深度模型也被统计界广泛用于对空间和时空数据进行建模,例如,通过使用多级贝叶斯层次模型和深度高斯过程。在这篇综述中,我们首先概述了用于建模空间和时空数据的传统统计和机器学习视角,然后重点介绍了最近为隐过程、数据和参数定义开发的各种混合模型。这些混合模型将统计建模思想与深度神经网络模型相结合,以利用每种建模范式的优势。最后,我们概述了已证明对这些混合模型有用的计算技术,并简要讨论了未来的研究方向
【原 文】 K. Wikle and A. Zammit-Mangion, “Statistical Deep Learning for Spatial and Spatio-Temporal Data.” arXiv, Jun. 05, 2022. Accessed: Nov. 13, 2022. [Online]. Available: http://arxiv.org/abs/2206.02218
【作 者】
- Christopher K. Wikle1,Department of Statistics, University of Missouri, MO
- Andrew Zammit-Mangion,School of Mathematics and Applied Statistics, University of Wollongong, Australia
1 导言
深度学习彻底改变了许多类型响应数据的预测和分类。这些响应关系在本质上通常是时间(Temporal)和空间(Spatial)的,循环神经网络和卷积神经网络的最新改进特别擅长解释这种结构,至少在有大量训练数据的情况下如此。因此,深度学习模型已被广泛用于自然语言处理和图像分类,并取得了巨大成功。在大多数情况下,这些模型是独立于时空统计模型开发的,例如,高斯过程模型和动态模型,参见 Wikle 等 (2019a) 以了解最近的时空统计模型概述。乍一看,机器学习中使用的神经网络模型和时空数据的统计方法似乎截然不同。然而,在复杂的数据应用中,这两种方法都倾向于依赖多级(分层)表示,两者之间的主要区别在于:一是使用它们的应用类型;二是在不确定量化方面,多层次模型统计方法在概率框架内天然地容纳了不确定性量化。
近年来,越来越多的成果(特别是在统计文献中)采用混合方法对复杂空间或时空数据进行建模。这些模型以经典分层统计模型为主体,但借鉴了深度神经模型中的一些有效思想,以对构成层次结构的数据、过程和/或参数进行建模。这些混合模型在统计空间/时空建模和推断方面取得了许多显著进步。例如:
- 在 空间预测 方面,下面两种方法都被证明优于更经典的空间预测方法:
- 深度高斯马尔可夫随机场: Siden & Lindsten (2020) [99] 使用深度学习构建了灵活的高斯马尔可夫随机场族,随后用于建模和预测地表温度(见 [链接](https://github.com/finnlindgren/heatoncomparison) )。
- **深度克里金**:Chen 等 (2021) [17] 将深度学习与基函数方法结合,对空间过程进行建模,以预测美国各地的 PM2.5 浓度。见 [链接](3a9f5e9d.html)
- 在 **模型参数估计(或推断)** 方面:
- Lenzi 等 (2021) [56] 使用深度学习估计复杂统计空间模型的参数,通常这些模型的似然难以处理或估值。他们的方法能够有效估计拟合到表面温度数据的 BrownResnick 过程模型参数(见[链接](https://ldas.gsfc.nasa.gov/nldas/v2/models) )。
- 在 **时空动态预报** 方面:
- **深度积分微分方程**: Zammit-Mangion & Wikle (2020) [123] 使用深度学习方法来估计时空统计模型中的空间和时间变化动态,并且只需要很小的计算成本就能够提供上述动态的量化不确定性。他们利用哥白尼海洋环境监测服务 (CMEMS) 提供的数据[链接](https://marine.copernicus.eu/) ,有效地预测了海面温度,并使用 Wikle 等 (2019b) 提供的雷达反射率数据进行了降雨临近预报。
- **普通时空回波状态网络**: McDermott & Wikle (2017) [60] 展示了利用时空回波状态网络 (ESN) 处理热带太平洋海表温度数据,并作出了异常的长期预测和不确定性量化。海表温度数据数据可从 Wikle 等(2019b)[118]获得。
- **深度时空回波状态网络**:McDermott & Wikle (2019b) [62] 还进一步展示了如何根据前几个月的海表温度数据,使用深度版本的时空回波状态网络 (ESN),对美国 “corn belt” 区域的土壤湿度进行长期的时空预测。他们使用了[扩展重建海洋表面数据集](http://iridl.ldeo.columbia.edu/SOURCES/.NOAA/.NCDC/.ERSST/) 的海表温度数据和[高分辨率全球月度土壤水分数据集](https://iridl.ldeo.columbia.edu/SOURCES/.NOAA/.NCEP/.CPC/.GMSM/.w/)(来自气候预测中心)的土壤水分数据。时空回波状态网络也可以有效地用于复杂过程的短期预测。
- **降维时空回波状态网络**: Huang 等 (2021a) [42] 使用时空回波状态网络预测了具有高分辨率风场的沙特阿拉伯发电的短期风速。
本文结构如下:
- 在 `第 2 节` 中概述机器学习和时空数据的传统统计方法
- 在 `第 3 节` 和 `第 4 节` 回顾深度学习在时空统计模型中的新亮点
- 在 `第 5 节` 讨论支持时空数据深度学习的技术
- 在 `第 6 节` 简要讨论未来的研究方向。
## 2 时空数据领域的传统统计机器学习方法
我们首先简要回顾一下用于分析空间和时空数据的关键统计和机器学习方法。
### 2.1 空间数据的统计方法
**(1) 主要的空间数据类型**
Cressie (1993) [19] 和 Banerjee 等(2014)[4] 等的多本专著很好地总结了空间数据的统计方法。这些方法历来根据其用于建模的数据类型进行分类,大致分为如下几类:
- **点参考数据**:也称地统计数据,地统计空间方法通常与在感兴趣域 $G$ 中的一组点参考位置关联的响应一起使用,我们将 $G$ 称为 `地理域`。
- **面元数据**:面元或格空间方法通常与定义在 $G$ 的有限数量个(通常不重叠)分区上的响应一起使用。
- **点模式数据**:当数据是 $G$ 中随机位置的有限集合(指示存在/不存在)时,多使用空间点过程方法。
- **其他类型**:其他类型的空间数据还包括随机集、轨迹、知识图谱等。
假设我们可以将随机空间过程写成:
$$
Y(\mathbf{s}) = f(\mathbf{s};\boldsymbol{\beta}) + \eta(\mathbf{s}), \quad \mathbf{s} \in G \tag{1}
$$
其中 $f(\cdot;\boldsymbol{\beta})$ 是 $Y (\cdot)$ 的条件均值,它包含协变量关系和相关的固定效应 $\boldsymbol{\beta}$(例如,$f(\cdot;\boldsymbol{\beta}) = x^\prime(\cdot)\boldsymbol{\beta}$,其中 $\mathbf{x}(\cdot)$ 是一个已知协变量或 “特征” 的集合),而 $\eta(\cdot)$ 是与空间有关的随机过程。
**(2)点参考数据与高斯过程**
在地统计模型背景下,$\eta(\cdot)$ 通常被建模为高斯过程 (Gaussian Process,GP)。 高斯过程是一个依赖过程,其中所有(有限)维度的分布都是高斯分布,并通过均值函数 $\mu(\cdot)$ 和协方差函数 $C(\mathbf{s}, \tilde{\mathbf{s}}) = \operatorname{cov}(Y(\mathbf{x}), Y(\tilde{\mathbf{s}}))$ 定义, 其中 $\mathbf{s}, \tilde{\mathbf{s}} \in G$。 一个均值为 $\mu(\cdot)$、协方差函数为 $C(\cdot,\cdot)$ 的高斯过程 $\eta(\cdot)$ ,通常被表示为: $\eta(\cdot) \sim \mathcal{GP}(\mu(\cdot), C(\cdot,\cdot))$。
在地统计应用中,通常情况下假设 $\mu(\cdot) = 0$,因为条件均值通常假设已经由 $f(\cdot;\boldsymbol{\beta})$ 建模和解释,这也意味着 $Y (\cdot) \sim \mathcal{GP}(f(\cdot; \boldsymbol{\beta}), C(\cdot,\cdot))$。
实现基于高斯过程的空间预测(即空间插值),最大挑战在于协方差函数 $C(\cdot,\cdot)$。
在实际工作当中,协方差函数是未知的,通常必须作出平稳性假设(本征平稳或二阶平稳)和各向同性假设(方向不变性)才能实施。此外,平稳协方差矩阵的函数形式(如高斯、指数、Matern 等)通常需要指定一些未知参数,例如 $\boldsymbol{\theta}_y$。即便在此假设下,最优化预测的过程中也需要计算协方差矩阵的逆矩阵。由于在协方差矩阵中,每个测点分别对应一行和一列;因此当测点规模较大时,协方差矩阵的维度会非常大,计算会存在问题。
过去的十年间,空间统计方面的很多研究一直聚焦在大数据量时的预测问题上;这些方法大致分为两类: (1)基于邻域的方法 ;(2)基函数方法。参见 Heaton 等(2019)[37] 。
**(3)面元数据与高斯马尔可夫随机场**
在处理面元或格元数据时,`式 1` 中的随机分量通常被建模为 `高斯马尔可夫随机场 (MRF)`。在这种情况下,人们通常对 “推断条件均值参数” 或 “平滑含噪声的面元观测” 比较感兴趣。高斯马尔可夫随机场会导致高度结构化但简约的稀疏精度矩阵,而这种稀疏性能够提升边缘化或条件(贝叶斯)实现的计算效率。
**(4)时空建模复杂性与分层建模方法**
无论从 **高斯过程** 还是 **高斯马尔可夫随机场** 的角度来看待 $Y(\cdot)$,最好将其视为只能通过 $m$ 个有限观测得到隐过程,例如空间观测 $\mathbf{Z} \equiv (Z_i; i=1,\ldots , m)^\prime$,其中每个 $Z_i$ 是在 $\mathbf{r}_i \in G$ 处或 $\mathbf{r}_i \subset G, i=1, \ldots, m$ 处的观测值。
我们可以为基于此隐过程的观测(即数据)指定一个模型(即数据模型): $[\mathbf{Z} \mid Y(\cdot), \boldsymbol{\theta}_z]$,其中括号 $[\cdot]$ 表示概率分布,$\boldsymbol{\theta}_z$ 表示数据条件分布的相关参数。与广义线性混合模型一样,该模型很容易适应 **非高斯的观测** 以及 **测量误差**。
显然,与数据模型和隐过程模型相关的参数 $\{\boldsymbol{\theta}_z, \boldsymbol{\theta}_y\}$ 可以通过似然法进行估计;但通常情况下,人们会为这些参数指定一个先验分布,并考虑通过贝叶斯推断来获得参数的后验分布和后验预测预测分布( Cressie & Wikle,2011 [20];Banerjee 等,2014 [4])。
上述方式导致了一个多层次的 `贝叶斯分层模型(Bayesian Hierarchical Models, BHM)`:
$$
\begin{align*}
\text{Data Model }&:[Z \mid Y(\cdot),\boldsymbol{\theta}_z]\\
\text{Process Model }&:[Y(\cdot) \mid f(\cdot; \boldsymbol{\beta}), \boldsymbol{\theta}_y]\\
\text{Parameter Models }&:[\boldsymbol{\theta}_z, \boldsymbol{\theta}_y, \boldsymbol{\beta}]
\end{align*}
$$
贝叶斯分层模型非常重要,因为模型中的每一个组件都可以被轻松地扩展,从而使我们能够考虑更复杂的模型。例如多数据源场景、多变量过程场景、参数本身就是过程(如空间变化的固定效应,即空间变系数模型)的场景。正如在本文其余部分中看到的那样,这种多层次模型本来就是一种非常 “深” 的模型。
### 2.2 时空数据的统计方法
Cressie & Wikle (2011) [20] 和 Wikle 等(2019a)[117] 的专著广泛描述了时空数据的统计建模方法。这些方法也可以根据数据类型(即点参考数据、面元数据、点模式数据等)进行分类;不过与空间数据不同,时空数据包含时间索引,且假设其来自某个离散集合或连续范围。
**(1)描述性方法**
我们将时空过程表示为 $\{ Y (\mathbf{s};t): \mathbf{s} \in G,t \in \mathcal{T} \}$,其中 $t$ 是时域索引,$\mathcal{T} \subset \mathbb{R}^1$。与纯空间过程一样,我们可以考虑过程 $Y (\mathbf{s};t) = f(\mathbf{s},t; \boldsymbol{\beta}) + \eta(\mathbf{s};t)$ 的高斯过程或马尔可夫随机场表示。不过现在,依赖关系由时空协方差函数 $C(\mathbf{s},t; \tilde{\mathbf{s}},\tilde{t}) ≡ \operatorname{cov}(Y (\mathbf{s};t), Y (\tilde{\mathbf{s}},\tilde{t}))$ 给出。
在高斯过程情形下,就平稳性和高维性而言,纯空间情况存在的协方差计算挑战在时空数据中也会出现。由于很难定义现实的联合协方差,所以时空数据的情况会更复杂。 **正是出于此原因,很多时空协方差函数被假定为时空可分离的**,即 $C(\mathbf{s},t; \tilde{\mathbf{s}},\tilde{t}) = C_s(\mathbf{s}, \tilde{\mathbf{s}}) \cdot C_t(t,\tilde{t})$。时空数据这种额外复杂性使得其在实际工作中更倾向于使用贝叶斯分层建模方法。
**(2)动态建模方法**
上述时空建模中的高斯过程方法通常被称为 **“描述性方法”**,因为它没有明确说明生成数据的机制。在实际工作中,还存在另一种建模范式被称为 **“动态方法”** ,该方法会定义一个描述空间过程随时间演变的模型,从而试图找到数据生成机制的根本原因。
动态过程模型通常会做出一些马尔可夫假设;例如,对于具有单位时间间隔的离散时间时空模型,一阶马尔可夫假设表明,在给定时间 $t$ 的过程后,时间 $t+1$ 的过程独立于时间 $t-1, t - 2, ...$ 的过程。
也许最常用的动态时空模型 (DSTM) 是 `积分微分方程(integro-difference equation)`(Wikle 等,2019a [117],第 5 章),其形式化定义如下:
$$
Y_{t+1}(\mathbf{s}) = \int_G k(\mathbf{s},\mathbf{r}; \boldsymbol{\boldsymbol{\theta}}_{k,t}) Y_t(\mathbf{r}) d \mathbf{r} + \eta_t(\mathbf{s}),\quad \mathbf{s} \in G \tag{2}
$$
其中 $t=1,2,\ldots$ 表示离散时间(注意,通常使用下标来索引时间与离散时间过程);$G$ 是过程演变的空间域;$k(\cdot,\cdot; \boldsymbol{\theta}_{k,t})$ 被称为 **混合核** 或 **转换核**,而 $\{\boldsymbol{\theta}_{k,t}\}$ 是混合核中参数,可能随时间发生变化;$\eta_t(\cdot)$ 是一个加性的、高斯的空间扰动(通常均值为零且与时间无关)。
上面的模型很容易结合物理时空行为(例如,扩散和平流)被参数化,并且在空间为离散场景时,成为一个向量自回归过程。如果进一步考虑一个非线性动态模型(例如二次非线性动态模型,参见 Wikle & Hooten,2010 [116]),则可以适应更复杂的时空动态。
与高斯过程和马尔可夫随机场方法一样,动态时空模型(DSTM)可以与 **非高斯观测** 结合。在这种情况下,动态过程被视为潜在的。使用贝叶斯分层建模框架来指定这种模型是很自然的。 Wikle (2019) [115] 提出了一个 “深层” DSTM 的原型,其中包括数据模型层、条件均值层、过程模型(由动态和非动态组件组成)、动态过程模型、非动态过程模型、先验分布(充当正则化器)和超先验分布(总共七个级别)。这种深度在复杂时空数据应用中并不罕见。
### 2.3 时空数据的深度学习尝试
**(1)深度学习的可解释性与不确定性问题**
深度学习中的许多主要成功案例都涉及空间相关数据(例如图像分类)和序列数据(例如自然语言处理和时间序列预测)。
虽然经典的多层感知机已被用于空间预测(例如,Wang 等, 2019)[113],但最近的成功很大程度上归功于结构化深度网络的使用,例如卷积神经网络 (CNN) 和递归神经网络 (RNN),这些网络具有特别适合手头问题的架构。 **Fan 等(2021 年)[30]从统计学家的角度对这些经典深度神经模型进行了全面的教程综述**。CNN 和 RNN 等有效模型在开发后不久,就被用于时空数据建模(例如,Wang 等,2016 年)[114]。
普通神经网络的更精细变体,例如自动编码器、生成对抗网络、张量网络、序列到序列网络、图神经网络等,也已被用于时空数据建模(例如,Oh 等, 2015 [75], Shi 等, 2015 [98], Yu 等, 2017 [121], Bai 等, 2019 [3], Guo 等, 2019 [36], Song 等, 2020 [103])。
尽管上述人工智能方法非常强大,但其在空间数据和时空数据的 **统计建模方面** 存在局限性。例如:
- **不确定性**:这些数据通常存在很大不确定性,包括数据间隙(如卫星数据)、与所需预测支持不一致的空间或时间支持、采样和测量中大量存在的不确定性等。传统的深度模型无法直接提供基于模型的、可解释误差来源的 “预测误差估计” 和/或 “分类误差估计”,它们也无法轻松地结合或执行通常存在于时空数据中的某些已知机制关系。
- **可解释性**:鉴于此类人工智能方法本质上是复杂的黑盒,因此无法执行推断,甚至无法就 “哪些输入对解释(或预测)响应更重要?” 的问题提供指导。Reichstein 等 (2019) [84] 对其中许多问题进行了富有洞察力的深入讨论。
**(2)一些现有的应对手段**
不过,人工智能社区正在迎接这些挑战。对不确定性量化和可解释性的兴趣增加推动了所谓 “eXplainable AI (XAI)”(例如 Gunning 等,2019)[35] 和 ““interpretable AI”(Rudin 等,2022)[89]发展。
- 在 **不确定性量化** (Uncertainty Quantification, UQ) 方面,已经出现了四种非常关键的方法(参见 Abdar 等,2021 )[1]:
- **变分贝叶斯推断**
- **蒙特卡洛 dropout**
- **混合密度网络**
- **深度集成技术**。
- 在 **可解释性** 方面,主要目的是确保模型透明,以便深度学习模型不包含意料之外的偏差。增加可解释性的方法包括:
- **局部可解释代理**(如 Local Interpretable Model-Agnostic Explanations, LIME 方法)
- **Occlusion Analysis**,如 Shapley values、SHApley Additive exPlanations (SHAP)、kernel SHAP、meaningful perturbation
- **集成梯度**,如,SmoothGrad
- **逐层关联传播**
此外,还有一些可自我解释的模型(如利用注意力机制)和允许可解释性的专用模型(例如,图神经网络)。Molnar (2022)[65] ,Samek 等 (2021)[91] 提供了此类方法的定义和全面概述。许多受欢迎的可解释性方法与模型无关(如 **局部可解释代理**和 **Shapley Value**),这意味着它们基本上可以应用于任何预测/分类模型,而不管架构如何,并且可能更广泛地用于统计建模。
**(3)深度学习与地统计学模型的结合**
用于图像类型数据的基于 CNN 的方法通常不适用于 “地统计” 应用中最为关注的连续空间过程。这些应用通常要求最佳插值,因此需要能够在空间中的任何位置处进行预测,并提供基于模型的不确定性评估。长期以来,该问题的最优线性预测方法是基于高斯过程理论的 **克里金法(及其变体)**(参见 Cressie,1993 )[19]。
**深度高斯过程** 是能够提供不确定性量化和连续预测的最主要混合统计深度学习方法,详情参见 `第 3 节` 和相关文献 。
除了深度高斯过程外,还尝试了一些其他方法,例如:
- Kirkwood 等(2020)[52] 给出了一种介于混合高斯过程方法和 CNN 图像方法之间的替代方案 。他们在 CNN 中考虑了网格化协变量和点级信息(位置/高度数据)的非线性函数,并采用 Monte Carlo Dropout 在感兴趣域中的任何位置进行空间预测。模型输出为正态分布的均值和方差(如在混合密度网络方法中处理输出不确定性),但他们也使用蒙特卡洛 Dropout(Gal & Ghahramani,2016)[31] 作为贝叶斯近似来解释模型不确定性。
- Amato 等(2020)[2] 根据时间基函数和随机空间系数对时空过程进行了分解。这是空间和时空统计中的一种常用方法(参见 Wikle 等,2019a)[117],但这里的不同之处在于,空间系数的模型是根据一组基于空间协变量的回归来指定的,这些回归然后通过深度前馈神经网络进行训练。
**(4)深度学习与时空动态模型的结合**
如 `第 2.1 节` 所述,时空建模可以采用高斯过程方法,也可以采用动态模型。 Kirkwood 等(2020)[52] 提到的混合 CNN/RNN 模型可以做到这一点,尽管通常没有不确定性量化、缺乏可解释性,并且没有考虑已知机制关系的约束问题。有关深度学习与时空动态模型结合的问题,请参见 `第 3 节`。
在已知机制关系的约束实现方面,人们最近在深度模型中也做了一些尝试:
- **软机制约束**:可以通过向目标函数添加适当的惩罚项,然后像往常一样使用随机梯度下降来鼓励已知的动态约束(例如,Raissi 等,2020 [83];Wu 等,2020 [119];Momenifar 等,2022 [66] )。这种方法相当于 “软约束”,并不能保证解在物理上是一致的。这可能会在需要某些平衡关系(例如,连续性、质量守恒等)的应用中出现问题。
- **硬机制约束**:最近在深度模型中实施 “硬” 机制约束方面取得了进展。例如,Mohan 等(2020)[64]考虑一个两阶段模型,其中第一阶段使用无约束的 CNN 类型模型来获得潜在表面;然后将该表面馈入未经训练的物理模型,该模型对潜在表面执行适当变换,以物理一致的方式获得感兴趣的量(例如速度)。
- **多模型类连接**:Reichstein 等(2019)[84]、Chattopadhyay 等(2022)[14]和 Huang 等(2021c)[44] 提出了另外一些方法,他们采用多种模型类型并将其连接起来,以便在一个 “物理” 模型组件中强制实施物理约束。这项工作很有前景,但尚未被集成到提供基于模型不确定性量化和可解释性的框架中。
## 3 回顾深度学习与(时)空模型的结合方法
`第 2.3 节` 中的模型非常适合一些涉及空间/时空数据的应用,其中往往预测被放在最主要的位置,而模型可解释性和不确定性量化的优先级较低。但在实际应用中,模型的后两个性质和预测同等重要,因此深度学习方法与经典统计模型的融合非常具有吸引力。
这种混合模型的基本工作途径是: **首先构建经典空间和时空概率模型;然后集成 `深度学习` 来表征部分或全部条件分布**。新的模型继承了两方面优势:与统计模型有关的 `可解释性` 和 `不确定性量化性质`,以及与深度学习模型有关的 `输入/输出关系的复杂性(条件建模)`。
在本节中,我们将探讨以此方式取得成功的几种实例。
### 3.1 深度学习用于过程建模
目前在空间/时空数据建模领域占主要地位是分层模型框架(见 `第 2.1 节`),该框架由 “数据模型、过程模型、参数模型” 三个概念层次组成,但其中过程模型通常最难表征,因为过程模型通常体现了物理、化学、生态或生物学的原理,并且这些原理通常为便于分析或计算处理而被简化。此外,测量的过程通常更容易被人们理解,而参数模型通常能够体现专家对低维测量结果的理解判断,一旦能够被正确挖掘出来,这些量就相对更容易被构建。因此,这一领域的大部分努力都集中在了将深度学习集成到过程模型中。
通常,深度学习模型被视为将输入映射到输出的 “黑盒” 模型,在时空上下文中,输入常包含空间或时空坐标。此类模型(如 Calandra 等,2016 )在统计文献中很少见,主要是因为空间应用中常见的低维情况会带来一些挑战,进而影响了其使用( Duvenaud 等,2014;Dunlop 等,2018)。这种特殊性致使: **大部分空间和时空统计中引入的深度学习模型往往包含相当多的结构**。本节将展示其中一些常见的结构。
#### 3.1.1 空间扭曲方法 我们首先考虑将深度结构引入空间统计模型的最直接方法:在空间坐标本身上应用深度学习模型。 **(1)基本思想** 为了便于说明,考虑一个均值为零的空间过程 $Y (\mathbf{s}),\mathbf{s} \in G$,其中 “地理域” $G \subset \mathbb{R}^2$。如 `第 2.1 节` 所述,通常假设 $Y(\cdot)$ 是高斯且平稳的。协方差的平稳性可以通过 Sampson & Guttorp (1992) [92] 的 “扭曲” 方法给予松弛。首先指定一个 “扭曲函数( Wrapping Function )” $\mathbf{f}: G \rightarrow D, D \subset \mathbb{R}^2$,然后再用其定义协方差函数: $$ \operatorname{cov}(Y(\mathbf{s}),Y(\mathbf{u})) \equiv C_G(\mathbf{s,u}) = C^o_D(\|\mathbf{f(s)} - \mathbf{f(u)} \|) $$ 上式中 $\mathbf{s, u} \in G$ , $C_G(\cdot,\cdot)$ 是 $G$ 上的非平稳协方差函数,$C^o_D(\cdot)$ 是 “扭曲域” $D$ 上的平稳协方差函数。 各种方法已用于对 $f(\cdot)$ 建模: - Sampson & Guttorp (1992) [92] 使用平滑样条表示 $f(\cdot)$ - Smith (1996) [100] 使用从薄板样条导出的基函数 - Snoek 等 (2014) [102] 使用了 beta 累积密度函数 - Schmidt & O'Hagan (2003) [96]使用了二元高斯过程 **(2)多层设置** 在深度学习设置中,可以将变形函数表示为多个简单变换的组合: $\mathbf{f}(\cdot) = \mathbf{f}_{n−1} \circ \ldots \circ \mathbf{f}_1(\cdot)$,其中 $\mathbf{f}_l(\cdot), l = 1,\ldots,n-1$ 本身都是简单的初等函数。 第一个在空间统计中采用这种方法的是 Perrin & Monestiez (1999) [80]。 其思想很快被 Zammit-Mangion 等(2021) [122]、Wu 等(2022b) [111]和 Vu 等(2022c)[112]采纳,并融入了 “深度组合空间模型”,并将其扩展到包括基本变形函数、深度学习中常用的技术(见 `第 5 节`)以及时空和多变量依赖关系。 这种基于函数组合的方法倾向于通过将每个基本函数约束为自身单射来确保整个变形函数 $f(\cdot)$ 的单射性。单射性保证空间在扭曲后不会自行折叠,这在许多空间和时空应用中会被视为不合理约束或不符合物理现实。此外,为了保证单射性和计算效率,基础变形函数需要满足高度的结构化要求,这限制了此类方法可构造的变形类型。深度学习架构中的 “归一化流” 具有可设计的单射映射能力(例如,Rezende & Mohamed,2015 [85]);尽管该方法主要用于密度估计,但在空间统计中也开始看到一些应用(例如,参见 `第 3.1.2 节` 和 `第 4.1.1 节`)。 `图 1` 展示了此类模型的一个示例。左上角的子图模拟了一个底层真实过程,它被构建为如下 Rosenbrock 函数的变体,其中空间域 $G =[-1,2] \times [-1,2]$ : $$ Y(\mathbf{s}) = ((1-s_1)^2 + 100(s_2- s^2_1)^2)^{\frac{1}{4}} \tag{3} $$ 右上角的子图描述了对上述过程模型的观测结果,这些观测是点参考的、不完整的和嘈杂的。左下角的子图显示了来自一个 $18$ 层 `深度组合空间模型` 的预测,使用了最大似然进行拟合。模型中的每一层都对应一个径向基函数 (Perrin & Monestiez, 1999 [80]),它单射地扭曲(扩展或收缩)了一部分空间域。 右下角的子图显示了预测结果的标准差。请注意:变形后 Rosenbrock 函数的标准差表面上,谷底和峰值区域变得更明显了,变形捕捉了过程随空间变化的各向异性和差异性。 ![Fig01](https://xishansnowblog.oss-cn-beijing.aliyuncs.com/images/images/stats-20221114123107-3973.webp) > 图 1:使用深度组合空间模型进行空间预测的图示。左上图描绘了真实的基础过程,通过式 3 在 $G = [−1, 2] × [−1, 2]$ 上生成。右上图描绘了真实过程的观测结果,用于训练深度空间模型。左下角和右下角的子图描绘了在使用最大似然拟合深度模型后 $G$ 上的预测(条件期望)和标准误差(条件方差的平方根)。 **(3)代表成果** 上述几种技术在贝叶斯场景中有几个比较出名的应用: - **贝叶斯神经网络**:Neal(1996)[69]为深度神经网络中的权重设置了先验分布,并称之为贝叶斯神经网络。Zammit-Mangion 等(2021 )[122]在其工作中采用了此方法 。 - **深度高斯过程**:如果将中间层输出视为前一层输出上的一个高斯过程,则可以构造出一种层次结构,这就是 Damianou & Lawrence (2013) [21] 在机器文献中创造的深度高斯过程。其实,在该文献提出十年前,相似思想就已经出现在空间统计文献中了 (Schmidt & O'Hagan, 2003) [96]。 Damianou & Lawrence (2013) [21] 的主要贡献是使用了稀疏高斯过程 (Quinonero-Candela & Rasmussen, 2005)[81] ,并为深度高斯过程开发了一种变分推断方案,使其能够拟合大规模的数据集。深度高斯过程已在多种应用中取得成功(例如,Salimbeni & Deisenroth,2017)[90],并且在深度空间模型的构建中起着核心作用。 #### 3.1.2 嵌套的空间过程 多次接续扭曲空间的模型可以被视为 “嵌套空间过程” 的特殊情况,其中通过定义一系列条件概率模型来构建模型(一般性的框架见 Dunlop 等,2018)[28]。 **(1)早期模型** Bolin & Lindgren (2011)[6] 考虑了一个通过嵌套使用随机偏微分方程来构建概率模型的案例: $$ \begin{aligned} \mathcal{L}_n Y_n(\cdot) &=Y_{n-1}(\cdot), \\ \mathcal{L}_{n-1} Y_{n-1}(\cdot)=& Y_{n-2}(\cdot), \\ \vdots & \vdots \\ \mathcal{L}_2 Y_2(\cdot) &=Y_1(\cdot), \\ \mathcal{L}_1 Y_1(\cdot) &=\mathcal{L}_W W(\cdot), \end{aligned} $$ 其中 $\mathcal{L}_1, \ldots, \mathcal{L}_n$ 和 $\mathcal{L}_W$ 是线性算子, $W (\cdot)$ 是空间白噪声, $Y_1(\cdot), \ldots, Y_{n-1}(\cdot)$ 是中间过程,$Y(\cdot) \equiv Y_n(\cdot)$ 是感兴趣的真正过程模型。 在对运算符的某些选择下,这种直接的替换可以生成模型 $\mathcal{L}_1 \cdots \mathcal{L}_n Y_n(\cdot)=\mathcal{L}_W W(\cdot)$,该模型可以很容易地离散化并获得具有高度灵活协方差矩阵的高斯马尔可夫随机场(可能是非平稳的)。 **(2) 深度高斯马尔可夫随机场** Siden & Lindsten (2020) [99] 的模型(被称为深度高斯马尔可夫随机场)具有相似的形式,但为使用卷积神经网络做了专门设计。虽然其方法只考虑了平稳概率模型,但被认为优于许多最先进的空间预测方法。 Bolin & Lindgren (2011) [6] 和 Siden & Lindsten (2020) [99] 都专注于线性嵌套模型(Siden & Lindsten, 2020 简要考虑了非线性),从而产生线性的高斯模型,随后可以使用似然函数、变分、MCMC 等技术进行拟合。 **(3) 相关模型** Maronas 等 (2021) [59] 则考虑相关模型 $$ \begin{aligned} &Y_n(\cdot)=f_{\boldsymbol{\vartheta}}\left(Y_1(\cdot)\right), \\ &Y_1(\cdot) \sim \mathcal{GP}(\mu(\cdot), C(\cdot, \cdot)), \end{aligned} $$ 其中 $f_{\vartheta}(\cdot)$ 使用 Sinh-Arcsinh 变换的组合构建,如 Rios & Tobal (2019) [87](另见第 3.2 节),但变换的参数本身是神经网络的输出: $$ \begin{aligned} f_{\vartheta(\cdot)}\left(Y_1(\cdot)\right) &=\tilde{f}_{\vartheta_{n-1}(\cdot)} \circ \cdots \circ \tilde{f}_{\boldsymbol{\vartheta}_1(\cdot)}\left(Y_1(\cdot)\right), \\ \boldsymbol{\vartheta}_l(\cdot) &=\mathrm{NN}\left(\cdot, \mathbf{W}_l\right), \quad l=1, \ldots, n-1, \end{aligned} $$ 其中 $\mathrm{NN}(\cdot, \mathbf{W})$ 表示具有权重 $\mathbf{W}$ 的任意神经网络,其将空间坐标以及可能在对应的其他感兴趣的协变量作为输入地点; $\tilde{f}_{\vartheta_l(\cdot)}(\cdot)$ 是带参数 $\vartheta_l(\cdot)$ 的 Sinh-Arcsinh 变换; $\mathbf{W}_l, l=1, \ldots, n-1$,表示神经网络权重;其中 $\boldsymbol{\vartheta}(\cdot) \equiv\left(\boldsymbol{\vartheta}_1(\cdot)^{\prime}, \ldots, \boldsymbol{\vartheta}_{n-1} (\cdot)^{\prime}\right)^{\prime}$ 现在是输入(即空间上)相关的变换参数。Maronas 等(2021 )[59]利用该模型开发计算高效的估计和预测技术,并说明他们对空气质量(时间)和降水(空间)数据的方法。 **(4)协方差建模** 在另一类嵌套过程中,条件依赖是通过协方差函数建模的。例如,考虑以下嵌套, $$ \begin{aligned} Y_n(\cdot) &=\mathcal{GP}\left(\mathbf{x}(\cdot)^{\prime} \boldsymbol{\beta}, C_n\left(\cdot, \cdot ; \mathbf{Y}_{n-1}(\cdot)\right)\right), \\ \mathbf{Y}_{n-1}(\cdot) &=\mathcal{GP}\left(\mathbf{0}, \mathbf{C}_{n-1}\left(\cdot, \cdot ; \mathbf{Y}_{n-2}(\cdot)\right)\right), \\ \vdots &=\vdots \\ \mathbf{Y}_1(\cdot) &=\mathcal{GP}\left(\mathbf{0}, \mathbf{C}_1(\cdot, \cdot)\right), \end{aligned} $$ 其中 $Y(\cdot) \equiv Y_n(\cdot)$ 是感兴趣的底层(通常是潜在的)过程,$\mathbf{Y}_1(\cdot), \ldots, \mathbf{Y}_{n- 1}(\cdot)$,是参数化后续层的协方差函数的嵌套过程。 Monterrubio-Gomez 等 (2020) [67]考虑了 $n=2$ 的情况,其中 $Y_1(\cdot)$ 是描述 $Y_2(\cdot)$ 的协方差函数的长度尺度对数的(单变量)过程,即 $C_2\left(\cdot, \cdot ; Y_1(\cdot)\right)$,由 Paciorek & Schervish (2006) [76] 的非平稳 Matérn 表示给出。 Zhao 等 (2021) [125]将此模型称为 “批量深度高斯过程回归模型”。他们还使用了 Paciorek & Schervish (2006) [76] 表示,但是让 $\mathbf{Y}_1(\cdot)$ 是一个二元高斯过程,第一个变量是长度尺度的平方根,第二个变量是方差参数的平方根。 Zhao 等(2021 年)[125]还基于两种表示之间的已知等价性(例如,Sarkka & Solir,2019 年[93] ,第 12 章),提出了针对时间情况的深度 Matérn 回归模型的动态状态空间表示。这种表示很有吸引力,因为它允许将顺序估计方法(例如,基于卡尔曼滤波的方法)与深层层次结构一起使用。这种方法尚未应用于时空环境。 **(5)深度克里金法** Chen 等 (2021) [17] 给出了一个相关的嵌套空间过程模型。在他们所谓的 “深度克里金法” 中。在这里,模型的底层(称为“嵌入层”)由传统的多元空间随机效应模型给出(例如,Nguyen 等,2017 [73]), $$ \mathbf{Y}_1(\cdot)=\mathbf{W}_{1, x} \mathbf{x}(\cdot)+\mathbf{W}_{1, \phi} \boldsymbol{\phi}(\cdot)+\mathbf{b}_1 \tag{4} $$ 其中 $\mathbf{W}_{1, x}$ 和 $\mathbf{W}_{1, \phi}$ 是需要估计的权重矩阵,$\mathbf{x}(\cdot)$ 是协变量,$\phi(\cdot)$ 是空间基函数,$\mathbf{b}_1$ 是偏置参数。然后将多元空间过程处理为单调非线性变换,作为后续层的一组基函数。这种方法产生以下嵌套 $l=2, \ldots, n-1$, $$ \mathbf{Y}_l(\cdot)=\mathbf{W}_l \psi_{l-1}\left(\mathbf{Y}_{l-1}(\cdot)\right)+\mathbf{b}_l, $$ 其中 $\psi_l(\cdot)$ 是第 $l$ 层的单调非线性变换(逐元素应用),其他量的定义与 `式 4` 最后一层(即感兴趣的过程)类似然后建模为 $Y_n(\cdot)=$ $\psi_n\left(\mathbf{W}_n \psi_{n-1}\left(\mathbf{Y}_{n-1}(\cdot)\right )+b_n\right)$。Chen 等 (2021) [17] 表明,DeepKriging 预测器对非平稳数据具有很强的适应性,并且可以使用 GPU 加速快速实现(参见 `第 5 节`)。 DeepKriging 架构可以看作是 Tran 等(2020) [108] 的深度广义线性(混合)模型的一个特例。 #### 3.1.3 动态时空过程模型 在本节中,我们描述了一些用于对动态时空统计模型的过程组件进行建模的混合方法。首先,如 `第 2.3 节` 所述,RNN 提供了一种有效的方法来模拟复杂的时间依赖性。它们已用于时间序列应用的统计上下文中(例如,参见 Nguyen 等,2019 年 [74]的混合 RNN/随机波动率模型)。 RNN 还以各种方式与其他神经架构相结合,以适应空间输入(例如,Dixon 等,2019 [26])。 与时空过程的多级贝叶斯分层模型实现一样,这些实现具有非常多的参数,因此需要大量的数据和计算开销来实现。具有更简洁表示的 RNN 的另一种实现是 **回波状态网络** (Echo Status network,ESN), 参见 Jaeger, 2001 [45], 2007b [47]。 ESN 是一种 “储层计算”,其中隐状态和输入在动态储层中演化,描述其演化的参数(权重)是随机抽取的,大多数假设为零。仅估计在输出阶段估计的参数(权重),即那些将隐藏状态连接到输出响应的参数。 McDermott & Wikle (2017) [60] 在混合统计/ESN 模型中使用此想法进行时空预测,并附加二次输出状态。 对于时间 $t= 1,\ldots,T$,他们的模型如下: $$ \begin{align*} \text{Response}: \quad \mathbf{Z}_t &=\mathbf{V}_1 \mathbf{h}_t+\mathbf{V}_2 \mathbf{h}_t^2+\boldsymbol{\epsilon}_t, \quad \text{ for } \quad \boldsymbol{\epsilon}_t \sim \operatorname{Gau}\left(\mathbf{0}, \sigma_\epsilon^2 \mathbf{I}\right) \tag{5} \\ \text{Hidden states}: \quad \mathbf{h}_t &=g_h\left(\frac{\nu}{\left|\lambda_w\right|} \mathbf{W h}_{t-1}+\mathbf{U x}_t\right) \tag{6}\\ \text{Parameters}: \mathbf{W}&=\left[w_{i, \ell}\right]_{i, \ell}: w_{i, \ell}=\gamma_{i, \ell}^w \cdot \operatorname{Unif}\left(-a_w, a_w\right)+\left(1-\gamma_{i, \ell}^w\right) \delta_0, \\ \mathbf{U} &=\left[u_{i, j}\right]_{i, j}: u_{i, j}=\gamma_{i, j}^u \cdot \operatorname{Unif}\left(-a_u, a_u\right)+\left(1-\gamma_{i, j}^u\right) \delta_0, \\ \gamma_{i, \ell}^w &\sim \operatorname{Bern}\left(\pi_w\right), \quad \gamma_{i, j}^u \sim \operatorname{Bern}\left(\pi_u\right), \end{align*} $$ 其中 $\mathbf{Z}_t$ 是时间 $t$ 的响应向量; $\mathbf{h}_t$ 是隐状态向量; $\mathbf{x}_t$ 是输入协变量向量; $\mathbf{W}$ 是隐过程进化权重矩阵; $g_h(\cdot)$ 是一个激活函数;$\mathbf{U}$ 是输入权重矩阵; $\mathbf{V}_1,\mathbf{V}_2$ 分别是与线性和二次输出相关的权重矩阵。此外,$\delta_0$ 是零时的克罗内克三角函数,$\lambda_w$ 对应于 $\mathbf{W}$ 的最大特征值,$\nu$ 是 ESN 控制参数。此式中估计的唯一参数是 `式 5` 中的 $\mathbf{V}_1$、$\mathbf{V}_2$ 和 $\sigama^2$,它们使用正则化回归(如岭或套索)获得。重要的是,矩阵 $\mathbf{W}$ 和 $\mathbf{U}$ 的元素值分别时在区间 $(-a_w, a_w)$ 和 $(-a_u, a_u)$ 内随机抽取的。 在深度上下文中实现时空 ESN 很简单,只需允许一个级别的隐状态作为下一个级别的输入。事实上,已经证明这些模型是有益的,因为它们可以更容易地在预测中利用多尺度的时空依赖性(Jaeger,2007a [46],McDermott & Wikle,2019b [62])。通常,与 CNN 一样,在层之间执行某种类型的降维以减少隐状态的维数,并最终减少用于最后一层预测的变量数量。例如,McDermott & Wikle (2019b) [62] 给出了时间 $t$ 的以下方法:从以 $\mathbf{x}_t$ 作为输入的第 $n$ 个隐藏层开始,模型从 $l=n-1,\ldots, 1$ 迭代(注意,标签排序与 `第 3.1.2 节` 中介绍的相反,其中 $n$ 对应于输入层): $$ \begin{align*} \text{Input Stage} &: \quad \mathbf{h}_{t, n} =g_h\left(\frac{\nu_n}{| \lambda_{W_n} |} \mathbf{W}_n \mathbf{h}_{t-1, n} + \mathbf{U}_n \mathbf{x}_t \right) \tag{7} \\ \text{Reduction Stage l+1} &: \quad \widetilde{\mathbf{h}}_{t, l+1} \equiv \mathcal{Q} \left(\mathbf{h}_{t, l+1}\right), l=n-1, \ldots, 1 \tag{8} \\ \text{Hidden Stage l} &: \quad \mathbf{h}_{t, l} =g_h\left(\frac{\nu_l}{\left|\lambda_{W_l}\right|} \mathbf{W}_l \mathbf{h}_{t-1, l}+\mathbf{U}_l \widetilde{\mathbf{h}}_{t, l+1}\right), l=n-1, \ldots \tag{9} \end{align*} $$ 其中权重矩阵如上所述随机生成,并且 $\lambda_{W_l}$, $l=n,\ldots,1$ 是它们各自权重矩阵的最大特征值,$\nu_l$ 是 ESN 控制参数(预先指定),$\mathcal{Q}(\cdot)$ 是降维函数,将 $\mathbf{h}_{t,l}$ 的维数降到 $\tilde{\mathbf{h}}_ {t,l}$ ,对于所有层次:$l = n,\ldots, 2$(第 1 层可以降低,但通常不这么做)。 McDermott 和 Wikle (2019a) [61] 使用每个降维隐状态和 1 级隐状态作为模型响应级别的可能预测因子(类似于 `式 5` )。请注意,`式 8` 中的降维可以是无监督的(例如,主成分降维或随机投影)或有监督的(如使用自编码器)。在无监督降维的情况下,`式 8` 和 `式 9` 中表示的隐状态构造只是输入的多分辨率随机变换。 与上面介绍的浅时空 ESN 一样,不确定性量化可以通过自举集成方法或贝叶斯推断来解释。例如,McDermott & Wikle (2019b) [62]中给出的贝叶斯方法扩展了集成深度时空 ESN 的基本输出函数和数据阶段。具体来说,从不同的随机存储库中采样的集成成员隐状态用于正则化线性回归,以模拟来自数据阶段的平均响应的转换,类似于广义加法模型。具体来说: $$ \text{Data Stage}: \quad \mathbf{Z}_t \mid \boldsymbol{\alpha}_t \sim \operatorname{Dist}\left(\tilde{g}\left(\boldsymbol{\alpha}_t\right), \boldsymbol{\theta}\right)\tag{10} $$ $$ \text{Output Stage}: \quad \boldsymbol{\alpha}_t=\frac{1}{n_{\text {res }}} \sum_{j=1}^{n_{\text {res }}}\left[\boldsymbol{\beta}_1^{(j)} \mathbf{h}_{t, 1}^{(j)}+\sum_{l=2}^n \boldsymbol{\beta}_l^{(j)} \widetilde{\mathbf{h}}_{t, l}^{(j)}\right]+\boldsymbol{\eta}_t \tag{11} $$ 其中 $\boldsymbol{\eta}_t \sim \operatorname{Gau}(0, \sigma^2_\eta \mathbf{I})$,“Dist” 表示未指定的分布(例如指数族),$\tilde{g}(\cdot)$ 是一些指定的变换(例如,反向链接函数),$\boldsymbol{\beta}^{(j)}_l$ 是对于 $l = 1,\ldots,n$ 和第 $j$ 个储层复制的回归矩阵,其中 $j=1,\ldots,n_{res}$。在贝叶斯实现中,可以使用 `随机搜索变量选择 (SSVS)` 或其他贝叶斯变量选择方法来正则化回归矩阵。 混合 ESN 方法及其变体已被用于成功预测海面温度 (McDermott & Wikle, 2017) [60]、土壤湿度 (McDermott & Wikle, 2019b) [62]、风力发电 (Huang 等, 2021b) [43]、工业过程 ( Dixon, 2021) [25]、电价 (Klein 等, 2020) [53]、资产波动性 (Parker 等, 2021) [78] 和空气污染 (Bonas & Castruccio, 2021) [7]。 ### 3.2 深度学习用于数据表征 在统计的各分支中,为转换后的数据开发概率模型而不是数据本身很常见。这种变换包括对数变换、指数和幂变换(例如,Cressie,1978 [18])、Box-Cox 变换(Box & Cox,1964 [8])和 Tukey g-and-h 变换(Tukey,1977 [109])等。其中许多已被用于空间统计(例如,De Oliveira 等,1997 [23];Xu & Genton,2017 [120])。这些转换通常具有简约的参数化,并且形式相对简单。通过使用(适当结构化的)深度学习架构来表达此类转换,可以实现更大的灵活性。 #### 3.2.1 变形高斯过程 Snelson 等(2004)[101]的 “变形高斯过程” 由下式给出: $$ \begin{align*} \text{Dat Model }: g_{\vartheta}\left(Z_i\right) &=Y\left(\mathbf{s}_i\right)+\epsilon_i, \quad i=1, \ldots, m, \tag{12} \\ \text{Process Model }:Y(\cdot) & \sim \mathcal{GP}(\mu(\cdot), C(\cdot, \cdot)) \tag{13} \end{align*} $$ 其中 $\{Z_i\}$ 是观测值,$\{\epsilon_i\}$ 是测量误差,$g_\vartheta(\cdot)$ 是通过 $\boldsymbol{\vartheta}$ 参数化的单调函数。在空间统计上下文中,$Y(\cdot)$ 是均值函数为 $\mu(\cdot)$ 和协方差函数为 $C(\cdot,\cdot)$ 的空间过程。Snelson等 (2004) 提出使用一层 $tanh(\cdot)$ 神经网络来建模 $g_\vartheta(\cdot)$。 #### 3.2.2 组合变形高斯过程 Rios & Tobar (2019) [87] 将 $g_\vartheta(\cdot)$ 表示为可导、可逆的初等函数(深度)组合,进而将 `变形高斯过程` 扩展到 `组合变形高斯过程`;采用的初等函数包括 `Box–Cox 变换` 和 `Sinh-Arcsinh 变换`。 Murakami 等(2021)[68]在一个空间混合模型中使用了 `组合变形高斯过程`,Maronas 等(2021)[59]提出了一种计算效率高的变分算法来拟合模型。 请注意,与传统广义线性模型 (GLM) 的不同之处在于:组合变形高斯过程没有预先为 $\{Z_i\}$ 指定分布,而是根据需要来估计参数 $\boldsymbol{\theta}$。因此,此方法与 Tran 等 (2020) [108] 的深度广义线性混合模型( GLMM )设置存在明显不同。 #### 3.2.3 空间广义线性混合模型 如果 $\{Z_i\}$ 来自已知的指数族并且链接函数固定,并且使用深度网络来模拟传统的线性分量,则上面提到的广义线性混合模型( GLMM )与 Diggle 等(1998 )[24] 的 `空间 GLMM` 有联系,因此也是用于空间应用的有力候选者。 #### 3.2.4 其他 最近,Bradley (2022) [9] 为多响应类型数据的未知转换设计了一种多层级的贝叶斯分层模型,他们的方法考虑了与未知变换相关的不确定性,并已应用于空间和时空数据。 ### 3.3 深度学习用于参数模型 正如 `第 2.1 节` 和 `第 2.2 节` 所讨论的,经典的空间和时空分层统计模型通常涉及空间过程的一阶、二阶、有时是三阶甚至更高阶性质的参数,估计这些参数通常是计算瓶颈。有些似然很难计算,尤其是在数据集大小增加时。在有些情况下,似然可能易于处理,但却很难使用传统优化技术进行探索。此问题驱动了空间统计文献中关于使用神经网络来构建观测空间和参数空间之间映射的研究。一旦经过训练,此类网络原则上只需传统(例如似然方法)技术所需时间的极小部分,即可从任何观测到的数据集提供实际可用的参数估计,而不管模型复杂性如何。 回想一下 `第 3.1.3 节` 中讨论的 IDE 动态时空模型。 IDE 模型的最大挑战之一是估计与混合核相关的参数,特别是当它们以高度灵活的方式参数化时(例如,允许时空变化的混合)。对隐时空过程(过程模型)和时空变化混合核(参数模型)的联合推断是出了名的困难和耗时。 Zammit-Mangion & Wikle (2020)[123] 提出通过在混合核参数和过程滞后值之间找到一个(高度复杂的)时不变映射来减轻计算负担。这个复杂的映射使用 CNN 来描述(如 De Bezenac 等,2019 [22]),并使用大量再分析的地球物理数据进行离线拟合。 Zammit-Mangion & Wikle (2020)[123] 随后将 `式 2` 转换为与状态相关的(因此是非线性的)IDE,可以使用标准的卡尔曼滤波技术。他们的结果表明,与标准基于移动窗口的最大似然法相比,推断过程模型和参数模型所需的时间减少了 $100$ 倍。他们还通过生成与 CNN 训练过程(海面温度)有很大不同的过程(降水)的成功预测,证明了他们的方法具有强大的迁移学习潜力。 Gerber & Nychka (2021) [32] 使用与 Zammit-Mangion & Wikle (2020) [123] 相似的 CNN 架构,来估计具有 Matern 协方差函数的含噪声高斯过程的长度尺度和有效自由度(在其案例中指方差参数)。 CNN 使用数千个模拟场(对应于不同参数)作为输入数据进行训练,然后将模拟场的参数用作输出数据。 Gerber & Nychka (2021) [32]表明,他们的 CNN 估计在偏差和方差方面与最大似然估计相当,并且与 Zammit-Mangion & Wikle (2020) 报告的一样,估计速度提高了一百倍。 Lenzi 等(2021)[56] 考虑了一个类似的 CNN 框架来估计空间极端模型中的参数。这种参数估计方法在空间统计中仍处于起步阶段,但已在需要参数估计的各种相关领域得到广泛应用。例如,Rudi 等 (2021) [88] 使用类似方法来估计常微分方程系统的参数。 深度网络也被用于促进具有难处理似然的空间模型的推断。例如,Vu 等(2022a) [110] 使用深度组合空间模型来模拟构建合成似然函数所需的足够统计数据。然后使用这些合成似然函数来加速 `空间 Potts 模型` 和 `空间自逻辑模型` 的参数推断。 ## 4 深度学习在时空统计中的其他用途 `第 3 节` 展示了经典时空模型的实例,这些模型包含了深度学习文献中经常出现的想法或模型形式。在本节中,我们专注于空间和时空模型(特别是点过程模型、仿真和强化学习)的一些包含深度学习架构的特殊类型或特定应用。 ### 4.1 深度泊松点过程模型 #### 4.1.1 非齐次泊松点过程建模的测量传输 Tabak & Vanden Eijnden (2010) [105] 引入了用于构建复杂概率密度函数的 “流” 概念,该概念在机器学习文献中得到了大量使用和发展(例如,Rezende & Mohamed,2015 [85])。考虑希望建模的连续且可微的复杂密度函数 $f_0(x),x \in \mathcal{X}$,令 $T_{\boldsymbol{\theta}}(\cdot)$ 表示被参数向量 $\boldsymbol{\theta}$ 参数化的一系列双射和可微映射,$f_1(\cdot)$ 为易于评估的参考密度(或基密度)。则通过流的变量变化式有: $$ f_0(\mathbf{x}) = f_1(T_{\boldsymbol{\theta}}(\mathbf{x})) \mid \operatorname{det}(\Delta(T_{\boldsymbol{\theta}}(\mathbf{x}))) \mid, \mathbf{x} \in \mathcal{X} \tag{14} $$ 这种通过流来构造复杂密度的吸引力在于:只需估计 $\boldsymbol{\theta}$ 即可构造 $f_0(\cdot)$,而这通过最大似然法相对比较容易完成。具体来说,假设有一个样本 $\mathbf{x},i= 1,2, \ldots,N$;然后可以通过以下运算获得对 ${\boldsymbol{\theta}}$ 的估计 $\hat{\boldsymbol{\theta}}$: $$ \hat{\boldsymbol{\theta}}=\underset{\boldsymbol{\theta}}{\arg \max }\left\{\sum_{i=1}^N \log f_1\left(T_{\boldsymbol{\theta}}\left(\mathbf{x}_i\right)\right)+\log \left|\operatorname{det}\left(\nabla\left(T_{\boldsymbol{\theta}}\left(\mathbf{x}_i\right)\right)\right)\right|\right\} $$ 由于双射性和可微性能够在组合过程中被保留,因此通过将多个变换串在一起可以获得更复杂的映射(这种串连是产生术语 “流” 的原因),因此 $T_{\boldsymbol{\theta}}(\cdot) \equiv T_{K,\boldsymbol{\theta}} \circ \ldots \circ T_{1,\boldsymbol{\theta}}(\cdot)$, 其中每个 $T_{1,\boldsymbol{\theta}}(\cdot),\ldots,T_{k,\boldsymbol{\theta}}(\cdot)$ 都是双射且可微的。由于 $T_{k,\boldsymbol{\theta}}(\cdot),\quad k=1,\ldots,K$ 的双射和可微性质,使得 `式 14` 中的雅可比行列式在计算上易于处理。 与本文相关的模型大多通过三角映射构建,其中 $T_{k,{\boldsymbol{\theta}}}(\mathbf{x})$ 的第 $i$ 个输出,即 $T^{(i)}_{k,{\boldsymbol{\theta}}}(\mathbf{x})$,是 $\mathbf{x}$ 的第 $i$ 个维度的单调非线性函数(即 $\mathbf{x}^{(i)}$ ),其参数通常以高度非线性的方式依赖于 $\mathbf{x}^{(1)},\ldots, \mathbf{x}^{(i-1)}$ (通过深度学习框架,如 Kingma 等, 2016 [51], Papamakarios 等, 2017 [77], Huang 等, 2018 [41])。 由于 $f_1(\cdot)$ 常被设置为正态概率密度函数,因此此类方法通常被称为 `归一化流`,由于各种原因,它们在时空统计中引起了人们的兴趣。 - 首先,它们可在处理大型空间数据时用于改进变分推断(例如,Hensman 等,2013 [39];Rezende & Mohamed,2015 [85])。更直接的是,可以使用归一化流来模拟非齐次(时间、空间或时空)泊松点过程的强度函数。 - 这种联系源于这样一个事实:如果 $\lambda(\cdot)$ 是泊松点过程的强度函数,并且如果 $\mu_{\lambda}(\mathcal{X}) \equiv \int_{\mathcal{X}} \lambda(\mathbf{x})d \mathbf{x}$ 是积分强度,则 $\lambda(\cdot)/\mu_{\lambda} (\mathcal{X})$ 是一个密度,被 Taddy & Kottas (2010) [106]称为 `过程密度`。 - Ng & Zammit-Mangion (2022a) [71] 使用 Huang 等 (2018) [41] 提出的自回归流,对上述过程密度进行建模,并将积分强度估计为观测点数量 $N$。他们的工作表明,在强度函数的温和规律性假设下,自回归流是一个通用逼近器(即其可以模拟任意复杂的强度函数)。 - Ng & Zammit-Mangion (2022b) [72] 将类似的方法应用到球面点模式数据中,其中使用了指数映射径向流(Sei, 2013 [97]; Rezende 等, 2020 [86])。 #### 4.1.2 条件强度函数建模 最近出现了大量关于使用神经网络常微分方程对条件强度函数建模的文献。这些以事件历史为条件的强度函数通常更适用于现实世界的过程,例如金融或犯罪数据。 Jia & Benson (2019) [48] 应用了 Chen 等(2018)[16]的神经常微分方程,对条件强度函数进行建模,而 Chen 等(2020)[15]将该概念扩展到时空情况。 Zhu 等(2020) [126] 采用了不同方法,并使用高斯混合直接模拟过去点对强度函数的影响,其中每个混合分量中的参数是采用空间坐标的单层神经网络的输出作为输入。该模型产生了一个灵活的条件强度函数,该函数在空间上高度异构,适用于各种环境,例如地震数据和犯罪数据的分析。 ### 4.2 深度仿真 🔥 仿真器也是一种模型,但主要用来作为另一个通常基于数值和物理原理的复杂模型的代理。仿真器通常是该数值模型的(输入)参数空间到(输出)响应空间的正向映射(尽管也有人开发了一些逆向映射仿真器,见下文)。当原数值模型的运行需要大量计算,或输出会随输入的微小变化而平滑变化时,仿真器会发挥很大的作用。仿真器在预测(即基于尚未被确认的参数预测数值模型的输出)、实验设计和校准(即根据观测数据调整数值模型)方面用途极大。 最常见的仿真器是高斯过程仿真器 (Kennedy & O'Hagan, 2001 [49]),在该仿真器中,采用高斯过程建模输入参数和数值模型输出之间的映射。出于仿真目的,已经提出了一些基于普通高斯过程的扩展,例如 `高斯过程树` (Gramacy & Lee, 2008)[34] 和 `深度高斯过程` (Damianou & Lawrence,2013 [21]),以及其变体(Monterrubio-Gomez 等,2020 [67];Ming 等,2021 [63];Marmin 和 Filippone,2022 [58];Sauer 等,2022 年 [94])。 这些基于物理原理的数值模型,通常是时间的、空间的或时空的,已经开发了几种方法来处理这种额外级别的复杂性。如: - Leeds 等 (2013) [54] 使用随机森林来模拟生物地球化学模型的三维输出 - Leeds 等 (2014) [55] 考虑使用深度二次非线性模型来模拟多元时空过程 - Zhang 等(2015)[124] 在参数时空输入空间上使用不可分离的高斯过程来模拟复杂计算流体动力学模型的输出 - 另见 Castruccio 等 (2014) [12] 和 Chang 等(2016)[13]的相关示例。 使用深度学习模型来模拟数值模型的空间或时空输出的研究还处于起步阶段,但有很多潜在的好处,可能会在未来几年成为一个活跃的研究领域。 - Bhatnagar 等 (2022) 使用 º长短期记忆 (LSTM) 模型” 来找出数值模型输出与输入参数之间的逆向复杂映射关系,并将该模型直接用于校准。 - Cartwright 等(2022 年)[11] 使用卷积变分自动编码器 (CVAE) 来模拟拉格朗日粒子扩散模型(LPDM,它从源位置模拟大气中的粒子轨迹)的空间输出。作者表明,CVAE 可用于有效预测 LPDM 在宽空间域上的输出,只需进行少量模拟,并且 CVAE 大大优于基于奇异向量的传统仿真器(例如,Hooten 等,2011 [40] )。 - Gopalan & Wikle (2022) [33] 将奇异向量方法扩展到高阶张量分解,以模拟复杂的多维时空数据,包括基于代理的模型中代理的运动轨迹。他们的方法很灵活,因为可以在各种张量维度中使用不同的机器学习方法(如随机森林和神经网络)或高斯过程回归模型。 ### 4.3 强化学习 强化学习 (RL) 是从代理与其环境之间的交互中进行的面向目标的学习,其中代理学习采取行动以最大化指定的奖励函数。 强化学习框架将代理的特征从传统的基于代理的模型扩展到包括感知和记忆的概念,其中感知与代理的状态相关,并且通过允许根据代理对其环境的经验来学习控制参数来整合记忆(参见 Sutton & Barto,1998 [104] 年的经典综述)。 由于在学习过程的各个组成部分中嵌入了深度模型,强化学习已经复苏(参见 Henderson 等,2018 年 [38]的综述)。鉴于许多基于代理的系统是在空间和时间上定义的(例如自动车辆控制系统和集体动物运动),因此很自然地考虑强化学习来解决这些问题(例如,Ma 等, 2021 [57];Tampuu 等, 2017 [107])。不过,对于许多这样的系统来说,控制代理行为的局部代价或奖励是很难定义的,这导致人们对逆强化学习(IRL)的兴趣,即使用观测到的系统行为来学习隐藏的代价或奖励。例如,Ng & Russell,2000 [70]。 在时空统计背景下,Schafer 等(2020 年)[95] 使用贝叶斯逆强化学习来恢复水池中的孔雀鱼考虑的代价函数,以实现群体移动和移动到安全区之间的权衡。 ## 5 用于空间统计的深度学习技术 `第 2-4 节` 中讨论的大多数方法和技术都需要对出现在深层层次结构中的参数进行估计,通常通过优化似然函数来实现。在过去十年中,专门用于解决此问题的工具和硬件的可用性急剧增加。对于在空间统计中实施深度学习模型的任何人来说,其中最重要的两个是 `深度学习软件库` 和 `图形处理单元 (GPU)`。 在撰写本文时,两个最流行的深度学习库是 `PyTorch` 和 `TensorFlow/Keras`。两者都是开源 Python 库,通过各种功能极大地促进了模型构建和拟合。首先,它们允许人们轻松构建大型深度学习模型;例如,在 CNN 中创建卷积层只需要调用一个函数。其次,它们都提供了自动微分的功能(Paszke 等,2017 [79]),因此可以快速轻松地获得优化过程中的导数。第三,它们提供了广泛的(随机)梯度下降策略,也称为(随机)优化器,这些策略已被证明对模型有用,例如 AdaGrad (Duchi 等,2011 [27]) 和 Adam (Kingma 等,2014 [50])。最后,它们都提供无缝的 GPU 集成,这是训练大型深度学习模型时的实际要求。 `PyTorch` 和 `TensorFlow/Keras` 功能都已提供给 R 用户(R Core Team,2022);例如,请参见 https://tensorflow.rstudio.com/. 训练包含深度层次结构的模型时的每个似然评估通常需要大量高维但相对简单的矩阵计算,这些计算非常适合并行化(例如加法和乘法)。 GPU 包含大量处理核心:在 2022 年,高端 GPU 包含数千个核心,而典型的高端中央处理器 (CPU) 包含几十个计算核心。因此,GPU 准备好利用可并行化的矩阵运算,并提供优于传统 CPU 的巨大计算优势。它们通常还具有非常大的内存带宽(大约每秒 TB,而不是每秒千兆字节),因此可以快速访问内存中计算所需的大部分数据。即使使用浅层模型,GPU 也可以显著提高计算速度;有关空间建模实验,请参阅 https://hpc.niasra.uow.edu.au/azm/Spatial_GPUs_TFv2.html, 其中使用 GPU 拟合(浅)空间模型的速度比 CPU 快近 50 倍,尽管两者都在使用相同的优化器并执行相同的计算。 `第 3 节` 回顾了几种用于分析空间数据的统计深度学习/分层模型。实现这些方法的软件仍处于起步阶段,主要以期刊文章附带的 “可复现软件” 的形式出现。然而,此类软件是探索这些深度学习模型特性和实现的绝佳起点,并且是宝贵资源。在撰写本文时,`DeepKriging` 软件可在 https://github.com/aleksada/DeepKriging 获得,用于拟合 `深度高斯马尔可夫随机场` 的软件可在 https://bitbucket.org/psiden/deepgmrf/src/master/ 获得, `深度组合空间模型` 拟合软件可在 https://github.com/andrewzm/deepspat 获得。 ## 6 结论 在本综述中,我们展示了统计学家对空间和时空数据深度学习的观点和当前快照。 我们简要概述了此类数据的传统统计和深度学习模型,并指出自 1990 年代以来,“深度” 模型一直是空间和时空数据统计建模不可或缺的一部分,当时用于拟合多层次(深度)模型的计算方法是使得空间数据的贝叶斯层次模型得到发展。我们在这篇综述中的重点是 **机器学习/统计混合模型**,这些模型利用深度学习,并仍然适合完成不确定性量化和可解释性(或可解释性的度量)。 我们在隐过程背景下讨论了混合方法,例如 **深度高斯过程** 和 **深度回波状态网络**( `第3.1 节` )。我们还讨论了如何使用深度模型来表征更传统的多层次统计模型中的复杂数据模型( `第 3.2 节` )。然后,我们介绍了一些使用深度学习来估计各种统计模型参数的研究工作( `第 3.3 节` ),从出现在空间模型协方差函数中的参数,到在时空动态模型中表征转换运算的参数。 我们还介绍了一些其他示例,其中在空间和时空数据的上下文中使用了深度模型,包括点过程建模( `第 4.1 节` )、计算机模型仿真 ( `第 4.2 节` )和强化学习 ( `第 4.3 节` )。最后,我们简要概述了实现深度学习的一些技术,这对于渴望使用空间和时空数据进行深度学习的从业者来说必不可少。 尽管深度机器学习与空间数据和时空数据统计方法的融合尚处于起步阶段,但业界对这些方法仍有很大的研究兴趣。除了此处描述的方法及其扩展和实现之外,还有几个领域可能会在不久的将来进行更大的探索。其中包括: - 增加使用新的随机优化算法 - 开发无协方差的空间和时空预测方法 - 开发新的可解释性和可解释性方法 - 合并多类型、多支持数据 - 开发指定最佳深度架构的有效方法。 深度学习本身是机器学习/计算机科学中一个不断发展的领域,随着新方法的开发,它们几乎肯定会被用于增强分析空间数据和时空数据的传统统计方法。 ## 参考文献
相关参考文献
- Calandra R, Peters J, Rasmussen CE, Deisenroth MP. 2016. Manifold Gaussian processes for regression, In Proceedings of the 2016 International Joint Conference on Neural Networks (IJCNN), pp. 3338–3345, Vancouver, BC, Canada: IEEE
- Duvenaud D, Rippel O, Adams R, Ghahramani Z. 2014. Avoiding pathologies in very deep networks, In Artificial Intelligence and Statistics, pp. 202–210, PMLR
- Dunlop MM, Girolami MA, Stuart AM, Teckentrup AL. 2018. How deep are deep Gaussian processes? Journal of Machine Learning Research 19(54):1–46
- [1] Abdar M, Pourpanah F, Hussain S, Rezazadegan D, Liu L, et al. 2021. A review of uncertainty quantification in deep learning: Techniques, applications and challenges. Information Fusion 76:243–297
- [2] Amato F, Guignard F, Robert S, Kanevski M. 2020. A novel framework for spatiotemporal prediction of environmental data using deep learning. Scientific Reports 10(1):1–11
- [3] Bai L, Yao L, Kanhere S, Wang X, Sheng Q, et al. 2019. Stg2seq: Spatial-temporal graph to sequence model for multi-step passenger demand forecasting. arXiv preprint arXiv:1905.10069
- [4] Banerjee S, Carlin BP, Gelfand AE. 2014. Hierarchical modeling and analysis for spatial data. Boca Raton, FL: CRC Press
- [5] Bhatnagar S, Chang W, Kim S, Wang J. 2022. Computer model calibration with time series data using deep learning and quantile regression. SIAM/ASA Journal on Uncertainty Quantification 10(1):1–26
- [6] Bolin D, Lindgren F. 2011. Spatial models generated by nested stochastic partial differential equations, with an application to global ozone mapping. The Annals of Applied Statistics 5:523–550
- [7] Bonas M, Castruccio S. 2021. Calibration of spatial forecasts from citizen science urban air pollution data with sparse recurrent neural networks. arXiv preprint arXiv:2105.02971
- [8] Box GE, Cox DR. 1964. An analysis of transformations. Journal of the Royal Statistical Society: Series B 26(2):211–243
- [9] Bradley JR. 2022. Joint Bayesian analysis of multiple response-types using the hierarchical generalized transformation model. Bayesian Analysis 17(1):127–164
- [10] Calandra R, Peters J, Rasmussen CE, Deisenroth MP. 2016. Manifold Gaussian processes for regression, In Proceedings of the 2016 International Joint Conference on Neural Networks (IJCNN), pp. 3338–3345, Vancouver, BC, Canada: IEEE
- [11] Cartwright L, Zammit-Mangion A, Deutscher N. 2022. Emulation of greenhouse-gas sensitivities using variational autoencoders. arXiv preprint arXiv:2112.12524
- [12] Castruccio S, McInerney DJ, Stein ML, Liu Crouch F, Jacob RL, Moyer EJ. 2014. Statistical emulation of climate model projections based on precomputed gcm runs. Journal of Climate 27(5):1829–1844
- [13] Chang W, Haran M, Applegate P, Pollard D. 2016. Calibrating an ice sheet model using high-dimensional binary spatial data. Journal of the American Statistical Association 111(513):57–72
- [14] Chattopadhyay A, Mustafa M, Hassanzadeh P, Bach E, Kashinath K. 2022. Towards physics-inspired data-driven weather forecasting: integrating data assimilation with a deep spatial-transformer-based U-NET in a case study with ERA5. Geoscientific Model Development 15:2221–2237
- [15] Chen RT, Amos B, Nickel M. 2020. Neural spatio-temporal point processes. arXiv preprint arXiv:2011.04583
- [16] Chen RT, Rubanova Y, Bettencourt J, Duvenaud D. 2018. Neural ordinary differential equations. arXiv preprint arXiv:1806.07366
- [17] Chen W, Li Y, Reich BJ, Sun Y. 2021. DeepKriging: Spatially dependent deep neural networks for spatial prediction. arXiv preprint arXiv:2007.11972
- [18] Cressie N. 1978. The exponential and power data transformations. Journal of the Royal Statistical Society: Series D 27(1):57–60
- [19] Cressie N. 1993. Statistics for spatial data. Hoboken, NJ: John Wiley & Sons
- [20] Cressie N, Wikle CK. 2011. Statistics for spatio-temporal data. Hoboken, NJ: John Wiley & Sons
- [21] Damianou A, Lawrence N. 2013. Deep Gaussian processes, In Proceedings of the Sixteenth International Conference on Artificial Intelligence and Statistics, eds. CM Carvalho, P Ravikumar, vol. 31 of Proceedings of Machine Learning Research, pp. 207–215, PMLR, Scottsdale, AZ
- [22] De B ́ezenac E, Pajot A, Gallinari P. 2019. Deep learning for physical processes: incorporating prior scientific knowledge. Journal of Statistical Mechanics: Theory and Experiment 2019(12):124009
- [23] De Oliveira V, Kedem B, Short DA. 1997. Bayesian prediction of transformed Gaussian random fields. Journal of the American Statistical Association 92(440):1422–1433
- [24] Diggle PJ, Tawn JA, Moyeed RA. 1998. Model-based geostatistics. Journal of the Royal Statistical Society: Series C 47(3):299–350
- [25] Dixon MF. 2021. Industrial forecasting with exponentially smoothed recurrent neural networks. Technometrics 64(1):114–124
- [26] Dixon MF, Polson NG, Sokolov VO. 2019. Deep learning for spatio-temporal modeling: dynamic traffic flows and high frequency trading. Applied Stochastic Models in Business and Industry 35(3):788–807
- [27] Duchi J, Hazan E, Singer Y. 2011. Adaptive subgradient methods for online learning and stochastic optimization. Journal of Machine Learning Research 12(7):2121–2159
- [28] Dunlop MM, Girolami MA, Stuart AM, Teckentrup AL. 2018. How deep are deep Gaussian processes? Journal of Machine Learning Research 19(54):1–46
- [29] Duvenaud D, Rippel O, Adams R, Ghahramani Z. 2014. Avoiding pathologies in very deep networks, In Artificial Intelligence and Statistics, pp. 202–210, PMLR
- [30] Fan J, Ma C, Zhong Y. 2021. A selective overview of deep learning. Statistical Science 36(2):264–290
- [31] Gal Y, Ghahramani Z. 2016. Dropout as a Bayesian approximation: Representing model uncertainty in deep learning, In International Conference on Machine Learning, pp. 1050–1059, PMLR, New York, NY
- [32] Gerber F, Nychka D. 2021. Fast covariance parameter estimation of spatial Gaussian process models using neural networks. Stat 10(1):e382
- [33] Gopalan G, Wikle CK. 2022. A higher-order singular value decomposition tensor emulator for spatiotemporal simulators. Journal of Agricultural, Biological and Environmental Statistics 27(1):22–45
- [34] Gramacy RB, Lee HKH. 2008. Bayesian treed Gaussian process models with an application to computer modeling. Journal of the American Statistical Association 103(483):1119–1130
- [35] Gunning D, Stefik M, Choi J, Miller T, Stumpf S, Yang GZ. 2019. XAI—Explainable artificial intelligence. Science Robotics 4(37):aay7120
- [36] Guo S, Lin Y, Li S, Chen Z, Wan H. 2019. Deep spatial–temporal 3D convolutional neural networks for traffic data forecasting. IEEE Transactions on Intelligent Transportation Systems 20(10):3913–3926
- [37] Heaton MJ, Datta A, Finley AO, Furrer R, Guinness J, et al. 2019. A case study competition among methods for analyzing large spatial data. Journal of Agricultural, Biological and Environmental Statistics 24(3):398–425
- [38] Henderson P, Islam R, Bachman P, Pineau J, Precup D, Meger D. 2018. Deep reinforcement learning that matters, In Proceedings of the AAAI Conference on Artificial Intelligence, vol. 32 of AAAI’18/IAAI’18/EAAI’18. New Orleans, Louisiana, LA: AAAI Press
- [39] Hensman J, Fusi N, Lawrence ND. 2013. Gaussian processes for big data. arXiv preprint arXiv:1309.6835
- [40] Hooten MB, Leeds WB, Fiechter J, Wikle CK. 2011. Assessing first-order emulator inference for physical parameters in nonlinear mechanistic models. Journal of Agricultural, Biological, and Environmental Statistics 16(4):475–494
- [41] Huang CW, Krueger D, Lacoste A, Courville A. 2018. Neural autoregressive flows, In Proceedings of the 35th International Conference on Machine Learning, eds. J Dy, A Krause, vol. 80 of Proceedings of Machine Learning Research, pp. 2078–2087, PMLR, Stockholm, Sweden
- [42] Huang H, Castruccio S, Genton MG. 2021a. Forecasting high-frequency spatiotemporal wind power with dimensionally reduced echo state networks. arXiv preprint arXiv:2102.01141
- [43] Huang H, Castruccio S, Genton MG. 2021b. Forecasting high-frequency spatiotemporal wind power with dimensionally reduced echo state networks. arXiv preprint arXiv:2102.01141
- [44] Huang Y, Li J, Shi M, Zhuang H, Zhu X, et al. 2021c. ST-PCNN: Spatiotemporal physics-coupled neural networks for dynamics forecasting. arXiv preprint arXiv:2108.05940
- [45] Jaeger H. 2001. The “echo state” approach to analysing and training recurrent neural networks-with an erratum note. GMD Report 148, German National Research Center for Information Technology
- [46] Jaeger H. 2007a. Discovering multiscale dynamical features with hierarchical echo state networks. Technical Report No. 10, School of Engineering and Science, Jacobs University
- [47] Jaeger H. 2007b. Echo state network. Scholarpedia 2(9):2330
- [48] Jia J, Benson AR. 2019. Neural jump stochastic differential equations. arXiv preprint arXiv:1905.10403
- [49] Kennedy MC, O’Hagan A. 2001. Bayesian calibration of computer models. Journal of the Royal Statistical Society: Series B 63(3):425–464
- [50] Kingma DP, Ba J. 2014. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980
- [51] Kingma DP, Salimans T, Jozefowicz R, Chen X, Sutskever I, Welling M. 2016. Improved variational inference with inverse autoregressive flow, In Advances in Neural Information Processing Systems, eds. D Lee, M Sugiyama, U Luxburg, I Guyon, R Garnett, vol. 29. Curran Associates, Inc.
- [52] Kirkwood C, Economou T, Pugeault N. 2020. Bayesian deep learning for mapping via auxiliary information: a new era for geostatistics? arXiv preprint arXiv:2008.07320
- [53] Klein N, Smith MS, Nott DJ. 2020. Deep distributional time series models and the probabilistic forecasting of intraday electricity prices. arXiv preprint arXiv:2010.01844
- [54] Leeds W, Wikle C, Fiechter J, Brown J, Milliff R. 2013. Modeling 3-D spatio-temporal biogeochemical processes with a forest of 1-D statistical emulators. Environmetrics 24(1):1–12
- [55] Leeds WB, Wikle CK, Fiechter J. 2014. Emulator-assisted reduced-rank ecological data assimilation for nonlinear multivariate dynamical spatio-temporal processes. Statistical Methodology 17:126–138
- [56] Lenzi A, Bessac J, Rudi J, Stein ML. 2021. Neural networks for parameter estimation in intractable models. arXiv preprint arXiv:2107.14346
- [57] Ma X, Li J, Kochenderfer MJ, Isele D, Fujimura K. 2021. Reinforcement learning for autonomous driving with latent state inference and spatial-temporal relationships, In 2021 IEEE International Conference on Robotics and Automation (ICRA), pp. 6064–6071, IEEE
- [58] Marmin S, Filippone M. 2022. Deep Gaussian processes for calibration of computer models. Bayesian Analysis 1(1):1–30
- [59] Maronas J, Hamelijnck O, Knoblauch J, Damoulas T. 2021. Transforming Gaussian processes with normalizing flows, In International Conference on Artificial Intelligence and Statistics, pp. 1081–1089, PMLR. Online:http://proceedings.mlr.press/v130/maronas21a/maronas21a.pdf
- [60] McDermott PL, Wikle CK. 2017. An ensemble quadratic echo state network for nonlinear spatio-temporal forecasting. Stat 6(1):315–330
- [61] McDermott PL, Wikle CK. 2019a. Bayesian recurrent neural network models for forecasting and quantifying uncertainty in spatial-temporal data. Entropy 21(2):184
- [62] McDermott PL, Wikle CK. 2019b. Deep echo state networks with uncertainty quantification for spatio-temporal forecasting. Environmetrics 30(3):e2553
- [63] Ming D, Williamson D, Guillas S. 2021. Deep Gaussian process emulation using stochastic imputation. arXiv preprint arXiv:2107.01590
- [64] Mohan AT, Lubbers N, Livescu D, Chertkov M. 2020. Embedding hard physical constraints in convolutional neural networks for 3D turbulence, In ICLR 2020 Workshop on Integration of Deep Neural Models and Differential Equations. Online: https://openreview.net/pdf?id=IaXBtMNFaa
- [65] Molnar C. 2022. Interpretable Machine Learning. Independently published. Available at https://christophm.github.io/interpretable-ml-book/
- [66] Momenifar M, Diao E, Tarokh V, Bragg AD. 2022. A physics-informed vector quantized autoencoder for data compression of turbulent flow. arXiv preprint arXiv:2201.03617
- [67] Monterrubio-Gomez K, Roininen L, Wade S, Damoulas T, Girolami M. 2020. Posterior inference for sparse hierarchical non-stationary models. Computational Statistics & Data Analysis 148:106954
- [68] Murakami D, Kajita M, Kajita S, Matsui T. 2021. Compositionally-warped additive mixed modeling for a wide variety of non-Gaussian spatial data. Spatial Statistics 43:100520
- [69] Neal RM. 1996. Bayesian Learning for Neural Networks. New York, NY: Springer
- [70] Ng AY, Russell S. 2000. Algorithms for inverse reinforcement learning, In Proceedings of the 17th International Conf. on Machine Learning, pp. 663–670, Morgan Kaufmann
- [71] Ng TLJ, Zammit-Mangion A. 2022a. Non-homogeneous Poisson process intensity modeling and estimation using measure transport. Bernoulli, in press
- [72] Ng TLJ, Zammit-Mangion A. 2022b. Spherical poisson point process intensity function modeling and estimation with measure transport. Spatial Statistics, in press
- [73] Nguyen H, Cressie N, Braverman A. 2017. Multivariate spatial data fusion for very large remote sensing datasets. Remote Sensing 9(2):142
- [74] Nguyen N, Tran MN, Gunawan D, Kohn R. 2019. A long short-term memory stochastic volatility model. arXiv preprint arXiv:1906.02884
- [75] Oh J, Guo X, Lee H, Lewis R, Singh S. 2015. Action-conditional video prediction using deep networks in atari games. arXiv preprint arXiv:1507.08750
- [76] Paciorek CJ, Schervish MJ. 2006. Spatial modelling using a new class of nonstationary covariance functions. Environmetrics 17(5):483–506
- [77] Papamakarios G, Pavlakou T, Murray I. 2017. Masked autoregressive flow for density estimation, In Advances in Neural Information Processing Systems, eds. I Guyon, UV Luxburg, S Bengio, H Wallach, R Fergus, S Vishwanathan, R Garnett, vol. 30. Curran Associates, Inc.
- [78] Parker PA, Holan SH, Wills SA. 2021. A general Bayesian model for heteroskedastic data with fully conjugate full-conditional distributions. Journal of Statistical Computation and Simulation 91(15):3207–3227
- [79] Paszke A, Gross S, Chintala S, Chanan G, Yang E, et al. 2017. Automatic differentiation in PyTorch. https://openreview.net/forum?id=BJJsrmfCZ
- [80] Perrin O, Monestiez P. 1999. Modelling of non-stationary spatial structure using parametric radial basis deformations. In GeoENV II–Geostatistics for Environmental Applications, eds. J G ́omez-Hern ́andez, A Soares, R Froidevaux. Springer, New York, NY, 175–186
- [81] Quinonero-Candela J, Rasmussen CE. 2005. A unifying view of sparse approximate Gaussian process regression. Journal of Machine Learning Research 6:1939–1959
- [82] R Core Team. 2022. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria
- [83] Raissi M, Yazdani A, Karniadakis GE. 2020. Hidden fluid mechanics: learning velocity and pressure fields from flow visualizations. Science 367(6481):1026–1030
- [84] Reichstein M, Camps-Valls G, Stevens B, Jung M, Denzler J, et al. 2019. Deep learning and process understanding for data-driven earth system science. Nature 566(7743):195–204
- [85] Rezende DJ, Mohamed S. 2015. Variational inference with normalizing flows, In International Conference on Machine Learning, pp. 1530–1538, PMLR. Online: https://dl.acm.org/doi/10.5555/3045118.3045281
- [86] Rezende DJ, Papamakarios G, Racaniere S, Albergo M, Kanwar G, et al. 2020. Normalizing flows on tori and spheres, In Proceedings of the 37th International Conference on Machine Learning, eds. H Daum ́e III, A Singh, vol. 119 of Proceedings of Machine Learning Research, pp. 8083–8092, PMLR
- [87] Rios G, Tobar F. 2019. Compositionally-warped Gaussian processes. Neural Networks 118:235–246
- [88] Rudi J, Bessac J, Lenzi A. 2021. Parameter estimation with dense and convolutional neural networks applied to the FitzHugh-Nagumo ODE, In 2nd Annual Conference on Mathematical and Scientific Machine Learning, vol. 145 of Proceedings of Machine Learning Research, pp. 781–808, PMLR. Online: https: //msml21.github.io/papers/id54.pdf
- [89] Rudin C, Chen C, Chen Z, Huang H, Semenova L, Zhong C. 2022. Interpretable machine learning: Fundamental principles and 10 grand challenges. Statistical Surveys 16:1–85
- [90] Salimbeni H, Deisenroth M. 2017. Doubly stochastic variational inference for deep Gaussian processes, In Advances in Neural Information Processing Systems, eds. I Guyon, UV Luxburg, S Bengio, H Wallach, R Fergus, S Vishwanathan, R Garnett, vol. 30, pp. 4588–4599, California, CA: Curran Associates, Inc.
- [91] Samek W, Montavon G, Lapuschkin S, Anders CJ, M ̈ uller KR. 2021. Explaining deep neural networks and beyond: A review of methods and applications. Proceedings of the IEEE 109(3):247–278
- [92] Sampson PD, Guttorp P. 1992. Nonparametric estimation of nonstationary spatial covariance structure. Journal of the American Statistical Association 87(417):108119
- [93] Sarkka S, Solin A. 2019. Applied stochastic differential equations, vol. 10. Cambridge, UK: Cambridge University Press
- [94] Sauer A, Cooper A, Gramacy RB. 2022. Vecchia-approximated deep Gaussian processes for computer experiments. arXiv preprint arXiv:2204.02904
- [95] Schafer TL, Wikle CK, Hooten MB. 2020. Bayesian inverse reinforcement learning for collective animal movement. arXiv preprint arXiv:2009.04003
- [96] Schmidt AM, O’Hagan A. 2003. Bayesian inference for non-stationary spatial covariance structure via spatial deformations. Journal of the Royal Statistical Society: Series B 65(3):743–758
- [97] Sei T. 2013. A Jacobian inequality for gradient maps on the sphere and its application to directional statistics. Communications in Statistics – Theory and Methods 42(14):2525–2542
- [98] Shi X, Chen Z, Wang H, Yeung DY, Wong Wk, Woo Wc. 2015. Convolutional LSTM network: A machine learning approach for precipitation nowcasting, In Proceedings of the 28th International Conference on Neural Information Processing Systems, vol. 1 of NIPS’15, p. 802–810, Cambridge, MA: MIT Press
- [99] Siden P, Lindsten F. 2020. Deep Gaussian Markov random fields, In Proceedings of the 37th International Conference on Machine Learning, eds. H Daum ́e III, A Singh, vol. 119 of Proceedings of Machine Learning Research, pp. 8916–8926, PMLR. Online: https://proceedings.mlr.press/v119/siden20a.html
- [100] Smith RL. 1996. Estimating nonstationary spatial correlations. Online: Available from http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.40.5988&rep=rep1&type=pdf
- [101] Snelson E, Rasmussen CE, Ghahramani Z. 2004. Warped Gaussian processes. Advances in Neural Information Processing Systems 16:337–344
- [102] Snoek J, Swersky K, Zemel R, Adams R. 2014. Input warping for Bayesian optimization of non-stationary functions, In Proceedings of the 31st International Conference on Machine Learning, eds. EP Xing, T Jebara, vol. 32 of Proceedings of Machine Learning Research, pp. 1674–1682, PMLR, Bejing, China
- [103] Song C, Lin Y, Guo S, Wan H. 2020. Spatial-temporal synchronous graph convolutional networks: A new framework for spatial-temporal network data forecasting, In Proceedings of the AAAI Conference on Artificial Intelligence, vol. 34, pp. 914–921, New York, NY
- [104] Sutton RS, Barto AG. 1998. Reinforcement learning: An introduction. Massachusetts, MA: MIT Press
- [105] Tabak E, Vanden Eijnden E. 2010. Density estimation by dual ascent of the loglikelihood. Communications in Mathematical Sciences 8(1):217–233
- [106] Taddy M, Kottas A. 2010. Mixture modeling for marked Poisson processes. Bayesian Analysis 7(2):335–362
- [107] Tampuu A, Matiisen T, Kodelja D, Kuzovkin I, Korjus K, et al. 2017. Multiagent cooperation and competition with deep reinforcement learning. PloS One 12(4):e0172395
- [108] Tran MN, Nguyen N, Nott D, Kohn R. 2020. Bayesian deep net GLM and GLMM. Journal of Computational and Graphical Statistics 29(1):97–113
- [109] Tukey JW. 1977. Modern techniques in data analysis, In Proceedings of the NSFSponsored Regional Research Conference, vol. 7. Southern Massachusetts University, Massachusetts, MA
- [110] Vu Q, Moores MT, Zammit-Mangion A. 2022a. Warped gradient-enhanced Gaussian process surrogate models for inference with intractable likelihoods. arXiv preprint arXiv:2105.04374
- [111] Vu Q, Zammit-Mangion A, Chuter SJ. 2022b. Constructing large nonstationary spatio-temporal covariance models via compositional warpings. arXiv preprint arXiv:2202.03560
- [112] Vu Q, Zammit-Mangion A, Cressie N. 2022c. Modeling nonstationary and asymmetric multivariate spatial covarianves via deformations. Statistica Sinica, in press
- [113] Wang H, Guan Y, Reich B. 2019. Nearest-neighbor neural networks for geostatistics, In 2019 International Conference on Data Mining Workshops (ICDMW), pp. 196–205, IEEE, Beijing, China
- [114] Wang J, Yang Y, Mao J, Huang Z, Huang C, Xu W. 2016. CNN-RNN: A unified framework for multi-label image classification, In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2285–2294, Las Vegas, NV
- [115] Wikle CK. 2019. Comparison of deep neural networks and deep hierarchical models for spatio-temporal data. Journal of Agricultural, Biological and Environmental Statistics 24(2):175–203
- [116] Wikle CK, Hooten MB. 2010. A general science-based framework for dynamical spatiotemporal models. Test 19(3):417–451
- [117] Wikle CK, Zammit-Mangion A, Cressie N. 2019a. Spatio-temporal statistics with R. Boca Raton, FL: Chapman and Hall/CRC Press
- [118] Wikle CK, Zammit-Mangion A, Cressie N. 2019b. Spatio-temporal statistics with R (supplementary R package). Online: https://github.com/andrewzm/STRbook
- [119] Wu JL, Kashinath K, Albert A, Chirila D, Xiao H, et al. 2020. Enforcing statistical constraints in generative adversarial networks for modeling chaotic dynamical systems. Journal of Computational Physics 406:109209
- [120] Xu G, Genton MG. 2017. Tukey g-and-h random fields. Journal of the American Statistical Association 112(519):1236–1249
- [121] Yu B, Yin H, Zhu Z. 2017. Spatio-temporal graph convolutional networks: A deep learning framework for traffic forecasting. arXiv preprint arXiv:1709.04875
- [122] Zammit-Mangion A, Ng TLJ, Vu Q, Filippone M. 2021. Deep compositional spatial models. Journal of the American Statistical Association doi:10.1080/01621459.2021.1887741
- [123] Zammit-Mangion A, Wikle CK. 2020. Deep integro-difference equation models for spatio-temporal forecasting. Spatial Statistics 37:100408
- [124] Zhang B, Konomi BA, Sang H, Karagiannis G, Lin G. 2015. Full scale multi-output Gaussian process emulator with nonseparable auto-covariance functions. Journal of Computational Physics 300:623–642
- [125] Zhao Z, Emzir M, S ̈arkk ̈a S. 2021. Deep state-space Gaussian processes. Statistics and Computing 31(75):1–26
- [126] Zhu S, Li S, Peng Z, Xie Y. 2020. Interpretable deep generative spatio-temporal point processes, In Proceedings of the NeurIPS Workshop AI for Earth Sciences. Online: https://ai4earthscience.github.io/neurips-2020-workshop/papers/ai4earth_neurips_2020_09.pdf
- 深度高斯马尔可夫随机场: Siden & Lindsten (2020) [99] 使用深度学习构建了灵活的高斯马尔可夫随机场族,随后用于建模和预测地表温度(见 [链接](https://github.com/finnlindgren/heatoncomparison) )。
- **深度克里金**:Chen 等 (2021) [17] 将深度学习与基函数方法结合,对空间过程进行建模,以预测美国各地的 PM2.5 浓度。见 [链接](3a9f5e9d.html)
- 在 **模型参数估计(或推断)** 方面:
- Lenzi 等 (2021) [56] 使用深度学习估计复杂统计空间模型的参数,通常这些模型的似然难以处理或估值。他们的方法能够有效估计拟合到表面温度数据的 BrownResnick 过程模型参数(见[链接](https://ldas.gsfc.nasa.gov/nldas/v2/models) )。
- 在 **时空动态预报** 方面:
- **深度积分微分方程**: Zammit-Mangion & Wikle (2020) [123] 使用深度学习方法来估计时空统计模型中的空间和时间变化动态,并且只需要很小的计算成本就能够提供上述动态的量化不确定性。他们利用哥白尼海洋环境监测服务 (CMEMS) 提供的数据[链接](https://marine.copernicus.eu/) ,有效地预测了海面温度,并使用 Wikle 等 (2019b) 提供的雷达反射率数据进行了降雨临近预报。
- **普通时空回波状态网络**: McDermott & Wikle (2017) [60] 展示了利用时空回波状态网络 (ESN) 处理热带太平洋海表温度数据,并作出了异常的长期预测和不确定性量化。海表温度数据数据可从 Wikle 等(2019b)[118]获得。
- **深度时空回波状态网络**:McDermott & Wikle (2019b) [62] 还进一步展示了如何根据前几个月的海表温度数据,使用深度版本的时空回波状态网络 (ESN),对美国 “corn belt” 区域的土壤湿度进行长期的时空预测。他们使用了[扩展重建海洋表面数据集](http://iridl.ldeo.columbia.edu/SOURCES/.NOAA/.NCDC/.ERSST/) 的海表温度数据和[高分辨率全球月度土壤水分数据集](https://iridl.ldeo.columbia.edu/SOURCES/.NOAA/.NCEP/.CPC/.GMSM/.w/)(来自气候预测中心)的土壤水分数据。时空回波状态网络也可以有效地用于复杂过程的短期预测。
- **降维时空回波状态网络**: Huang 等 (2021a) [42] 使用时空回波状态网络预测了具有高分辨率风场的沙特阿拉伯发电的短期风速。
本文结构如下:
- 在 `第 2 节` 中概述机器学习和时空数据的传统统计方法
- 在 `第 3 节` 和 `第 4 节` 回顾深度学习在时空统计模型中的新亮点
- 在 `第 5 节` 讨论支持时空数据深度学习的技术
- 在 `第 6 节` 简要讨论未来的研究方向。
## 2 时空数据领域的传统统计机器学习方法
我们首先简要回顾一下用于分析空间和时空数据的关键统计和机器学习方法。
### 2.1 空间数据的统计方法
**(1) 主要的空间数据类型**
Cressie (1993) [19] 和 Banerjee 等(2014)[4] 等的多本专著很好地总结了空间数据的统计方法。这些方法历来根据其用于建模的数据类型进行分类,大致分为如下几类:
- **点参考数据**:也称地统计数据,地统计空间方法通常与在感兴趣域 $G$ 中的一组点参考位置关联的响应一起使用,我们将 $G$ 称为 `地理域`。
- **面元数据**:面元或格空间方法通常与定义在 $G$ 的有限数量个(通常不重叠)分区上的响应一起使用。
- **点模式数据**:当数据是 $G$ 中随机位置的有限集合(指示存在/不存在)时,多使用空间点过程方法。
- **其他类型**:其他类型的空间数据还包括随机集、轨迹、知识图谱等。
假设我们可以将随机空间过程写成:
$$
Y(\mathbf{s}) = f(\mathbf{s};\boldsymbol{\beta}) + \eta(\mathbf{s}), \quad \mathbf{s} \in G \tag{1}
$$
其中 $f(\cdot;\boldsymbol{\beta})$ 是 $Y (\cdot)$ 的条件均值,它包含协变量关系和相关的固定效应 $\boldsymbol{\beta}$(例如,$f(\cdot;\boldsymbol{\beta}) = x^\prime(\cdot)\boldsymbol{\beta}$,其中 $\mathbf{x}(\cdot)$ 是一个已知协变量或 “特征” 的集合),而 $\eta(\cdot)$ 是与空间有关的随机过程。
**(2)点参考数据与高斯过程**
在地统计模型背景下,$\eta(\cdot)$ 通常被建模为高斯过程 (Gaussian Process,GP)。 高斯过程是一个依赖过程,其中所有(有限)维度的分布都是高斯分布,并通过均值函数 $\mu(\cdot)$ 和协方差函数 $C(\mathbf{s}, \tilde{\mathbf{s}}) = \operatorname{cov}(Y(\mathbf{x}), Y(\tilde{\mathbf{s}}))$ 定义, 其中 $\mathbf{s}, \tilde{\mathbf{s}} \in G$。 一个均值为 $\mu(\cdot)$、协方差函数为 $C(\cdot,\cdot)$ 的高斯过程 $\eta(\cdot)$ ,通常被表示为: $\eta(\cdot) \sim \mathcal{GP}(\mu(\cdot), C(\cdot,\cdot))$。
在地统计应用中,通常情况下假设 $\mu(\cdot) = 0$,因为条件均值通常假设已经由 $f(\cdot;\boldsymbol{\beta})$ 建模和解释,这也意味着 $Y (\cdot) \sim \mathcal{GP}(f(\cdot; \boldsymbol{\beta}), C(\cdot,\cdot))$。
实现基于高斯过程的空间预测(即空间插值),最大挑战在于协方差函数 $C(\cdot,\cdot)$。
在实际工作当中,协方差函数是未知的,通常必须作出平稳性假设(本征平稳或二阶平稳)和各向同性假设(方向不变性)才能实施。此外,平稳协方差矩阵的函数形式(如高斯、指数、Matern 等)通常需要指定一些未知参数,例如 $\boldsymbol{\theta}_y$。即便在此假设下,最优化预测的过程中也需要计算协方差矩阵的逆矩阵。由于在协方差矩阵中,每个测点分别对应一行和一列;因此当测点规模较大时,协方差矩阵的维度会非常大,计算会存在问题。
过去的十年间,空间统计方面的很多研究一直聚焦在大数据量时的预测问题上;这些方法大致分为两类: (1)基于邻域的方法 ;(2)基函数方法。参见 Heaton 等(2019)[37] 。
**(3)面元数据与高斯马尔可夫随机场**
在处理面元或格元数据时,`式 1` 中的随机分量通常被建模为 `高斯马尔可夫随机场 (MRF)`。在这种情况下,人们通常对 “推断条件均值参数” 或 “平滑含噪声的面元观测” 比较感兴趣。高斯马尔可夫随机场会导致高度结构化但简约的稀疏精度矩阵,而这种稀疏性能够提升边缘化或条件(贝叶斯)实现的计算效率。
**(4)时空建模复杂性与分层建模方法**
无论从 **高斯过程** 还是 **高斯马尔可夫随机场** 的角度来看待 $Y(\cdot)$,最好将其视为只能通过 $m$ 个有限观测得到隐过程,例如空间观测 $\mathbf{Z} \equiv (Z_i; i=1,\ldots , m)^\prime$,其中每个 $Z_i$ 是在 $\mathbf{r}_i \in G$ 处或 $\mathbf{r}_i \subset G, i=1, \ldots, m$ 处的观测值。
我们可以为基于此隐过程的观测(即数据)指定一个模型(即数据模型): $[\mathbf{Z} \mid Y(\cdot), \boldsymbol{\theta}_z]$,其中括号 $[\cdot]$ 表示概率分布,$\boldsymbol{\theta}_z$ 表示数据条件分布的相关参数。与广义线性混合模型一样,该模型很容易适应 **非高斯的观测** 以及 **测量误差**。
显然,与数据模型和隐过程模型相关的参数 $\{\boldsymbol{\theta}_z, \boldsymbol{\theta}_y\}$ 可以通过似然法进行估计;但通常情况下,人们会为这些参数指定一个先验分布,并考虑通过贝叶斯推断来获得参数的后验分布和后验预测预测分布( Cressie & Wikle,2011 [20];Banerjee 等,2014 [4])。
上述方式导致了一个多层次的 `贝叶斯分层模型(Bayesian Hierarchical Models, BHM)`:
$$
\begin{align*}
\text{Data Model }&:[Z \mid Y(\cdot),\boldsymbol{\theta}_z]\\
\text{Process Model }&:[Y(\cdot) \mid f(\cdot; \boldsymbol{\beta}), \boldsymbol{\theta}_y]\\
\text{Parameter Models }&:[\boldsymbol{\theta}_z, \boldsymbol{\theta}_y, \boldsymbol{\beta}]
\end{align*}
$$
贝叶斯分层模型非常重要,因为模型中的每一个组件都可以被轻松地扩展,从而使我们能够考虑更复杂的模型。例如多数据源场景、多变量过程场景、参数本身就是过程(如空间变化的固定效应,即空间变系数模型)的场景。正如在本文其余部分中看到的那样,这种多层次模型本来就是一种非常 “深” 的模型。
### 2.2 时空数据的统计方法
Cressie & Wikle (2011) [20] 和 Wikle 等(2019a)[117] 的专著广泛描述了时空数据的统计建模方法。这些方法也可以根据数据类型(即点参考数据、面元数据、点模式数据等)进行分类;不过与空间数据不同,时空数据包含时间索引,且假设其来自某个离散集合或连续范围。
**(1)描述性方法**
我们将时空过程表示为 $\{ Y (\mathbf{s};t): \mathbf{s} \in G,t \in \mathcal{T} \}$,其中 $t$ 是时域索引,$\mathcal{T} \subset \mathbb{R}^1$。与纯空间过程一样,我们可以考虑过程 $Y (\mathbf{s};t) = f(\mathbf{s},t; \boldsymbol{\beta}) + \eta(\mathbf{s};t)$ 的高斯过程或马尔可夫随机场表示。不过现在,依赖关系由时空协方差函数 $C(\mathbf{s},t; \tilde{\mathbf{s}},\tilde{t}) ≡ \operatorname{cov}(Y (\mathbf{s};t), Y (\tilde{\mathbf{s}},\tilde{t}))$ 给出。
在高斯过程情形下,就平稳性和高维性而言,纯空间情况存在的协方差计算挑战在时空数据中也会出现。由于很难定义现实的联合协方差,所以时空数据的情况会更复杂。 **正是出于此原因,很多时空协方差函数被假定为时空可分离的**,即 $C(\mathbf{s},t; \tilde{\mathbf{s}},\tilde{t}) = C_s(\mathbf{s}, \tilde{\mathbf{s}}) \cdot C_t(t,\tilde{t})$。时空数据这种额外复杂性使得其在实际工作中更倾向于使用贝叶斯分层建模方法。
**(2)动态建模方法**
上述时空建模中的高斯过程方法通常被称为 **“描述性方法”**,因为它没有明确说明生成数据的机制。在实际工作中,还存在另一种建模范式被称为 **“动态方法”** ,该方法会定义一个描述空间过程随时间演变的模型,从而试图找到数据生成机制的根本原因。
动态过程模型通常会做出一些马尔可夫假设;例如,对于具有单位时间间隔的离散时间时空模型,一阶马尔可夫假设表明,在给定时间 $t$ 的过程后,时间 $t+1$ 的过程独立于时间 $t-1, t - 2, ...$ 的过程。
也许最常用的动态时空模型 (DSTM) 是 `积分微分方程(integro-difference equation)`(Wikle 等,2019a [117],第 5 章),其形式化定义如下:
$$
Y_{t+1}(\mathbf{s}) = \int_G k(\mathbf{s},\mathbf{r}; \boldsymbol{\boldsymbol{\theta}}_{k,t}) Y_t(\mathbf{r}) d \mathbf{r} + \eta_t(\mathbf{s}),\quad \mathbf{s} \in G \tag{2}
$$
其中 $t=1,2,\ldots$ 表示离散时间(注意,通常使用下标来索引时间与离散时间过程);$G$ 是过程演变的空间域;$k(\cdot,\cdot; \boldsymbol{\theta}_{k,t})$ 被称为 **混合核** 或 **转换核**,而 $\{\boldsymbol{\theta}_{k,t}\}$ 是混合核中参数,可能随时间发生变化;$\eta_t(\cdot)$ 是一个加性的、高斯的空间扰动(通常均值为零且与时间无关)。
上面的模型很容易结合物理时空行为(例如,扩散和平流)被参数化,并且在空间为离散场景时,成为一个向量自回归过程。如果进一步考虑一个非线性动态模型(例如二次非线性动态模型,参见 Wikle & Hooten,2010 [116]),则可以适应更复杂的时空动态。
与高斯过程和马尔可夫随机场方法一样,动态时空模型(DSTM)可以与 **非高斯观测** 结合。在这种情况下,动态过程被视为潜在的。使用贝叶斯分层建模框架来指定这种模型是很自然的。 Wikle (2019) [115] 提出了一个 “深层” DSTM 的原型,其中包括数据模型层、条件均值层、过程模型(由动态和非动态组件组成)、动态过程模型、非动态过程模型、先验分布(充当正则化器)和超先验分布(总共七个级别)。这种深度在复杂时空数据应用中并不罕见。
### 2.3 时空数据的深度学习尝试
**(1)深度学习的可解释性与不确定性问题**
深度学习中的许多主要成功案例都涉及空间相关数据(例如图像分类)和序列数据(例如自然语言处理和时间序列预测)。
虽然经典的多层感知机已被用于空间预测(例如,Wang 等, 2019)[113],但最近的成功很大程度上归功于结构化深度网络的使用,例如卷积神经网络 (CNN) 和递归神经网络 (RNN),这些网络具有特别适合手头问题的架构。 **Fan 等(2021 年)[30]从统计学家的角度对这些经典深度神经模型进行了全面的教程综述**。CNN 和 RNN 等有效模型在开发后不久,就被用于时空数据建模(例如,Wang 等,2016 年)[114]。
普通神经网络的更精细变体,例如自动编码器、生成对抗网络、张量网络、序列到序列网络、图神经网络等,也已被用于时空数据建模(例如,Oh 等, 2015 [75], Shi 等, 2015 [98], Yu 等, 2017 [121], Bai 等, 2019 [3], Guo 等, 2019 [36], Song 等, 2020 [103])。
尽管上述人工智能方法非常强大,但其在空间数据和时空数据的 **统计建模方面** 存在局限性。例如:
- **不确定性**:这些数据通常存在很大不确定性,包括数据间隙(如卫星数据)、与所需预测支持不一致的空间或时间支持、采样和测量中大量存在的不确定性等。传统的深度模型无法直接提供基于模型的、可解释误差来源的 “预测误差估计” 和/或 “分类误差估计”,它们也无法轻松地结合或执行通常存在于时空数据中的某些已知机制关系。
- **可解释性**:鉴于此类人工智能方法本质上是复杂的黑盒,因此无法执行推断,甚至无法就 “哪些输入对解释(或预测)响应更重要?” 的问题提供指导。Reichstein 等 (2019) [84] 对其中许多问题进行了富有洞察力的深入讨论。
**(2)一些现有的应对手段**
不过,人工智能社区正在迎接这些挑战。对不确定性量化和可解释性的兴趣增加推动了所谓 “eXplainable AI (XAI)”(例如 Gunning 等,2019)[35] 和 ““interpretable AI”(Rudin 等,2022)[89]发展。
- 在 **不确定性量化** (Uncertainty Quantification, UQ) 方面,已经出现了四种非常关键的方法(参见 Abdar 等,2021 )[1]:
- **变分贝叶斯推断**
- **蒙特卡洛 dropout**
- **混合密度网络**
- **深度集成技术**。
- 在 **可解释性** 方面,主要目的是确保模型透明,以便深度学习模型不包含意料之外的偏差。增加可解释性的方法包括:
- **局部可解释代理**(如 Local Interpretable Model-Agnostic Explanations, LIME 方法)
- **Occlusion Analysis**,如 Shapley values、SHApley Additive exPlanations (SHAP)、kernel SHAP、meaningful perturbation
- **集成梯度**,如,SmoothGrad
- **逐层关联传播**
此外,还有一些可自我解释的模型(如利用注意力机制)和允许可解释性的专用模型(例如,图神经网络)。Molnar (2022)[65] ,Samek 等 (2021)[91] 提供了此类方法的定义和全面概述。许多受欢迎的可解释性方法与模型无关(如 **局部可解释代理**和 **Shapley Value**),这意味着它们基本上可以应用于任何预测/分类模型,而不管架构如何,并且可能更广泛地用于统计建模。
**(3)深度学习与地统计学模型的结合**
用于图像类型数据的基于 CNN 的方法通常不适用于 “地统计” 应用中最为关注的连续空间过程。这些应用通常要求最佳插值,因此需要能够在空间中的任何位置处进行预测,并提供基于模型的不确定性评估。长期以来,该问题的最优线性预测方法是基于高斯过程理论的 **克里金法(及其变体)**(参见 Cressie,1993 )[19]。
**深度高斯过程** 是能够提供不确定性量化和连续预测的最主要混合统计深度学习方法,详情参见 `第 3 节` 和相关文献 。
除了深度高斯过程外,还尝试了一些其他方法,例如:
- Kirkwood 等(2020)[52] 给出了一种介于混合高斯过程方法和 CNN 图像方法之间的替代方案 。他们在 CNN 中考虑了网格化协变量和点级信息(位置/高度数据)的非线性函数,并采用 Monte Carlo Dropout 在感兴趣域中的任何位置进行空间预测。模型输出为正态分布的均值和方差(如在混合密度网络方法中处理输出不确定性),但他们也使用蒙特卡洛 Dropout(Gal & Ghahramani,2016)[31] 作为贝叶斯近似来解释模型不确定性。
- Amato 等(2020)[2] 根据时间基函数和随机空间系数对时空过程进行了分解。这是空间和时空统计中的一种常用方法(参见 Wikle 等,2019a)[117],但这里的不同之处在于,空间系数的模型是根据一组基于空间协变量的回归来指定的,这些回归然后通过深度前馈神经网络进行训练。
**(4)深度学习与时空动态模型的结合**
如 `第 2.1 节` 所述,时空建模可以采用高斯过程方法,也可以采用动态模型。 Kirkwood 等(2020)[52] 提到的混合 CNN/RNN 模型可以做到这一点,尽管通常没有不确定性量化、缺乏可解释性,并且没有考虑已知机制关系的约束问题。有关深度学习与时空动态模型结合的问题,请参见 `第 3 节`。
在已知机制关系的约束实现方面,人们最近在深度模型中也做了一些尝试:
- **软机制约束**:可以通过向目标函数添加适当的惩罚项,然后像往常一样使用随机梯度下降来鼓励已知的动态约束(例如,Raissi 等,2020 [83];Wu 等,2020 [119];Momenifar 等,2022 [66] )。这种方法相当于 “软约束”,并不能保证解在物理上是一致的。这可能会在需要某些平衡关系(例如,连续性、质量守恒等)的应用中出现问题。
- **硬机制约束**:最近在深度模型中实施 “硬” 机制约束方面取得了进展。例如,Mohan 等(2020)[64]考虑一个两阶段模型,其中第一阶段使用无约束的 CNN 类型模型来获得潜在表面;然后将该表面馈入未经训练的物理模型,该模型对潜在表面执行适当变换,以物理一致的方式获得感兴趣的量(例如速度)。
- **多模型类连接**:Reichstein 等(2019)[84]、Chattopadhyay 等(2022)[14]和 Huang 等(2021c)[44] 提出了另外一些方法,他们采用多种模型类型并将其连接起来,以便在一个 “物理” 模型组件中强制实施物理约束。这项工作很有前景,但尚未被集成到提供基于模型不确定性量化和可解释性的框架中。
## 3 回顾深度学习与(时)空模型的结合方法
`第 2.3 节` 中的模型非常适合一些涉及空间/时空数据的应用,其中往往预测被放在最主要的位置,而模型可解释性和不确定性量化的优先级较低。但在实际应用中,模型的后两个性质和预测同等重要,因此深度学习方法与经典统计模型的融合非常具有吸引力。
这种混合模型的基本工作途径是: **首先构建经典空间和时空概率模型;然后集成 `深度学习` 来表征部分或全部条件分布**。新的模型继承了两方面优势:与统计模型有关的 `可解释性` 和 `不确定性量化性质`,以及与深度学习模型有关的 `输入/输出关系的复杂性(条件建模)`。
在本节中,我们将探讨以此方式取得成功的几种实例。
### 3.1 深度学习用于过程建模
目前在空间/时空数据建模领域占主要地位是分层模型框架(见 `第 2.1 节`),该框架由 “数据模型、过程模型、参数模型” 三个概念层次组成,但其中过程模型通常最难表征,因为过程模型通常体现了物理、化学、生态或生物学的原理,并且这些原理通常为便于分析或计算处理而被简化。此外,测量的过程通常更容易被人们理解,而参数模型通常能够体现专家对低维测量结果的理解判断,一旦能够被正确挖掘出来,这些量就相对更容易被构建。因此,这一领域的大部分努力都集中在了将深度学习集成到过程模型中。
通常,深度学习模型被视为将输入映射到输出的 “黑盒” 模型,在时空上下文中,输入常包含空间或时空坐标。此类模型(如 Calandra 等,2016 )在统计文献中很少见,主要是因为空间应用中常见的低维情况会带来一些挑战,进而影响了其使用( Duvenaud 等,2014;Dunlop 等,2018)。这种特殊性致使: **大部分空间和时空统计中引入的深度学习模型往往包含相当多的结构**。本节将展示其中一些常见的结构。