深度神经网络和时空数据深度分层模型比较
【摘 要】 时空数据在农业、生态和环境科学中无处不在,研究它们对于理解和预测各种过程非常重要。对随时间变化的空间过程建模的困难之一是必须描述这种过程如何变化的依赖结构的复杂性,以及高维复杂数据集和大型预测域的存在。为非线性动态时空模型 (DSTM) 指定参数化尤其具有挑战性,这些模型在科学上和计算上都非常有用。统计学家开发了深层分层模型,可以适应过程的复杂性以及预测和推断中的不确定性。然而,这些模型可能很昂贵并且通常是特定于应用程序的。另一方面,机器学习社区已经为非线性时空建模开发了替代的“深度学习”方法。这些模型很灵活,但通常不会在概率框架中实现。这两种范式有许多共同点,并提出了可以从每个框架的元素中受益的混合方法。这篇概述论文简要介绍了深度分层 DSTM (DH-DSTM) 框架和机器学习中的深度模型,最后介绍了深度神经网络动态时空模型 (DN-DSTM),将来自 DH-DSTM 和 DN-DSTM 的要素结合起来的最新方法作为插图呈现。
【引 文】 C. K. Wikle, “Comparison of Deep Neural Networks and Deep Hierarchical Models for Spatio-Temporal Data.” arXiv, Feb. 21, 2019. Accessed: Nov. 15, 2022. [Online]. Available: http://arxiv.org/abs/1902.08321
1 简介
深度学习是一种机器学习 (ML),它利用一组相互连接的分层模型来预测或分类复杂数据集的元素。机器学习的深度学习革命是相对较新的,主要与神经模型相关,例如前馈神经网络 (FNN)、卷积神经网络 (CNN)、递归神经网络 (RNN)、生成对抗网络 (GAN),或这些神经网络的某种组合架构。有与这些方法相关的非凡成功案例,例如可以击败围棋、国际象棋或将棋专家的模型(Silver 等人,2016 年、2018 年),当然也有失败的案例(Shalev-Shwartz 等人., 2017),尽管宣传较少。统计学家不应该对这些深度机器学习方法的成功(和失败)感到惊讶,因为我们多年来一直也在使用深度层次模型 (Deep Hierarchical Models, HM)。
深层层次模型是指多级的贝叶斯分层模型。事实上,深度机器学习和深度分层模型成功和失败的许多原因是相同的。本文的主要目的是在时空建模背景下讨论其中的一些联系,并展示一些可以在传统统计建模框架内利用深度机器学习模型的方法。
时空过程在环境科学中无处不在。他们描述了空间相关的过程如何随着时间的推移而变化,并受到各种驱动机制的影响。此类过程的一个重要建模挑战涉及如何解释不同尺度空间和时间变异性之间的相互作用、感兴趣过程内部以及过程之间(内外生)的相互作用。时空过程在时间上是通常完全非线性,至少在某些时间或空间尺度上是这样。虽然在这种情况下已经有了一些参数时空统计模型,但大多要结合感兴趣系统的潜在动力学知识(例如 Wikle 等人,2001 年;Wikle 和 Hooten,2010 年)。这种 深度分层动态时空模型 (DH-DSTM)
可能非常复杂。同样,深度机器学习方法中最成功的案例可能与具有复杂空间和时间依赖性的数据相关联。特别是,CNN 模型在视觉和图像处理方面非常成功,而 RNN 模型利用了语言处理中复杂的时间依赖性(参见 Goodfellow 等的概述,2016 年;Aggarwal,2018 年)。 CNN 和 RNN 方法越来越多地结合起来对时空过程进行建模(例如,Donahue 等人,2015 年)。在本文中,我们将这种混合时空模型称为 深度神经动力学时空模型 (DN-DSTM)
。
面对复杂的时空建模挑战,环境统计学家该如何决定哪种范式最适合他们的问题呢? DH-DSTM 和 DN-DSTM 的实施都具有挑战性,通常需要大量训练数据和专门的计算算法。正如第 4.6 节中所讨论的,这两种建模范式对这些挑战共享共同的或相似的解决方案。
还必须考虑不确定性量化 (UQ) 对手头问题的重要性。作为统计学家,我们认为不确定性量化对事情始终具有根本的重要性,但现实情况是,在某些情况下,人们只需要进行预测或分类,而不确定性量化只是次要的。大多数 DN-DSTM 方法不提供基于模型的不确定性度量,而 DH-DSTM 方法建立在一个框架之上,以明确捕获问题多方面(数据、过程和参数)的不确定性。但是,DN-DSTM 模型确实可以灵活地及时考虑非马尔可夫反馈机制和遥远过去特定事件的影响,而 DH-DSTM 通常基于马尔可夫(即自回归)结构。这表明我们有机会借鉴 DH-DSTM 和 DN-DSTM 方法的想法来开发相对简约和灵活的模型,这些模型可以以计算上可行的方式适应现实世界的复杂性和不确定性量化。也许更重要的是,在某些情况下,这些方法可用于无法访问大量数据源(标记或未标记)的情况,尤其是当其与简约架构链接在一起时。
本文机构如下:
- 第 2 节从描述性和动态性角度简要概述了统计中的时空建模,说明了基函数表示的重要性。
- 第 3 节简要概述了深度建模和 DH-DSTM 统计观点。
- 第 4 节简要概述了机器学习中的深度模型以及与其实现相关的问题,包括深度前馈神经网络 (DNN)、CNN 、RNN 和 DN-DSTM。
- 第 5 节回顾了一些最近用于链接 DH-DSTM 和 DNDSTM 框架的方法。
- 第 6 节介绍了结论性讨论。
2 时空建模概述
在统计学中,我们通常对遵循观测模型和时空隐过程模型的一般形式的时空模型感兴趣(例如 Cressie 和 Wikle,2011 年;Wikle 等人,2019 年):
$$
[\text{observations | latent process and obs/sampling error}] \tag{1}
$$
$$
\text{latent process = “fixed effects” + dependent random process} \tag{2}
$$
其中符号 “ $[\cdot ]$ ” 表示通用分布,符号 “ $\mid$ ” 表示条件,模型的每个组件都在空间和时间上进行索引。
更具体地说,假设我们对潜在(未观测到的)时空过程 ${Y (\mathbf{s};t) : \mathbf{s} \in D_s, t \in D_t}$ 感兴趣,其中 $\mathbf{s}$ 是域 $D_s$($d$ 维实空间的子集)中的空间位置, $t$ 是时间域 $D_t$ 中的时间索引(沿一维实线)。则对空间位置 ${\mathbf{s}_{ij} : i = 1, \ldots , m_j}$ 和时间 ${t_j : j = 1, \ldots , T }$。 式(1)
中一个常见的高斯时空观测示例由下式给出:
$$
z(\mathbf{s}{ij}; t_j) = Y (\mathbf{s}{ij}; t) + \epsilon(\mathbf{s}_{ij}; t_j) \tag{3}
$$
其中 $(\mathbf{s}_{ij}; t_j) \stackrel{i.i.d} \sim \text{Gau}(0, \sigma^2 )$ 是观测误差过程。式(2)
中的隐高斯时空过程可以表示为:
$$
Y (\mathbf{s};t) = \mu (\mathbf{s};t) + η(\mathbf{s};t) \tag{4}
$$
其中 $\mu (\mathbf{s};t)$ 是时空均值函数,$η(\mathbf{s};t)$ 是具有协方差函数的零均值 高斯过程 (Gaussian Process, GP)
,比如 $c_η(η(\mathbf{s};t), η(s’, t^\prime)) ≡ \text{Cov}(η(\mathbf{s};t), η(\mathbf{s}^\prime;t^\prime))$。那么,$Y(\mathbf{s};t)$ 就是一个具有均值函数 $\mu (\mathbf{s};t)$ 和协方差函数 $c_η(·,·)$ 的GP。
回想一下,高斯过程是关于函数的分布,它完全由在感兴趣的时空域(例如 $D_s × D_t$ )上定义的均值函数和协方差函数指定。 高斯过程具有非常有用的属性:其任意有限维分布都是高斯分布(即正态分布)。
现在,假设我们有兴趣在给定 $m = \sum_j m_j$ 维观测向量 $z ≡ {z(\mathbf{s}_{ij}; t_j)}$ 的情况下预测位置 $(\mathbf{s}_0; t_0)$ 的隐过程。时空(通用)克里金法是一个最优线性预测 $\hat{Y} (\mathbf{s}_0; t_0)$,它通过最小化均方预测误差 $E(Y (\mathbf{s}_0; t_0) −\hat{Y} (\mathbf{s}_0; t_0))^2$ 获得:
$$
\hat{Y}(\mathbf{s}_0; t_0) = \mathbf{x}(\mathbf{s}0; t_0)^\prime \hat{\boldsymbol{\beta}}{\text{gls}} + \mathbf{c}^\prime_0 \mathbf{C}^{−1}z (\mathbf{z} − \mathbf{X} \hat{\boldsymbol{\beta}}{\text{gls}}) \tag{5}
$$
其中 $\mathbf{x}(\mathbf{s}_0; t_0)$ 是待估计位置 $(\mathbf{s}_0; t_0)$ 处的已知协变量,是一个 $p$ 维向量,$\boldsymbol{\beta}$ 是对应的参数向量,$\mathbf{X}$ 是所有已观测位置处的协变量构成的 $m × p$ 矩阵,$\mathbf{C}_z ≡ \operatorname{Var}(\mathbf{z})$ 是 $m × m$ 协方差矩阵,$\mathbf{c}_0 ≡ c_η(\mathbf{z}, Y(\mathbf{s}0; t_0)$ 是观测位置和待预测位置之间的 $m × 1$ 协方差向量,式(5)
中 $\boldsymbol{\beta}$ 广义最小二乘估计由 $\hat{\boldsymbol{\beta}}{\text{gls}} ≡ (\mathbf{X}^\prime\mathbf{C}^{−1}_z \mathbf{X})^{−1} \mathbf{X}^\prime\mathbf{C}^{-1}_z \mathbf{z}$ 给出。注意 $\mathbf{C}_z = \mathbf{C}y + \sigma^2_\epsilon \mathbf{I} = \mathbf{C}{\eta} + \sigma^2_\epsilon \mathbf{I}$。
相关的时空克里金法方差由 $\sigma^2_Y (\mathbf{s}0; t_0) = c{0,0} − \mathbf{c}^\prime_0 \mathbf{C}^{-1}_z \mathbf{c}0 + κ$ 给出, 其中 $c{0,0} ≡ \operatorname{Var}(Y (\mathbf{s}_0; t_0))$ 和 $κ$ 表示由于估计 $\boldsymbol{\beta}$ 而给预测带来的不确定性(例如 Wikle 等人,2019)。直接修改这些公式以获得多个位置的预测是直接的,并且该方法也可以扩展到非高斯数据模型,但k可能没有封闭形式解(例如,参见 Cressie 和 Wikle,2011)
这种时空建模方法是描述性的,因为它只依赖于隐过程 ${Y(\mathbf{s};t)}$ 的一阶矩和二阶矩。这在人们对底层的时空过程不太了解非常有用,此时只需要按照类似于 “地理学第一定律”(Tobler,1970) 的指导,指定一个合理的时空协方差结构(和时空趋势)就能构造可工作的模型。不过,这对于复杂过程来说可能具有挑战性,因为在 Tobler 定律可能不成立的许多情况下,很难指定有效的协方差函数(例如,涡流动力学、密度依赖性增长等)。此外,这种基于二阶矩的方法限制了非线性和非高斯过程。实际上,如 图 1
所示,在预测未来的多个时间步和/或必须插补感兴趣时空域中的大片空白时,这些约束表现得最为明显。
图 1:来自 SeaWiFS 卫星的海洋彩色图像——请注意,海洋水色是海洋中浮游植物初级生产力的代表。左侧子图显示了一个示意图框,表示由于云层覆盖而经常遇到的缺失观测结果。右侧子图显示该区域存在中尺度涡流(中等空间尺度高度非线性环流特征)。这说明了尝试将传统的基于插值的空间或时间预测方法用于复杂过程存在较大的挑战。
2.1 动态时空模型(DSTM)
统计中时空过程建模的动态方法基于将当前时间的空间过程调节到最近的过去(即马尔可夫假设)的想法。该模型主要关注指定空间场随时间的演变。这种对空间过程演变的指定方式描述了环境过程的病因学。当一个人对感兴趣的过程有一些基础知识以帮助估计控制演化的迁移算子时,这种指定传统上非常有效(例如,Wikle 和 Hooten,2010)。这些模型通常在预测未来的多个时间步长和/或预测没有观测值的大空间区域时最有效。
一般DSTM中的 数据模型
可以写成
$$
z_t(·) = \mathcal{H}(Y_t(·), \boldsymbol{\theta}_{d,t}, \epsilon_t(·)), t = 1, \ldots, T \tag{6}
$$
其中 $z_t(·)$ 对应于时间 $t$ 的数据,$Y_t(·)$ 对应感兴趣的隐过程,具有线性或非线性映射函数 $\mathcal{H}(·)$,将数据与隐过程相关联。数据模型误差由 $\epsilon_t(\cdot)$ 给出,数据模型参数由 $\boldsymbol{\theta}{d,t}$ 表示。这些参数通常可以在空间和/或时间上发生变化。此处以及上述描述性模型中存在的一个重要假设是,当以真实过程 $Y_t(·)$ 和参数 $\boldsymbol{\theta}{d,t}$ 为条件时,数据 $z_t(·)$ 在时间上是独立的 (注意,按照动态模型的惯例,我们在这里将时间索引表示为下标)。
DSTM 最重要的组成部分是 动态过程模型
。人们可以通过马尔可夫假设,并利用条件独立性来简化该过程(例如,以最近的过去为条件,该过程独立于更久远的过去的过程)。例如,一阶马尔可夫过程可以写成
$$
Y_t(·) = \mathcal{M}(Y_{t−1}(·), \boldsymbol{\theta}_{p,t}, \eta_t(·)), t = 1, 2, . . . \tag{7}
$$
其中 $\mathcal{M}(·)$ 是状态转移算子(线性或非线性),$\eta_t(·)$ 是噪声(误差)过程,$\boldsymbol{\theta}_{p,t}$ 是可能随时间和/或空间变化的过程模型参数。请注意,这里我们假设时间是离散的且间隔相等(尽管这可以放宽)。例如,一个线性演化方程可以写成 $\mathbf{Y}t = \mathbf{MY}{t−1} + \boldsymbol{\eta}t$,其中 $\boldsymbol{\eta}t \sim \text{Gau}(\mathbf{0}, \mathbf{C}{\eta})$,$\mathbf{Y}t$ 是一个对应于空间位置的 $n × 1$ 向量,$\mathbf{M}$ 是一个 $n × n$ 维的转移矩阵,$\mathbf{C}{\eta}$ 为 $n × n$ 新误差的协方差矩阵(本例为空间协方差矩阵)。通常,我们还会指定一个初始状态的分布 $[Y_0(·)|\boldsymbol{\theta}{p,0}]$。
最后,要么直接估计 式 (6)
和 式(7)
中的参数,要么为它们分配概率分布。下文将看到,DH-DSTM 框架的一个重要部分,就是将这些参数建模为过程。
2.2 基函数表示
时空建模的描述性方法和动态方法都存在维数灾难问题。在描述性情况下,我们需要能够有效地计算逆 $\mathbf{C}^{-1}_z$;在动态情况下,我们需要能够估计转移算子中的参数(例如,线性情况下的转移矩阵 $\mathbf{M}$ )。如果空间位置(数据和/或预测)的数量很大,这将具有挑战性。有许多方法可以缓解这些问题(例如,请参阅概述,Heaton 等,2018 年,主要讨论空间模型),其中一种两者都有的共同方法是采用基函数表示。
考虑时空过程的有限维基展开:
$$
Y (\mathbf{s};t) = \mathbf{x}(\mathbf{s};t)^\prime \boldsymbol{\beta} + \sum^{n_\alpha}_{i=1} \alpha_i(t)\phi_i(\mathbf{s}) + \nu(\mathbf{s};t) \tag{8}
$$
其中 ${\phi_i(\mathbf{s}) : i = 1, . . . , n_{\alpha}}$ 为基函数, ${\alpha_i(t) : i = 1, . . . , n_{\alpha}}$ 是相应的随机展开系数,而 $\nu(\mathbf{s};t)$ 是一个相对简单的时空过程,用于表示剩余的精细尺度时空随机变化。请注意,我们可以考虑在空间和时间或仅时间中索引的基函数(例如,参见 Wikle 等人,2019)。
当然,在 Mercer 定理和高斯过程的 Karhunen-Loeve 分解上下文中,协方差函数、基函数和核之间存在众所周知的联系(例如,参见 Rasmussen 和 Williams,2006 年)。请注意,它们允许我们以计算有效的方式通过边缘化来构建复杂性。例如,对于线性混合模型理论,我们可以编写(以向量/矩阵形式)如下条件模型:
$$
\mathbf{Y}|\boldsymbol{\alpha} \sim \text{Gau}(\mathbf{X} \boldsymbol{\beta} + \boldsymbol{\Phi \alpha}, \mathbf{C}{\nu})\
\boldsymbol{\alpha} \sim \text{Gau}(\boldsymbol{0}, \mathbf{C}{\alpha})
$$
然后,积分(边缘化)随机效应 $\boldsymbol{\alpha}$ 引起依赖性,可得:
$$
\mathbf{Y} \sim \text{Gau}(\mathbf{X} \boldsymbol{\beta}, \boldsymbol{\Phi}\mathbf{C}{\alpha}\boldsymbol{\Phi}^\prime + \mathbf{C}{\nu})。
$$
即我们通过已知基函数和随机效应中的依赖关系,构造了边缘协方差矩阵:$\mathbf{C}y = \boldsymbol{\Phi}\mathbf{C}{\alpha}\boldsymbol{\Phi}^\prime + \mathbf{C}_{\nu}$。
在这种情况下,主要的时空依赖结构来自描述性方法下的 $\mathbf{C}{\alpha}$,或动态方法下的 $\boldsymbol{\alpha}{t} = \mathbf{M}{\alpha} \boldsymbol{\alpha}{t-1} + \boldsymbol{\eta}t$。然后,当人们认识到 ${\boldsymbol{\alpha}{t}}$ 比 ${Y (\mathbf{s};t)}$ 更简单时,基函数的计算优势就出现了,因此 $\mathbf{C}^{-1}{\alpha}$ 和/或 $\mathbf{M}{\alpha}$ 很容易获得。当使用低秩系统(即 $n_{\alpha} \ll n$)或存在用于操纵基函数和/或随机效应的有效算法时(例如,参见 Cressie 和 Wikle,2011),就会发生这种情况。基函数方法对于时空建模非常有用,但仍有许多情况需要对随机效应进行更复杂的过程描述。这最好从分层建模的角度考虑
3 深层分层统计模型
什么是深度模型?尽管可能没有普遍同意的答案,但一种普遍的观点认为,深度模型的结构使响应(输出)由一系列模型的链接给出:
$$
\text{Response (Output)} \leftarrow m_1 \leftarrow m_2 \leftarrow \ldots \leftarrow m_L(\leftarrow \text{Input})
$$
其中 $m_\ell$ 对应于第 $\ell$ 个模型。在统计数据中,这可能最好由贝叶斯分层建模框架表示(例如,参见 Gelman 和 Hill,2006 年;Gelman 等人,2013 年)。在这种场景中,输入不只是可以包含在模型的最底层,而是可以在任何阶段,包括最顶部(注:传统深度模型通常采用自底向上的绘制方式)。特别是,在环境统计背景下,Berliner (1996)、Wikle 等 (1998) 以及 Cressie 和 Wikle (2011) 的分层建模范式考虑了以下的通用分布/模型:
$$
\begin{align*}
\text{Data Models}: &[\text{ data | process, data parameters }] \
\text{Process Models}: &[\text{ process | process parameters }] \
\text{Parameter Models}: &[\text{ data and process parameters }]
\end{align*}
$$
对于推断和预测,我们需要评估后验分布:
$$
\text{Posterior}: [ \text{ process, parameters | data }]
$$
根据贝叶斯定理,后验分布与上面给出的数据、过程和参数的联合分布(根据条件概率定义,就是三者的乘积)成正比。通常每个层级都可以有多个子阶段,进而增加了模型深度。Berliner (1996) 分层模型范式的关键在于: 尽可能避免对二阶结构建模。也就是说,应当将建模的重点放在条件均值上,通过边缘化建立依赖性(复杂性)。因此,这些链接的条件模型通常自上而下,而输入则更接近顶层(数据)级别,尽管理论上它们可以出现在任何层级的输入中。下一节以一个用于复杂时空建模的通用 DH-DSTM 深度模型为例进行说明。
3.1 深度分层动态时空模型(DH-DSTMs)
在这里,我们概述了一个原型 DH-DSTM。为简单起见,并与 第 4 节
中的深度机器学习模型进行比较,该模型是在离散时间和空间的背景下呈现的,尽管时间和/或空间可以更普遍地被认为是连续的。对于 $t = 1,\ldots,T$
$$
\begin{align*}
\text{Data Model}:\quad &\mathbf{z}_t | \mathbf{Y}_t, \boldsymbol{\theta}_h \sim \mathcal{D}(\mathbf{H}_t\mathbf{Y}_t; \boldsymbol{\theta}_h) \tag{9}\
\text{Conditional Mean}: \quad &f (\mathbf{Y}_t) = \boldsymbol{\mu}_t + \boldsymbol{\Phi} \boldsymbol{\alpha}_t + \boldsymbol{\nu}t \tag{10}\
\text{Process Mean}: \quad &\boldsymbol{\mu}t = \mathbf{W}t\boldsymbol{\theta}{\mu} + \boldsymbol{\gamma}t \tag{11}\
\text{Dynamic Process}: \quad &\boldsymbol{\alpha}{t} = g(\boldsymbol{\alpha}{t−τ} , \mathbf{x}{t−τ} ; \boldsymbol{\theta}_\alpha; \boldsymbol{\eta}_t) \tag{12}\
\text{“Residual” Process}: \quad &[\boldsymbol{\nu}t|\boldsymbol{\theta}{\nu}]\tag{13}\
\text{Regularization Priors}: \quad &[\boldsymbol{\theta}\alpha|\boldsymbol{\zeta}]\
\text{Parameters}: \quad &[\boldsymbol{\theta}h, \boldsymbol{\theta}{\nu}, \boldsymbol{\theta}{\mu}, \boldsymbol{\zeta}]
\end{align*}
$$
式 (9)
的数据模型指定了 $\mathbf{z}_t$ 的分布,它是时间 $t$ 的空间参考数据向量。具体来说,$\mathcal{D}(·)$ 指一些通用分布(例如,指数族,需要特定于问题),$\mathbf{H}_t$ 是将隐过程位置映射到数据位置的映射矩阵,$\mathbf{Y}_t$ 是 $t$ 时刻的隐过程向量, $\boldsymbol{\theta}_h$ 是数据模型参数。该数据模型中的一个重要假设是:以隐时空过程作为条件的观测相互独立,并且观测误差的结构相对简单(即观测误差也被视为相互独立);因为大部分依赖性都应当归因于隐时空过程。另请注意,可以像一般的 Berliner (1996) 框架一样轻松地容纳多个数据(输入)源。
式 (10)
的条件均值指定变换(链接函数)$f (·)$,其中 $\boldsymbol{\mu}t$ 是随时间变化的空间 “趋势”(注意,这可能取决于输入 $\mathbf{x}t$ );$\boldsymbol{\Phi}$ 是空间基函数矩阵(提供降维);$\boldsymbol{\alpha}{t}$ 是一个潜在的动态随机过程( $n{\alpha} \ll n_y$ ),而 $\boldsymbol{\nu}t$ 是一个非动态时空随机过程(如下所述)。模型这部分最重要的假设是潜在动力过程 ${\boldsymbol{\alpha}{t}}$ 是低维的。
过程均值在式 (11)
中给出,其中 $\mathbf{W}t$ 包含适应趋势、偏差、季节性等的协变量输入,$\boldsymbol{\theta}{\mu}$ 是相关参数,$\boldsymbol{\gamma}_t$ 是误差过程(通常为高斯分布)。请注意,如有必要,可以在此处考虑更灵活的协变量函数(即如在广义加性模型中),但数据中的大部分复杂结构是由于下面描述的 $\boldsymbol{\alpha}_t$ 项。另请注意,假定 $\boldsymbol{\gamma}_t$ 的均值为零,并且通常假定 $\boldsymbol{\gamma}_t$ 在时间和空间上是独立的。
模型的动态部分由 式(12)
给出,其中 $g(·)$ 是转移算子(在 $\boldsymbol{\alpha}{t−τ}$ 和输入 $\mathbf{x}{t−τ}$ 中可能是非线性的),$\boldsymbol{\theta}_\alpha$ 是参数,$\boldsymbol{\eta}t$ 是噪声过程(通常假设为是高斯分布且均值为零,依赖结构取决于具体问题)。该模型可以说是 DH-DSTM 中最重要的部分。它通常是高度参数化的,并且如果信息可用,可以根据机制模型来制定,或者至少由此类模型驱动。无论如何,至关重要的是,该动力学模型允许 $\boldsymbol{\alpha}{t}$ 的元素随时间进行交互(参见 Wikle 等人,2019 年,第 5 章中的讨论)。例如,考虑 Wikle 和 Hooten (2010) 的一般二次非线性 (GQN) 模型:
$$
{\alpha}{t}(i) = \sum^p{j=1} \theta^L_{i,j} \alpha_{t−τ} (j) + \sum^p_{k=1} \sum^k_{\ell=1} \theta^Q_{i,k \ell} {\alpha}{t−τ} (k) g({\alpha}{t−τ} ( \ell) , \mathbf{x}_t; \boldsymbol{\theta}_g) + \eta_t(i) \tag{14}
$$
其中单个 $\boldsymbol{\alpha}_{t}$ 分量的演变由线性相互作用(右侧第一项,参数为 $θ^L$)和二次交互作用(右侧第二项,参数为 $θ^Q$)和噪声项控制。函数 $g(·;·)$ 是一个转移函数,用于限制由非线性交互作用引起的爆炸式增长。该模型由物理和生物科学中的各种过程驱动(参见 Wikle 和 Hooten,2010 年),并且非常灵活。不过,此模型被 $O(p^3)$ 个参数严重过度参数化了,需要基于科学的硬阈值或正则化/稀疏性才能实际运行。
残差时空过程如式(13)所示,其分布由具体问题决定。例如,一个有用的参数化是假设另一个基展开形式,例如 $\boldsymbol{\nu}_t = \boldsymbol{\Psi\omega}_t + \boldsymbol{ξ}_t$,其中 $\boldsymbol{\Psi}$ 是空间基函数矩阵,$\boldsymbol{\omega}_t$ 是展开系数,而 $\boldsymbol{ξ}t$ 是一个简单的误差过程(例如 Wikle 等人,2001 年)。这里的假设是复杂的时空动力学被 $\boldsymbol{\alpha}{t}$ 捕获,所以 $\boldsymbol{\omega}_t$ 将有一个简单的分布(例如,可能具有简单时间依赖性但在“$\boldsymbol{\omega}$ 空间”中独立的高斯分布),并且 $\boldsymbol{ξ}_t$ 将在时间和空间上独立。
如上所述,$\boldsymbol{\alpha}_{t}$ 的动态模型可能过度参数化并且通常需要正则化。此处可以使用贝叶斯模型上下文中任何常用的正则化方法(例如,随机搜索变量选择、spike-and-slab、马蹄铁先验等;Fan 和 Lv(例如,参见 2010))。最后,我们需要其余参数的分布或固定值。重要的是,在深度 DH-DSTM 中,这些参数本身可能是“过程”(空间或时间),并且可能包括对各种外生输入变量的依赖。这种深度/复杂贝叶斯模型的实现通常是通过特定于问题的 MCMC 算法,尽管最近有人尝试在变分贝叶斯上下文中考虑相当复杂的 DSTM(例如,Quiroz 等人,2018 年)。一般而言,MCMC 实施可能非常耗时,并且需要大量数据、先验信息和计算资源才能成功。
3.2 DH-DTSM 示例:海洋水色
Leeds等 (2014) 使用 DH-DSTM 模型执行时空预测以填补 SeaWiFS 海洋水色观测中的空白,类似于 图 1
中所示的问题。他们考虑了一个多元模型,除了 SeaWiFS 观测之外,还包括海面高度(SSH) 和海面温度 (SST) 从区域海洋模型系统 (ROMS) 输出,该系统与低营养生态系统的生物地球化学模型相结合。他们实现了一个类似于 式 (14)
的降维 GQN 过程模型作为 ROMS 模型的仿真器(例如,ROMS 模型输出用于训练 GQN 模型的先验分布——类似于下面描述的机器学习预训练)。详细信息可以在 Leeds 等 (2014) 中找到。如 图 2
所示,该模型能够预测浮游植物场中的涡流,尽管事实上阿拉斯加湾沿岸地区的云层覆盖在 SeaWiFS 数据中留下了持续的空白。
重要的是,模型的概率性质产生了不确定性度量,表明最大的不确定性不是该区域存在涡流,而是它的精确位置。
图 2:三个八天时间段的对数转换 SeaWiFS 海洋水色观测图(顶行)、DH-DSTM 后验平均值(第二行)和 DH-DSTM 后验标准差(第三行):6 月 2 日, 2002年至2002年6月9日(左栏),2002年6月10日至2002年6月17日(中栏),2002年6月18日至2002年6月25日(右栏)
4 深度神经网络模型
深度神经模型的开发和应用在过去十年中发展迅速。在 Goodfellow 等人的教科书中可以找到广泛的概述。 (2016) 和 Aggarwal (2018)。本节的目的不是提供如此全面的处理,而是简要概述以方便与 DSTM 的连接。我们描述了简单的前馈神经网络 (NN)、深度前馈神经网络 (DNN)、卷积神经网络 (CNN) 和递归神经网络 (RNN)。这为讨论时空数据的深度机器学习模型提供了背景,我们称之为深度神经 DSTM (DN-DSTM)。
4.1 神经网络
略。
4.2 深度前馈网络 (DNN)
略。
4.3 卷积神经网络(CNN)
略。
4.4 循环神经网络(RNNs)
略。
4.5 回波状态网络(ESN)
回波状态网络 (Echo State Network, ESN)
是一种易于估计且通常需要较少计算资源和训练数据的 RNN (Lukosevicius 和 Jaeger,2009):
$$
\begin{align*}
\mathbf{z}_t = g_o(\mathbf{Vy}_t)\
\mathbf{y}t = g(\mathbf{W}^*\mathbf{y}{t−1} + \mathbf{Ux}_t)
\end{align*}
$$
这看起来像上面给出的基本 RNN,但值得注意的是,权重矩阵 $\mathbf{W}$ 和 $\mathbf{U}$ 是稀疏的并且在 ESN 中是随机选择的,因此只学习了输出矩阵 $V$(通过正则化)。这种在非线性变换中使用随机参数通常被称为“储层计算”。一个复杂的问题是,这种方法需要修改权重 $W$(此处由 $W^*$ 给出——见下文)以确保 “回波状态特性”,这实质上表明初始条件的影响随时间渐近减小。总体而言,ESN 极大地减少了待估计的参数并极大地简化了模型,因此 $\mathbf{y}_t$ 只是输入 $\mathbf{x}_t$ 基于随机权重的一系列随机变换,而输出函数 $g_o(·)$ 中的 $\mathbf{V}$ 参数可以像在基本统计模型(例如,回归、逻辑、softmax)中一样进行训练。 ESN 通常需要比传统 RNN 更多的隐藏单元(即更宽)来补偿未学习权重,因此在估计 $\mathbf{V}$ 时必须应用正则化。我们将在下面 第 5 节
的 DSTM 上下文中更详细地讨论 ESN 模型。
4.6 深度神经 DSTM(DN-DSTM)
尽管 DNN 可以与时空数据一起使用(Polson 和 Sokolov,2017 年),但它们并不总是合适的,因为它们不能自然地适应时间和空间中出现的依赖结构。然而,鉴于 CNN 和 RNN 的模块化(即它们很容易“堆叠”以形成更深层次的模型),它们可以很容易地以不同方式组合以产生时空数据的深度混合模型也就不足为奇了,如视频图像处理和图像标引(例如,Keren 和 Schuller,2016 年;Tong 和 Tanaka,2018 年)。例如,可以通过 CNN 缩小视频中的图像以找到空间特征,然后使用 RNN(通常是 LSTM)对这些特征的时间演化进行建模。在某些情况下,该框架还可用于将图像与标题(或描述)相关联(Donahue 等人,2015 年),将 CNN 用于对图像进行编码,而将 RNN 用于描述图像的单词序列进行解码。前者显然是一个时空问题,而后者显然在输出(单词序列)上是一个具有顺序结构的 “时间” 问题。一般来说,软件包模块化各种机器学习组件(例如 CNN 和 RNN)的能力允许开发人员以不同的方式组合这些层。在这里,我们感兴趣的是随时间演变的空间过程(类似于第一种情况)。这种方法已在环境科学中用于生成短时降水预报(Xingjian 等人,2015 年)。
图 4:一般深度神经动态时空模型 (DN-DSTM) 的示意图。
混合深度神经网络和动态时空模型的一般方法是使用堆叠的 RNN,但中间层会降低维度。图 4
中有示意性的显示,并且可以一般地写成:
$$
\begin{align*}
&\mathbf{Output State}: \mathbf{z}t = g_o ( \mathbf{y}{t,1}, \tilde{\mathbf{y}}{t,2}, \ldots , \tilde{\mathbf{y}}{t,L}; \boldsymbol{\theta}z ) \
&\mathbf{Hidden Stage 1}: \mathbf{y}{t,1} = g ( \mathbf{y}{t−1,1}, \tilde{\mathbf{y}}{t,2}; \boldsymbol{\theta}{h1} ) \
&\mathbf{Reduction Stage 1}: \tilde{\mathbf{y}}{t,2} ≡ \mathcal{Q}(\mathbf{y}{t,2}; \boldsymbol{\theta}{r1}) \
&\mathbf{Hidden Stage 2}: \mathbf{y}{t,2} = g ( \mathbf{y}{t−1,2}, \tilde{\mathbf{y}}{t,3}; \boldsymbol{\theta}{h2} ) \
&\mathbf{Reduction Stage 2}: \tilde{\mathbf{y}}t,3 ≡ \mathcal{Q}(\mathbf{y}{t,3}; \boldsymbol{\theta}{r2}) \
&\vdots,\quad \vdots \
&\mathbf{Hidden Stage L}: \mathbf{y}{t,L} = g ( \mathbf{y}_{t−1,L}, \tilde{\mathbf{x}}t; \boldsymbol{\theta}{hL} ) \
&\mathbf{Input Stage}: \tilde{\mathbf{x}}_t = g_I ( \mathbf{x}_t; \boldsymbol{\theta}_I )
\end{align*}
$$
其中 $g_o(·)$ 是一个输出函数(例如,用于回归的恒等式,用于分类的 softmax 等),$g_I(·)$ 是一个输入函数,可能会增加和/或转换输入向量 $\mathbf{x}_t$,$g(·)$ 是一些RNN 结构的类型(例如,LSTM、GRU、ESN),而 $\mathcal{Q}(·)$ 是降维函数,例如 CNN 或更简单的东西,例如主成分分解或其他一些随机降维方法(例如,随机投影,宾厄姆和曼尼拉 (2001))。每个函数中的潜在参数(权重)由 $\boldsymbol{\theta}s$ 给出。在这个框架中,除了第 1 阶段的非缩减隐藏单元之外,每个缩减阶段的组件 $\tilde{\mathbf{y}}{t, \ell}$ 都会影响输出。还可以让来自更深隐藏阶段的非缩减隐藏单元产生影响也直接输出,但这增加了必须学习的参数数量,通常是不必要的。最后,请注意,此模型可以更简洁地编写为输入的伸缩函数转换:
$$
z_t = g_o(g(\mathcal{Q}(g(···\mathcal{Q}(g(g_I(\mathbf{x}_t)))))); \boldsymbol{\Theta}) \tag{17}
$$
其中 $\boldsymbol{\Theta}$ 表示函数中的所有各种参数(权重)。
这种方法的优点是它自然地适应了多个空间和时间尺度的可变性。注意,$g_I(·)$ 充当转换输入的编码器。例如,$g_I(·)$ 可能是 CNN,也可能是其他类型的降维程序(例如,主成分、拉普拉斯特征图、核卷积等)。然后 $\mathcal{Q}$ 函数提取隐藏单元中的重要相关特征(根据 $g_I(·)$、$g(·)$ 和 $\mathcal{Q}$ 的选择,这些特征可能在空间上被引用。然后,不同的 RNN 级别用于查找时间依赖性,通常在不同的尺度上及时(例如,Graves 等人,2013 年;Hermans 和 Schrauwen,2013 年)。请注意,可以省略各种级别;例如,我们可能会省略 $\mathcal{Q}$ 阶段并形成一个没有中间减少阶段的堆叠 RNN(并且,反之亦然)。通常,此类模型将通过反向传播和 SGD 实现,具体取决于不同模型阶段的选择。
4.7 DH-DSTMs和DN-DSTMs之间的连接
自然的问题是 第 3.1 节
中介绍的 DH-DSTM 与第 4.5 节
中介绍的 DN-DSTM 相比如何?这两种范式确实有很多共同点,因为它们都试图在复杂时空依赖性建模的背景下做同样的事情。
也就是说,两者都在处理这样一个事实,即存在多个相互作用以描述过程演变的时空变异性尺度,并且在某种意义上通过“边缘化”公共组件来构建这种复杂的依赖性。具体而言,两个模型框架:
- (a) 由多个连接的伸缩级别组成;
- (b) 包括降维阶段;
- (c) 通常不对二阶依赖建模(注意,高斯过程网络和受限玻尔兹曼机是一个例外);
- (d) 可以处理多个输入(预测变量)和不同的输出类型;
- (e) 有大量参数需要估计;
- (f) 需要大量训练数据;
- (g) 需要先验信息(或预训练、启发式等);
- (h) 需要正规化;
- (i) 计算成本高,需要高效的算法实现。
上述几点表明,DH-DSTM 和 DN-DSTM 框架面临的主要挑战之一与实现和计算有关。
也就是说,在 DH-DSTM 框架中,必须做出许多决定,涉及依赖结构的类型,是将结构放入协方差还是均值,要包含的机制信息量以及先验分布,仅举一例很少。此外,在这些复杂的建模情况下,通常必须使用某种相对高效的语言从头开始对 DH-DSTM 进行编程,因为执行贝叶斯计算的自动化程序包通常不够灵活以适应 DH-DSTM,或者效率太低(即,它们在提供通用解决方案方面的优势可能会限制某些特定的依赖结构)。同样,DN-DSTM 模型也可以有大量的调整参数和模型选择(例如,$g(·)$ 的选择、$\mathcal{Q}$、层数、每层隐藏单元的数量、正则化的类型、预训练等)。尽管上述参考资料包含对某些情况的建议,但对于这些决定没有普遍的建议——这在很大程度上是一种经验和反复试验的努力。然而,与 DH-DSTM 不同的是,Tensor Flow、Theano、Caffe、pyTorch(以及更多!)等标准软件环境非常灵活,并且在某种意义上是模块化的,这增加了它们在生产环境中的实用性。
建模范例之间还有许多其他结构差异。首先,DH-DSTM 框架基于随机模型,该模型包括有效概率构造中的分布误差项(即所有随机分量的联合分布可以写成一系列条件模型)。相比之下,DN-DSTM 框架是确定性的,没有误差项(请注意,当使用储层方法时(例如,$g(·)$ 的 ESN),则 式(17)
是随机变换而不是正式的随机模型) . DN-DSTM 缺乏概率结构的一个后果是没有明确的机制来生成基于模型的 DN-DSTM 预测或分类不确定性估计。其次,人们在对参数进行推断时受到限制——尽管应该注意的是,在这种类型的模型中,这很少会引起人们的兴趣,因为参数通常是不可识别的、高度依赖的和不可解释的。
此外,关于如何在深度 NN 框架中普遍包含已知关系(例如,如机制模型所建议的)仍然是一个悬而未决的问题(尽管有关该领域的近期工作,请参阅 Karpatne 等人,2017 年)。也就是说,DN-DSTM 框架确实有一些重要的优势,因为它很容易在许多现有软件包中实现的反向传播估计范例中操作和实现不同的模型结构(例如,堆叠不同的模型组件)。最后,在时空动力学的背景下,应该注意的是,RNN 结构可以自然地适应非马尔可夫动力学(例如,对遥远过去事件的记忆)。最后一点对环境、生态和农业应用具有潜在的重要意义,但并未成为时空模型统计实现的重点。
5 结合 DH-DSTM 和 DN-DSTM 框架
结合 DH-DSTM 和 DN-DSTM 框架的一种自然方法是允许 DN-DSTM 中的参数是随机的,或许添加一些误差项,然后通过贝叶斯范式实施。尽管至少从 1990 年代开始就考虑了神经网络的贝叶斯实现(MacKay,1992 年;Neal,1996 年),但由于大量的依赖和不可识别的依赖关系,从完全贝叶斯的角度实现深度神经模型极具挑战性参数(参见 Polson 等人,2017 年的概述)。此类模型可以在某些情况下实施(例如 Chatzis,2015 年;Chien 和 Ku,2016 年;Gan 等人,2016 年;McDermott 和 Wikle,2017a),但对特定数据集非常敏感,并且通常在计算上令人望而却步。最近,变分贝叶斯 (Tran et al., 2018) 和可扩展贝叶斯方法 (Snoek et al., 2015) 等近似贝叶斯方法已成功用于深度模型。在 DN-DSTM 的背景下,这仍然是一个活跃的研究领域。
或者,最近使用两种相对简单的方法来混合 DN-DSTM 和 DH-DSTM 范例。这些这样做的方式也减轻了与实施 DH-DSTM 相关的挑战。也就是说,DH-DSTM 通常在参数空间中遭受维数灾难,需要大量数据和相当专业的计算算法,因此开发和实施效率相当低。混合方法减轻了这些问题,但仍然提供了一种灵活有效的方法来以考虑不确定性量化的方式对复杂的时空过程进行建模。
5.1 集成方法
McDermott 和 Wikle (2017b) 对标准 ESN 模型进行了多项修改,以解释时空非线性预测设置中不确定性量化的简单方法。他们考虑了二次 ESN 模型。也就是说,对于 $t = 1,\ldots, T$ , 让
$$
\begin{align*}
\mathbf{Response}: &\mathbf{z}t = \mathbf{V}1 \mathbf{y}t + \mathbf{V}2 \mathbf{y}^2_t + \boldsymbol{\epsilon}t, \quad \boldsymbol{\epsilon}t \sim \text{Gau}(\mathbf{0}, \sigma^2 \mathbf{I}) \tag{18}\
\mathbf{Hidden State}: &\mathbf{y}t = g (\frac{\nu }{|λ_w|} \mathbf{W} \mathbf{y}{t−1} + \mathbf{U} \tilde{\mathbf{x}}t) \tag{19}\
\mathbf{Parameters}: &\mathbf{W} = [w{i, \ell}]{i, \ell} : w{i, \ell} = γ^w{i, \ell} \text{Unif} (−a_w, a_w) + (1 − γ^w{i, \ell}) δ_0 \tag{20}\
&\mathbf{U} = [u{i,j} ]{i,j} : u_{i,j} = γ^u_{i,j} \text{Unif} (−a_u, a_u) + (1 − γ^u_{i,j}) δ_0 \tag{21}\
&γ^w_{i, \ell} \sim \text{Bern}(π_w) \tag{22}\
&γ^u_{i,j} \sim \text{Bern}(π_u) \tag{23}
\end{align*}
$$
其中 $g(·)$ 是一个激活函数(通常是双曲正切函数),$λ_w$ 是“谱半径”($\mathbf{W}$ 的最大特征值),$\boldsymbol{\nu}$ 是一个缩放参数,取值在 $[0, 1]$ 之间,有助于控制系统内存量,$\mathbf{W}$、$\mathbf{U}$、$\mathbf{V}1$、$\mathbf{V}2$ 为权重矩阵,$\sigma_o$ 为狄拉克函数,$γ^w{i, \ell}$,$γ^u{i, \ell}$ 表示指示变量,$\pi_w$,$\pi_u$ 表示参数在权重矩阵为 0。注意,除以式(19)
中的光谱半径可确保前面提到的回波状态属性,而 $\nu$ 控制内存。在此模型中估计的唯一参数是 $\mathbf{V}_1$ 和 $\mathbf{V}_2$ 中的参数,以及 式 (18)
中的 $\sigma^2$,为此我们使用岭惩罚超参数 $r_v$。同样,重要的是要注意 $\mathbf{W}$ 和 $\mathbf{U}$ 不是估计的,而只是分别从 式(20)
和 式(21)
中得出。超参数 $\pi_w$、$\pi_u$、$a_w$、$a_u$、$\nu$ 和 $r_v$ 的指定如下所述。
ESN 的修改使其可用作 DSTM,包括显式误差项 $\boldsymbol{\epsilon}_t$、二次项 $\mathbf{V}_2 \mathbf{y}^2_t$ 以及最重要的输入向量嵌入:
$$
\tilde{\mathbf{x}}t = [\mathbf{x}^\prime_t, \mathbf{x}^\prime{t−τ} , \mathbf{x}^\prime_{t−2τ} ,\ldots , \mathbf{x}^\prime_{t−mτ}]^\prime。
$$
嵌入包括输入预测变量的滞后值,并且由于 Takens 的理论(Takens,1981)在动力系统中很重要,该理论指出可以通过足够大数量的一部分的滞后值来表示高维状态空间状态空间。请注意,结果对 ${\pi_w, \pi_u, a_w, a_u}$ 不是很敏感,它们通常固定在较小的值,但结果可能对 ${n_h, \nu, r_v}$ 敏感,因此通过交叉验证选择它们。
McDermott 和 Wikle(2017b)考虑了一种简单的集合预测方法(类似于参数自举;Sheng 等人(2013)),其中从储层矩阵 $\mathbf{W}$ 和 $\mathbf{U}$ 中提取多个样本,并为每个参数集重新拟合模型。这给出了输出预测的分布,并允许量化预测中的不确定性。他们提出了一个例子,其中这个二次集合 ESN (Q-EESN) 模型用于生成热带太平洋 SST 的长期(6 个月)预报(即 El Nino 和 La Nina 事件)。该模型表现非常好。例如,图 6
显示了 2017 年 12 月 SST 预测的预测和预测不确定性,给定的数据截至 2017 年 6 月(展示了 La Nina事件)。
但是请注意,美国国家海洋和大气局气候预测中心 (CPC) 和哥伦比亚大学国际气候与社会研究所 (IRI) 对同一时期提出的动力和统计预测并未表明 La Nina 会发展(他们对这一时期的 La Nina 的概率预测约为 $15%$)。这里 Q-EESN 方法成功的原因可能与 ESN 是一个包含非线性相互作用的动态模型这一事实有关,而且它还增加了输入空间以执行回归(Gallicchio 和 Micheli,2011)。也就是说,$\mathbf{y}_t$ 的维度通常大于 $\tilde{\mathbf{x}}_t$(即潜在预测变量的维度扩展)。此外,小的、稀疏的、随机的权重限制了过度拟合并规范了回归。最后,Q-EESN 实现中的嵌入式输入允许额外的非线性,并且隐藏单元相对较少的集成引导方法提供了一个“弱学习者委员会”。重要的是要注意,与传统 DH-DSTM 方法需要数小时相比,这种方法在笔记本电脑上只需几秒钟即可实现。
图 5:左图:根据 2017 年 12 月到 2017 年 6 月的观测,太平洋 SST 的 6 个月预测的长期预测摘要图。第一行显示观测到的 SST 异常(与气候平均值的偏差)。 Q-EESN 模型的预测平均值显示在第二个子图中,底部两个子图显示每个网格单元中计算的 95% 预测区间的下分位数和上分位数。右图显示了所谓的 Nino3.4 指数的 Q-EESN 预测分布,该指数基于左侧第二个子图中框表示的区域的平均值。蓝星表示 Q-EESN 预测平均值,观测到的指数值由实心蓝色圆圈表示。实心和空心红色圆圈对应于 IRI/CPC 提供的确定性和随机模型基于相同起始和验证期的预测(请参阅网站文本中的脚注)。
5.2 深度基函数方法
Q-EESN 模型没有链接隐藏层的机制,这对于在多个时间尺度上发生的过程很重要。机器学习文献中已经实施了深度 ESN 模型(例如,Jaeger,2007 年;Triefenbach 等人,2013 年;Antonelo 等人,2017 年;Ma 等人,2017 年;Gallicchio 等人,2018 年),但是这些方法通常不适应不确定性量化,也不是为时空系统设计的。然而,可以扩展这些深度 ESN 模型以适应 式(16)
中的时空过程。例如,McDermott 和 Wikle(2018 年)在一个集合参数引导上下文中这样做,以解释多个时间尺度和预测中的不确定性。他们还考虑了一种实现,其中 式(16)
用于生成作为输入的随机变换的基函数。这在时空回归上下文中特别有用,即当人们试图根据另一个时空过程来预测一个时空过程时。具体来说,考虑模型:
$$
\begin{align*}
\text{Data Stage}: &\mathbf{z}t \sim \text{Gau}(\boldsymbol{\Phi} \boldsymbol{\alpha}t, \mathbf{C}z) \
\text{Output Stage}: &\boldsymbol{\alpha}{t} = \sum^{n{res}}{j=1} \left[ \boldsymbol{\beta}^{(j)}1 \mathbf{y}^{(j)}{t,1} + \sum^L_{\ell=2} \boldsymbol{\beta}^{(j)}\ell \tilde{\mathbf{y}}^{(j)}{t, \ell} \right] + \boldsymbol{\eta}t, \quad \boldsymbol{\eta}t \sim \text{Gau}(\mathbf{0}, \sigma^2_η \mathbf{I}) \
\text{Priors}: &\beta^{(j)}{\ell,b} | γ^{\beta_\ell}{\ell} \sim γ^{\beta_\ell}{\ell} \text{Gau}(0, \sigma^2{\beta_\ell,0}) + (1 − γ^{\beta_\ell}\ell ) \text{Gau}(0, \sigma^2{\beta_\ell,1}), \
&γ^{\beta_\ell}\ell \sim \text{Bernoulli}(\pi{\beta \ell}) \
&\sigma^2_η \sim \text{IG}(\alpha_η, \beta_η)
\end{align*}
$$
其中 $\mathbf{y}^{(j)}{t,1}$,$\mathbf{y}^{(j)}{t, \ell}$ 是 式(16)
中给出的 $\tilde{\mathbf{x}}_{t-\tau}$ 的函数,$\boldsymbol{\beta}^{(j)}_\ell$ 是第 $j$ 个系综和第 $\ell$ 个的相关回归系数等级。重要的是,$\mathbf{y}_s$ 是从集成深度 ESN “离线” 生成的,具有 $\mathcal{Q}$ 的主成分缩减阶段。此外,
$$
{\pi_{w1}, \ldots, \pi_{wL}, \pi_{u1} , \ldots , \pi_{uL} , a_{w1} , \ldots, a_{wL} , a_{u1} ,\ldots , a_{uL} }
$$
固定为较小的值,并且除了第一层之外的所有层的隐藏单元数都是固定的,因为所有这些层都经过降维函数 $\mathcal{Q}$。最后,
$$
{\nu_1, \ldots , \nu_L, n_{\tilde{h},2}, \ldots , n_{\tilde{h} ,L}, n_{h,1}, r_\nu, m }
$$
由遗传算法选择。参数引导方法生成 $j = 1, \ldots$ , 与上面的 Q-EESN 模型 式(21)
和 式(20)
一样,通过对不同的权重矩阵进行采样来获取这些深度 ESN 的集合。
例如,McDermott 和 Wikle(2018 年)考虑了太平洋海温下美国玉米带土壤湿度的 6 个月长期预报。图 6
显示了基于 3 级深度集合 ESN 模型的 2014 年 5 月样本外预测,给定 2017 年 11 月的 SST。他们表明,与各种模型相比,该模型在连续排名概率得分方面表现最佳,在均方预测误差方面表现第二(该模型的 2 级版本在该指标上表现略好)。
这种方法本质上是一个高维回归问题,其中通过深度 ESN 模型对输入进行随机变换来生成一组基函数。多个这样的转换被认为是潜在的预测因素,以赋予方法灵活性和可重复性。大量预测变量由 SSVS 正则化控制。请注意,此模型中的输入(预测变量)是随机和动态转换的。因此,时空回归模型本身不是动态的,但重要的是,转换通过 ESN 结构是动态的。这些多级转换允许预测变量中的不同时间和空间尺度影响响应。重要的是,通过在转换(离线)中包含动态,该框架非常容易通过正则化回归方法实现,并且由于 ESN 中的储层方法和相对有效(与深度参数统计模型和深度机器学习模型相比)简单的正则化。这里的数据模型可以轻松适应其他数据类型,例如广义线性混合模型的深度贝叶斯实现(例如,Tran 等人,2018 年)。
图 6:使用 3 层贝叶斯深度集合回波状态网络模型对 2014 年 5 月土壤水分长期预测的后验总结。 (a) 每个空间网格位置的观测土壤水分值。 (b) 每个网格位置的后验预测平均值。 (c) 每个网格位置的后验预测标准差。每个图都通过各自的方法和标准偏差进行了标准化以帮助可视化,并且为了可视化而移除了极端异常值(由黑色方格表示)。有关详细信息,请参阅 McDermott 和 Wikle (2018)。
6 讨论
DH-DSTM 的基本原则之一是,要对跨多个时间和空间尺度的复杂过程进行建模,可以从考虑一系列关联的概率模型中获益。特别是,由于很难为复杂(例如,非线性)时空过程指定依赖结构,因此人们将建模工作置于条件均值中,并通过边缘化利用建立依赖性。同样,在过去十年中在图像和语言处理领域变得如此流行的机器学习深度神经模型(例如 DNN、CNN、RNN)也基于一系列链接模型(通常不是随机模型),其中一个层次的输出成为下一个层次的输入。这些模型的时空版本 DN-DSTM 通常结合 CNN 和 RNN,并且还试图通过了解哪些空间和/或时间变异性尺度对于预测响应很重要来构建复杂性。这些建模框架有许多共同的实际问题,包括需要大型训练数据集、降维、正则化和高效计算。最近缓解其中一些问题的方法,例如,在没有大量训练数据时应用模型,受益于在 ESN 的背景下考虑水库计算。在时空问题中,这些模型通过使用参数自举和基函数变换方法被置于统计环境中。这些可以以传统 DH-DSTM 的一小部分成本实现,但仍保留概率公式以允许不确定性量化,并受益于 DN-DSTM 灵活地模拟多个时间和空间尺度的能力。
在混合用于环境、生态和环境统计的 DH-DSTM 和 DN-DSTM 方面,我们只是触及了皮毛。一个重要的挑战是能够在此混合框架中有效地包含机制信息。传统上,由于机制公式和灵活学习公式之间的冲突,以及通过基于梯度的优化训练此类模型的挑战,将此类信息包含在 DN-DSTM 中一直具有挑战性。此外,通过包含深度强化学习的想法可以获得潜在的进步(例如,参见 Aggarwal,2018 年的概述)。这些方法训练模型的方式是,它们会因做出好的决定而获得奖励,并因做出糟糕的决定而受到惩罚。这是用于 AlphaGo(Silver 等人,2016 年)和后来的游戏算法(Silver 等人,2018 年)的技术。考虑到在控制工程中使用强化学习的悠久历史,在环境统计中与 DH-DSTMs 的有用联系是可能的。此外,DH-DSTM 和 DN-DSTM 的混合可能会受益于生成对抗网络的最新进展(Goodfellow 等人,2014 年)。这种方法以受益于两个相互竞争的 NN 的方式训练模型。特别是,一个网络生成潜在的解决方案,另一个网络评估或区分这些解决方案。事实上,深度神经建模方面的文献发展非常迅速,很高兴看到这些方法中的哪些可以包含在更传统的概率 DSTM 框架中。
参考文献
Aggarwal, C. C. (2018), Neural networks and deep learning, Springer.
Antonelo, E. A., Camponogara, E., and Foss, B. (2017), “Echo State Networks for data-driven downhole pressure estimation in gas-lift oil wells,” Neural Networks, 85, 106–117.
Berliner, L. M. (1996), “Hierarchical Bayesian time series models,” in Maximum Entropy and Bayesian Methods, eds. Hanson, K. M. and Silver, R. N., Dordecht: Kluwer, Fundamental Theories of Physics, 79, pp. 15–22.
Bingham, E. and Mannila, H. (2001), “Random projection in dimensionality reduction: applications to image and text data,” in Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining, ACM, pp. 245–250.
Chatzis, S. P. (2015), “Sparse Bayesian Recurrent Neural Networks,” in Joint European Conference on Machine Learning and Knowledge Discovery in Databases, Springer, pp. 359–372.
Chien, J.-T. and Ku, Y.-C. (2016), “Bayesian recurrent neural network for language modeling,” IEEE transactions on neural networks and learning systems, 27, 361–374.
Cho, K., Van Merri ̈ enboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H., and Bengio, Y. (2014), “Learning phrase representations using RNN encoder-decoder for statistical machine translation,” arXiv preprint arXiv:1406.1078.
Cressie, N. and Wikle, C. K. (2011), Statistics for Spatio-Temporal Data, Hoboken, NJ: John Wiley & Sons.
Donahue, J., Anne Hendricks, L., Guadarrama, S., Rohrbach, M., Venugopalan, S., Saenko, K., and Darrell, T. (2015), “Long-term recurrent convolutional networks for visual recognition and description,” in Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 2625–2634.
Erhan, D., Bengio, Y., Courville, A., Manzagol, P.-A., Vincent, P., and Bengio, S. (2010), “Why does unsupervised pre-training help deep learning?” Journal of Machine Learning Research, 11, 625–660.
Fan, J. and Lv, J. (2010), “A selective overview of variable selection in high dimensional feature space,” Statistica Sinica, 20, 101.
Gallicchio, C. and Micheli, A. (2011), “Architectural and markovian factors of echo state networks,” Neural Networks, 24, 440–456.
Gallicchio, C., Micheli, A., and Pedrelli, L. (2018), “Design of deep echo state networks,” Neural Networks, 108, 33–47.
Gan, Z., Li, C., Chen, C., Pu, Y., Su, Q., and Carin, L. (2016), “Scalable Bayesian Learning of Recurrent Neural Networks for Language Modeling,” arXiv preprint arXiv:1611.08034.
Gelman, A. and Hill, J. (2006), Data analysis using regression and multilevel/hierarchical models, Cambridge university press.
Gelman, A., Stern, H. S., Carlin, J. B., Dunson, D. B., Vehtari, A., and Rubin, D. B. (2013), Bayesian data analysis, third edition, Chapman and Hall/CRC.
Goodfellow, I., Bengio, Y., Courville, A., and Bengio, Y. (2016), Deep learning, vol. 1, MIT press Cambridge.
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., and Bengio, Y. (2014), “Generative adversarial nets,” in Advances in neural information processing systems, pp. 2672–2680.
Graves, A., Mohamed, A.-r., and Hinton, G. (2013), “Speech recognition with deep recurrent neural networks,” in Acoustics, speech and signal processing (icassp), 2013 ieee international conference on, IEEE, pp. 6645–6649.
Heaton, M. J., Datta, A., Finley, A. O., Furrer, R., Guinness, J., Guhaniyogi, R., Gerber, F., Gramacy, R. B., Hammerling, D., Katzfuss, M., et al. (2018), “A case study competition among methods for analyzing large spatial data,” Journal of Agricultural, Biological and Environmental Statistics, 1–28.
Hermans, M. and Schrauwen, B. (2013), “Training and analysing deep recurrent neural networks,” in Advances in neural information processing systems, pp. 190–198.
Hinton, G., Deng, L., Yu, D., Dahl, G. E., Mohamed, A.-r., Jaitly, N., Senior, A., Vanhoucke, V., Nguyen, P., Sainath, T. N., et al. (2012), “Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups,” IEEE Signal processing magazine, 29, 82–97.
Hochreiter, S. and Schmidhuber, J. (1997), “Long short-term memory,” Neural computation, 9, 1735–1780. Jaeger, H. (2007), “Discovering multiscale dynamical features with hierarchical echo state networks,” Tech. rep., Jacobs University Bremen.
Karpatne, A., Atluri, G., Faghmous, J. H., Steinbach, M., Banerjee, A., Ganguly, A., Shekhar, S., Samatova, N., and Kumar, V. (2017), “Theory-guided data science: A new paradigm for scientific discovery from data,” IEEE Transactions on Knowledge and Data Engineering, 29, 2318–2331.
Keren, G. and Schuller, B. (2016), “Convolutional RNN: an enhanced model for extracting features from sequential data,” in Neural Networks (IJCNN), 2016 International Joint Conference on, IEEE, pp. 3412–3419.
Leeds, W. B., Wikle, C. K., and Fiechter, J. (2014), “Emulator-assisted reduced-rank ecological data assimilation for nonlinear multivariate dynamical spatio-temporal processes,” Statistical Methodology, 17, 126–138.
Lukoˇ seviˇ cius, M. and Jaeger, H. (2009), “Reservoir computing approaches to recurrent neural network training,” Computer Science Review, 3, 127–149.
Ma, Q., Shen, L., and Cottrell, G. W. (2017), “Deep-ESN: A Multiple Projection-encoding Hierarchical Reservoir Computing Framework,” arXiv preprint arXiv:1711.05255.
MacKay, D. J. (1992), “A practical Bayesian framework for backpropagation networks,” Neural computation, 4, 448–472.
McDermott, P. L. and Wikle, C. K. (2017a), “Bayesian Recurrent Neural Network Models for Forecasting and Quantifying Uncertainty in Spatial-Temporal Data,” arXiv preprint arXiv:1711.00636.
McDermott, P. L. and Wikle, C. K. (2017b), “An Ensemble Quadratic Echo State Network for Nonlinear Spatio-Temporal Forecasting,” STAT, 6, 315–330.
McDermott, P. L. and Wikle, C. K. (2018), “Deep echo state networks with uncertainty quantification for spatio-temporal forecasting,” Environmetrics, e2553.
Neal, R. M. (1996), Bayesian learning for neural networks, New York, NY: Springer-Verlag.
Polson, N. G., Sokolov, V., et al. (2017), “Deep learning: A bayesian perspective,” Bayesian Analysis, 12, 1275–1304.
Polson, N. G. and Sokolov, V. O. (2017), “Deep learning for short-term traffic flow prediction,” Transportation Research Part C: Emerging Technologies, 79, 1–17.
Quiroz, M., Nott, D. J., and Kohn, R. (2018), “Gaussian variational approximation for highdimensional state space models,” arXiv preprint arXiv:1801.07873.
Rasmussen, C. E. and Williams, C. K. (2006), Gaussian processes for machine learning, Cambridge, MA: MIT press.
Shalev-Shwartz, S., Shamir, O., and Shammah, S. (2017), “Failures of deep learning,” arXiv preprint arXiv:1703.07950.
Sheng, C., Zhao, J., Wang, W., and Leung, H. (2013), “Prediction intervals for a noisy nonlinear time series based on a bootstrapping reservoir computing network ensemble,” IEEE Transactions on neural networks and learning systems, 24, 1036–1048.
Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Van Den Driessche, G., Schrittwieser, J., Antonoglou, I., Panneershelvam, V., Lanctot, M., et al. (2016), “Mastering the game of Go with deep neural networks and tree search,” nature, 529, 484.
Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., Guez, A., Lanctot, M., Sifre, L., Kumaran, D., Graepel, T., et al. (2018), “A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play,” Science, 362, 1140–1144.
Snoek, J., Rippel, O., Swersky, K., Kiros, R., Satish, N., Sundaram, N., Patwary, M., Prabhat, M., and Adams, R. (2015), “Scalable bayesian optimization using deep neural networks,” in International Conference on Machine Learning, pp. 2171–2180.
Takens, F. (1981), “Detecting strange attractors in turbulence,” Lecture notes in mathematics, 898, 366–381.
Tobler, W. R. (1970), “A computer movie simulating urban growth in the Detroit region,” Economic geography, 46, 234–240. 2
Tong, Z. and Tanaka, G. (2018), “Reservoir Computing with Untrained Convolutional Neural Networks for Image Recognition,” in 2018 24th International Conference on Pattern Recognition (ICPR), IEEE, pp. 1289–1294.
Tran, M.-N., Nguyen, N., Nott, D., and Kohn, R. (2018), “Bayesian Deep Net GLM and GLMM,” arXiv preprint arXiv:1805.10157.
Triefenbach, F., Jalalvand, A., Demuynck, K., and Martens, J. (2013), “Acoustic modeling with hierarchical reservoirs,” IEEE Transactions on Audio, Speech, and Language Processing, 21, 2439–2450.
Wikle, C., Zammit-Mangion, A., and Cressie, N. (2019), Spatio-Temporal Statistics with R, Boca Raton, FL: Chapman and Hall/CRC.
Wikle, C. K., Berliner, L. M., and Cressie, N. (1998), “Hierarchical Bayesian space-time models,” Environmental and Ecological Statistics, 5, 117–154.
Wikle, C. K. and Hooten, M. B. (2010), “A general science-based framework for dynamical spatiotemporal models,” Test, 19, 417–451.
Wikle, C. K., Milliff, R. F., Nychka, D., and Berliner, L. M. (2001), “Spatiotemporal hierarchical Bayesian modeling tropical ocean surface winds,” Journal of the American Statistical Association, 96, 382–397.
Xingjian, S., Chen, Z., Wang, H., Yeung, D.-Y., Wong, W.-K., and Woo, W.-c. (2015), “Convolutional LSTM network: A machine learning approach for precipitation nowcasting,” in Advances in neural information processing systems, pp. 802–810.