【摘 要】 深度高斯过程是一种基于高斯过程映射的深度信念网络。数据被建模为一个多元高斯过程的输出,而该高斯过程的输入由另一个高斯过程控制。单层模型等效于标准高斯过程或高斯过程隐变量模型 (GP-LVM)。我们通过近似变分边缘化在模型中进行推断。这导致用于做模型选择(层数和每层节点数)的边缘似然具备一个严格的下界。深度信念网络通常适用于使用随机梯度下降(SGD)做优化的大型数据集。但即使在数据稀缺的情况下,本文方法的完全贝叶斯处理也允许其应用深层模型。利用本文变分边界做出的模型选择情况表明,即使对仅包含 150 个样本的数字字符数据集进行建模,5 层的网络层次结构也是合理的。

【原 文】 Damianou, A. and Lawrence, N.D. (2013) ‘Deep gaussian processes’, in Artificial intelligence and statistics. PMLR, pp. 207–215.

1 概述

使用神经网络架构来实现概率建模,已经成为机器学习的一个深入研究领域。深度学习领域的一些新进展 [Hinton and Osindero, 2006 [12], Bengio 等, 2012 [2]] 使该研究领域再次流行起来。从经验主义来说,深度模型似乎具有某些结构上的优势,可以提高在(与抽象信息相关的)复杂数据集中学习的质量 [Bengio, 2009 [1]]。大多数深度算法需要大量数据来支撑学习和训练,但众所周知的是,人类却能够用很少的样本就能够执行归纳推断 [Tenenbaum 等, 2006][24]。因此,有关于深层和抽象结构是否可以在小数据集上进行训练学习的问题,成为了大家热烈讨论的一个方向。对于较小的数据集,泛化问题相应出现了:如何证明这种结构的合理性? 我们需要有一种对模型适用性进行客观度量的方法。

传统深度学习方法基于二元隐变量和受限玻尔兹曼机 (受限玻尔兹曼机) [Hinton, 2010][10]。通过堆叠这些模型构建深度层次结构,并使用各种近似推断技术(例如:对比散度)来估计模型的参数。如果要估计受限玻尔兹曼机模型下数据集的似然 [Salakhutdinov 和 Murray,2008 年[20]],必须使用退火重要性采样方法实施大量工作。当考虑更深层次时,估计值只是数据似然的下限。换句话说,在面对上述棘手问题时,用此类模型来拟合较小的数据集,并使用贝叶斯方法处理复杂性,似乎没有什么效果。

玻尔兹曼机 (BM) 的出现是现代机器学习最有趣的核心方法之一,这在很大程度上是该领域"回到未来"的一个例子:玻尔兹曼机在 1980 年代初声名鹊起,但实用性与训练相关的影响导致其被忽视,直至一系列为受限玻尔兹曼机模型开发的算法出现,并在 90 年代后期作为专家产品而重新引入 [Hinton, 1999][11]

玻尔兹曼机的计算难度导致其他方法的产生,特别是核方法,如支持向量机 (SVM),被广泛应用于数据分类领域。 几乎与支持向量机同步,高斯过程模型 [Rasmussen and Williams, 2006][19] 也被引进,以作为多层感知器 (MLP) 的完全概率替代品。其灵感来自 [Neal, 1996][18] 的发现,即:在某些条件下,一个高斯过程就是一个隐层含有无限个单元的多层感知机(注:在当时主要指单隐层网络。)。 多层感知机还与深度学习模型相关,深度学习算法已被用于预训练自动编码器,以完成降维任务 [Hinton 和 Salakhudinov, 2006 [13]] 。传统高斯过程模型已扩展到更具表现力的变体,例如通过考虑复杂的协方差函数 [Durrande 等, 2011 [6],Gonen and Alpaydin, 2011 [8]] 或通过将高斯过程嵌入更复杂的概率结构 [Snelson 等, 2004 [21], Wilson 等, 2012 [27]] ,能够学习到更强大的数据表示。

然而,迄今为止,深度学习领域仍然主要与受限玻尔兹曼机模型相关,所有基于高斯过程的方法都没有导致真正适用于深度架构的原则性方法。

在给定父单元的情况下,受限玻尔兹曼机模型中某一个隐藏单元的条件概率可以写为:

p(yx)=σ(wx)y(1σ(wx))(1y)p(y \mid \mathbf{x})=\sigma\left(\mathbf{w}^{\top} \mathbf{x}\right)^{y}\left(1-\sigma\left(\mathbf{w}^{\top} \mathbf{x}\right)\right)^{(1-y)}

其中,yy 是受限玻尔兹曼机的输出变量,xx 作为输入的一组条件依赖项, 并且 σ\sigma 定义为 σ(z)=(1+\sigma(z)=(1+ exp(z))1\exp (-z))^{-1} 。输出 yy 的条件密度仅取决于输入 x\mathbf{x} 的线性加权和。而相同情况下,高斯过程的表征能力明显大于受限玻尔兹曼机。对于高斯过程,相应的似然是在一个连续变量上,而这个连续变量是输入的非线性函数。

p(yx)=N(yf(x),σ2)p(y \mid \mathbf{x})=\mathcal{N}\left(y \mid f(\mathbf{x}), \sigma^{2}\right)

其中 N(μ,σ2)\mathcal{N}\left(\cdot \mid \mu, \sigma^{2}\right) 代表具有 μ\mu 和 方差 σ2\sigma^{2} 的高斯密度。在此情况下,似然取决于映射函数 f()f(\cdot) ,而不是一组中间参数 w\mathrm{w} 。高斯过程建模的方法是直接在函数类(通常指定平滑、平稳的非线性函数)上放置先验并对其积分,而且可以通过解析方式完成。而在受限玻尔兹曼机中,模型的似然根据参数 w\mathrm{w} 来估计和最大化,其边缘化在解析上难以处理。

顺便指出,如果 p(yx)=σ(f(x))y(1σ(f(x))(1y)p(y \mid \mathbf{x})=\sigma(f(\mathbf{x}))^{y} (1-\sigma(f(\mathbf{x}))^{(1-y)} ,则两种方法可以混用,它实质上是恢复了一个高斯过程分类模型。但尽管如此,解析的积分解也不再可能,只能采用近似推断方法(如期望传播算法) [参见 Rasmussen 和 Williams,2006 [19]]。

注:
1)连续型随机变量的概率分布也被成为概率密度,或简称为密度。离散型随机变量的概率分布通常被称之为概率质量。
2)从概率角度,某点的密度值不代表概率,且可以大于 1 ,概率只在区间积分时有意义,而且概率密度的全积分结果一定等于 1。
3) 某个取值上的质量值可以代表概率,所以质量值不能大于 1 , 且概率质量的累积和等于 1 。

深度模型中的推断需要对 x\mathbf{x} 进行边缘化,它们通常会被视为隐变量。在受限玻尔兹曼机模型中,它们是二值变量。边缘化求和的项数与输入维度呈指数关系,这使其只能处理较小的模型。在实践中,采样方法、对比散度算法等常用于训练。类似地,边缘化高斯过程在分析上也是难以处理的,即使对于高斯这样的简单先验也是如此。

高斯过程隐变量模型(GP-LVM)中 [Lawrence, 2005 [16]] ,该问题通过最大化变量(而不是边缘化参数)的方式得以解决,并且这些模型被堆叠成栈,进而形成了层次高斯过程隐变量模型 [Lawrence and Moore, 2007 [17]] ,这是一种学习深度高斯过程模型的最大后验 (MAP) 方法。然而,这种最大后验的方法存在两个问题,一是需要在层次结构顶层具有一个强大的先验来确保算法工作; 二是最大后验学习不存在模型选择,因为没有可用的边缘似然估计。

本文有两个主要贡献:

  • 首先,我们利用变分推断 [Titsias and Lawrence, 2010] [26] 的最新进展,以变分方式边缘化层次结构中的隐变量。Damianou 等 [2011] [4] 已经展示了如何使用这些方法堆叠两个高斯过程模型。本文进一步表明,通过变分近似,可以堆叠任意数量的高斯过程模型以提供真正的深层次结构。变分方法为我们提供了模型边缘似然的严格下界,使其可用于模型选择。
  • 其次,使用这个下界证明了数据稀缺情况下深度模型的适用性。变分下界为我们提供了一个客观度量,从中可以为深层次网络选择不同结构(层数、每层节点数)。在一个简单的示例中,我们应用能得到的最深层次结构(5 层)模型给出了最佳下界。

深层高斯过程由隐变量的隐藏层级联组成,其中每个节点充当上层的输出和下层的输入,而观测到的输出被放置在层次结构的叶子单元中。高斯过程控制着层与层之间的映射关系。

深层高斯过程的单层实际上是一个高斯过程隐变量模型 (GP-LVM),就像常规深层模型的单层通常是受限玻尔兹曼机一样。 [Titsias 和 Lawrence,2010] [26] 已经表明,隐变量可以在高斯过程隐变量模型中近似边缘化,从而允许计算似然的变分下界。可以使用自动相关性判决先验 (ARD) 来计算隐空间的适当大小 [Neal, 1996][18] 。[Damianou 等,2011][4] 通过在隐空间上放置高斯过程先验来扩展此方法,从而产生贝叶斯动态高斯过程隐变量模型。本文中,我们扩展了该方法以允许近似边缘化任意数量的隐藏层。我们展示了如何通过边缘化结构中的隐变量来获得对完全贝叶斯训练过程的近似,并且通过对给定输出的隐变量的真实后验进行变分近似,以获得高斯过程深层次结构。由此产生的模型非常灵活,应该为深层结构开辟一系列应用。

2 模型

我们首先考虑使用高斯过程建模的标准方法。然后,我们通过考虑高斯过程模型输入的高斯过程先验,将这些想法扩展到深度高斯过程。我们可以递归地应用这个想法来获得深度高斯过程模型。

2.1 标准高斯过程建模

Figure01

图 1:深度高斯过程模型的不同表示:(a) 显示了具有 H\mathcal{H} 隐藏层级联的一般架构;(b) 描述了两个隐藏层层次结构的简化,也展示了相应的高斯过程映射;(c) 说明了最一般的情况,其中允许叶子和所有中间节点形成条件独立的组。对应于每一层的目标(15)的条款包含在左侧。

2.2 深度高斯过程

我们的深度高斯过程架构对应于具有三种节点的图形模型,如图 1(a) 所示:观测到的叶节点 YRN×DY \in \mathbb{R}^{N \times D},中间隐空间 XhRN×Qh\mathbf{X}_h \in \mathbb{R}^{N \times Q_h}h=1...,H1h = 1, ..., H−1,其中 HH 是隐藏层数,父隐节点 Z=XHRN×QZZ = \mathbf{X}_H \in \mathbb{R}^{N \times Q_Z} 。父节点可以是未观测到的并且可能受我们选择的先验(例如动态先验)的约束,或者可以构成监督学习任务的给定输入。为简单起见,这里我们主要关注无监督学习场景。在这个深度架构中,所有中间节点 Xh\mathbf{X}_h 充当下层(包括叶子)的输入和上层的输出。为简单起见,考虑一个只有两个隐藏单元的结构,如 图 1(b) 所示。生成过程采用以下形式:

ynd=fdY(xn)+ϵndY,/qquadd=1,,D,xnRQxnq=fqX(zn)+ϵnqX,/qquadq=1,,Q,znRQZ\begin{align*} y_{nd} =f^Y_d(\mathbf{x}_n) + \epsilon^Y_{nd} , /qquad d = 1, \ldots, D, \mathbf{x}_n \in \mathbb{R}^Q x_{nq} =f^X_q(\mathbf{z}_n) + \epsilon^X_{nq}, /qquad q = 1,\ldots, Q, \mathbf{z}_n \in \mathbb{R}^{Q_Z} \tag{4} \end{align*}

中间节点涉及两个高斯过程 fYf^YfXf^X ,分别扮演输入和输出的角色:fYGP(0,kY(X,X))f^Y \sim \mathcal{GP}(0, k^Y(\mathbf{X, X}))fXGP(0,kX(ZZ))f^X \sim \mathcal{GP}(0, k^X(\mathbf{Z,Z}))。这种结构可以自然地垂直扩展(即更深的层次结构)或水平扩展(即将每一层分割成输出空间的不同分区),我们将在本文后面看到。然而,每一层如何添加大量模型参数 (Xh\mathbf{X}_h) 以及正则化挑战已经很明显,因为每个隐藏层的大小至关重要,但必须先验定义。出于这个原因,与 Lawrence 和 Moore [2007] 不同,我们寻求以不同方式边缘化整个隐空间。由于贝叶斯训练,这不仅使我们能够获得自动奥卡姆剃刀,而且我们最终会得到明显更少的模型参数,因为变分过程仅添加变分参数。这种方法的第一步是为高斯过程定义自动相关性确定 (ARD) 协方差函数:

k(xi,xj)=σard2e12q=1Qwq(xi,qxj,q)2k (\mathbf{x}_i, \mathbf{x}_j) = \sigma^2_{ard} e^{−\frac{1}{2} \sum^Q_{q=1} w_q (x_{i,q} − x_{j,q})^2}

该协方差函数为每个隐维度假设不同的权重 wqw_q,这可以在贝叶斯训练框架中加以利用,以便通过将相应的权重驱动为零来“关闭”不相关的维度,从而有助于自动找到复杂模型的结构。然而,这个协方差函数引入的非线性使得这个模型的贝叶斯处理具有挑战性。然而,根据最近的非标准变分推理方法,我们可以分析地定义一个近似贝叶斯训练过程,这将在下一节中解释。

2.3 贝叶斯训练

贝叶斯训练过程需要优化模型证据:

logp(Y)=logX,Zp(YX)p(XZ)p(Z)(6)\log p(\mathbf{Y}) = \log \int_{\mathbf{X,Z}} p(\mathbf{Y|X}) p(\mathbf{X|Z})p(\mathbf{Z}) \tag{6}

当关于观测数据的先验信息可用时(例如,它们的动态性质是先验的),可以选择父隐节点上的先验分布,以便通过先验密度在级联中的传播来约束整个隐空间。这里我们采用 p(Z)=N(Z0,I)p(\mathbf{Z}) = \mathcal{N}(\mathbf{Z|0, I}) 的一般情况。然而,由于通过高斯过程先验 fYf^YfXf^X 处理 X\mathbf{X}Z\mathbf{Z} 的非线性方式, 式 (6) 的积分是难以处理的。作为第一步,我们应用 Jensen 不式来找到变分下界 Fvlogp(Y)\mathcal{F}_v \leq \log p(\mathbf{Y}),其中

Fv=X,Z,FY,FXQlogp(Y,FY,FX,X,Z)Q(7)\mathcal{F}_v = \int_{\mathbf{X,Z},\mathbf{F}^Y,\mathbf{F}^X} \mathcal{Q} \log \frac{p(\mathbf{Y}, \mathbf{F}^Y , \mathbf{F}^X , \mathbf{X, Z})}{\mathcal{Q}} \tag{7}

其中我们引入了一个变分分布 Q\mathcal{Q},其形式将在后面定义。通过注意到上面出现的联合分布可以扩展为

p(Y,FY,FX,X,Z)=p(YFY)p(FYX)p(XFX)p(FXZ)p(Z)(8)p(\mathbf{Y}, \mathbf{F}^Y , \mathbf{F}^X , \mathbf{X, Z}) = p(\mathbf{Y} |\mathbf{F}^Y)p(\mathbf{F}^Y| \mathbf{X})p(\mathbf{X}|\mathbf{F}^X)p(\mathbf{F}^X|\mathbf{Z})p(\mathbf{Z}) \tag{8}

我们看到 式 (7) 的积分仍然难以处理,因为 X\mathbf{X}Z\mathbf{Z} 仍然分别在 p(FYX)p(\mathbf{F}^Y |\mathbf{X})p(FXZ)p(\mathbf{F}^X |\mathbf{Z}) 项中呈现非线性。 [Titsias 和 Lawrence,2010 [26]] 的一个关键结果是,使用额外变量扩展高斯过程先验 p(FX)p(\mathbf{F|X}) 的概率空间允许通过非线性映射 ff 传播隐空间上的先验。更准确地说,我们用 KK 个辅助伪输入 X~RK×Q\tilde{\mathbf{X}} \in \mathbb{R}^{K \times Q}Z~RK×QZ\tilde{\mathbf{Z}} \in \mathbb{R}^{K \times Q_Z} 来扩充式(3)的概率空间,它们对应于一组函数值 UYRK×D\mathbf{U}^Y \in \mathbb{R}^{K \times D}UXRK×Q\mathbf{U}^X \in \mathbb{R}^{K \times Q} 分别为 55。 按照这种方法,我们得到增广概率空间:

p(Y,FY,FX,X,Z,UY,UX,X~,Z~)=p(YFY)p(FYUY,X)p(UYX~)p(XFX)p(FXUX,Z)p(UXX~)p(Z)(9)p(\mathbf{Y}, \mathbf{F}^Y , \mathbf{F}^X , \mathbf{X, Z}, \mathbf{U}^Y , \mathbf{U}^X , \tilde{\mathbf{X}},\tilde{\mathbf{Z}}) = p(\mathbf{Y}|\mathbf{F}^Y )p(\mathbf{F}^Y |\mathbf{U}^Y, \mathbf{X}) p(\mathbf{U}^Y | \tilde{\mathbf{X}}) p(\mathbf{X}|\mathbf{F}^X )p(\mathbf{F}^X |\mathbf{U}^X, \mathbf{Z}) p(\mathbf{U}^X | \tilde{\mathbf{X}}) p(\mathbf{Z}) \tag{9}

伪输入 X~\tilde{\mathbf{X}}Z~\tilde{\mathbf{Z}} 被称为归纳点,为了清楚起见,从现在开始将从我们的表达式中删除。请注意,FY\mathbf{F}^YUY\mathbf{U}^Y 来自同一高斯过程,因此 p(UY)p(\mathbf{U}^Y)p(FYUY,X)p(\mathbf{F}^Y |\mathbf{U}^Y , \mathbf{X}) 也是高斯分布(对于 p(UX)p(\mathbf{U}^X )p(FXUX,Z)p(\mathbf{F}^X |\mathbf{U}^X , \mathbf{Z}) 也是如此)。

我们现在能够定义一个变分分布 Q\mathcal{Q},当它与增强高斯过程先验的新表达式结合时,会产生一个易于处理的变分界。具体来说,我们有:

Q=p(FYUY,X)q(UY)q(X)p(FXUX,Z)q(UX)q(Z)(10)\mathcal{Q} =p(\mathbf{F}^Y |\mathbf{U}^Y, \mathbf{X}) q(\mathbf{U}^Y) q(\mathbf{X}) p(\mathbf{F}^X |\mathbf{U}^X , \mathbf{Z}) q(\mathbf{U}^X)q(\mathbf{Z}) \tag{10}

我们选择 q(UY)q(\mathbf{U}^Y)q(UX)q(\mathbf{U}^X) 为自由形式的变分分布,而 q(X)q(\mathbf{X})q(Z)q(\mathbf{Z}) 选择为高斯分布,并根据维度进行因式分解:

q(X)=q=1QN(μqX,SqX)q(Z)=q=1QZN(μqZ,SqZ)\begin{align*} q(\mathbf{X}) &= \prod^{Q}_{q=1} \mathcal{N}(\boldsymbol{\mu}^X_q , \boldsymbol{S}^X_q )\\ q(\mathbf{Z}) &= \prod^{Q_Z}_{q=1} \mathcal{N}(\boldsymbol{\mu}^Z_q , \boldsymbol{S}^Z_q ) \tag{11} \end{align*}

通过将 式 (10) 代回 (7) 同时还用 式 (9) 中的增强版本替换原始联合分布,我们看到“困难”项 p(FYUY,X)p(\mathbf{F}^Y |\mathbf{U}^Y , \mathbf{X})p(FXUX,Z)p(\mathbf{F}^X |\mathbf{U}^X , \mathbf{Z}) 在分数中抵消,留下一个可以解析计算的数量:

Fv=Qlogp(YFY)p(UY)p(XFX)p(UX)p(Z)Q(12)\mathcal{F}_v = \int \mathcal{Q} \log \frac{ p(\mathbf{Y}|\mathbf{F}^Y) p(\mathbf{U}^Y)p(\mathbf{X}|\mathbf{F}^X) p(\mathbf{U}^X) p(\mathbf{Z}) }{\mathcal{Q}^{\prime}} \tag{12}

其中 Q=q(UY)q(X)q(UX)q(Z)\mathcal{Q}^{\prime} = q(\mathbf{U}^Y) q(\mathbf{X}) q(\mathbf{U}^X) q(\mathbf{Z}) 并且上述积分是关于 {X,Z,FY,FX,UY,UX}\{\mathbf{X, Z}, \mathbf{F}^Y, \mathbf{F}^X , \mathbf{U}^Y, \mathbf{U}^X \} 的。更具体地说,我们可以通过对分数的变量进行分组来打破式(12)中的对数,使得边界可以写成:

Fv=gY+rX+Hq(X)KL(q(Z)p(Z))(13)\mathcal{F}_v = \mathbf{g}_Y + \mathbf{r}_X + \mathcal{H}_{q(\mathbf{X})} − \mathbb{KL}(q(\mathbf{Z}) \| p(\mathbf{Z})) \tag{13}

其中 H\mathcal{H} 表示相对于分布的熵,KL\mathbb{KL} 表示 Kullback – Leibler 散度,并使用 \langle \cdot \rangle 表示期望,

gY=g(Y,FY,UY,X)=logp(YFY)+logp(UY)q(UY)p(FYUY,X)q(UY)q(X)\mathbf{g}_Y = g(\mathbf{Y}, \mathbf{F}^Y, \mathbf{U}^Y, \mathbf{X}) = \langle \log p(\mathbf{Y}|\mathbf{F}^Y) + \log \frac{p(\mathbf{U}^Y)}{ q(\mathbf{U}^Y )} \rangle_{p(\mathbf{F}^Y | \mathbf{U}^Y, \mathbf{X}) q(\mathbf{U}^Y) q(\mathbf{X})}

rX=r(X,FX,UX,Z)=logp(XFX)+logp(UX)q(UX)p(FXUX,Z)q(UX)q(X)q(Z)\mathbf{r}_X = r(\mathbf{X}, \mathbf{F}^X , \mathbf{U}^X , \mathbf{Z}) = \langle \log p(\mathbf{X}|\mathbf{F}^X) + \log \frac{p(\mathbf{U}^X)}{q(\mathbf{U}^X)} \rangle_{p(\mathbf{F}^X |\mathbf{U}^X,\mathbf{Z})q(\mathbf{U}^X )q(\mathbf{X})q(\mathbf{Z})}

gY\mathbf{g}_YrX\mathbf{r}_X 都涉及已知的高斯密度,因此易于处理。 gY\mathbf{g}_Y 项仅与叶子相关,因此与贝叶斯 GP-LVM 的边界相同 [Titsias 和 Lawrence,2010 [26]]。由于它仅涉及高斯分布的期望,因此高斯过程输出变量仅涉及 YYTYY^T 形式的量。此外,从上面的式可以看出,函数 r()r(·) 类似于 g()g(·),但它需要对所有涉及的变量的密度有期望(即关于所有函数输入)。因此,rX\mathbf{r}_X 将在一项 XXTq(X)=q=1Q[μqX(μqX)T+SqX]\langle \mathbf{XX}^T \rangle_{q(\mathbf{X})} = \sum^Q_{q=1} \left[ \boldsymbol{\mu}^X_q (\boldsymbol{\mu}^X_q)^T + \boldsymbol{S}^X_q \right] 中涉及 XX(顶层的输出)。

3 扩展层次结构

尽管主要计算是在一个简单的层次结构中演示的,但很容易垂直扩展模型,即通过添加更多隐藏层,或水平扩展模型,即通过考虑属于同一层的隐变量的条件独立性。第一种情况只需要向变分界添加更多 rX\mathbf{r}_X 函数,即我们现在将得到总和:h=1H1rXh\sum^{H-1}_{h=1} \mathbf{r}_{\mathbf{X}_h},其中 rXh=r(Xh,FXh,UXh,Xh+1)\mathbf{r}_{\mathbf{X}_h} = r(X_h, \mathbf{F}^{X_h}, \mathbf{U}^{X_h},\mathbf{X}_{h+1})XH=Z\mathbf{X}_H = \mathbf{Z}

现在考虑水平扩展场景并假设我们希望将第 hh 层的单个隐空间 Xh\mathbf{X}_h 分解为 MhM_h 个条件独立的子集。只要选择式(11)的变分分布 q(Xh)q(\mathbf{X}_h) 以一致的方式进行因式分解,只需将式(14)的原始 rXh\mathbf{r}_{X_h} 项分解为总和 m=1MhrXh(m)\sum^{M_h}_{m=1} \mathbf{r}^{(m)}_{X_h}。这仅源于以下事实:由于独立性假设,它认为 logp(XhXh+1)=m=1Mhlogp(Xh(m)Xh+1)\log p(\mathbf{X}_h|\mathbf{X}_{h+1}) = \sum^{M_h}_{m=1} \log p(\mathbf{X}^{(m)}_h | \mathbf{X}_{h+1})。请注意,通过打破边界的 gY\mathbf{g}_Y 项,同样的原则也可以应用于叶子。例如,当我们看到多个不同的输出空间时,就会出现这种情况,但是我们认为它们具有一些共性。例如,当观测到的数据来自同一事件的视频和音频记录时。鉴于上述情况,最通用版本模型的变分界采用以下形式:

Fv=m=1MYgY(m)+h=1H1m=1MhrXh(m)+h=1H1Hq(Xh)KL(q(Z)p(Z))(15)\mathcal{F}_v = \sum^{M_Y}_{m=1} \mathbf{g}^{(m)}_Y + \sum^{H-1}_{h=1} \sum^{M_h}_{m=1} \mathbf{r}^{(m)}_{X_h} + \sum^{H-1}_{h=1} \mathcal{H}_q(\mathbf{X}_h) − \mathbb{KL}(q(\mathbf{Z}) \| p (\mathbf{Z})) \tag{15}

图 1(c) 显示了此目标函数的项与层次结构的每一层的关联。回想一下,每个 rXh(m)\mathbf{r}^{(m)}_{X_h}gY(m)\mathbf{g}^{(m)}_Y 项都与不同的高斯过程相关联,因此,它们具有自己的一组自动相关性确定 (ARD) 权重(在 式 (5) 中描述)。

3.1 深度多输出高斯过程

如上所述,水平扩展层次结构的特定方式可以看作是执行无监督多输出高斯过程学习的一种方式。这只需要为每个向量 yd\mathbf{y}_d 分配一个不同的 gY\mathbf{g}_Y 项(以及相关的 ARD 权重),其中 dd 索引输出维度。在训练我们的模型之后,我们希望 Y\mathbf{Y} 中编码相似信息的列将被分配也相似的相关权重向量。这个想法可以扩展到层次结构的所有级别,从而获得完全分解的深度高斯过程模型。

我们模型的这种特殊情况使我们模型的结构和神经网络架构之间的联系更加明显:ARD 参数扮演着类似于神经网络权重的角色,而隐变量扮演着学习特征层次结构的神经元的角色。

3.2 参数和复杂度

图 1 所示的所有图形变体中,每个箭头代表一个具有高斯过程先验的生成过程,对应于一组参数 {X~,θ,σϵ}\{ \tilde{\mathbf{X}}, \boldsymbol{\theta}, \sigma_\epsilon \}。每层隐变量对应一个变分分布 q(X)q(\mathbf{X}),它与一组变分均值和协方差相关联,如 式 (11) 所示。父节点可以具有与 式 (11) 相同的形式,或者可以用将耦合 q(Z)q(\mathbf{Z}) 的点的信息量更大的先验约束。例如,动态先验会引入 Q×N2Q × N^2 个参数,然而,这些参数可以使用更少的变量重新参数化 [Damianou 等,2011 [4]]。然而,从 式 (10) 式(12) 可以明显看出,归纳点和 q(X)q(\mathbf{X})q(Z)q(\mathbf{Z}) 的参数是变分的,而不是模型参数,这对正则化问题有很大帮助。

因此,向层次结构中添加更多层不会引入更多模型参数。此外,与高斯过程的常见稀疏方法 [Titsias, 2009 [25]] 一样,每个生成高斯过程映射的复杂性从典型的 O(N3)\mathcal{O}(N^3) 降低到 O(NM2)\mathcal{O}(N M^2)

4 示范

略,详见原文。

5 结论与讨论

我们引入了一个框架,用于对分层高斯过程映射进行有效的贝叶斯训练。我们的方法近似边缘化了隐空间,从而允许在层次结构中自动发现结构。该方法能够成功地学习描述自然人体运动和手写数字像素的特征层次。尽管实验中的数据相对稀缺(150 个数据点),不过我们的变分下界还是为手写数字选择了一种深度分层表示。我们给出了有说服力的证据,表明即使对于较小的数据集,深度高斯过程模型也足够强大,可以用于对抽象信息进行编码。进一步的探索可能包括在其他推断任务上测试模型,例如类条件密度估计以进一步验证这些想法。我们的方法也可以用来改进现有的深度算法,我们也计划通过结合过去一些方法来进一步验证。事实上,之前将高斯过程与深层结构相结合的努力在无监督预训练方面 [Erhan 等,2010 [7]] 或指导传统深层模型方面 [Snoek 等,2012 [22]] 取得了成功。

虽然本文介绍的实验只考虑了 5 层结构 ,但该方法直接适用于更深的架构,我们打算在未来进行实验。隐空间的边缘化允许这种扩展同时进行正则化。变分下界允许我们在使用不同初始化和不同层数的模型之间做出有依据的选择。

我们提出的深层次结构也可以与控制层次结构顶层的输入一起使用,从而产生基于高斯过程的强大回归模型,但它本身并不是高斯过程。未来,我们希望测试该模型在多任务学习(中间层可以学习跨任务共享的表示)和非平稳数据或涉及跳跃的数据建模中的应用。这些都是对于单层高斯过程来说非常棘手的领域。

下一个挑战是将方法扩展到非常大的数据集。其中一种非常有前途的方法是应用随机变分推断 [Hoffman 等,2012 [14]] 。在最近的会议出版物 [Hensman and Lawrence, 2012 [9]] 中,标准变分高斯过程和贝叶斯 GP-LVM 被证明可以适应这种情况。深度高斯过程的下一步将是合并这些大规模的变分学习算法。

参考文献

  • [1] Y. Bengio. Learning Deep Architectures for AI. Found. Trends Mach. Learn., 2(1):1–127, Jan. 2009. ISSN 1935-8237. doi: 10.1561/2200000006.
  • [2] Y. Bengio, A. C. Courville, and P. Vincent. Unsupervised feature learning and deep learning: A review and new perspectives. CoRR, abs/1206.5538, 2012.
  • [3] A. C. Damianou and N. D. Lawrence. Deep Gaussian processes. NIPS workshop on Deep Learning and Unsupervised Feature Learning (arXiv:1211.0358v1), 2012.
  • [4] A. C. Damianou, M. Titsias, and N. D. Lawrence. Variational Gaussian process dynamical systems. In J. Shawe Taylor, R. Zemel, P. Bartlett, F. Pereira, and K. Weinberger, editors, Advances in Neural Information Processing Systems 24, pages 2510–2518. 2011.
  • [5] A. C. Damianou, C. H. Ek, M. K. Titsias, and N. D. Lawrence. Manifold relevance determination. In J. Langford and J. Pineau, editors, Proceedings of the International Conference in Machine Learning, volume 29, San Francisco, CA, 2012.
  • [6] N. Durrande, D. Ginsbourger, and O. Roustant. Additive kernels for Gaussian process modeling. ArXiv e-prints 1103.4023, 2011.
  • [7] D. Erhan, Y. Bengio, A. Courville, P.-A. Manzagol, P. Vincent, and S. Bengio. Why does unsupervised pre-training help deep learning? J. Mach. Learn. Res., 11:625–660, Mar. 2010. ISSN 1532-4435.
  • [8] M. Gonen and E. Alpaydin. Multiple kernel learning algorithms. J. Mach. Learn. Res., 12:2211–2268, Jul 2011. ISSN 1532-4435.
  • [9] J. Hensman and N. Lawrence. Gaussian processes for big data through stochastic variational inference. NIPS workshop on Big Learning, 2012.
  • [10] G. Hinton. A Practical Guide to Training Restricted Boltzmann Machines. Technical report, 2010.
  • [11] G. E. Hinton. Training products of experts by maximizing contrastive likelihood. Technical report, Tech. Rep., Gatsby Computational Neuroscience Unit, 1999.
  • [12] G. E. Hinton and S. Osindero. A fast learning algorithm for deep belief nets. Neural Computation, 18:2006, 2006.
  • [13] G. E. Hinton and R. R. Salakhutdinov. Reducing the dimensionality of data with neural networks. Science, 303 (5786):504–507, 2006.
  • [14] M. Hoffman, D. Blei, C. Wang, and J. Paisley. Stochastic variational inference. ArXiv e-prints 1206.7051, 2012.
  • [15] N. D. Lawrence. Gaussian process latent variable models for visualisation of high dimensional data. In In NIPS, 2004.
  • [16] N. D. Lawrence. Probabilistic non-linear principal component analysis with Gaussian process latent variable models. Journal of Machine Learning Research, 6:1783– 1816, 11 2005.
  • [17] N. D. Lawrence and A. J. Moore. Hierarchical Gaussian process latent variable models. In Z. Ghahramani, editor, Proceedings of the International Conference in Machine Learning, volume 24, pages 481–488. Omnipress, 2007. ISBN 1-59593-793-3.
  • [18] R. M. Neal. Bayesian Learning for Neural Networks. Springer, 1996. Lecture Notes in Statistics 118.
  • [19] C. E. Rasmussen and C. K. I. Williams. Gaussian Processes for Machine Learning. Cambridge, MA, 2006. ISBN 0-262-18253-X.
  • [20] R. Salakhutdinov and I. Murray. On the quantitative analysis of deep belief networks. In Proceedings of the International Conference on Machine Learning, volume 25, 2008.
  • [21] E. Snelson, C. E. Rasmussen, and Z. Ghahramani. Warped Gaussian processes. In S. Thrun, L. Saul, and B. Sch ̈olkopf, editors, Advances in Neural Information Processing Systems 16. MIT Press, Cambridge, MA, 2004.
  • [22] J. Snoek, R. P. Adams, and H. Larochelle. On nonparametric guidance for learning autoencoder representations. In Fifteenth International Conference on Artificial Intelligence and Statistics (AISTATS), 2012.
  • [23] J. B. Tenenbaum, V. de Silva, and J. C. Langford. A global geometric framework for nonlinear dimensionality reduction. Science, 290(5500):2319–2323, 2000. doi:10.1126/science.290.5500.2319.
  • [24] J. B. Tenenbaum, C. Kemp, and P. Shafto. Theory-based bayesian models of inductive learning and reasoning. In Trends in Cognitive Sciences, pages 309–318, 2006.
  • [25] M. Titsias. Variational learning of inducing variables in sparse Gaussian processes. JMLR W&CP, 5:567–574, 2009.
  • [26] M. K. Titsias and N. D. Lawrence. Bayesian Gaussian process latent variable model. In Y. W. Teh and D. M. Titterington, editors, Proceedings of the Thirteenth International Workshop on Artificial Intelligence and Statistics, volume 9, pages 844–851, Chia Laguna Resort, Sardinia, Italy, 13-16 May 2010. JMLR W&CP 9.
  • [27] A. G. Wilson, D. A. Knowles, and Z. Ghahramani. Gaussian process regression networks. In J. Langford and J. Pineau, editors, Proceedings of the 29th International Conference on Machine Learning (ICML), Edinburgh, June 2012. Omnipress.