🔥 深度核学习(DKL)

【摘要】我们引入了可扩展的深度核，它结合了深度学习架构的结构特性和核方法的非参数灵活性。具体来说，我们使用局部核插值、归纳点和结构利用（Kronecker 和 Toeplitz）代数来转换具有深度架构的谱混合基核的输入，以获得可扩展的核表示。这些封闭形式的核可以用作标准核的直接替代品，具有表达能力和可扩展性方面的优势。我们通过高斯过程的边缘似然共同学习这些核的属性。 $n$ 个训练点的推断和学习成本为 $\mathcal{O}(n)$ ，每个测试点的预测成本为 $\mathcal{O}(1)$ 。在大量多样的应用程序集合中，包括具有 $200$ 万个样本的数据集，我们展示了具有灵活核学习模型和独立深度架构的可扩展高斯过程的改进性能。

【原文】 Wilson, A.G. 等 (2015) ‘Deep Kernel Learning’. arXiv. Available at: http://arxiv.org/abs/1511.02222 (Accessed: 31 December 2022).

1 简介

MacKay (1998) ^[15]曾质疑 “高斯过程如何可能取代神经网络？我们把婴儿和洗澡水一起倒掉了吗？” 。那是在 1990 年代后期，研究人员对与神经网络相关的许多设计选择（架构、激活函数和正则化等）以及原则性框架的缺失而感到沮丧。

Neal (1996)^[17] 在机器学习社区中推广了高斯过程，他证明了具有无限多个隐藏单元的贝叶斯神经网络收敛到具有特定核（协方差）函数的高斯过程。高斯过程随后被视为神经网络的一个灵活且可解释的替代方案，并且具有简单的学习过程。 与神经网络使用有限多个高度自适应的基函数不同，高斯过程通常使用无限多个固定的基函数。正如 MacKay (1998) ^[15] ，Hinton 等 (2006)^[7] 和 Bengio (2009) ^[2] 所论证的那样，神经网络可以通过学习多层高度自适应的基函数来自动发现高维数据中有意义的表示。相比之下，具有流行核函数的高斯过程通常用作简单的平滑装置。

最近的方法（例如，Wilson，2014 年^[26]；Wilson 和 Adams，2013 年 ^[27]；Lloyd 等，2014 年 ^[14]；Yang 等，2015 年 ^[33]）已经证明可以开发更具表现力的核函数，这些函数确实能够发现数据中的丰富结构而无需人工干预。这种方法有效地使用了无限多自适应基函数。那么相关的问题就不是哪种范式（例如，核方法或神经网络）取代另一种，而是我们是否可以结合每种方法的优点。事实上，深度神经网络提供了一种强大的机制来创建自适应基函数，归纳偏好已被证明对许多应用领域的学习有效，包括视觉对象识别、语音感知、语言理解和信息检索（Krizhevsky 等，2012 年^[11]）; Hinton 等，2012 年 ^[6]；Socher 等，2011 年 ^[25]；Kiros 等，2014 年^[10]；Xu 等，2015 年^[31]）。

在本文中，我们将核方法的非参数灵活性与深度神经网络的结构特性相结合。特别是，我们使用深度前馈全连接和卷积网络，结合谱混合协方差函数（Wilson 和 Adams，2013 ^[27]）、归纳点（Quinonero-Candela 和 Rasmussen，2005 ^[18]）、结构利用代数（Saatchi，2011 ^[22]）和局部核插值（Wilson 和 Nickisch，2015 年 ^[28]；Wilson 等，2015 年^[30]），为高斯过程创建可扩展的表达封闭形式协方差核。作为一种非参数方法，我们模型的信息容量随着可用数据量的增加而增长，但其复杂性通过高斯过程的边缘似然自动校准，无需正则化或交叉验证（Rasmussen 和 Ghahramani， 2001 年 ^[19]；Rasmussen 和 Williams, 2006 ^[21]; Wilson, 2014 ^[26])。非参数层提供的灵活性和自动校准通常提供高标准的性能，同时减少用户大量手动调整的需要。

我们进一步基于 KISS-GP（Wilson 和 Nickisch，2015 年 ^[28]）及其扩展（Wilson 等，2015 年 ^[30]）中的想法，以便我们的深度核学习模型可以随着训练实例的数量 $n$ 线性扩展，而不是标准高斯过程的 $\mathcal{O}(n^3)$ ，同时保留完全非参数表示。我们的方法还可以扩展为每个测试点的 $\mathcal{O}(1)$ ，从而实现非常快的预测时间。因为 KISS-GP 从用户指定的核创建近似核以进行快速计算，独立于特定的推断过程，我们可以将生成的核视为可扩展的深度核。我们在实验结果部分展示了这种可扩展性的价值，大型数据集为我们的模型提供了发现富有表现力的统计表示的最大机会。

我们首先在第 2 节中回顾相关工作，并在第 3 节中提供有关高斯过程的背景材料。在第 4 节中，我们推导出可扩展的封闭形式深度核，并描述如何通过高斯过程边缘似然对这些核进行高效的自动学习。在第 5 节中，我们展示了在广泛的数据集上比标准高斯过程、表达核学习方法和深度神经网络显著提高的性能。我们还检查核的结构以获得对我们的建模问题的新见解。

2 相关工作

鉴于结合核和神经网络的直观价值，令人鼓舞的是，人们在不同应用背景下考虑了这种组合的各种不同形式。

高斯过程回归网络 (Wilson 等, 2012 ^[29]) 将贝叶斯神经网络中的所有权重连接替换为高斯过程，允许作者对多个任务之间的输入依赖相关性进行建模。Damianou 和 Lawrence (2013) ^[4] 在无监督场景中用高斯过程变换替换贝叶斯神经网络中的每个激活函数。虽然很有前途，但这两种模型都是特定于任务的，并且需要复杂的近似贝叶斯推断，这比对标准高斯过程或深度学习模型的要求高得多，并且通常难以超过几千个训练点。

类似地，Salakhutdinov 和 Hinton (2008) ^[23] 将深度信念网络 (DBN) 与高斯过程相结合，在半监督学习背景下，显示出比具有 $RBF$ 核的标准高斯过程更高的性能。然而，他们的模型严重依赖于 DBN 的无监督预训练，高斯过程组件无法扩展到超过几千个训练点。

同样，Calandra 等 (2014) 将前馈神经网络转换与高斯过程相结合，显示出学习尖锐不连续性的能力。然而，与许多其他方法类似，生成的模型最多只能扩展到几千个数据点。

在频率主义学派中，Yang 等 (2014) ^[32] 将在 ImageNet 上预训练的参数与卷积网络结合，并将 RBF 核的可扩展 Fastfood（Le 等，2013 ^[12]）应用到最后一层。由此产生的方法具有可扩展性和灵活性，但网络参数通常必须首先与 Fastfood 特征分开训练，并且由于 Fastfood 提供的参数扩展，组合模型仍然是参数模型。仍然必须仔细注意网络架构的训练程序、正则化和手动校准。以类似的方式，Huang 等 (2015) ^[8] 和 Snoek 等 (2015) ^[24] 将深度架构与参数贝叶斯模型相结合。Huang 等 (2015) ^[8] 使用深度自编码器进行无监督预训练程序，显示出比使用标准核高斯过程更高的性能。Snoek 等(2015) ^[24] 在贝叶斯优化任务上显示出有前途的性能，用于调整深度神经网络的参数。

我们的方法与众不同之处在于，我们将深度前馈和卷积架构与谱混合协方差（Wilson 和 Adams，2013）、归纳点、Kronecker 和 Toeplitz 代数以及局部核插值（Wilson 和 Nickisch，2015；Wilson 等人，2015）相结合, 推导出具有表现力和可扩展性的封闭形式核，这些核可以与统一的监督目标联合训练，作为非参数高斯过程框架的一部分，而不需要近似贝叶斯推理。此外，我们方法中的简单联合学习程序可以应用于通用场景。事实上，我们表明所提出的模型在广泛的数据集上优于最先进的独立深度学习架构和具有高级核学习程序的高斯过程。我们通过利用最近的 KISS-GP 方法（Wilson 和 Nickisch，2015 年 ^[28]）和 Wilson 等(2015) ^[30] 的扩展来有效地表示核函数，以生成可扩展的深度核。

3 高斯过程

我们简要回顾了高斯过程 (GP) 的预测方程和边缘似然，以及相关的计算要求，采用 Wilson 等 (2015) ^[30] 的符号约定。读者可以参阅 Rasmussen 和 Williams (2006) ^[21] 中对高斯过程的全面讨论。

我们假设一个包含 $n$ 个元素的数据集 $\mathcal{D}$ ，其中输入（预测变量）是 $D$ 维向量，数据集中所有输入的集合表示为 $X = \{\mathbf{x}_1,\ldots,\mathbf{x}_n\}$ ，该集合索引了一个 $n \times 1$ 的目标向量 $\mathbf{y} =(y(\mathbf{x}_1),\ldots , y(\mathbf{x}_n))^{\top}$ 。

如果底层真实过程 $f(\mathbf{x}) \sim \mathcal{GP}(μ, k_{\boldsymbol{\gamma}})$ ，则根据高斯过程性质，函数值（被视为随机变量）的任何集合 $\mathbf{f}$ 都应当具有联合高斯分布：

\mathbf{f} = f(X) = \left[ f(\mathbf{x}_1),\ldots , f(\mathbf{x}_n) \right]^{\top} \sim \mathcal{N}(\boldsymbol{μ}, K_{X,X}) \tag{1}

式中，均值向量中的元素为 $\boldsymbol{μ}_i = μ(x_i)$ ，协方差矩阵中的元素为 $(K_{X,X})_{ij} = k_{\boldsymbol{\gamma}}(\mathbf{x}_i, \mathbf{x}_j)$ ，即两者由高斯过程的均值函数 $\mu(\mathbf{x})$ 和协方差函数（也称核） $k_{\boldsymbol{\gamma}}(\cdot,\cdot)$ 确定。其中核 $k_{\boldsymbol{γ}}$ 被 $\boldsymbol{γ}$ 参数化。

假设目标中包含加性高斯噪声，即 $y(\mathbf{x}) | f(\mathbf{x}) \sim \mathcal{N} (y(\mathbf{x}); f(\mathbf{x}), \sigma^2)$ ，则在由 $X_*$ 索引的 $n_*$ 个测试点处，高斯过程的预测分布由下式给出：

\begin{align*} \text{Distribution:} \qquad &\mathbf{f}_*|X_*,X, \mathbf{y}, \boldsymbol{\gamma}, \sigma^2 \sim \mathcal{N}(\mathbb{E} [\mathbf{f}_*], \text{cov}(\mathbf{f}_*)) \tag{2}\\ \text{Mean:} \qquad &\mathbb{E}[\mathbf{f}_*] = \boldsymbol{\mu}_{X_*} + K_{X_*,X} [K_{X,X} + \sigma^2 \mathbf{I}]^{−1} \mathbf{y} \\ \text{Covariance:} \qquad &\text{cov}(\mathbf{f}_*) = K_{X_*,X_*} − K_{X_*,X} [K_{X,X} + \sigma^2 \mathbf{I}]^{−1}K_{X,X_*} \end{align*} \tag{2}

式中， $K$ 表示协方差矩阵，例如 $K_{X_*,X}$ 指高斯过程在 $X_*$ 和 $X$ 处随机变量的 $n_* \times n$ 协方差矩阵。 $\boldsymbol{\mu}_{X_*}$ 显然是一个 $n_* \times 1$ 的均值向量，而 $K_{X,X}$ 是在训练输入 $X$ 处计算的 $n \times n$ 已知协方差矩阵。所有协方差矩阵都隐含地依赖于核的超参数 $\boldsymbol{\gamma}$ 。

具有径向基函数（ RBF ）核（也称平方指数核）的高斯过程，在对偶空间中对应于具有无限基展开的模型，这种关系具有令人振奋的理论性质：这些模型是通用逼近器，并且在任何连续函数的任意小 epsilon 带内，具有先验支持（Micchelli 等, 2006 ^[16])。事实上，高斯过程所引入的函数上的分布，其性质是由核函数控制的。例如下式的 RBF 核，

k_{RBF}(\mathbf{x, x'}) = \exp(-\frac{1}{2} \| \mathbf{x} − \mathbf{x}' \| / \ell^2) \tag{3}

该核形式编码了一种归纳偏好：在欧几里德意义上，输入空间中更靠近的函数值，具有更高相关性。输入空间中函数的复杂性由可解释的长度尺度超参数 $\ell$ 决定。较短的 $\ell$ 对应于随输入 $\mathbf{x}$ 变化更快的函数。

数据中蕴含的结构，需要通过学习可解释的核超参数来发现。目标 $\mathbf{y}$ 的边缘似然（证据），作为核超参数 $\boldsymbol{\gamma}$ 的函数（或称以核超参数 $\boldsymbol{\gamma}$ 为条件），代表了一种数据概率。也就是说，边缘似然可以为核学习提供一个原则性概率框架：

\log p(\mathbf{y}|\boldsymbol{\gamma}, X) \propto − \left[\mathbf{y}^{\top} (K_{\boldsymbol{\gamma}} + \sigma^2I)^{-1} \mathbf{y} + \log |K_{\boldsymbol{\gamma}} + \sigma^2 I| \right] \tag{4}

为了简化表示，在给定 $\boldsymbol{\gamma}$ 的情况下，我们使用 $K_{\boldsymbol{\gamma}}$ 作为 $K_{X,X}$ 的简写。请注意，式 (4) 中对数边缘似然，被分成了自动校准的模型拟合项和复杂性项（Rasmussen 和 Ghahramani，2001 ^[19] ）。关于核超参数 $\boldsymbol{\gamma}$ 优化 式 (4) 即可学得核函数。

推断的计算瓶颈在于求线性系统 $(K_{X,X} + \sigma^2 I)^{-1} \mathbf{y}$ ，核学习的计算瓶颈在于求边缘似然中的对数行列式 $\log |K_{X,X}+ \sigma^2 I|$ ，两者本质上都涉及对大型矩阵的求逆。标准求逆方法是计算 $n \times n$ 的矩阵 $K_{X,X}$ 的 Cholesky 分解，这需要 $\mathcal{O}(n^3)$ 的运算和 $\mathcal{O}(n^2)$ 的存储。在推断完成后，对每个测试点 $x_*$ 的均值预测需要 $\mathcal{O}(n)$ 的计算，方差预测需要 $\mathcal{O}(n^2)$ 的计算。

4 深度核学习

在本节中，我们将展示如何构建能够封装深层神经网络架构表达能力的核，如何学习这些核的性质以作为可扩展概率高斯过程框架的一部分。

4.1 深度核模型

具体来说，从具有超参数 $\boldsymbol{\theta}$ 的基核 $k(\mathbf{x}_i, \mathbf{x}_j | \boldsymbol{\theta})$ 开始，我们将输入（预测变量） $\mathbf{x}$ 转换为:

k(\mathbf{x}_i, \mathbf{x}_j|\boldsymbol{\theta}) \rightarrow k(g(\mathbf{x}_i, \mathbf{w}), g(\mathbf{x}_j, \mathbf{w})|\boldsymbol{\theta}, \mathbf{w}) \tag{5}

其中 $g(\mathbf{x, w})$ 是由深度神经网络架构给出的非线性映射（例如深度卷积网络)，被权重 $\mathbf{w}$ 参数化。基核 $k(\mathbf{x}_i, \mathbf{x}_j | \boldsymbol{\theta})$ 的一个常见选择为 RBF 核。

为了增加灵活性，我们建议使用 谱混合基核（spectral mixture base kernels, SM） 的核形式（Wilson 和 Adams，2013 ^[27]），即：

k_{SM}(\mathbf{x}, \mathbf{x'} | \boldsymbol{\theta}) = \sum^{Q}_{q=1} a_q \frac{|\Sigma_q|^{\frac{1}{2}}} {(2π)^{ \frac{D}{2} }} \exp \left( -\frac{1}{2} \| \Sigma^{\frac{1}{2}}_q( \mathbf{x} − \mathbf{x'}) \|^2 \right) \cos \langle \mathbf{x} − \mathbf{x'}, 2π \boldsymbol{\mu}_q \rangle \tag{6}

谱混合核的超参数 $\boldsymbol{\theta} = \{a_q, \Sigma_q, \boldsymbol{\mu}_q \}$ 分别代表 混合权重、 带宽（逆长度尺度） 和频率。该核表达形式简洁、可解释，且可以发现准周期的平稳结构，而深度学习变换 $g(\mathbf{x, w})$ 则能够捕获非平稳和分层的结构。

谱混合核可以构成所有平稳协方差函数的表达基础。

我们使用 式 (5) 右侧的深层核作为高斯过程的协方差函数，对数据 $\mathcal{D}= \{ \mathbf{x}_i,\mathbf{y}_i \}^n_{i=1}$ 进行建模。以所有的核超参数为条件，我们的模型可以被解释为： 将具有基核 $k_{\boldsymbol{\theta}}$ 的高斯过程应用于深度网络的最终隐藏层。由于具有径向基函数基核（或谱混合基核） $k_{\boldsymbol{\theta}}$ 的高斯过程等效于无限基函数表示，所以我们的神经网络模型实际上存在一个包含了无限数量隐单元的隐藏层。整体模型如 图 1 所示。

图 1：深度核学习。具有深度核的高斯过程通过 $L$ 个隐藏层对 $D$ 维输入 $x$ 进行映射，然后连接一个由基核超参数 $θ$ 控制的、具有无限数量基函数的隐藏层。总体来说，具有深度核的高斯过程会产生一个概率性映射，该映射具有由 $\boldsymbol{γ} = \{ \mathbf{w}, \boldsymbol{\theta} \}$ 参数化的、无限数量的自适应基函数。所有参数 $\boldsymbol{γ}$ 都可以通过高斯过程的边缘似然来学习。

我们通过最大化高斯过程的对数边缘似然 $\mathcal{L}$ （见式（4））来学习所有的深度核超参数 $\boldsymbol{\gamma} = \{\mathbf{w}, \boldsymbol{\theta}\}$ ，这其中既包括神经网络权重 $\mathbf{w}$ ，也包括基核的超参数 $\boldsymbol{\theta}$ 。实际上，将我们的模型划分为基核和深层架构是为了讲解清晰。在实际应用一个高斯过程时，可以将整个深度核（以独立单元运行）作为自动相关性判决核（ARD）或 Matern 核的直接替代品（Rasmussen 和 Williams，2006 ^[21]），因为学习和推断遵循相同的程序。

4.2 深度核学习

对于核学习，我们使用链式法则计算对数边缘似然关于深度核超参数的导数：

\begin{align*} \frac{\partial \mathcal{L} }{\partial \boldsymbol{\theta}} &= \frac{\partial \mathcal{L} }{\partial K_{\boldsymbol{\gamma}}} \frac{\partial K_{\boldsymbol{\gamma}}}{ \partial \boldsymbol{\theta}} \\ \frac{\partial \mathcal{L} }{\partial \mathbf{w}} &= \frac{\partial \mathcal{L} }{\partial K_{\boldsymbol{\gamma}}} \frac{\partial K_{\boldsymbol{\gamma}}}{\partial g(\mathbf{x, w})} \frac{ \partial g(\mathbf{x, w}) }{\partial \mathbf{w}} \end{align*}

关于我们的 $n \times n$ 数据协方差矩阵 $K_{\boldsymbol{\gamma}}$ 的对数边缘似然的隐式导数由下式给出

\partial \mathcal{L} \partial K_{\boldsymbol{\gamma}} =\frac{1}{2} (K^{-1}_{\boldsymbol{\gamma}} \mathbf{yy}^{\top} K^{-1}_{\boldsymbol{\gamma}} − K^{-1}_{\boldsymbol{\gamma}}) \tag{7}

我们已经将噪声协方差 $\sigma^2I$ 吸收到我们的协方差矩阵中，并将其视为基核超参数 $\boldsymbol{\theta}$ 的一部分。 $\partial K_{\boldsymbol{\gamma}} \partial \boldsymbol{\theta}$ 是深度核相对于基核超参数（例如长度尺度）的导数，以输入 $g(\mathbf{x, w})$ 的固定变换为条件。类似地， $\partial K_{\boldsymbol{\gamma}} \partial g(\mathbf{x,w})$ 是深度核关于 $g$ 的隐式导数，保持 $\boldsymbol{\theta}$ 固定。使用标准反向传播计算关于权重变量 $\partial g(\mathbf{x,w}) \partial \mathbf{w}$ 的导数。

为了可扩展性，我们将 $K_{\boldsymbol{\gamma}}$ 的所有实例替换为 KISS-GP 协方差矩阵（Wilson 和 Nickisch，2015 年 ^[28]；Wilson 等，2015 年 ^[30]）

K_{\boldsymbol{\gamma}} \approx M K^{deep}_{U,U} M^{\top} := K_{KISS} \tag{8}

其中 $M$ 是插值权重的稀疏矩阵，每行仅包含 $4$ 个非零条目用于局部三次插值， $K_{U,U}$ 是从我们的深层核创建的协方差矩阵，在 $m$ 个潜在归纳点上评估 $U = [\mathbf{u}_i]_{i =1,\ldots,m}$ 。我们将归纳点放置在规则的多维格子上，并利用 $K_{U,U}$ 分解为 Toeplitz 矩阵的 Kronecker 乘积以实现极快的矩阵向量乘法 (MVM)，而无需在数据输入 $X$ 或变换后的数据中使用任何网格结构输入 $g(\mathbf{x, w})$ 。因为 KISS-GP 通过创建一个允许快速计算的近似核来运行，并且独立于特定的推断和学习过程，我们可以将应用于我们的深度核的 KISS 近似视为一个独立的核， $k(\mathbf{x, z}) = \mathbf{m}_{\mathbf{x}}^{\top} K^{deep}_{U,U} \mathbf{m_z}$ ，可以结合高斯过程或其他核机器进行可扩展学习。

4.3 深度核推断

对于推断，我们使用线性共轭梯度 (LCG) 求解 $K^{-1}_{KISS} \mathbf{y}$ ，这是求解线性系统的迭代过程，仅涉及矩阵向量乘法 (MVM)。收敛到机器精度内所需的迭代次数为 $j \ll n$ ，实际上 $j$ 取决于 KISS-GP 协方差矩阵的条件，而不是训练点数 $n$ 。为了估计边缘似然中的对数行列式，我们遵循 Wilson 和 Nickisch（2015）^[28] 中描述的方法以及 Wilson 等 (2015)的扩展。

KISS-GP 训练规模为 $\mathcal{O}(n+h(m))$ （其中 $h(m)$ 通常在 $m$ 中接近线性），而传统的可扩展高斯过程方法需要 $\mathcal{O}(m^2n + m^3)$ （Quinonero-Candela 和Rasmussen, 2005)^[18] 计算和易处理性需要 $m \ll n$ ，这导致预测性能严重恶化。具有大 $m \approx n$ 的能力允许 KISS-GP 在其近似中具有近乎精确的精度（Wilson 和 Nickisch，2015 ^[28]），保留非参数表示，同时在 $n$ 和每次测试的 $\mathcal{O}(1)$ 时间中提供线性缩放点预测 (Wilson 等, 2015^[30])。我们在第 5 节的实验中凭经验证明了这种可扩展性和准确性。

5 实验

5.1 UCI 回归任务

5.2 人脸方向提取

5.3 数字幅度提取

5.4 步进函数恢复

6 讨论

我们探索了可扩展的深度核，它结合了 深度架构的结构特性 和 核方法的非参数灵活性。特别是，我们将基核的输入转换为一个深度架构，然后利用局部核插值、归纳点、结构开发代数（例如，Kronecker 和 Toeplitz 方法）来实现可扩展的核表示。我们可以将这些可扩展核与高斯过程推断和学习过程相结合，以实现 $\mathcal{O}(n)$ 的训练复杂度和 $\mathcal{O}(1)$ 的测试复杂度。我们可以使用谱混合协方差作为基核，这在表示能力方面提供了显著的额外提升。

总的来说， 本文提出的可扩展深度核可以代替标准高斯过程核，并遵循相同的推断和学习程序，但在表达能力和效率方面具有显著优势。我们在广泛的实验中展示了方法的普遍适用性和实际意义，新方法始终优于具有丰富表达核的可扩展高斯过程和独立的深度神经网络。

开发具有表达力核的学习方法存在一个主要挑战，那就是基于 “欧几里得距离” 和 “绝对距离” 的度量（它们在大多数核函数系列中都很普遍，例如 ARD 和 Matern 核）。事实上，虽然在某些情况下很直观，但不能指望欧几里德距离和绝对距离作为相似性度量具有普遍适用性，而且它们在高维空间中尤其成为问题（Aggarwal 等，2001 年 ^[1]）。现代方法努力尝试学习一个灵活的参数族，例如，通过已知核的加权组合（如 Gonen 和 Alpaydın，2011 ^[5]），但仍然从根本上局限于使用上述距离的标准概念。正如我们在 Olivetti 人脸示例中看到的那样，本文方法通过对输入空间进行具有表达力的转换，允许以更为灵活的方式学习某种函数形式的度量。

我们希望这种度量学习在高维分类问题中特别有价值，我们认为这是未来研究的一个有前途的方向。我们希望这项工作有助于将神经网络和核方法的研究结合起来，激发出许多新的模型和统一的观点，这些观点结合了这些方法的互补优势。

深度核学习的优势：
（1）可以直接使用标准高斯过程推断和学习程序，但在表达能力和效率上更优秀；
（2）可以学习一种相似性度量的函数形式，使其更具表达能力。

参考文献

[1] Aggarwal, C. C., Hinneburg, A., and Keim, D. A. (2001). On the surprising behavior of distance metrics in high dimensional space. Springer.
[2] Bengio, Y. (2009). Learning deep architectures for AI. Foundations and Trends in Machine Learning.
[3] Calandra, R., Peters, J., Rasmussen, C. E., and Deisenroth, M. P. (2014). Manifold gaussian processes for regression. arXiv preprint arXiv:1402.5876.
[4] Damianou, A. and Lawrence, N. (2013). Deep Gaussian processes. In Artificial Intelligence and Statistics.
[5] Gonen, M. and Alpaydın, E. (2011). Multiple kernel learning algorithms. Journal of Machine Learning Research, 12:2211–2268.
[6] Hinton, G. E., Deng, L., Yu, D., Dahl, G. E., rahman Mohamed, A., Jaitly, N., Senior, A., Vanhoucke, V., Nguyen, P., Sainath, T. N., and Kingsbury, B. (2012). Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. IEEE Signal Process. Mag., 29(6):82–97.
[7] Hinton, G. E., Osindero, S., and Teh, Y. W. (2006). A fast learning algorithm for deep belief nets. Neural Computation, 18(7):1527–1554.
[8] Huang, W., Zhao, D., Sun, F., Liu, H., and Chang, E. (2015). Scalable gaussian process regression using deep neural networks. In Proceedings of the 24th International Conference on Artificial Intelligence, pages 3576–3582. AAAI Press.
[9] Jia, Y., Shelhamer, E., Donahue, J., Karayev, S., Long, J., Girshick, R., Guadarrama, S., and Darrell, T. (2014). Caffe: Convolutional architecture for fast feature embedding. arXiv preprint arXiv:1408.5093.
[10] Kiros, R., Salakhutdinov, R., and Zemel, R. (2014). Unifying visual-semantic embeddings with multimodal neural language models. TACL.
[11] Krizhevsky, A., Sutskever, I., and Hinton, G. (2012). Imagenet classification with deep convolutional neural networks. In Advances in Neural Information Processing Systems.
[12] Le, Q., Sarlos, T., and Smola, A. (2013). Fastfood-computing Hilbert space expansions in loglinear time. In Proceedings of the 30th International Conference on Machine Learning, pages 244–252.
[13] LeCun, Y., Bottou, L., Bengio, Y., and Haffner, P. (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278–2324.
[14] Lloyd, J. R., Duvenaud, D., Grosse, R., Tenenbaum, J. B., and Ghahramani, Z. (2014). Automatic construction and Natural-Language description of nonparametric regression models. In Association for the Advancement of Artificial Intelligence (AAAI).
[15] MacKay, D. J. (1998). Introduction to Gaussian processes. In Bishop, C. M., editor, Neural Networks and Machine Learning, chapter 11, pages 133–165. Springer-Verlag.
[16] Micchelli, C. A., Xu, Y., and Zhang, H. (2006). Universal kernels. The Journal of Machine Learning Research, 7:2651–2667.
[17] Neal, R. (1996). Bayesian Learning for Neural Networks. Springer Verlag.
[18] Quinonero-Candela, J. and Rasmussen, C. (2005). A unifying view of sparse approximate gaussian process regression. The Journal of Machine Learning Research, 6:1939–1959.
[19] Rasmussen, C. E. and Ghahramani, Z. (2001). Occam’s razor. In Neural Information Processing Systems (NIPS).
[20] Rasmussen, C. E. and Nickisch, H. (2010). Gaussian processes for machine learning (GPML) toolbox. Journal of Machine Learning Research (JMLR), 11:3011–3015.
[21] Rasmussen, C. E. and Williams, C. K. I. (2006). Gaussian processes for Machine Learning. The MIT Press.
[22] Saatchi, Y. (2011). Scalable Inference for Structured Gaussian Process Models. PhD thesis, University of Cambridge.
[23] Salakhutdinov, R. and Hinton, G. (2008). Using deep belief nets to learn covariance kernels for Gaussian processes. Advances in Neural Information Processing Systems, 20:12491256.
[24] Snoek, J., Rippel, O., Swersky, K., Kiros, R., Satish, N., Sundaram, N., Patwary, M., Ali, M., and Adams, R. P. (2015). Scalable bayesian optimization using deep neural networks. In International Conference on Machine Learning.
[25] Socher, R., Huang, E., Pennington, J., Ng, A., and Manning, C. (2011). Dynamic pooling and unfolding recursive autoencoders for paraphrase detection. In Advances in Neural Information Processing Systems 24, pages 801–809.
[26] Wilson, A. G. (2014). Covariance kernels for fast automatic pattern discovery and extrapolation with Gaussian processes. PhD thesis, University of Cambridge. http://www.cs.cmu.edu/~andrewgw/andrewgwthesis.pdf.
[27] Wilson, A. G. and Adams, R. P. (2013). Gaussian process kernels for pattern discovery and extrapolation. International Conference on Machine Learning (ICML). 1
[28] Wilson, A. G., Dann, C., and Nickisch, H. (2015). Thoughts on massively scalable Gaussian processes. arXiv pre-print 1511.01870. http://arxiv.org/abs/1511.01870.
[29] Wilson, A. G., Knowles, D. A., and Ghahramani, Z. (2012). Gaussian process regression networks. In International Conference on Machine Learning (ICML), Edinburgh. Omnipress.
[30] Wilson, A. G. and Nickisch, H. (2015). Kernel interpolation for scalable structured Gaussian processes (KISS-GP). International Conference on Machine Learning (ICML).
[31] Xu, K., Ba, J., Kiros, R., Cho, K., Courville, A. C., Salakhutdinov, R., Zemel, R. S., and Bengio, Y. (2015). Show, attend and tell: Neural image caption generation with visual attention. ICML.
[32] Yang, Z., Moczulski, M., Denil, M., de Freitas, N., Smola, A., Song, L., and Wang, Z. (2014). Deep fried convnets. arXiv preprint arXiv:1412.7149.
[33] Yang, Z., Smola, A. J., Song, L., and Wilson, A. G. (2015). A la carte - learning fast kernels. Artificial Intelligence and Statistics.