【摘 要】 高斯过程 (GP) 是功能强大但计算量大的机器学习模型,需要为每个预测估计核协方差矩阵。在图、集合或图像等大而复杂的领域中,选择合适的核可能不容易,这为学习任务提供了额外的障碍。在过去十年中,这些挑战导致在可扩展性和表达性方面取得了重大进展,例如使用归纳点和神经网络核近似。在本文中,我们提出了归纳高斯过程网络 (IGN),这是一个同时学习特征空间和归纳点的简单框架。特别是归纳点是直接在特征空间中学习的,能够无缝表示复杂的结构域,同时也促进了可扩展的基于梯度的学习方法。我们考虑了回归和(二元)分类任务,并报告了真实世界数据集的实验结果,表明归纳高斯过程比最先进的方法有显著进步。我们还演示了如何使用归纳高斯过程来有效地使用神经网络架构对复杂域进行建模。

【原 文】 Tibo, A. and Nielsen, T.D. (2022) ‘Inducing Gaussian Process Networks’. Available at: http://arxiv.org/abs/2204.09889 (Accessed: 2 March 2023).

1 引言

高斯过程是强大且有吸引力的机器学习模型,特别是在不确定性估计对性能至关重要的情况下,例如医学诊断 [Dusenberry 等,2020 年 [5]]。

鉴于原始高斯过程在可扩展性方面受到限制,[Quinonero-Candela 和 Rasmussen,2005 [11]] 在可扩展解决方案方面取得了重大进展,提供了一个基于归纳点的早期统一框架作为训练数据的代表代理。 [Quinonero-Candela 和 Rasmussen,2005 [11]] 的框架也已扩展到变分设置 [Titsias,2009 [16]; Wilson 等, 2016b [23]],[Uhrenholt 等, 2021 [17]] 进一步为推断归纳点的数量提供了概率基础。在计算可扩展性方面,最近考虑了利用可用计算资源的方法 [Nguyen 等,2019b [10]; Wang 等,2019a [19]],[Chen 等,2020 [3]] 也提供了对相关设置中基于梯度下降的解决方案的理论基础的见解(如高斯过程的情况)。

基于归纳点的可扩展性方法有一个共同点:归纳点与训练点位于同一空间中(参见 [Snelson 和 Ghahramani,2006 年[14];Titsias,2009 年 [16];Hensman 等,2013 年 [6];Damianou 和 Lawrence,2013 年 [4])。然而,对于复杂领域(例如图形)、高维领域(例如图像)或具有不同基数的领域(例如文本或点云),学习输入空间中的归纳点可能具有挑战性 [Lee 等, 2019 [7]; Aitchison 等,2021 [1]]。

在本文中,我们建议:将归纳高斯过程网络 (IGN) 作为一种简单且可扩展的框架,用于联合学习 归纳点深度核 [Wilson 等,2016a [22]]。该框架的特点在于: 归纳点存在于特征空间中而不是输入空间中。通过定义在特征空间中的归纳点,我们能够使用简单的基核(例如 RBF 核)来表示数据分布,依靠所学特征的表现力来捕获复杂的交互。

为了学习 IGN,我们依赖于使用小批量梯度下降优化的、基于最大似然的学习目标 [Chen 等, 2020 [3]]。如实验结果所示,此设置允许该方法扩展到大型数据集。此外,通过只在特征空间中定义归纳点,我们可以无缝地使用基于梯度的技术来学习归纳点(即使输入空间是在复杂的离散/混合对象上定义的),而不会遇到在学习深度神经网络结构时会遇到的实际困难。

我们评估了该框架在几个著名数据集上的性能,与最先进的方法相比显示出显著的改进。我们使用 MNIST 数据集的二分类版本对框架进行了定性分析,并通过使用完整的 MNIST 和 CIFAR10 数据集进行更详细的定量分析来补充。最后,为了展示框架的多功能性,我们还提供了基于 IMDB 电影评论数据集的基于文本和基于图的数据集的情感分析结果。

2 归纳高斯过程网络框架

2.1 模型架构

我们首先考虑回归问题,定义在输入空间 X\mathcal{X} ,观测标签空间 R\mathbb{R} 上由高斯过程建模:

Underline Process:fGP(0,k(,))Noisy Observations:y=f(x)+ϵ,xX,yR\begin{align*} \text{Underline Process:} \quad &f \sim \mathcal{GP}(0, k(·,·))\\ \text{Noisy Observations:} \quad &y = f (x) + \epsilon, x \in \mathcal{X} , y \in \mathbb{R} \tag{1} \end{align*}

其中 k(,):X×XRk(·,·) : \mathcal{X} \times \mathcal{X} \rightarrow \mathbb{R} 表示描述先验协方差的核函数,ϵN(0,σ2)\epsilon \sim \mathcal{N}(0, \sigma^2) 是与观测值相关的噪声。假设我们能够访问一组从 式 (1) 模型生成的数据点 D={(xi,yi)}i=1n\mathcal{D} = \{(\boldsymbol{x}_i, y_i)\}^{n}_{i=1},而我们的目标是:(1)学习能够定义 kkσσ 的(超)参数;以便(2)预测在 X\mathcal{X} 中的新测试点 xx_* 处的输出。下面用 XXy\boldsymbol{y} 分别表示输入矩阵 (x1,,xn)(\boldsymbol{x}_1,\ldots , \boldsymbol{x}_n)^{\top} 和观测向量 (y1,,yn)(y_1, \ldots, y_n)^{\top}

首先,我们建议使用由 θg\boldsymbol{\theta}_g 参数化的神经网络 gθg:XRd\boldsymbol{g}_{\boldsymbol{\theta}_g} : \mathcal{X} \rightarrow \mathbb{R}^d 来生成输入点的 dd 维嵌入。

其次,为了对核函数 kk 进行建模,我们在特征空间中引入 mm 个归纳点 Z=(z1,,zm),ziRdZ = (\boldsymbol{z_1, \ldots , z_m})^{\top}, \boldsymbol{z}_i \in \mathbb{R}^d,同时引入一个被 θr\boldsymbol{\theta}_r 参数化的(线性)伪标签函数 rθr:RdRr_{\boldsymbol{\theta}_r} : \mathbb{R}^d \rightarrow \mathbb{R} 。我们使用向量 r=(rθr(z1),,rθr(zm))\boldsymbol{r} = (r_{\boldsymbol{\theta}_r} (\boldsymbol{z}_1), \ldots , r_{\boldsymbol{\theta}_r}(\boldsymbol{z}_m))^{\top} 来表示在 ZZ 上的 rr 计算结果,向量 r\boldsymbol{r} 将起到类似于传统方法中引导变量的作用 [Quinonero-Candela 和 Rasmussen ,2005 [11]]。

在本文其余部分,我们有时会从 θg\boldsymbol{\theta}_gθr\boldsymbol{\theta}_r 中删除参数下标 g\boldsymbol{g}r\boldsymbol{r} 以便于表示。模型的图示以及训练数据和归纳点之间的关系如 图 1 所示。

Fig01

图 1:左侧四个原始空间中的 MNIST 数字被神经网络 g\boldsymbol{g} 转换到特征空间中。右边是转换后的特征和归纳点并存的特征空间。与归纳点 z1\boldsymbol{z}_1z2\boldsymbol{z}_2z3\boldsymbol{z}_3 相关的观测值由伪标签函数 rr 给出,而与 g(x1)\boldsymbol{g(x_1)}g(x2)\boldsymbol{g(x_2)}g(x3)\boldsymbol{g(x_3)}g(x4)\boldsymbol{g(x_4)} 相关的预测采用高斯过程后验估计。

我们最终将 k:Rd×RdRk : \mathbb{R}^d \times \mathbb{R}^d \rightarrow \mathbb{R} 定义为 Rd\mathbb{R}^d 空间中向量配对之间的核。特别地,我们用如下四个矩阵对应于观测到的输入和归纳点配对之间的协方差。

(KXX)ij=k(g(xi),g(xj))(KZX)ij=k(zi,g(xj))(KXZ)ij=k(g(xi),zj))(KZZ)ij=k(zi,zj)\begin{matrix} (K_{XX})_{ij} = k(\boldsymbol{g(x_i), g(x_j)}) &(K_{ZX})_{ij} = k(\boldsymbol{z_i, g(x_j)}) \\ (K_{XZ})_{ij} = k(\boldsymbol{g(x_i), z_j})) &(K_{ZZ})_{ij} = k(\boldsymbol{z_i, z_j}) \end{matrix}

根据高斯过程定义,已观测输入点和归纳点处的函数值服从联合高斯分布:

[yr]N(0,[KXX+σ2IKXZKZXKZZ])\begin{bmatrix} \boldsymbol{y}\\ \boldsymbol{r} \end{bmatrix} \sim \mathcal{N} \left( \mathbf{0}, \begin{bmatrix} K_{XX} + \sigma^2 I &K_{XZ} \\ K_{ZX} &K_{ZZ} \end{bmatrix} \right)

2.2 参数学习

对于给定数据集 D\mathcal{D},我们的目标是通过优化下式的边缘似然,来联合学习(超)参数 θ={Z,θg,θr,σϵ}\boldsymbol{\theta} = \{Z, \boldsymbol{\theta}_g, \boldsymbol{\theta}_r, σ_\epsilon \}

Marginal Likelihood: p(yX,θ)=N(y^,KXZ)(2)\text{Marginal Likelihood: } \qquad p(\boldsymbol{y}|X, \boldsymbol{\theta}) = \mathcal{N}(\hat{\boldsymbol{y}}, K_{X|Z} ) \tag{2}

其中 y^\hat{\boldsymbol{y}} 是预测均值。

y^=KXZKZZ1rθr(3)\hat{\boldsymbol{y}} = K_{XZ} K^{-1}_{ZZ} \boldsymbol{r}_{\boldsymbol{\theta}_r} \tag{3}

KXZK_{X|Z} 是给定归纳点的后验核,即

KXZ=(KXX+σϵ2I)KXZKZZ1KZX(4)K_{X|Z} = (K_{XX} + \sigma^2_\epsilon I) − K_{XZ} K^{-1}_{ZZ} K_{ZX} \tag{4}

这里要注意的是,KXZK_{X|Z} 实际上通过嵌入函数 gθg\boldsymbol{g}_{\boldsymbol{\theta}_g}θg\boldsymbol{\theta}_g 隐式参数化了。

与 [Chen 等, 2020 [3]] 一样,我们根据 式 2 的负对数边缘似然来定义目标函数:

(θ;D)=12(yy^)KXZ1(yy^)12logKXZn2log(2π)(5)\ell(\boldsymbol{\theta}; \mathcal{D}) = − \frac{1}{2} (\boldsymbol{y − \hat{y}})^{\top} K^{-1}_{X|Z} (\boldsymbol{y − \hat{y}}) − \frac{1}{2} \log |K_{X|Z} | − \frac{n}{2} \log(2π) \tag{5}

我们可以使用小批量梯度下降和适当的梯度缩放因子 [Chen 等, 2020 [3]],关于参数 θ\boldsymbol{\theta} 最小化该目标函数。 (θ;D)\ell(\boldsymbol{\theta}; \mathcal{D}) 关于 θ\boldsymbol{\theta} 的梯度可表示为:

θ(θ;D)=KXZ1(yy^)[θy^]12tr(KXZ1[θKXZ])+KXZT(yy^)(yy^)KXZT[θKXZ1](6)\nabla_{\boldsymbol{\theta}} \ell(\boldsymbol{\theta}; \mathcal{D}) = K^{-1}_{X|Z}(\boldsymbol{y − \hat{y}}) \left[\nabla_{\boldsymbol{\theta}} \hat{\boldsymbol{y}}\right] − \frac{1}{2} \operatorname{tr}(K^{-1}_{X|Z} \left[\nabla_{\boldsymbol{\theta}} K_{X|Z} \right] ) + K^{−T}_{X|Z} (\boldsymbol{y − \hat{y}})(\boldsymbol{y − \hat{y}})^{\top} K^{−T}_{X|Z} \left[\nabla_{\boldsymbol{\theta}} K^{-1}_{X|Z} \right] \tag{6}

其中 tr(A)\operatorname{tr}(A) 表示矩阵 AA 的迹。请注意,在 式 6 中,y^\hat{\boldsymbol{y}}KXZK_{X|Z} 都是 θ\boldsymbol{\theta} 的函数,方括号内的符号整体表示一个梯度。

根据微分链式法则,我们看到 式 6 关于归纳点 ZZ 的梯度并不依赖于 gθg\nabla_{\boldsymbol{g}_{\boldsymbol{\theta}_g}},也就是说 gθg\boldsymbol{g}_{\boldsymbol{\theta}_g} 的梯度并不影响对 ZZ 的更新。

【命题 1 】 梯度 Z(θ;D)\nabla_Z \ell(\boldsymbol{\theta}; \mathcal{D}) 不依赖于 gθg\nabla_{\boldsymbol{g}_{\boldsymbol{\theta}_g}}

这是归纳高斯过程的一个关键优势: 归纳点的学习不会受复杂的嵌入函数 g\boldsymbol{g} 及其优化难度影响。另外还有一个优势在于:由于归纳点(仅)存在于特征空间 Rd\mathbb{R}^d 中,所以归纳点的底层学习框架与输入空间 X\mathcal{X} 的结构、类型定义(离散的或连续的)均无关。

2.3 高斯过程预测

一旦学得了归纳高斯过程的参数 θ={Z,θg,θr,σϵ}\boldsymbol{\theta} = \{Z, \boldsymbol{\theta}_g, \boldsymbol{\theta}_r, σ_\epsilon \},我们可以得到域内任意输入点 XX_* 和归纳点 ZZ 的预测分布,首先考虑相关函数值的联合分布:

[rf]N(0,[KZZKZXKXZKXX])\begin{bmatrix} \boldsymbol{r}\\ \boldsymbol{f}_* \end{bmatrix} \sim \mathcal{N} \left(\mathbf{0}, \begin{bmatrix} K_{ZZ} &K_{Z X_*} \\ K_{X_* Z} &K_{X_* X_*} \end{bmatrix}\right)

进而给出预测分布:

p(fX,θ)=N(f^,KXZ)(7)p(\boldsymbol{f}_*|X_*, \boldsymbol{\theta}) = \mathcal{N}\left(\hat{\boldsymbol{f}}_*, K_{X_*|Z} \right) \tag{7}

其中

f^=KXZKZZ1r\hat{\boldsymbol{f}}_* = K_{X_*Z} K^{-1}_{ZZ} \boldsymbol{r}

KXZ=KXXKXZKZZ1KZXK_{X_*|Z} = K_{X_*X_*} − K_{X_*Z} K^{-1}_{ZZ} K_{ZX_*}

2.4 面向分类任务的调整

在本节中,我们将高斯过程网络扩展到分类任务。为了便于说明,我们只考虑二分类问题,但方法可以直接扩展到多分类场景。对于实验结果,我们使用了一种 one-vs-all 的方法来解决多分类问题(参见第 4.3 节)。

(1)模型架构

假设二值的标签空间由 Y={0,1}\mathcal{Y} = \{0, 1\} 给出,并且我们有数据集 D={(xi,yi)}i=1n\mathcal{D} = \{(\boldsymbol{x}_i, y_i)\}^{n}_{i=1},其中底层数据生成过程由带高斯过程先验的隐函数 f(x)f (x) 定义:

fGP(0,k(,))f\sim \mathcal{GP}(0, k(·,·))

yxΦ(f(x))y|\boldsymbol{x} \sim \Phi(f(\boldsymbol{x})),其中 Φ()\Phi(·) 是累积高斯函数;参见 [Rasmussen 和 Williams,2006 年]。

(2)预测

为了推断,我们计算由下式给出的后验分布 p(yX,θ)p(\boldsymbol{y}|X_*, \boldsymbol{\theta})

p(yX,θ)=p(yf)p(fX,θ)dfp(\boldsymbol{y}|X_*, \boldsymbol{\theta}) = \int p(y|\boldsymbol{f}_*) p(\boldsymbol{f}_*|X_*, \boldsymbol{\theta}) d \boldsymbol{f}_*

假设 fN(μ,σ2)\boldsymbol{f}_* \sim \mathcal{N}(μ, \sigma^2) ,则可以得到 [Rasmussen 和 Williams, 2006, Section 3.9 [12]]:

p(yx,θ)=Φ(α), 其中 α=μ1+σ2p(y_*|\boldsymbol{x}_*, \boldsymbol{\theta}) = \Phi(α), \text{ 其中 } α = \frac{μ}{\sqrt{1 + \sigma^2}}

其中 μμσ2\sigma^2 可以从 式 7 中的预测分布给出。

(3)参数学习

为了学习归纳高斯过程参数 θ\boldsymbol{\theta},我们可以执行最大似然估计:

(θ;D)=logp(yX,θ)=logp(yf)p(fX,θ)df\ell(\boldsymbol{\theta}; \mathcal{D}) = \log p(\boldsymbol{y}|X, \boldsymbol{\theta}) = \log \int p(\boldsymbol{y}|\boldsymbol{f}) p( \boldsymbol{f} |X, \boldsymbol{\theta})d \boldsymbol{f}

为了计算积分,我们考虑采用中心周围区域的拉普拉斯近似:

f^=argmaxflogp(yf)+logp(fX,θ)\hat{\boldsymbol{f}} = \arg \max_{\boldsymbol{f}} \log p(\boldsymbol{y|f}) + \log p(\boldsymbol{f} |X, \boldsymbol{\theta})

采用牛顿法可以生成对数似然的近似:

(θ;D)logp(yf^)+logp(f^X,θ)12log(A)+c\ell(\boldsymbol{\theta}; \mathcal{D}) \approx \log p(\boldsymbol{y}|\hat{\boldsymbol{f}}) + \log p(\hat{\boldsymbol{f}}|X, \boldsymbol{\theta}) − \frac{1}{2} \log(|A|) + c

其中 cc 表示累积常数项,并且

A=(logp(yf)+logp(fX,θ))f=f^A = −\nabla \nabla (\log p(\boldsymbol{y|f}) + \log p(\boldsymbol{f} |X, \boldsymbol{\theta}))_{|\boldsymbol{f= \hat{f}}}

p(f^X,θ)p(\boldsymbol{\hat{f}} |X, \boldsymbol{\theta}) 的形式在 式 2 中给出,(logp(yf^)\nabla \nabla (\log p(\boldsymbol{ y| \hat{f}} ) 可以在例如 [Rasmussen 和 Williams, 2006] 中找到。

现在可以通过交替小批量梯度下降和牛顿近似来优化此对数似然近似。至于回归,我们这里还有(拉普拉斯近似)(θ;D)\ell(\boldsymbol{\theta}; \mathcal{D}) 的梯度。归纳点 ZZ 并不依赖于嵌入函数 g\boldsymbol{g}θg\nabla \boldsymbol{\theta}_g。因此,在学习归纳点时,用于分类的归纳高斯过程与用于回归的归纳高斯过程具有相同特性。其他详细信息可以在补充材料中找到。

2.5 计算复杂度

与归纳高斯过程框架的计算复杂性相关的主要方面涉及核计算。

如果 nzn_z 是归纳点的数量,bb 是小批量大小(回想一下我们使用小批量梯度下降进行训练),那么计算核的复杂度会随归纳点数量 nzn_z 线性增长,即 O(nzb)\mathcal{O}(n_z \cdot b)。显然,归纳点数量的选择对计算复杂度有很大影响。

训练过程中还包括矩阵求逆运算。不过,由于归纳高斯过程可以在 GPU 上运行,因此可以有效地计算矩阵求逆 [Sharma 等, 2013 [13]]

3 相关研究工作

(1)深度核学习

核和神经网络的结合之前已经被探索过,最引人注目的是深度核学习 [Wilson 等, 2016a[22]]。[Wilson 等, 2016a [22]] 使用深度神经网络架构,将输入向量映射到应用了基核的特征空间(原文中使用了 RBF 核和谱混合基核 [Wilson and Adams, 2013 [21]] )。核参数和神经网络权重通过最大化高斯过程的边缘似然联合学习。不过,该方法依赖于底层深度神经网络架构的预训练。此外,该工作随后被扩展到变分推断 [Wilson 等, 2016b [23]],并为多分类任务提供了支持。

我们的方法与深度核学习之间的一个主要区别在于对归纳点的选择。在深度核学习中,归纳点被放置在一个规则的多维网格上,基于该网格计算深层核。而在归纳高斯过程中,归纳点(仅)在特征空间中定义,并且被视为一种参数,与神经网络权重和(任何)核参数一起进行学习。

此外,如第 4 节所示,我们的学习方法是端到端的,并不像深度核学习那样依赖于神经网络的预训练。

最后,归纳高斯过程采用小批量梯度下降 [Chen 等, 2020 [3]],避免了深度核学习的 GP-KISS 核近似。

(2)其他使用归纳点的方法

其他几项相关工作也利用了归纳点。

  • 学习输入空间中归纳点的方法:例如,[Titsias,2009 年 [16];Hensman 等,2013 年[6]; Damianou 和 Lawrence,2013 [4]] 建议最大化精确边缘似然的下限以学习输入空间中的归纳点,这与归纳高斯过程框架中归纳点是在特征空间中定义的形成对比。

  • 与核参数联合学习的方法:与归纳高斯过程密切相关的是 [Snelson and Ghahramani, 2006 [14]],其中归纳点是使用梯度下降与核参数联合学习的。与归纳高斯过程相比,[Snelson 和 Ghahramani,2006 [14]] 提出的 ZZ 的连续优化要简单得多,因为归纳点是在输入空间中学习的。

  • 学习特征空间中的归纳点:与本文框架类似,[Aitchison 等, 2021 [1]] 利用归纳 Gram 矩阵。 Gram 矩阵用于对特征空间中的归纳点进行采样,后续的高斯过程预测在特征空间中的归纳点上进行条件采样。与归纳高斯过程相比,这个过程依赖于双随机变分推断过程。

上述论文都是在方法论上与归纳高斯过程框架相关的代表性高斯过程方法。但并非所有被引用的方法在精度结果等方面都符合最新技术水平,因此下面的实验部分还包括对其他高斯过程方法的描述和比较,这构成了实证评估的基础和分析。

4 实验

暂略

Fig2

图 2:Toy-MNIST 实验的 6464 个诱导点对应的 6464 个伪图像

表 1:基准数据集上不同 GP 的均方根误差 (RMSE) 比较。我们报告了 RMSE 的均值和标准误差。最好的结果以粗体显示(越低越好)。对于查询和钻孔数据集,由于内存限制,EGP 无法拟合。

Table1

Fig3

图 3:ToyMNIST 数据集的均值(xx 轴)与方差(yy 轴)图。橙色和蓝色点分别对应标有 6655 的图像。与低方差和高均值(绝对值)相关的图像对应于清晰的数字。另一方面,具有高方差且均值接近决策边界(即 0.50.5)的图像对应于模糊数字。

表 2:MNSIT 和 CIFAR10 的测试集精度比较,用于 IGN 方法与 DGP、NNGP 和 DIWP。

Table2

5 归纳点数消融

我们还研究了归纳点数量对回归和分类任务的影响。

高斯过程估计的方差会随着训练点数量的增加而减少 [Rasmussen and Williams, 2006 [12]]。在我们的例子中,训练点被归纳点取代,但得到了相似的结果。为了完整起见,我们重新表述了命题,并在补充材料中提供了证明。

【命题 2】 给定一组归纳点 ZZ 的测试点 (x,f)(x_*, f_*) 的方差永远不会因包含额外的归纳点 zZz \notin Z 而增加。

当使用不同数量的归纳点训练归纳高斯过程时,无法保证在训练期间学习到相同的归纳子集。但当归纳点的数量增加时,我们仍然观测到方差的持续下降。

对于回归任务,我们在第 4.1 节中描述了所有真实数据集的结果。对于分类任务,我们聚焦在第 4.4 节中描述的 IMDB-TEXT。在所有情况下,我们重复实验 1010 次,每次按照 (4,8,16,32,64,128,256)(4,8,16,32,64,128,256) 改变归纳点的数量。图 4 描述了不同数据集的平均方差和误差线。从图中我们看到, 对于所有数据集,平均方差随着归纳点的数量增加而不断减少。对于一些仅有几个归纳点的数据集,误差线较低。此时,由于归纳点数量有限,模型总是难以学习,模型的输出是恒定的。

Fig4

图 4:对 PROTEIN、PM2.5、ENERGY、BIKE-HOUR、QUERY 和 IMBD-TEXT 的 1010 次运行估计的平均方差。对于具有归纳点数量的所有数据集,平均方差不断减小。

6 结论和未来工作

虽然高斯过程是可以估计不确定性的强大机器学习方法,但其在大型数据集上仍然难以处理。一些工作已经使用归纳点解决了这个问题,但据我们所知,这些方法仍然局限于相对简单的数据集。在本文中,我们通过将特征空间中的归纳点与神经网络核近似相结合,引入了一个学习大型复杂数据集高斯过程的框架。我们实证展示了新方法在标准机器学习基准以及结构化(图形和文本)数据集上的能力,所提出的方法优于其他最先进的方法。

归纳高斯过程框架的灵活性使高斯过程训练与复杂的深度学习架构相结合。我们相信该方法为进一步研究深度神经网络模型中不确定性估计的校准提供了基础。此外,作为未来工作的一部分,我们还计划研究如何在完全变分的设置中定位归纳高斯过程 [Titsias,2009 [16]],也可能在深层核过程的背景下 [Aitchison 等, 2021 [1]] 探索模型的层次结构,。

参考文献

  • [1] Laurence Aitchison, Adam Yang, and Sebastian W Ober. Deep kernel processes. In International Conference on Machine Learning, pages 130–140. PMLR, 2021.
  • [2] Charles Blundell, Julien Cornebise, Koray Kavukcuoglu, and Daan Wierstra. Weight Uncertainty in Neural Networks. ICML 2015, May 2015. arXiv: 1505.05424.
  • [3] Hao Chen, Lili Zheng, Raed Al Kontar, and Garvesh Raskutti. Stochastic gradient descent in correlated settings: A study on gaussian processes. In NeurIPS 2020, 2020.
  • [4] Andreas Damianou and Neil D Lawrence. Deep gaussian processes. In Artificial intelligence and statistics, pages 207–215. PMLR, 2013.
  • [5] Michael W. Dusenberry, Dustin Tran, Edward Choi, Jonas Kemp, Jeremy Nixon, Ghassen Jerfel, Katherine Heller, and Andrew M. Dai. Analyzing the role of model uncertainty for electronic health records. In Proc. of the ACM Conference on Health, Inference, and Learning, CHIL ’20, New York, NY, USA, 2020.
  • [6] James Hensman, Nicol` o Fusi, and Neil D Lawrence. Gaussian processes for big data. In Proceedings of the Twenty-Ninth Conference on Uncertainty in Artificial Intelligence, pages 282–290, 2013.
  • [7] Juho Lee, Yoonho Lee, Jungtaek Kim, Adam Kosiorek, Seungjin Choi, and Yee Whye Teh. Set transformer: A framework for attention-based permutation-invariant neural networks. In ICML, pages 3744–3753. PMLR, 2019.
  • [8] Andrew Maas, Raymond E Daly, Peter T Pham, Dan Huang, Andrew Y Ng, and Christopher Potts. Learning word vectors for sentiment analysis. In proc. of the 49th annual meeting of the association for computational linguistics: Human language technologies, pages 142–150, 2011.
  • [9] Dai Quoc Nguyen, Tu Dinh Nguyen, and Dinh Phung. Universal graph transformer selfattention networks. arXiv preprint arXiv:1909.11855, 2019.
  • [10] Duc-Trung Nguyen, Maurizio Filippone, and Pietro Michiardi. Exact gaussian process regression with distributed computations. In Proc. of the 34th ACM/SIGAPP Symposium on Applied Computing, SAC ’19, page 1286–1295, 2019.
  • [11] Joaquin Quinonero-Candela and Carl Edward Rasmussen. A unifying view of sparse approximate gaussian process regression. Journal of Machine Learning Research, 6(65):1939–1959, 2005.
  • [12] Carl Edward Rasmussen and Christopher K. I. Williams. Gaussian processes for machine learning. Adaptive computation and machine learning. MIT Press, 2006.
  • [13] Girish Sharma, Abhishek Agarwala, and Baidurya Bhattacharya. A fast parallel gauss jordan algorithm for matrix inversion using cuda. Computers & Structures, 128:31–37, 2013.
  • [14] Edward Snelson and Zoubin Ghahramani. Sparse gaussian processes using pseudo-inputs. Advances in neural information processing systems, 18:1257, 2006.
  • [15] Alessandro Tibo, Manfred Jaeger, and Paolo Frasconi. Learning and interpreting multi-multiinstance learning networks. J. Mach. Learn. Res., 21:1931, 2020.
  • [16] Michalis Titsias. Variational Learning of Inducing Variables in Sparse Gaussian Processes. In proc. of the Twelth International Conference on Artificial Intelligence and Statistics, pages 567–574. PMLR, April 2009. ISSN: 1938-7228.
  • [17] Anders Kirk Uhrenholt, Valentin Charvet, and Bjørn Sand Jensen. Probabilistic selection of inducing points in sparse gaussian processes. arXiv:2010.09370 [cs, stat], Jul 2021. arXiv: 2010.09370.
  • [18] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NIPS, pages 5998–6008, 2017.
  • [19] Ke Wang, Geoff Pleiss, Jacob Gardner, Stephen Tyree, Kilian Q. Weinberger, and Andrew Gordon Wilson. Exact gaussian processes on a million data points. Advances in Neural Information Processing Systems, 32:14648–14659, 2019.
  • [20] Ke Wang, Geoff Pleiss, Jacob Gardner, Stephen Tyree, Kilian Q Weinberger, and Andrew Gordon Wilson. Exact gaussian processes on a million data points. Advances in Neural Information Processing Systems, 32:14648–14659, 2019.
  • [21] Andrew Wilson and Ryan Adams. Gaussian process kernels for pattern discovery and extrapolation. In proc. of the 30th ICML, page 1067–1075. PMLR, May 2013.
  • [22] Andrew Gordon Wilson, Zhiting Hu, Ruslan Salakhutdinov, and Eric P. Xing. Deep kernel learning. In proc. of the 19th International Conference on Artificial Intelligence and Statistics, page 370–378. PMLR, May 2016.
  • [23] Andrew Gordon Wilson, Zhiting Hu, Ruslan Salakhutdinov, and Eric P. Xing. Stochastic Variational Deep Kernel Learning. In proc. of the 29th conference on Neural information Processing (NIPS), 2016.
  • [24] Pinar Yanardag and SVN Vishwanathan. Deep graph kernels. In proc. of the 21th ACM SIGKDD international conference on knowledge discovery and data mining, pages 1365–1374, 2015.