🔥 稀疏高斯过程及其变分推断

〖摘要〗高斯过程（Gaussian Processes,高斯过程）为贝叶斯推断提供了一个数学上优雅的框架，可以为大量问题提供原则性的不确定性估计。例如，对于某些具有高斯似然的回归问题，高斯过程模型具有封闭形式的后验。然而，后验高斯过程（高斯过程的后验依然是一个高斯过程分布，此处将之简称为后验高斯过程）的计算复杂度与训练样本数量成立方关系，并且所有训练样本均需要在内存中存储。为克服这些问题，已经提出了使用伪训练样本（也称为或）来获取近似后验高斯过程的方法 – 稀疏高斯过程（Sparse Gaussian Processes）。用户可以自己定义伪训练样本的数量，进而控制计算和内存复杂度。在一般情况下，稀疏高斯过程无法得到封闭解，必须求助于近似推断。在此情况下，变分推断是近似推断的一种选择。变分方法将贝叶斯推断问题转化为优化问题，通过最大化对数边缘似然下界（ $\mathbb{ELBO}$ ）的方法，得到近似的后验分布。变分推断为构建强大且多功能的框架铺平了道路，在其训练过程中，伪训练样本与（先验和似然的）超参数一起，被视为待优化的参数。该框架可以扩展到更为广泛的监督学习问题，如：具有异方差和非高斯似然的回归问题、具有离散型标签的分类问题、多输出问题等。本教程的目的是让读者在没有高斯过程和变分推断的知识背景的情况下了解基本内容。事实表明，对本主题的适当扩展还可以领略到高斯过程领域的最新进展（如：重要性加权变分推断、跨域高斯过程、多输出高斯过程、深度高斯过程等），并成为探索新研究思路的灵感。

〖原文〗 Leibfried, F. et al. (2022) ‘A Tutorial on Sparse Gaussian Processes and Variational Inference’. arXiv. Available at: http://arxiv.org/abs/2012.13962 (Accessed: 14 December 2022).

1 概述

高斯过程 (Gaussian Processes，高斯过程） ^[76] 是一种扩展多元高斯分布的自然方法。多元高斯分布描述的对象是一组随机变量构成的向量，而高斯过程描述的对象是在某个输入域上定义的实值函数。假设输入域是实数，那么高斯过程描述的对象可以被认为是一个具有不可数无限范围和无限分辨率的“向量”，由实数而不是离散整数做随机变量的“索引”（典型如时空坐标）。不过，高斯过程实际上允许更广泛的输入域（例如：任何欧几里得向量空间），也允许非连续输入域，例如包含图论中的对象集合、字符序列等。

高斯过程是一种流行的回归工具，其目标是在给定某些输入位置的含噪函数观测值的条件下，识别未知的实值函数。更准确地说，给定 $N$ 个输入-输出元组 $\{(X_n,y_n) \}， n \in \{1 .. N \}$ ，其中 $y_n$ 为标量， $X_n$ 是取自某个域的输入，模型假设是：数据都是由 $y_n=\mathbf{f}(X_n) + ε_n$ 生成的。其中 $\mathbf{f}(\cdot)$ 是以 $X_n$ 为输入的实值函数，从某个高斯过程中采样获得； $ε$ 是对应于观测噪声的独立同分布随机变量。在这种情况下，有关数据生成过程的先验知识可以封装在函数 $\mathbf{f}(\cdot)$ 的概率分布中，而似然 $p(y_n|\mathbf{f}(X_n))$ （即数据模型或观测模型）表示在无噪声观测 $\mathbf{f}(X_n)$ 的条件下，出现含噪函数观测值 $y$ 的可能性。根据共轭先验原理，如果观测噪声是高斯的，则后验过程也是一个具有封闭表达式的高斯过程。因此，为了计算后验过程，必须在给定 输入/输出元组和 似然后，进一步推导贝叶斯规则以获得函数后验分布的封闭表达式。此外事实证明，贝叶斯规则中的分母（即边缘似然或证据）提供了一种可以在不受推断方法约束的情况下识别生成式模型中超参数点估计的方法 ^[7] 。

但在很多回归或分类问题中，后验有时不再是确切的高斯过程。例如，在逻辑回归模型中，含噪函数的观测为二值变量 $y_n∈\{0,1\}$ ，其似然是伯努利分布，其均值由 sigmoid 函数 $σ(\mathbf{f}(X_n))$ 对 $X_n$ 处的输出的实值函数 $\mathbf{f}(X_n)$ 压缩后获得。这为每个 $X_n$ 生成了一个 $[0,1]$ 之间的概率值，用于表达含噪函数观测值 $y_n = 1$ 的概率。

事实表明，即使面对具有高斯似然的回归问题，高斯过程也存在比较显著的计算和存储复杂度问题。计算精确的后验高斯过程需要存储一个 $(N×N)$ 矩阵并对其求逆，意味着 $\mathcal{O}(N^2)$ 存储复杂度和 $\mathcal{O}(N^3)$ 的计算复杂度，使得其很难适用于大型数据集。

好在上述问题通过高斯过程研究领域的最新进展得到了较好解决，那就是稀疏高斯过程（Sparse Gaussian Processes） ^[92] 。

概念区别：根据稀疏高斯过程的定义可知，其对应于时空大数据处理方法中的降秩类方法。稀疏高斯过程与时空大数据领域文献中的稀疏协方差矩阵或稀疏精度矩阵方法虽然名字相似，但在方法本质上有明显不同。稀疏高斯过程通过减少协方差维度实现计算提速，而稀疏协方差矩阵或稀疏精度矩阵则是通过在协方差矩阵或精度矩阵中生成大量的 $0$ ，使计算提速。

稀疏高斯过程通过限制伪数据的数量（Amount of Pseudo Data），来控制计算后验（可能是非高斯的）的存储和计算复杂度，而该数量限制可以由用户自己定义。直观地理解，在具有封闭形式解的回归问题中，最优的稀疏高斯过程应该 “尽可能接近” 复杂的真实后验高斯过程。例如，可以定义稀疏高斯过程和真实高斯过程之间的 $KL$ 散度，然后找到使 $KL$ 散度最小的伪数据。但大部分场景无法获得该稀疏高斯过程的封闭解，因此人们转而寻求近似解。变分推断就是一种采用优化和基于梯度的近似解法，它等效于最小化上述的 $KL$ 散度。其他近似推断方法还包括马尔可夫链蒙特卡罗（ MCMC ）方法、期望传播法（ EP ） ^[37] ^[12] 等。鉴于变分推断方法的流行性和便利性，本教程重点放在该主题上。

变分推断是一种特殊类型的近似推断方法，它将贝叶斯推断问题转化为求近似后验参数最优解的问题，而其优化目标正是前述『边缘似然』的对数下界（被成为『对数边缘似然』）。除了获得近似后验的参数之外，变分推断还可以方便地用于优化超参数（通常被视为人为给定的值，而不是随机变量）。

变分推断不仅提供了一种（在似然为高斯时）通过稀疏高斯过程得到近似后验的原则性方法，而且还为 具有『任意似然』和『非高斯过程后验』 的问题提供了解决框架，如前面提到的逻辑回归问题。事实证明，该框架可以很容易地扩展到多模似然问题（意指似然为混合模型）、多输出回归问题和多分类问题，此类问题需要识别输出为含噪声的向量值类型的函数。

本文剩余部分组织如下：

第 2 节提供了稀疏高斯过程和进展的概述，有些进展可以实现进一步的计算增益，而且超出了近似推断的范围。
第 3 节给出了变分推断的背景知识，其中主要采用了 权重空间模型（例如深度神经网络）来概括说明。
第 4 节结合前两节阐明了如何对浅层稀疏高斯过程（即 函数空间模型）做变分推断，并为从业者提供了一些技巧。
第 5 节将讨论如何对深度稀疏高斯过程做变分推断。
第 6 节将对前两节的变分推断做一些案例和比较。
第 7 节讨论一些关于稀疏高斯过程和变分推断的深入主题。

2 稀疏高斯过程

可以非正式地将高斯过程想象为由『连续的输入域』而不是『索引集合』索引的无限维多元高斯，高斯过程的精确和近似推断技术在概念上可以使用与多元高斯分布等效的条件和边缘计算。因此，我们在第 2.1 节中概述了多元高斯分布中最重要的条件运算，并在第 2.2 节中介绍了其高斯过程的对应内容。事实证明，这些条件运算提供了一种自然方式来表达稀疏高斯过程并易于推广到跨域高斯过程（第 2.3 节）、多输出高斯过程（第 2.4 节）和深度高斯过程（第 2.5 节）。

2.1 多元高斯分布的特性

本节介绍的特性比较基础，可能让人觉得有点脱离重点，但对理解第 2.2 节和后续部分中的稀疏高斯过程至关重要。

（1）多元高斯分布的条件概率

设想一个多元高斯分布 $\mathcal{N}$ ，其随机变量被划分为两个部分，分别用向量 $\mathbf{f}$ 和 $\mathbf{u}$ 来表示。则该多元高斯分布表现为 $\mathbf{f}$ 和 $\mathbf{u}$ 的联合分布，形式如下：

\left(\begin{array}{l}\tag{1} \mathbf{f} \\ \mathbf{u} \end{array}\right) \sim \mathcal{N}\left(\left(\begin{array}{c} \boldsymbol{\mu}_{\mathbf{f}} \\ \boldsymbol{\mu}_{\mathbf{u}} \end{array}\right),\left(\begin{array}{cc} {\boldsymbol{\Sigma}_{\mathbf{ff}}} & {\boldsymbol{\Sigma}}_{\mathbf{fu}} \\ \boldsymbol{\Sigma}_{\mathbf{uf}} & \boldsymbol{\Sigma}_{\mathbf{uu}} \end{array}\right)\right)

其中 $\boldsymbol{\mu}_{\mathbf{ f }}$ 、 $\boldsymbol{\mu}_{\mathbf{ u }}$ 分别指 $\mathbf{f}$ 和 $\mathbf{u}$ 的边缘均值向量， $\boldsymbol{\Sigma}_{\mathbf{ff}}$ 、 $\boldsymbol{\Sigma}_{\mathbf{fu}}$ 、 $\boldsymbol{\Sigma}_{\mathbf{uf}}$ 和 $\boldsymbol{\Sigma}_{\mathbf{uu}}$ 指协方差矩阵。

在给定 $\mathbf{u}$ 的条件下， $\mathbf{f}$ 的概率可以表示：

\mathbf{f} \mid \mathbf{u} \sim \mathcal{N}\left(\boldsymbol{\mu}_{\mathbf{f}}+\boldsymbol{\Sigma}_{\mathbf{fu}} \boldsymbol{\Sigma}_{\mathbf{u u}}^{-1}\left(\mathbf{u}-\boldsymbol{\mu}_{\mathbf{u}}\right), \boldsymbol{\Sigma}_{\mathbf{ff}}-\boldsymbol{\Sigma}_{\mathbf{fu}} \boldsymbol{\Sigma}_{\mathbf{u u}}^{-1} \boldsymbol{\Sigma}_{\mathbf{uf}}\right) \tag{2}

提示：当多元高斯分布已知时，其变量子集关于补集的条件也是一个（多元）高斯分布，而且该条件分布可以通过该变量子集和补集的均值向量、协方差矩阵、互协方差矩阵等计算得出。

特性 2：近似分布与与近似边缘分布

假设除了公式（1）中均值为 $\boldsymbol{\mu}_{\mathbf{u}}$ 、协方差为 $\boldsymbol{\Sigma}_{\mathbf{u u}}$ 的边缘分布 $p(\mathbf{u})$ 外，我们在 $\mathbf{u}$ 上还有另外一个均值为 $\mathbf{m}_{\mathbf{u}}$ 协方差为 $\mathbf{S}_{\mathbf{u u}}$ 的高斯分布:

\mathbf{u} \sim \mathcal{N}\left(\mathbf{m}_{\mathbf{u}}, \mathbf{S}_{\mathbf{u u}}\right) \tag{3}

如果将公式 (2) 的条件分布表示为 $p(\mathbf{f} \mid \mathbf{u})$ ，将公式 (3) 中的近似分布表示为 $q(\mathbf{u})$ 。则对 $p(\mathbf{f} \mid \mathbf{u})$ 做关于近似分布 $q(\mathbf{u})$ 的积分，则可以得到一个在 $\mathbf{f}$ 上定义的近似边缘分布 $q(\mathbf{f})=\int p(\mathbf{f} \mid \mathbf{u}) q(\mathbf{u}) \mathbf{d} \mathbf{u}$ ，并且 $q(\mathbf{f})$ 依然是一个高斯分布：

\mathbf{f} \sim \mathcal{N}\left(\boldsymbol{\mu}_{\mathbf{f}}+\boldsymbol{\Sigma}_{\mathbf{fu}} \boldsymbol{\Sigma}_{\mathbf{u u}}^{-1}\left(\mathbf{m}_{\mathbf{u}}-\boldsymbol{\mu}_{\mathbf{u}}\right), \boldsymbol{\Sigma}_{\mathbf{ff}}-\boldsymbol{\Sigma}_{\mathbf{fu}} \boldsymbol{\Sigma}_{\mathbf{u u}}^{-1}\left(\boldsymbol{\Sigma}_{\mathbf{uu}}-\mathbf{S}_{\mathbf{uu}}\right) \boldsymbol{\Sigma}_{\mathbf{u u}}^{-1} \boldsymbol{\Sigma}_{\mathbf{uf}}\right) \tag{4}

显然，如果用公式（1）中的 $p(\mathbf{u})$ 而不是公式 (3) 中的 $q(\mathbf{u})$ 对 $p(\mathbf{f} \mid \mathbf{u})$ 做积分，则我们将恢复均值为 $\boldsymbol{\mu}_{\mathbf{f}}$ 、协方差为 $\boldsymbol{\Sigma}_{\mathbf{ff}}$ 的真实边缘分布 $p(\mathbf{f})$ 。

注解：此处暗示了用近似分布 $q(u)$ 替换真实分布 $p(u)$ 的可能性。

（3）线性域变换与高斯过程

重要的是，如果 $\mathbf{u}$ 为 $\mathbf{f}$ 的线性变换 $\mathbf{u}=\boldsymbol{\Phi f}$ ，其中 $\boldsymbol{\Phi}$ 是随机变量 $\mathbf{f}$ 的线性变换函数，公式 (1) 到 (4) 依然有效。

在这种情况下， $\boldsymbol{\mu}_{\mathbf{f}}$ 和 $\boldsymbol{\Sigma}_{\mathbf{ff}}$ 为已知，需要识别的量仅有均值 $\boldsymbol{\mu}_{\mathbf{u}}$ 、协方差矩阵 $\boldsymbol{\Sigma}_{\mathbf{fu}}$ 、 $\boldsymbol{\Sigma}_{\mathbf{uf}}$ 和 $\boldsymbol{\Sigma}_{\mathbf{uu}}$ 了，这些量可由 $\mathbf{u}$ 与 $\mathbf{f}$ 之间的线性变换关系产生：

\boldsymbol{\mu}_{\mathbf{u}} =\Phi \boldsymbol{\mu}_{\mathbf{f}} \tag{5}

\boldsymbol{\Sigma}_{\mathbf{fu}} =\boldsymbol{\Sigma}_{\mathbf{ff}} \boldsymbol{\Phi}^{\top}=\left(\boldsymbol{\Phi} \boldsymbol{\Sigma}_{\mathbf{ff}}\right)^{\top}=\boldsymbol{\Sigma}_{\mathbf{uf}}^{\top} \tag{6}

\boldsymbol{\Sigma}_{\mathbf{uu}} =\Phi \boldsymbol{\Sigma}_{\mathbf{ff}} \Phi^{\top} \tag{7}

通过公式可以看出，公式（1）到（4），在该情况下依然成立。

（1）：该特性意味着当 $\mathbf{u}$ 通过线性变换转换到另外一个空间中时，在另外一个空间中也是高斯的。

（2）：此情形下 $\mathbf{f}$ 和 $\mathbf{u}$ 的联合协方差矩阵是奇异矩阵，因为 $\mathbf{u}$ 是 $\mathbf{f}$ 的线性变换，并完全由 $\mathbf{f}$ 确定。

（3）：结合近似分布，可以进一步思考在变换域中通过少量推断高斯过程，而后转换为输入空间的高斯过程。

2.2 高斯过程及其条件概率

（1）高斯过程的定义

一个高斯过程 $\mathcal{G} \mathcal{P}$ 表示为在实值函数 $f(\cdot): \mathcal{X} \rightarrow \mathbb{R}$ 上的分布，其中 $\mathcal{X}$ 为输入域。如果不做特别说明，本文将假设输入域 $\mathcal{X}$ 为连续的（尽管不是必然的）。与多元高斯分布表示 有限维向量 上的分布不同，高斯过程表示 不可数无限维函数 上的分布。多元高斯随机向量的索引键值，在概念上对应于高斯过程中的特定评估点 $X$ （ $X \in \mathcal{X}$ ) 。形式上，高斯过程可以通过两个实值函数来定义：一个是均值函数 $\mu(\cdot): \mathcal{X} \rightarrow \mathbb{R}$ ，另一个是对称且正定的协方差函数 $k\left(\cdot,\cdot^{\prime}\right): \mathcal{X} \times \mathcal{X} \rightarrow \mathbb{R}$ ，也称核函数 ^[76] 。

f(\cdot) \sim \mathcal{G} \mathcal{P}\left(\mu(\cdot), k\left(\cdot,\cdot^{\prime}\right)\right) \tag{8}

其中 $\mu(\cdot)=\mathbb{E}[f(\cdot)]$ ， $k\left(\cdot,\cdot^{\prime}\right)=\mathbb{E}\left[(f(\cdot)-\mu(\cdot))\left(f\left(\cdot^{\prime}\right)-\mu\left(\cdot^{\prime}\right)\right)\right]=\operatorname{Cov}\left(f(\cdot), f\left(\cdot^{\prime}\right)\right)$ ，与多元高斯的符号保持一致。重要的是，如果仅在基数为 $N$ 的任何有限子集 $X = \{X_1,X_2,...,X_N\}$ 上计算高斯过程，我们会获得一个 $N$ 维的多元高斯随机变量 $\mathbf{f}$ ：

\mathbf{f} \sim \mathcal{N}(\boldsymbol{\mu}_{\mathbf{f}}, \mathbf{K}_{\mathbf{ff}}) \tag{9}

其中 $\boldsymbol{\mu}_{\mathbf{f}}$ 和 $\mathbf{K}_{\mathbf{ff}}$ 分别为均值和协方差矩阵，可以分别通过计算 $\{ X_{1}, X_{2}, \ldots, X_{N} \}$ 处的均值和协方差函数获得，即 $\boldsymbol{\mu}_{\mathbf{f}}[n]=\mu\left(X_{n}\right)$ 和 $\mathbf{K}_{\mathbf{ff}}[n, m]=k\left(X_{n}, X_{m}\right)$ 。此处方括号指代 numpy 中向量和矩阵的索引符号： $\boldsymbol{\mu}_{\mathbf{f}}[n]$ 指均值向量 $\boldsymbol{\mu}_{\mathbf{f}}$ 在索引 $n$ 处的元素，而 $\mathbf{K}_{\mathbf{ff}}[n, m]$ 指协方差矩阵 $\mathbf{K}_{\mathbf{ff}}$ 在行索引为 $n$ 和列索引为 $m$ 处的元素。下标的 $\mathbf{f}$ 符号主要用于区分不同的随机变量，该表示法在文献中比较通用，但隐藏了对索引点 $X_n$ 的明确依赖，容易让很多读者感到困惑。

注解：
$\boldsymbol{\mu}_{\mathbf{f}}[n]=\mu\left(X_{n}\right)$ ； $\mathbf{K}_{\mathbf{ff}}[n, m]=k\left(X_{n}, X_{m}\right)$ ，如果不好记，你可以将其与空间联系起来， $\boldsymbol{\mu}_{\mathbf{f}}[n]$ 表示第 $n$ 个空间位置处随机变量的均值，而 $\mathbf{K}_{\mathbf{ff}}[n, m]$ 则表示第 $n$ 和 $m$ 个空间位置处的两个随机变量之间的协方差。

（2）与高斯过程有关的概念

与上一节关于多元高斯分布的公式 (1) 类似，可以将高斯过程表示的不可数无限随机变量集划分为两个子集：一个表示为 $\mathbf{u}$ ，是在 $M$ 个索引位置构成的有限点集（也称集） $\left\{Z_{1}, Z_{2}, \ldots, Z_{M}\right\} \in \mathcal{X}$ 上计算的 有限随机变量集；则应当有 $\mathbf{u}[m]=f\left(Z_{m}\right)$ ，而且 $\mathbf{u}$ 具有均值 $\boldsymbol{\mu}_{\mathbf{u}}$ 和协方差矩阵 $\mathbf{K}_{\mathbf{uu}}$ 。剩下的另一部分子集为 在 $\mathcal{X}$ 中除 $Z_{m}$ 以外的所有位置 上的剩余 不可数无限随机变量集（无限索引集），表示为 $f(\cdot)$ ：

\left(\begin{array}{c} f(\cdot) \\ \mathbf{u} \end{array}\right) \sim \mathcal{G} \mathcal{P}\left(\left(\begin{array}{c} \mu(\cdot) \\ \boldsymbol{\mu}_{\mathbf{u}} \end{array}\right),\left(\begin{array}{cc} k\left(\cdot, \cdot^{\prime}\right) & \mathbf{k}_{\cdot \mathbf{u}} \\ \mathbf{k}_{\mathbf{u} \cdot^{\prime}} & \mathbf{K}_{\mathbf{u u}} \tag{10} \end{array}\right)\right)

其中 $\mathbf{k}_{\cdot \mathbf{u}}$ 和 $\mathbf{k}_{\mathbf{u} \cdot^{\prime}}$ 均为向量值类型的函数，表示有限维随机变量 $\mathbf{u}$ 和不可数无限维随机变量 $\mathbf{f}(\cdot)$ 之间的互协方差，例如： $\mathbf{k}_{\cdot \mathbf{u}}[m]=k\left(\cdot, Z_{m}\right)$ ， $\mathbf{k}_{\mathbf{u}\cdot ^{\prime}}[m]=k\left(Z_{m},\cdot ^{\prime}\right)$ 。注意 $\mathbf{k}_{\cdot \mathbf{u}}$ 的输出为行向量，而 $\mathbf{k}_{\mathbf{u} \cdot}$ 的输出为列向量，并且两者之间互为转置，有 $\mathbf{k}_{\cdot \mathbf{u}}=\mathbf{k}_{\mathbf{u}\cdot}^{\top}$ 。

在本文中，“XXX 值类型的函数”指该函数是一种返回值为 XXX 类型的函数。XXX 通常为“实数”、“标量”、“向量”、“矩阵”等。类似的，“XXX 值类型的变量”指该变量的值为 XXX 类型。

有人可能会问，为什么输入域不相同，但在公式 (10) 中却选择了与公式 (8) 中相同的符号 $f(\cdot)$ ？答案是可以采用更细分的符号，但从技术上讲，公式 (10) 并没有错误，并且 $f(\cdot)$ 和 $\mathbf{u}$ 一起构成了退化的联合分布，因为 $\mathbf{u}$ 是在点 $Z_{m}$ 处通过高斯过程评估的多元随机变量，换句话说， $\mathbf{u}$ 应当符合 $f(\cdot)$ ^[63] 。

聪明的读者可能已经发现，如果将训练数据（或某种派生形式）作为 $\mathbf{u}$ ，则学习任务就转变成了如何利用 有限随机变量集样本 来推断 无限不可数随机变量联合分布 的问题。

与在公式（1）基础上获得公式（2）的条件计算方法类似，可以在公式（10）的联合分布基础上，可以获得 $\mathbf{u}$ 条件下 $f(\cdot)$ 的条件高斯过程：

f(\cdot) \mid \mathbf{u} \sim \mathcal{G} \mathcal{P}\left(\mu(\cdot)+\mathbf{k}_{\mathbf{\cdot} \mathbf{u}} \mathbf{K}_{\mathbf{u u}}^{-1}\left(\mathbf{u}-\boldsymbol{\mu}_{\mathbf{u}}\right), k\left(\cdot,\cdot^{\prime}\right)-\mathbf{k}_{\cdot \mathbf{u}} \mathbf{K}_{\mathbf{u u}}^{-1} \mathbf{k}_{\mathbf{u} \cdot^{\prime}}\right) \tag{11}

通过对多元高斯分布特性 1 （关于条件概率）的扩展，可以得到高斯过程的条件概率公式。

（3）高斯过程推断

与多元高斯情况类似，可以假设存在类似公式（3）中的另一种 $\mathbf{u}$ 上的近似分布 $q(\mathbf{u})$ ，其均值为 $\mathbf{m_u}$ ，协方差为 $\mathbf{S_{uu}}$ （注意 $q(\mathbf{u})$ 与 $p(\mathbf{u})$ 有区别）。则对公式（11）表示的条件高斯过程 $p(f(\cdot) \mid \mathbf{u})$ 用 $q(\mathbf{u})$ 对 $\mathbf{u}$ 做积分后，可以得到 $f(\cdot)$ 的边缘分布 $q(f(\cdot))=\int p(f(\cdot) \mid \mathbf{u}) q(\mathbf{u}) \mathbf{d} \mathbf{u}$ ，其封闭解的形式如下：

f(\cdot) \sim \mathcal{G} \mathcal{P}\left(\mu(\cdot)+\mathbf{k}_{\cdot \mathbf{u}} \mathbf{K}_{\mathbf{u u}}^{-1}\left(\mathbf{m}_{\mathbf{u}}-\boldsymbol{\mu}_{\mathbf{u}}\right), \quad k\left(\cdot, \cdot^{\prime}\right)-\mathbf{k}_{\cdot \mathbf{u}} \mathbf{K}_{\mathbf{u u}}^{-1}\left(\mathbf{K}_{\mathbf{u u}}-\mathbf{S}_{\mathbf{u u}}\right) \mathbf{K}_{\mathbf{u u}}^{-1} \mathbf{k}_{\mathbf{u}\cdot^{\prime}}\right) \tag{12}

其概念等同于式（ 4 ）中的多元高斯分布对应物。使用式 ( 12 )，我们可以得出现代文献中『稀疏高斯过程』的定义。

（4）稀疏高斯过程

在稀疏高斯过程中，评估点 $Z_m$ 被称为『伪输入』或『归纳点』，亦即伪训练样本。而随机变量 $\mathbf{u}$ 在概念上被称为『伪输出』，指在处观测到的无噪声伪输出。

通过对多元高斯分布特性 2 （关于边缘概率）的扩展，可以得到高斯过程的边缘概率公式。

$Z_m$ 的数量 $M$ 控制了稀疏高斯过程的表达能力；更多的意味着更多的伪训练样本，因此能够得到对后验高斯过程更精确的近似表示。然而，由于 $M$ 决定了随机变量 $\mathbf{u}$ 的维度，更多意味着更高的内存消耗和计算复杂度，即实际使用限制要求具有低 $M$ 。从某种程度上，这也解释了称为 “稀疏” 高斯过程的原因。

注意（1）：按照处理协方差矩阵的最普通方法， $\mathbf{K_{uu}}$ 的存储复杂度为 $\mathcal{O}(M^2)$ 和求协方差矩阵 $\mathbf{K_{uu}}$ 的逆，计算复杂度为 $\mathcal{O}(M^3)$ 。

注意（2）：最近有一些基于共轭梯度做近似 $\mathbf{K_{uu}}$ 计算的新进展 ^[28]，不过这超出了本文范围。

在此需要强调：与后验高斯过程相关的近似后验高斯过程符号 $q(f(\cdot))$ 以及条件符号 $p(f(\cdot)|\mathbf{u})$ 在数学上是不严谨的，因为从表面意义上，他们描述的是一个函数的分布，而函数并不存在概率密度。尽管如此，我们偶尔还是会继续使用该符号，并且使用符号 $p(f(\cdot))$ 来指代 $f(\cdot)$ 上的先验分布，因为它会使主题更容易理解。此外，确实有人为了更容易理解，将高斯过程称为『函数的分布』。

至此，高斯过程的符号形式基本与贝叶斯方法保持了一致：

先验高斯过程可以表示为边缘分布： $p(f(\cdot))$
后验高斯过程可以表示为条件分布： $p(f(\cdot)| \mathbf{u})$
近似后验高斯过程可以表示为： $q(f(\cdot))$

而高斯过程的变分推断，正是指获得 $q(f(\cdot))$ 以取代 $p(f(\cdot)| \mathbf{u})$ 的计算过程。根据贝叶斯方法，得到后验后，我们可以通过关于后验的积分来计算各种与之有关的期望，如：预测分布。

（5）高斯过程的变分推断

在实际工作中， $q(f(\cdot))$ 的引入主要是用于通过变分推断来近似一个难以处理的后验高斯过程。

从顶层理解的话，变分推断将一个近似推断问题转化成了一个参数最优化问题，其中 $\mathrm{Z}_m$ 以及的分布 $q_(\mathbf{u})$ 的参数（因为是高斯的，所以指均值向量 $\mathbf{m_u}$ 和协方差矩阵 $\mathbf{S_{uu}}$ ），都将是在训练过程中需要被识别的优化参数。

此处需要留意：（1）并非样本点，而且为了可扩展性，通常数量 $M$ 远远小于样本点数量 $N$ ，这也是被称为稀疏的原因；（2）需要通过优化得出；（3）是随机变量，且通常其近似分布被设计为多元高斯，可以用均值向量和协方差矩阵来定义；（4）的均值向量和协方差矩阵也是待优化得出的参数。

公式 (12) 的近似边缘分布非常重要：

它对域间高斯过程（第 2.3 节）和多输出高斯过程（第 2.4 节）仍然有效
它是形成现代深度高斯过程（第 2.5 节）的核心构建模块。

在实际工作中，上述任务类型都可以通过稀疏高斯过程变分推断进行训练。

2.3 域间高斯过程

2.3.1 基本概念

在上一节中，我们定义了一个随机变量 $\mathbf{u}$ ，它是在 $M$ 个 $\{Z_1,Z_2, \cdots ,Z_M \} \in \mathcal{X}$ 处计算高斯过程时引入的。与 2.1 节的第三部分保持一致，我们可以借助一组 “” $\{\phi_1(\cdot),\phi_2(\cdot),...,\phi_M(\cdot)\}$ ，通过一个在 $f(\cdot)$ 上的线性函数得到 $\mathbf{u}$ 的另外一种表示 $\mathbf{u}[m]=\int f(X) \phi_m(X)dX$ ，其中由实值函数 $\phi_m(\cdot) :\mathcal{X} \rightarrow \mathbb{R}$ 定义 ^[54] 。

域间高斯过程的基本思路：

将位于输入空间中的，通过线性变换转换至空间，根据高斯分布的性质，在空间中各种高斯分布的性质依然有效，但有可能出现新的特性使得计算更有效。

事实证明，在这种情况下公式（12）依然有效，而此时需要识别的参数是 $\mathbf{u}$ 的均值 $\boldsymbol{\mu}_\mathbf{u}$ 和协方差 $\mathbf{k_{\cdot u}}$ 以及 $\mathbf{K_{uu}}$ ，计算如下：

\begin{align*} \tag{13} \boldsymbol{\mu}_{\mathbf{u}}[m] &=\mathbb{E}\left[\int f(X) \phi_{m}(X) \mathbf{d} X\right]=\int \mathbb{E}[f(X)] \phi_{m}(X) \mathbf{d} X \\ &=\int \mu(X) \phi_{m}(X) \mathbf{d} X \end{align*}

\begin{align*} \tag{14} \mathbf{k}_{\mathbf{\cdot u}}[n] &=\mathbb{E}\left[(f(\cdot)-\mu(\cdot))\left(\int\left(f\left(X^{\prime}\right)-\mu\left(X^{\prime}\right)\right) \phi_{n}\left(X^{\prime}\right) \mathbf{d} X^{\prime}\right)\right] \\ &=\int \mathbb{E}\left[(f(\cdot)-\mu(\cdot))\left(f\left(X^{\prime}\right)-\mu\left(X^{\prime}\right)\right)\right] \phi_{n}\left(X^{\prime}\right) \mathbf{d} X^{\prime} \\ &=\int k\left(\cdot, X^{\prime}\right) \phi_{n}\left(X^{\prime}\right) \mathbf{d} X^{\prime} \end{align*}

\begin{align*} \tag{15} \mathbf{K}_{\mathbf{u u}}[m, n] &=\mathbb{E}\left[\left(\int(f(X)-\mu(X)) \phi_{m}(X) \mathbf{d} X\right)\left(\int\left(f\left(X^{\prime}\right)-\mu\left(X^{\prime}\right)\right) \phi_{n}\left(X^{\prime}\right) \mathbf{d} X^{\prime}\right)\right] \\ &=\iint \mathbb{E}\left[(f(X)-\mu(X))\left(f\left(X^{\prime}\right)-\mu\left(X^{\prime}\right)\right)\right] \phi_{m}(X) \phi_{n}\left(X^{\prime}\right) \mathbf{d} X^{\prime} \mathbf{d} X \\ &=\iint k\left(X, X^{\prime}\right) \phi_{m}(X) \phi_{n}\left(X^{\prime}\right) \mathbf{d} X^{\prime} \mathbf{d} X \end{align*}

请仔细比较公式 (13) 至 (15) 中 $\mathbf{u}$ 的定义，以及 2.1 节末公式 (5) 至 (7) 中 $\mathbf{u}$ 的定义，此时的 $\mathbf{u}$ 是在空间中定义的，而非在输入空间。

公式 (5) 到 (7) 可以重写为 numpy 中的索引表示法：

\boldsymbol{\mu}_{\mathbf{u}}[m] =\sum_{i} \boldsymbol{\mu}_{\mathbf{f}}[i] \boldsymbol{\phi}_{m}[i] \tag{16}

\boldsymbol{\Sigma}_{\mathbf{fu}}[:, n] =\sum_{j} \boldsymbol{\Sigma}_{\mathbf{ff}}[:, j] \boldsymbol{\phi}_{n}[j] \tag{17}

\boldsymbol{\Sigma}_{\mathbf{u u}}[m, n] =\sum_{i} \sum_{j} \boldsymbol{\Sigma}_{\mathbf{ff}}[i, j] \boldsymbol{\phi}_{m}[i] \boldsymbol{\phi}_{n}[j]\tag{18}

这帮助我们建立了一个关于 “域间高斯过程” 和 “多元随机变量的线性变换” 之间关系的直观印象：

“高斯过程中的均值函数” 对应于 “多元高斯分布中的均值向量”
“高斯过程中的协方差函数” 对应于 “多元高斯分布中的协方差矩阵”
“高斯过程中的” 对应于 “多元高斯分布中的特征向量”
“高斯过程中连续输入域上的积分” 对应于 “多元高斯分布中离散索引上求和”。

在数学上， $∫f(X)\phi_m(X)dX$ 是输出为面积值的一个线性积分算子，该积分将函数 $f(\cdot)$ 映射到实数，它泛化了第 2.1 节中在有限维向量空间上做线性变换的概念。

2.3.2 的选择

域间高斯过程有一个重要特性： 同时存在于另外一个域中，而该域完全不同于高斯过程当前运行的域 $\mathcal{X}$ 。在实际应用中的核心问题就变成了：如何选择能够使得公式 (14) 和 (15) 中的协方差公式具有封闭解的特征 $\phi_m(\cdot)$ ？

下面给出四个常用特征：狄拉克、傅立叶、核特征和导数特征。

狄拉克特征是将从普通域转换为为跨域形式的一个特例；傅立叶特征将时间（或空间）域中的转换到频域；核特征在概念上等同于有限维协方差矩阵的主成分，但用于不可数无限维的核函数；导数特征能够在处评估 $f(\cdot)$ 在特定域中相对于 $X$ 的导数，而不仅仅评估在普通运行域中的导数。

（1）狄拉克特征

狄拉克特征被定义为 $\phi_m(\cdot) = δ_{Z_m}(\cdot)$ ，其中 $δ_{Z_m}(\cdot)$ 为狄拉克函数，它将所有概率质量放在了 $Z_m$ 处。这使得能够像期望地那样存在于 $\mathcal{X}$ 中，并且 $\boldsymbol{μ}_\mathbf{u}、\mathbf{k_{·u}}$ 和 $\mathbf{K_{uu}}$ 能够恢复第 2.2 节中针对普通稀疏高斯过程的表达形式。

由于狄拉克特征能够通过线性积分运算恢复普通的形式，因此对于公式 (10) 和 (8) 中的随机变量可以选择相同的 $f(\cdot)$ 表示法，而不必担心是否一个域不包括有限多，而另一个域是完整空间。

（2）傅立叶特征

傅立叶特征定义为 $\phi_m(\cdot) = \exp(-i \boldsymbol{\omega}_m^T)$ ，其中 $\boldsymbol{ω}_m$ 指一个归纳频率向量，而 $i$ 为复数单位。

在实际使用时，需要为傅立叶特征定义边界条件。否则，对于任意平稳核， $\mathbf{K_{uu}}$ 在对角线上的元素将可能具有无限值。另需注意，对于特定的平稳核， $\mathbf{k_{\cdot u}}$ 和 $\mathbf{K_{uu}}$ 具有实数值的封闭表达形式 ^[39] 。

注：平稳核是一种特定类型的核，其中两个输入位置 $X$ 和 $X ^\prime$ 之间的协方差仅取决于 $X$ 和 $X ^\prime$ 之间的距离。

傅里叶特征支持“跨域”的概念，因为积分算子能够将点 $\boldsymbol{\omega}_m$ 引入不同于时/空域 $\mathcal{X}$ 的频域中。虽然 Hensman 等人选择了网格形式的固定归纳频率 $\boldsymbol{ω}_m$ ^[39] ，但在近似推断背景下将 $\boldsymbol{\omega}_m$ 作为一个待优化参数来处理，会是未来一个有趣的研究方向。

需要强调的是 Hensman 等人的原始傅立叶特征公式并未使用 $f(\cdot)$ 和 $\phi_m(\cdot)$ 之间的 $L^2$ 内积来定义。但如何定义两个函数之间的内积替代方法已经超出了本教程的范围，在此不做赘述。

（3）核特征函数

核特征函数可以表示为 $\phi_{m}(\cdot)=v_{m}(\cdot)$ ，其中 $v_{m}(\cdot)$ 指核函数 $k(\cdot,\cdot ^\prime)$ 的第 $m$ 个特征值 $λ_m$ 对应的特征函数。核的特征函数定义为 $\int k\left(\cdot, X^{\prime}\right) v_{m}\left(X^{\prime}\right) \mathbf{d} X^{\prime}=\lambda_{m} v_{m}(\cdot)$ ，类似于方阵的特征向量，不过用 $X ^\prime$ 上的积分替代了索引上的求和。公式 (14) 然后简单地计算为：

\mathbf{k}_{\cdot \mathbf{u}}[n]=\int k\left(\cdot, X^{\prime}\right) v_{n}\left(X^{\prime}\right) \mathbf{d} X^{\prime}=\lambda_{n} v_{n}(\cdot) \tag{19}

并且在概念上等同于通过主成分分析对有限维向量做旋转。公式 (15) 的协方差矩阵计算如下：

\begin{align*} \mathbf{K}_{\mathbf{u u}}[m, n] &=\iint k\left(X, X^{\prime}\right) v_{m}(X) v_{n}\left(X^{\prime}\right) \mathbf{d} X^{\prime} \mathbf{d} X \\ &=\int v_{m}(X) \int k\left(X, X^{\prime}\right) v_{n}\left(X^{\prime}\right) \mathbf{d} X^{\prime} \mathbf{d} X \\ &=\int v_{m}(X) \lambda_{n} v_{n}(X) \mathbf{d} X=\lambda_{n} \int v_{m}(X) v_{n}(X) \mathbf{d} X \\ &=\lambda_{n} \text { if } m==n \text { else } 0 \tag{20} \end{align*}

这是一个对角矩阵 ^[14]。从第二行到第三行的步骤只是利用了特征函数的定义。从第三行到第四行的步骤利用了特征函数的正交性，这意味着如果 $m$ 等于 $n$ ，则 $\int v_{m}(X) v_{n}(X) \mathbf{d} X$ 等于 $1$ ，否则为 $0$ 。这具有重要的实际意义，因为对角矩阵 $\mathbf{K}_{\mathbf{uu}}$ 具有更高的内存效率，而且计算复杂度为 $\mathcal{O}(M)$ 而非 $\mathcal{O}(M^3)$ 。识别任意核的特征函数及特征值的封闭解并非易事，但确实存在解决方案 ^[76]^[10]^[15]^[23]^[78] 。

（4）导数特征

除了上述公式 (13) 到 (15) 中的狄拉克、傅立叶和核特征外，还有另一种通过高斯过程的函数值的导数来定义跨域变量的方法 ^[1] ^[96] 。在这种情况下， $\mathbf{u}$ 表示为 $\mathbf{u}[m]=\left.\frac{\partial}{\partial X_{d(m)}} f(X)\right|_{X=Z_{m}}$ ，其中 $Z_{m}$ 表示第 $m$ 个， $d(m)$ 表示在输入 $X$ 的某个维度上的偏导数（由跨域变量的索引 $m$ 确定）。每个跨域变量都需要指定 $X$ 的一个特定维度，当假设均值函数和核函数可微时，式 (13) 到 (15) 中 $f(\cdot)$ 的导数则变为：

\boldsymbol{\mu}_{\mathbf{u}}[m] =\left.\frac{\partial}{\partial X_{d(m)}} \mu(X)\right|_{X=Z_{m}} \tag{21}

\mathbf{k}_{\cdot \mathbf{u}}[n] =\left.\frac{\partial}{\partial X_{d(n)}^{\prime}} k\left(\cdot, X^{\prime}\right)\right|_{X^{\prime}=Z_{n}} \tag{22}

\mathbf{K}_{\mathbf{u u}}[m, n] =\left.\frac{\partial^{2}}{\partial X_{d(m)} \partial X_{d(n)}^{\prime}} k\left(X, X^{\prime}\right)\right|_{X=Z_{m}, X^{\prime}=Z_{n}} \tag{23}

这在 $X$ 是时域、 $f(\cdot)$ 表示空间域时非常有用，不过也有人尝试在速度域中表达跨域变量 ^[69] ^[76] 。从数学上讲，上述结果并不奇怪，因为微分是函数空间上的一个线性算子。

2.4 多输出高斯过程

多输出高斯过程（或多变量高斯过程）将高斯过程扩展到向量值类型的函数 $f(\cdot): \mathcal{X} \rightarrow \mathbb{R}^{D}$ 上的分布，其中 $D$ 指 $f(\cdot)$ 输出的随机变量数量 ^[5] 。普通高斯过程在特定输入位置 $X \in \mathcal{X}$ 处评估时，会输出标量类型的高斯随机变量，而多输出高斯过程在特定输入位置 $X$ 处评估时，则会输出 $D$ 维的多元高斯随机变量。

形式上，多输出高斯过程的定义类似于公式 (8) 中的普通单输出高斯过程，但其均值函数 $\boldsymbol{\mu}(\cdot): \mathcal{X} \rightarrow \mathbb{R}^{D}$ 由原来的标量值类型转变成了向量值类型，而协方差函数 $\mathbf{K}\left(\cdot, \cdot^{\prime}\right): \mathcal{X} \times \mathcal{X} \rightarrow \mathbb{R}^{D \times D}$ 则从原来的向量值类型转变成了矩阵值类型 ^[65]。

注意， $\mathbf{K}\left(\cdot,\cdot^{\prime}\right)$ 需要为每个 $\left(X, X^{\prime}\right)$ 变量组合输出一个协方差矩阵（因为额外地需要对 $D$ 个随机变量之间的交叉相关性进行建模），因此必须满足以下对称关系 $\mathbf{K}\left(\cdot,\cdot^{\prime}\right)=\mathbf{K}\left(\cdot^{\prime}, \cdot\right)^{\top}$ , 即 $\mathbf{K}\left(\cdot,\cdot^{\prime}\right)[i, j]=\mathbf{K}\left(\cdot^{\prime}, \cdot\right)[j, i]$ ，此处采用 numpy 的索引定义。

提醒：不要将此处的多输出表示法与之前的多元随机变量 $\mathbf{f}$ ，均值向量 $\boldsymbol{\mu}_\mathbf{f}$ 和协方差矩阵 $\mathbf{K}_{\mathbf{ff}}$ 的单输出表示法混淆。虽然符号标记相同，但两者在意义上完全不同。单输出表示法中的向量和矩阵，是在多个位置 $\{X_{1}, X_{2}, \ldots, X_{N} \}$ 处评估单输出高斯过程的结果，而不是多输出高斯过程输出的随机向量。

有人可能会问如何计算多输出高斯过程，因为这会导致随机变量的数量从原来的 $N$ 个，扩展到 $N \times D$ 个（ $N$ 为评估点的数量）。

答案是：可以将 $N \times D$ 个随机变量展平为长度为 $ND$ 的向量。这导致公式（9）中描述的多元高斯随机变量 $\mathbf{f}$ 具有长度为 $ND$ 的均值向量 $\boldsymbol{\mu}_{\mathbf{f}}$ 和大小为 $ND \times ND$ 的协方差矩阵 $\mathbf{K}_{\mathbf{ff}}$ 。

是否展平取决于用户，但它确实可以连接每个评估点的所有 $D$ 维随机变量。这会产生一个分区的均值向量，该向量有 $N$ 个大小为 $D$ 的分区，以及一个具有 $N \times N$ 个块的块协方差矩阵，每个块都包含一个 $D \times D$ 的块协方差矩阵（存储输出中多元随机变量的协方差）。块协方差矩阵要求是一个对称矩阵（即前述强制要求的对称关系）。

“展平技巧” 暗示了这样一个事实，即通过一个实值类型的均值函数和一个实值类型的协方差函数，确实可以将多输出高斯过程有区别地定义为实值函数上的分布。这是通过“output as input” 视图实现的，其中多输出高斯过程的输入域通过索引集 $\mathcal{I}=\{1,2, \ldots, D\}$ 被延展至了输出的维度 ^[96] 。

更正式地说，这会形成一种新的表述方式。用于定义高斯过程的均值函数和协方差函数的输入域都发生了变化，均值函数变成了 $\mu(\cdot):(\mathcal{X}, \mathcal{I}) \rightarrow \mathbb{R}$ ，而协方差函数变成了 $k\left(\cdot,\cdot^{\prime}\right):(\mathcal{X}, \mathcal{I}) \times(\mathcal{X}, \mathcal{I}) \rightarrow \mathbb{R}$ ，其所定义的高斯过程变成了 $\mathbf{f}(\cdot):(\mathcal{X}, \mathcal{I}) \rightarrow \mathbb{R}$ ，此处的点符号 $\cdot$ 也从原来的单一变量延展成了变量对，其中第一个元素是输入 $X \in \mathcal{X}$ ，第二个元素是输出的索引 $i \in \mathcal{I}$ 。在此符号体系中，核只需满足与普通单输出高斯过程核类似的对称关系即可，并且单输出高斯过程的公式（8）在新输入域下依然适用。

注意：以这种方式表述多输出高斯过程的优点在于，它会使在任意 输入/输出索引 $(X,i)$ 处的高斯过程评估变得更加方便，不需要对特定输入 $X$ 的所有输出评估多输出高斯过程。

“output as input” 视图不仅确保公式（8）对于多输出高斯过程成立，还确保了公式 (12) 对新输入域下的多输出稀疏高斯过程仍然有效。

朴素的说，可以为每个输出头分别指定 $MD$ 个 $Z$ （或跨域高斯过程中的 $\phi(\cdot)$ ）和 $MD$ 个 $\mathbf{u}$ 。在公式 (12) 中，这将导致 $\boldsymbol{\mu}_\mathbf{u} 、\mathbf{m}_\mathbf{u}$ 成为长度为 $MD$ 的向量， $\mathbf{K_{uu}} 、 \mathbf{S_{uu}}$ 则成为 $MD \times MD$ 矩阵， $\mathbf{k_{\cdot u}} 、\mathbf{k_{u \cdot ^′}}$ 则成了长度为 $MD$ 的向量值类型的函数。

至此，我们了解了多输出稀疏高斯过程，但后续可以继续讨论计算效率问题。

公式 (12) 中最大的计算块是 $\mathbf{K_{uu}}$ 求逆，在普通方法下其复杂度为 $\mathcal{O}(M^3D^3)$ 。可以尝试从两个方面解决：一是为每个输出建立独立的单输出高斯过程，为了计算效率而牺牲了对输出随机变量之间相关性的建模能力 ^[96] ；二是通过协同区域化线性模型 ^[45] 或卷积高斯过程 ^[4] ^[95] ，将各自独立的多输出高斯过程压缩成耦合输出。

（1）独立的多输出高斯过程。

各输出相互独立的多输出高斯过程为每个输出维指定各自的单输出高斯过程，并指定不同输出维之间的协方差为 0，即 $\mathbf{K}(\cdot,\cdot ^\prime)$ 是一个 “ output as output ” 视图下返回值为对角矩阵的协方差函数。

在前面的 $MD$ 展平方式下，各输出维相互独立的多输出高斯过程使 $\mathbf{K_{uu}}$ 成为一个具有 $M×M$ 个块的块矩阵，每个块包含一个大小为 $D×D$ 的对角矩阵。

我们也可以选择 $DM$ 展平方式，此时 $\mathbf{K_{uu}}$ 将是一个具有 $D×D$ 个块的块对角矩阵，其中每个对角块是一个完整的 $M×M$ 矩阵，但每个非对角块的元素均为 0。

$DM$ 展平方式能够使 $\mathbf{K_{uu}}$ 分别反转 $D$ 个对角块（每个大小为 $M×M$ ），从而将计算复杂度降为 $O(M^3D)$ 。

注意：此方法的主要特征是假设输出的 $D$ 个随机变量之间相互独立。

（2）协同区域化的线性模型。

协同区域化的线性模型提供了一种构建多输出高斯过程的简单方法 ^[45] 。该方法既具有计算效率又可确保输出头之间的相关性。

回到 “output as output” 视图，该想法假设存在另外一个隐藏的 $D_g$ 维多输出高斯过程，可以由当前的 $D$ 维多输出高斯过程通过线性变换得来，如果存在这种线性变换并且 $D \gg D_g$ ，则可以将 $MD \times MD$ 维矩阵的求逆问题，转换为 $MD_g \times MD_g$ 维矩阵的求逆问题，大大提高计算效率 ^[22] 。

如此的话，线性变换 $\mathbf{W}$ 被定义为一个 $D \times D_{g}$ 的矩阵，用于实现从 $D$ 个输出头到 $D_{g}$ 个输出头的压缩。其中 $D_g$ 表示隐输出的数量，由用户自己定义。用户可以用 $D_{g}$ 控制计算复杂度，因为它决定了隐协方差矩阵求逆的计算负担。当 $D \gg D_g$ 时，这将使原有的多输出高斯过程效率大大提升。可以将 “output as output” 视图下的隐高斯过程表示为：

\mathbf{g}(\cdot) \sim \mathcal{G} \mathcal{P}\left(\boldsymbol{\mu}_{g}(\cdot), \mathbf{K}_{g}\left(\cdot , \cdot^{\prime}\right)\right) \tag{24}

其中 $\mathbf{g}(\cdot)$ 是向量值类型的隐随机函数， $\boldsymbol{\mu}_{g}(\cdot)$ 是向量值类型的隐均值函数。通过 $\mathbf{f}(\cdot)=\mathbf{W}\mathbf{g}(\cdot)$ ，我们可以恢复原来的多输出高斯过程，生成：

\mathbf{f}(\cdot) \sim \mathcal{G} \mathcal{P}\left(\mathbf{W} \boldsymbol{\mu}_{g}(\cdot), \mathbf{W K}_{g}\left(\cdot,\cdot^{\prime}\right) \mathbf{W}^{\top}\right) \tag{25}

除了使用公式 (24) 定义的隐多输出高斯过程，还可以根据公式 (12) 结合核函数 $\mathbf{K}_{g}\left(\cdot, \cdot ^{\prime}\right)$ ，使用稀疏多输出高斯过程的相应 “output as output” 视图。公式（25）表示了一个完全相关但稀疏的多输出高斯过程，该高斯过程在隐空间中具有高效的矩阵求逆。关于该主题的更详细讨论可以在 ^[96] 中找到。

注意：此方法的特点是对原高斯过程输出的随机变量进行压缩，转换到维度更小的隐空间中做运算，而后再反变换回原始空间，从而保证了输出随机变量之间的部分相关性。

（3）卷积高斯过程

与协同区域化的线性模型类似，可以通过卷积高斯过程为隐藏的独立多输出高斯过程构建耦合输出头，如公式 (24) 中给出的。该想法定义 $\mathbf{f}(\cdot)=\int \mathbf{G}(\cdot-X) \mathbf{g}(X) \mathbf{d} X$ 。其中 $\mathbf{G}(\cdot)$ 是一个矩阵值类型的函数，它为每个输入 $X$ 输出一个 $D \times D_{g}$ 的矩阵。由于卷积算子是线性的，相应 $\mathbf{f}(\cdot)$ 上的过程是一个多输出高斯过程，可以由下式给出：

\mathbf{f}(\cdot) \sim \mathcal{G} \mathcal{P}\left(\int \mathbf{G}(\cdot-X) \boldsymbol{\mu}_{g}(X) \mathbf{d} X, \iint \mathbf{G}(\cdot-X) \mathbf{K}_{g}\left(X, X^{\prime}\right) \mathbf{G}^{\top}\left(\cdot^{\prime}-X^{\prime}\right) \mathbf{d} X^{\prime} \mathbf{d} X\right) \tag{26}

其中矩阵值类型的函数 $\mathbf{G}(\cdot)$ 通常会选用易于处理积分的形式。此处卷积高斯过程的表示遵循 Alvarez 等人 ^[4] 和 van derWilk 等人 ^[96] 的描述，但在早期的工作中也曾提出类似的模型 ^[40] ^[11] ^[2] ^[3]。

请注意，为了概念上的方便，公式 (26) 建立在式子（24）的隐高斯过程之上，但我们也可以根据式 (12) 使用稀疏高斯过程推导。

（4）图像卷积高斯过程

尽管命名相似，但实质上图像卷积高斯过程与卷积高斯过程存在很大不同。

让我们想象一个图像域，并且单个图像 $X$ 被细分为一组可能重叠的块，所有块都具有相同大小和索引。为了符号方便，定义 $X[p]$ 作为 $X$ 的第 $p$ 个片。然后定义一个在潜在的片空间中运行的单输出高斯过程，随机函数表示为 $g(\cdot[p])$ ，均值函数表示为 $\mu_{g}(\cdot[p])$ ，核函数表示为 $k_{g}(\cdot[p], \cdot '[p^{\prime}])$ ，其中符号 $\cdot[p]$ 指的是输入图像的第 $p$ 个块，输入图像由点符号 $\cdot$ 表示。

事实证明，这个在片空间中定义的隐藏的单输出高斯过程，在向量值类型的函数 $\mathbf{f}(\cdot)$ 上引入了一个多输出高斯过程， $\mathbf{f}(\cdot)$ 函数在图像空间中运行，其输出的数量等于片的数量。 $\mathbf{f}(\cdot)$ 然后与隐藏的实数值类型的函数 $g(\cdot[p])$ 以 $\mathbf{f}(\cdot)[p]=g(\cdot[p])$ 的方式相关联。类似地，多输出均值函数可以表示为 $\mu(\cdot)[p]=\boldsymbol{\mu}_{g}(\cdot[p])$ ，多输出的核函数可以表示为 $\mathbf{K}\left(\cdot, \cdot^{\prime}\right)\left[p, p^{\prime}\right]=k_{g}\left(\cdot[p],{\cdot }^{\prime}\left[p^{\prime}\right]\right)$ 。这种设计受卷积神经网络启发，第一个表示可以在 ^[95] 中找到，后来被 Blomqvist 等 ^[8] 和 Dutordoir 等人 ^[24] 扩展到了深度架构。

因此，卷积和图像卷积高斯过程之间的区别在于：前者对输入域执行卷积操作，而后者对来自图像输入域的单个元素执行类似于离散二维卷积的操作。

（5）可导高斯过程

我们用可导高斯过程结束本节，因为它们提供了多输出高斯过程的天然示例。

早些时候，我们已经看到如何定义域间变量，这些变量是在特定位置评估的单输出高斯过程随机函数的偏导数。事实证明，对于任何具有均值函数 $μ(\cdot)$ 和核函数 $k(\cdot,\cdot ^ \prime)$ 的单输出高斯过程，随机函数 $f(\cdot)$ 相对于 $X$ 的导数给出了一个多输出高斯过程，其中输出维数 $D$ 等于 $\mathcal{X}$ 的维数，前提是假设 $μ(\cdot)$ 和 $k(\cdot,\cdot ^\prime)$ 是可微的。

更准确地说，在“output as input” 视图下，可以得到 $\mathbf{f}(\cdot) =∇_X f(X)∣∣_{X=\cdot}$ 与相应的多输出均值函数 $μ(\cdot) =∇_Xμ(X)∣∣_{X=·}$ 及核函数 $K(\cdot,\cdot ^\prime) =∇_X∇_{X^\prime}k(X,X^\prime)∣∣_{X=\cdot,X^\prime=\cdot ^ \prime}$ 。

分析多输出高斯过程的导数，得到的随机函数和均值函数均为矩阵值类型的函数，以雅可比形式表示为 $\mathbf{J_f}(\cdot)$ 和 $\mathbf{J_μ}(\cdot)$ ，核函数则是一个四维的超立方张量值类型的函数（此处避开给出数学符号以便保持清晰视野）。然而，通过应用扁平化技巧，可以再次在 “output as input” 视图下获得多输出高斯过程，例如，通过将矩阵值类型的随机函数 $\mathbf{J_f}(\cdot)$ 和均值函数 $\mathbf{J_μ}(\cdot)$ 展平为向量值类型的函数，将四维超立方张量值类型的核函数展平为矩阵值类型的核函数。

2.5 深度高斯过程

深度高斯过程通过将多输出高斯过程相互堆叠而形成 ^[18] ，一个高斯过程的输出决定了下一个高斯过程的评估位置（即输入），因此前一个高斯过程的输出维度需要与下一个高斯过程的输入维度保持一致。

更正式地，想象具有 $L$ 个随机向量值类型的多输出高斯过程随机函数，用输出符号表示为 $\{\mathbf{f}^{(1)}(\cdot), \mathbf{f}^{(2)}(\cdot), \ldots, \mathbf{f}^{(L)}(\cdot)$ 。一个输入 $X$ 通过以下深度高斯过程进行传播：

第一次在 $X$ 点处评估索引为 1 的高斯过程，并产生向量值类型的随机变量 $\mathbf{f}^{(1)}$ 作为输出；
从 $\mathbf{f}^{(1)}$ 中抽取一个样本，用于确定在什么位置评估索引为 2 的高斯过程，这会产生另一个向量值类型的随机变量 $\mathbf{f}^{(2)}$ ，通过对其抽样，决定在什么位置评估第三个高斯过程；
依此类推，重复这个过程，直到最后一个索引为 $L$ 的高斯过程。

随机变量 $\mathbf{f}^{(L)}$ 被认为是输入 $X$ 的深度高斯过程输出，此过程的概率图模型如图 1 所示：

图 1：深度高斯过程的概率图模型。单个输入 $X$ 决定在哪里评估随机向量值类型的函数 $f^{(1)}(\cdot)$ 上的第一个高斯过程，产生多元随机变量 $f^{(1)}$ 。来自 $f^{(1)}$ 的某个样本确定在哪里评估下一个 $f^{(2)}(\cdot)$ 上的高斯过程，产生 $f^{(2)}$ 。重复该过程，直到最后索引为 $L$ 的高斯过程，产生随机变量 $f^{(L)}$ ，该随机变量的一个样本成为 $X$ 对应的一个最终输出。

注意，对于深度高斯过程，符号 $\mathbf{f}$ 指向量值类型的随机变量，这是在单个输入位置 $X$ 处评估多输出高斯过程的所有输出头的结果。这与浅层单输出高斯过程中的相同符号在意义上有些冲突。在浅层单输出高斯过程中，向量 $\mathbf{f}$ 是由在多个位置 $\left\{X_{1}, X_{2}, \ldots, X_{N}\right\}$ 的评估结果形成的，与这里的多输出向量意义不同。对于这种混淆，我们深表歉意，但表示向量值的方法只有这么多。还要注意，如果通过一个深度高斯过程传播 $N$ 个样本 $\left\{X_{1}, X_{2}, \ldots, X_{N}\right\}$ ，则需要在所有 $N$ 个输入处评估第一个高斯过程，在 output-as-output 视图中将产生一个大小为 $N×D^{(1)}$ 的随机变量，其中 $D^{(1)}$ 指第一个高斯过程的输出的数量。从这 $N×D^{(1)}$ 个随机变量中采样一次会产生 $N$ 个大小为 $D^{(1)}$ 的向量值的样本，这些样本将用于评估第二个高斯过程，依此类推。最终输出将是一个大小为 $N×D^{(L)}$ 的随机变量，其中 $D^{(L)}$ 指的是最后一个高斯过程的输出的数量。

为了简化问题，我们以具有一维输入域的单输出高斯过程作为基本构建块，来展示深度高斯过程的行为（图 2 ）。随着深度增加，函数值的范围越来越窄，函数从平滑变得越来越陡 ^[25] 。虽然这可以潜在地对不太平滑的函数进行建模（普通的浅层高斯过程可能很难），但每一层中函数值的边缘分布（除了第一层）不再是高斯分布，因此阻碍了对不确定性估计的分析，这通常被认为是高斯过程模型的标志。

图 2：来自不同层的深度高斯过程的样本。该图中的深度高斯过程构建块是在一维输入域上运行，由零均值函数和 RBF 核函数 ( $\ell=0.7$ ) 定义的单输出高斯过程。来自区间 $[0,10]$ 的一组等距评估点 $X$ ，通过深度高斯过程进行传播。函数值 $f^{(l)}(X)$ 显示随着深度增加 ( $l∈{1,2,4,8}$ )，函数值会迅速变化，并趋向于从一个狭窄的范围内取值。原因是一旦样本在中间层映射到相似的值，它们在后续层中就很难假设显著不同的可能值了 ^[25] 。

我们用深度高斯过程的定义与作为构建块的浅层高斯过程的类型无关这个主题来结束本节。

现代深度高斯过程堆叠稀疏高斯过程，如公式 (12) 中所示，彼此叠加以提高计算效率 ^[80] ^[81] 。到目前为止，还没有解决如何在（深度）稀疏高斯过程中进行高效推断的问题。精确推断是不可能的，必须求助于一些近似推断技术。变分推断是当代情况下最常用的便捷工具。因此，将在下一节（第 3 节）中专门解释传统的变分推断，然后在第 4 节讨论浅层和深度稀疏高斯过程中的变分推断。

3 变分推断

变分推断是一种特定类型的近似贝叶斯推断。顾名思义，贝叶斯近似推断处理计算上难以处理的近似后验分布。本节目标是提供变分推断的概述，而且主要采用参数空间视图，并假设为有监督学习场景。如何将稀疏高斯过程（即函数空间模型）与变分推断结合是第 4 节的主要内容。第 3.1 节给出了传统变分推断方法。第 3.2 节展示了一种使用重要性加权推导变分推断的替代方法，该方法以增加计算复杂性为代价提供了更精确的解。第 3.3 节引入了隐变量变分推断以启用更灵活的模型。第 3.4 节将隐变量变分推断与重要性加权结合，以计算成本换取准确性的提升。第 3.5 节介绍了贝叶斯层的概念，并介绍了如何以分层和组合方式进行变分推断，从而产生贝叶斯深度学习的通用框架 ^[93] 。

3.1 普通变分推断

（1）什么是变分推断？

首先让我们重新审视监督学习的贝叶斯推断问题。想象一些输入 $X$ 、观测到的变量 $y$ 、在给定 $X$ 时观测到 $y$ 的概率（即似然，表示为超参数 $γ$ 和未知参数 $\theta$ 限定的概率分布 $p_γ(y|θ,X)$ ）。我们的目标是在对 $θ$ 有一些先验信念（即先验，表示为 $p_γ(θ)$ ）基础上，推断得到 $θ$ 。为了符号方便，假设 $p_γ(y|θ,X)$ 和 $p_γ(θ)$ 都被 $γ$ 超参数化了。

根据上述假设，观测到 $y$ 和 $X$ 后，通过对 $θ$ 推断可以得到其后验分布：

p_γ (θ|y,X) = \frac{p_γ(y|θ,X)p_γ(θ)}{∫p_γ(y|θ, X)p_γ(θ)dθ} \tag{27}

其中 $p_{\gamma}(y \mid \theta, X)$ 被称为似然， $p_{\gamma}(\theta)$ 是先验， $p_{\gamma}(y \mid X)=\int p_{\gamma}(y \mid \theta, X) p_{\gamma}(\theta) \mathbf{d} \theta$ 是边缘似然（或证据）。此推断问题的相应概率图模型如图 3A 所示（标注为 “general formation”）。图 3A 的概率图模型表示了给出 $X$ 之后， $y$ 和 $θ$ 的联合概率分布为 $p_{\gamma}(y \mid \theta, X) p_{\gamma}(\theta)$ ，是一种“生成式模型”。

计算后验 $p_\gamma(\theta \mid y,X)$ 的挑战在于：除了特殊情况外（例如当先验与似然共轭时，常见于高斯似然与高斯先验），边缘似然通常没有封闭形式的解。而当边缘似然存在封闭解时，通常也会在计算精确后验值之前，首先做关于超参数 $γ$ 的最大化，以得到最优超参数 $\gamma$ [ ^[7] , ^[76] 。超参数 $\gamma$ 也称为 “生成参数”。

注：从模型比较和选择的角度，边缘似然可以作为评估模型的主要指标。

图 3：监督学习任务中变分推断的概率模型。 $X$ 代表输入、 $y$ 代表输出标签。未知函数可以通过随机变量 $θ$ （从参数空间视角）或随机函数 $f(\cdot)$ （从函数空间视角）来描述。传统变分推断在图 A ）和第 3.1 节中说明，而隐变量变分推断在图 B ）和第 3.3 节中说明。隐变量变分推断方法除参数 $θ$ 外，又引入了另一个隐变量 $h$ ，用于启用更具表现力的生成模型。为清楚起见，图中为两种情况都提供了两种表示：一种泛化表示形式（ general formulation ），另一种是独立同分布（ i.i.d. ）数据集的表示形式，并用 $n$ 为每个训练样本建立索引值。

变分推断的想法是将被 $\psi$ 参数化的近似分布 $q_{\psi}(\theta)$ 引入难以处理的后验 $p_{\gamma}(\theta \mid y, X)$ ，并优化 $\psi$ ，使得近似后验 $q_{\psi}(\theta)$ 变得接近真实后验 $p_{\gamma}(\theta \mid y, X)$ 。近似后验 $q_{\psi}(\theta)$ 也被称为“变分分布”，而 $\psi$ 则被称为“变分参数”。问题是选择哪个优化目标函数来识别最优的变分参数 $\psi$ 。

（2）变分推断的目标函数

我们后面会很快回答这个问题，但先从近似后验和真实后验之间的负 $KL$ 散度开始。 $KL$ 散度表示近似后验与真是后验之间的差别，可以写为：

-\operatorname{KL}\left(q_{\psi}(\theta)|| p_{\gamma}(\theta \mid y, X)\right)=\int q_{\psi}(\theta) \ln p_{\gamma}(y \mid \theta, X) \mathbf{d} \theta-\mathbf{KL}\left(q_{\psi}(\theta) \| p_{\gamma}(\theta)\right)-\ln p_{\gamma}(y \mid X) \tag{28}

注意： $KL$ 散度不具有对称性，即 $KL(q||p)$ 与 $KL(p||q)$ 不等价。

通过将对数边缘似然项 $\ln p_{\gamma}(y \mid X)$ 向左移动来重新排列产生：

\ln p_{\gamma}(y \mid X)-\operatorname{KL}\left(q_{\psi}(\theta) \| p_{\gamma}(\theta \mid y, X)\right)=\underbrace{\int q_{\psi}(\theta) \ln p_{\gamma}(y \mid \theta, X) \mathbf{d} \theta-\mathbf{KL}\left(q_{\psi}(\theta) \| p_{\gamma}(\theta)\right)}_{=: \operatorname{\mathbb{ELBO}}(\gamma, \psi)} \tag{29}

右侧的术语称为证据下界 $\mathbb{ELBO}(γ,ψ)$ ^[76] ，因为它给对数边缘似然提出了一个下界 —— “对数证据下界”。不过省略对数两个字似乎已经成了惯例，现在大家基本都称呼其为 “证据下界”。 $\mathbb{ELBO}$ 是一个下界，因为近似后验值和真实后验值之间的 $KL$ 是非负的。由于对数边缘似然不依赖于变分参数 $\psi$ ，所以当近似后验等于真实后验时，即 $q_\psi(θ) =p_\gamma(θ|y,X)$ 时， $\mathbb{ELBO}$ 达到其最大值。此时，左侧的 $KL$ 项等于零，并且 $\mathbb{ELBO}$ 准确地恢复了对数边缘似然。

需要注意的是：

（1）依据式 (29)，计算右侧的 $\mathbb{ELBO}$ 并不需要提前知道真实后验的形式，而只需要知道模型的先验 $p_\gamma(\theta)$ 、似然 $p_\gamma(y \mid \theta, X)$ 和变分分布 $p_\psi(\theta)$ 的形式，而这三项都是模型假设的一部分。并且 $\mathbb{ELBO}$ 在数学上是严谨的，因为它是通过贝叶斯规则将难处理的后验进行分解后获得的。

（2）在贝叶斯框架中，最大化对数边缘似然 $\ln p_\gamma(y|X)$ 通常是超参数 $γ$ 的首选优化目标。根据式（29），现代变分推断方法可以等价地通过最大化证据下界 $\max \limits_{\gamma,\psi} \mathbb{ELBO}(\gamma,\psi)$ 来识别生成参数 $\gamma$ 和变分参数 $\psi$ 。

（3）一些具有深度函数逼近器的方法，通过将式（29）右侧第二项（即近似后验 $p_\psi(\theta)$ 与先验 $p_\gamma(\theta)$ 的 $KL$ 散度项）乘以某个正 $β$ 参数来做轻微调整，被称为 “β-变分推断”，并将 $β \to 0$ 时的特殊情况作为恢复最大化对数似然的目标。该方法由 Higgins 等提出 ^[41] ， Wenzel 等提供了最新的讨论 ^[99] 。

（3）预测分布

假设在关于变分参数 $\psi$ 和生成参数 $\gamma$ 优化 $\mathbb{ELBO}$ 后，已经确定了一个最优近似后验，那么下一个问题就是如何使用近似后验，即如何为一个不是训练数据中的新数据点 $X^*$ 预测 $y^{\star}$ 。答案是基于近似后验分布求均值（或者说关于 $\theta$ 做边缘化）：

p\left(y^{\star} \mid X^{\star}\right)=\int p_{\gamma}\left(y^{\star} \mid \theta, X^{\star}\right) q_{\psi}(\theta) \mathbf{d} \theta \tag{30}

当该积分无法得到封闭形式解时，必须求助于蒙特卡罗方法，即从 $q_{\psi}(\theta)$ 中抽取样本，而后用经验平均值（即通过样本的加权平均）替换 $\theta$ 上的积分。

（4）小批量随机优化及重参数化

到目前为止，我们还没有对生成模型的精确形态做任何假设。然而，在监督学习中，通常假设独立同分布的训练集包含 $N$ 个独立同分布的 $(X_{n}, y_{n})$ 形式训练样本。相应概率图模型在图 3A 中描述，标识为“i.i.d. dataset” 。在此情况下，似然可以由 $\prod_{n=1}^{N} p_{\gamma}\left(y_{n} \mid \theta, X_{n}\right)$ 给出，其对数形式得到的 $\mathbb{ELBO}$ 变为：

\operatorname{\mathbb{ELBO}}(\gamma, \psi)=\sum_{n=1}^{N} \int q_{\psi}(\theta) \ln p_{\gamma}\left(y_{n} \mid \theta, X_{n}\right) \mathbf{d} \theta-\mathbf{KL}\left(q_{\psi}(\theta) \| p_{\gamma}(\theta)\right) \tag{31}

需要注意的是，当 $N$ 比较大的情况下，式 (31) 可以通过小批量的蒙特卡洛方法来近似，从而可以用于低内存复杂度的参数更新 ^[36] 。 $\{X_{n}^{\star}\}_{n=1, \ldots, N^*}$ 的预测 $\{y_{n}^{\star}\}_{n=1, \ldots, N^{\star}}$ ，在独立同分布条件下是：

p\left(y_{1}^{\star}, \ldots, y_{N^{\star}}^{\star} \mid X_{1}^{\star}, \ldots, X_{N^{\star}}^{\star}\right)=\int \prod_{n=1}^{N^{\star}} p_{\gamma}\left(y_{n}^{\star} \mid \theta, X_{n}^{\star}\right) q_{\psi}(\theta) \mathbf{d} \theta \tag{32}

请注意，这里故意没有对 $y、X、\theta、\gamma$ 和 $\psi$ 的维度做出任何假设，以保持符号简单，但这并不意味着这些量必须是标量。而且我们主要是在权重空间视角中面向 $\theta$ 做分析，而没有采用函数空间视角，尽管两者在概念上是等价的。函数空间视角可以通过将上述所有公式中的 $\theta$ 替换为 $f(\cdot)$ 来实现。但实际上没有那么简单，需要特别关注无限维随机变量之间的期望和 $KL$ 散度问题，我们会在第 4 节讨论稀疏高斯过程中的变分推断问题（假设函数空间视角）时解决这个问题。

（5）两个案例

为加强理解，现在提供一些示例。想象一个独立同分布的一维标签回归问题。

假设先验 $p(\boldsymbol{\theta})$ 是神经网络中的向量化权重 $\boldsymbol{\theta}$ 上的平均场多元高斯（即每个参数的先验均为高斯分布），对应的均值向量为 $\boldsymbol{\mu}_{\theta}$ 、方差向量为 $\boldsymbol{v}_{\theta}$ 。

假设似然 $p_{\gamma}(y_{n} \mid \boldsymbol{\theta}, X_{n})$ 是同方差的高斯，其方差为 $v_{\text{lik}}^{(\gamma)}$ ，其均值取决于神经网络的输出，即 $\mu_{\text{lik}}(X_{n})=f_{\theta}(X_{n})$ ，其中 $f_{\theta}(X_{n })$ 表示输入为 $X_{n}$ 时神经网络的输出。

在该场景中，上标 $(\gamma)$ 将似然的方差标记为一个生成参数。变分分布 $q_{\psi}(\boldsymbol{\theta})$ 也可以被视为平均场多元高斯，变分分布的均值向量为 $\mathbf{m}_{\theta}^{(\psi)}$ 、方差向量 $\mathbf{v}_{\theta}^{(\psi)}$ （平均场假设权重之间相互独立，因此只需设置方差参数），此时上标 $(\psi)$ 表示这是一个变分参数。

按照上述方式构建的回归模型，其实就是 Blundell 等 ^[9] 提出的传统贝叶斯神经网络。

我们也可以通过异方差似然来增加似然的表现力，即让神经网络输出一个二维向量 $\mathbf{f}_{\theta}(\cdot)$ 而不是一个标量，以同时对均值和方差进行编码。可以将两者定义为 $\mu_{\text{lik}}(X_{n})=\mathbf{f}_{\theta}(X_{n})[1]$ 、 $v_{\text{lik }}(X_{n})=g(\mathbf{f}_{\theta}(X_{n})[2])$ ，其中 $1$ 和 $2$ 都是神经网络输出的索引， $g(\cdot)$ 是一个严格的正函数（因为神经网络的输出通常是无界的，而方差是有界的）。在后一种情况下，由于方差被表示为神经网络的输出，因此不会再有任何生成参数 $\gamma$ 。

如果用（多输出）高斯过程替换先验和近似后验，并相应地用 $f(\cdot)$ 和 $\mathbf{f}(\cdot)$ 替换符号 $f_θ(\cdot)$ 和 $\mathbf{f}_θ(\cdot)$ ，我们将分别获得同方差和异方差贝叶斯神经网络。然而，在高斯过程中，人们通常将某些核函数的超参数视为生成参数 $γ$ ，这与贝叶斯神经网络情况相反，意味着先验要先经过优化。

技巧：在实际工作中，使用随机梯度方法进行优化期间，经常对随机变量 $\boldsymbol{\theta}$ 应用重参数化技巧 ^[50]^[77] ，以建立 $\boldsymbol{\theta}$ 与变分参数 $\psi$ （如：平均场变分分布的均值参数 $\mathbf{m}^{(\psi)}_\theta$ 和方差参数 $\mathbf{v}^{(ψ)}_θ$ ）之间的微分关系，使后向梯度传播可信。众所周知，这会产生具有较低方差的参数更新，从而导致更好的优化。

（5）与期望传播的比较

最后，我们提一种称为期望传播 (EP) ^[7] ^[12] 的近似推断方案，该方案也鼓励近似后验通过 $KL$ 散度目标接近真实后验，类似于变分推断。事实上，期望传播选择了与公式（28）相似的目标，但在 $KL$ 中交换了参数。

两者之间的实质区别在于：

变分推断倾向于提供以峰值为中心的解决方案
期望传播倾向于以潜在的显著峰值不匹配为代价提供支持覆盖的解决方案

如果真实后验是单峰的，两者之间近似等价；但当真实后验为多峰时，两者区别较大，变分推断目标努力找到其中最佳的单峰，而期望传播方法则努力找到能够覆盖主要峰的单峰分布 ^[7] 。

变分推断相对于普通期望传播至少有两个优点：

首先，在变分推断中，期望是相对于近似后验的，因此可以使用梯度方法进行采样和随机优化，而期望传播中的期望是相对于未知的最优后验。
其次，变分推断的原则是求对数边缘似然的下界，因此不仅鼓励对变分的优化，而且鼓励对生成参数的优化。

3.2 重要性加权变分推断

重要性加权变分推断以增加计算复杂性为代价，提供了一种更紧致地计算 $\mathbb{ELBO}$ 的方法，并且估计方差更小。

首先表明，除了上一节的推导之外，还有另一种推导 $\mathbb{ELBO}$ 的方法，根据以下公式：

\ln p_{\gamma}(y \mid X) =\ln \int p_{\gamma}(y \mid \theta, X) p_{\gamma}(\theta) \mathbf{d} \theta=\ln \int q_{\psi}(\theta) \frac{p_{\gamma}(y \mid \theta, X) p_{\gamma}(\theta)}{q_{\psi}(\theta)} \mathbf{d} \theta \tag{33}

\geq \int q_{\psi}(\theta) \ln \frac{p_{\gamma}(y \mid \theta, X) p_{\gamma}(\theta)}{q_{\psi}(\theta)} \mathbf{d} \theta=\operatorname{\mathbb{ELBO}}(\gamma, \psi) \tag{34}

其中不等式来自 Jensen 不等式的使用，将对数与 $q_{\psi}(\theta)$ 上的期望做了交换。虽然该推导简单明了，但缺点是只能证明 $\mathbb{ELBO}$ 是对数边缘似然的下界，而无法告诉你到底两者之间差多少，即近似和真实后验之间的 KL 散度，如公式 (29) 所示。

为了获得更紧致的对数边缘似然边界，提出了 $\mathbb{ELBO}$ 的重要性加权形式 ^[13] ^[21] 。在应用 Jensen 之前，我们需要从公式 (33) 着手：

\ln p_{\gamma}(y \mid X) =\ln \int q_{\psi}(\theta) \frac{p_{\gamma}(y \mid \theta, X) p_{\gamma}(\theta)}{q_{\psi}(\theta)} \mathbf{d} \theta=\ln \mathbb{E}_{q_{\psi}(\theta)}\left[\frac{p_{\gamma}(y \mid \theta, X) p_{\gamma}(\theta)}{q_{\psi}(\theta)}\right] \tag{35}

=\ln \frac{1}{S} \sum_{s=1}^{S} \mathbb{E}_{q_{\psi}\left(\theta^{(s)}\right)}\left[\frac{p_{\gamma}\left(y \mid \theta^{(s)}, X\right) p_{\gamma}\left(\theta^{(s)}\right)}{q_{\psi}\left(\theta^{(s)}\right)}\right] \tag{36}

=\ln \mathbb{E}_{\prod_{s=1}^{S} q_{\psi}\left(\theta^{(s)}\right)}\left[\frac{1}{S} \sum_{s=1}^{S} \frac{p_{\gamma}\left(y \mid \theta^{(s)}, X\right) p_{\gamma}\left(\theta^{(s)}\right)}{q_{\psi}\left(\theta^{(s)}\right)}\right] \tag{37}

\geq \mathbb{E}_{\prod_{s=1}^{S} q_{\psi}\left(\theta^{(s)}\right)}\left[\ln \frac{1}{S} \sum_{s=1}^{S} \frac{p_{\gamma}\left(y \mid \theta^{(s)}, X\right) p_{\gamma}\left(\theta^{(s)}\right)}{q_{\psi}\left(\theta^{(s)}\right)}\right]=: \operatorname{\mathbb{ELBO}}_{S}(\gamma, \psi) \tag{38}

在公式 (36) 中，公式 (35) 中的期望通过引入 $S$ 个独立同分布的变量 $\theta^{(S)}$ 并计算其平均值而获得。在应用 Jensen 之前，公式 (37) 将 $\theta^{(S)}$ 上的期望与总和做了交换。最终的重要性加权 $\mathbb{ELBO}$ 表示为 $\text{\mathbb{ELBO}}_S(γ,ψ)$ ，显式地依赖于重复次数 $S$ ，而且重要性权重由 $\frac{p_γ(θ^{(s)})}{q_ψ(θ^{(s)})}$ 给出。

很容易验证：上一节中公式（29）的普通 $\mathbb{ELBO}$ 是重要性加权 $\mathbb{ELBO}_S$ 在 $S= 1$ 时的特殊情况。事实证明，当 $S→∞$ 时，重要性加权 $\mathbb{ELBO}_S$ 恢复了对数边缘似然，证明如下：

\begin{align*} \lim _{S \rightarrow \infty} \operatorname{\mathbb{ELBO}}_{S}(\gamma, \psi) &=\lim _{S \rightarrow \infty} \mathbb{E}_{\prod_{s=1}^{S} q_{\psi}\left(\theta^{(s)}\right)}\left[\ln \frac{1}{S} \sum_{s=1}^{S} \frac{p_{\gamma}\left(y \mid \theta^{(s)}, X\right) p_{\gamma}\left(\theta^{(s)}\right)}{q_{\psi}\left(\theta^{(s)}\right)}\right] \\ &=\mathbb{E}_{\prod_{s=1}^{S} q_{\psi}\left(\theta^{(s)}\right)}\left[\ln \int q_{\psi}(\theta) \frac{p_{\gamma}(y \mid \theta, X) p_{\gamma}(\theta)}{q_{\psi}(\theta)} \mathbf{d} \theta\right] \\ &=\ln \int q_{\psi}(\theta) \frac{p_{\gamma}(y \mid \theta, X) p_{\gamma}(\theta)}{q_{\psi}(\theta)} \mathbf{d} \theta=\ln p_{\gamma}(y \mid X) \tag{35} \end{align*}

可以进一步证明，根据 ^[13] 和 ^[21] ，以下不等式序列成立。

\operatorname{\mathbb{ELBO}}(\gamma, \psi)=\operatorname{\mathbb{ELBO}}_{1}(\gamma, \psi) \leq \operatorname{\mathbb{ELBO}}_{2}(\gamma, \psi) \leq \ldots \leq \lim _{S \rightarrow \infty} \operatorname{\mathbb{ELBO}}_{S}(\gamma, \psi)=\ln p_{\gamma}(y \mid X)

其中计算复杂度由重复次数 $S$ 决定，从左到右增加。在没有计算资源限制的情况下， $\ln p_{\gamma}(y \mid X)$ 可以被精确恢复。请注意，大的 $S$ 不仅使 $\mathbb{ELBO}_{S}$ 有更严格的边界，并且使 $\mathbb{ELBO}_{S}$ 的经验估计（通过对 $\theta^{(1)}$ 到 $\theta^{(S)}$ 的外部期望进行采样）变得更准确，方差更小。这在 $S \rightarrow \infty$ 的极限中变得非常明显，此时所有来自 $\theta^{(1)}$ 到 $\theta^{(S)}$ 上期望的样本将产生相同的结果，即精确的对数边缘似然：

为了完整起见，我们在此提供具有独立同分布的数据集的重要性加权公式。训练样本 $\left\{\left(y_{n}, X_{n}\right)\right\}_{n=1, \ldots, N}$ 通过相应地调整似然：

\operatorname{\mathbb{ELBO}}_{S}(\gamma, \psi)=\mathbb{E}_{\Pi_{s=1}^{S} q_{\psi}\left(\theta^{(s)}\right)}\left[\ln \frac{1}{S} \sum_{s=1}^{S} \frac{\prod_{n=1}^{N} p_{\gamma}\left(y_{n} \mid \theta^{(s)}, X_{n}\right) p_{\gamma}\left(\theta^{(s)}\right)}{q_{\psi}\left(\theta^{(s)}\right)}\right] \tag{43}

可以用来自每个复制分布 $q_{\psi}\left(\theta^{(s)}\right)$ 的样本 $\theta^{(s)}$ 来近似，就像非独立同分布的形式。请注意，对新样本 $X^{\star}$ 进行预测的方式对于重要性加权变分推断与传统变分推断相同，并且适用上一节中的公式 (30) 和 (32)（一般情况和独立同分布情况）。

3.3 隐变量模型的变分推断

隐变量模型的变分推断可参考：

Li, P. and Chen, S. (2016) ‘A review on Gaussian Process Latent Variable Models’, CAAI Transactions on Intelligence Technology, 1(4), pp. 366–376. Available at: https://doi.org/10.1016/j.trit.2016.11.004.

隐变量变分推断背后的想法是在 $\theta$ 之外引入新的潜在变量 $h$ ，如图 3B 中的概率图模型所示（“general formutation”）。这样做是为了构建更灵活的生成模型。为此，假设 $\theta$ 和 $h$ 的先验被分解为 $p_{\gamma}(\theta)$ 和 $p_{\gamma}(h)$ 两部分，并且似然 $p_{\gamma}(y \mid \theta, h, X)$ 以 $h, \theta$ 和 $X$ 为条件。为了符号方便，再次用 $\gamma$ 表示所有生成参数的整体。由于 $h$ 是隐变量，我们需要对 $\theta$ 和 $h$ 进行联合推断。

在近似后验可分解的典型假设下，有 $q_{\psi}(\theta,h) = q_{\psi}(\theta) q_{\psi}(h)$ ，其中 $\psi$ 代表所有的变分参数。此时可以得出含隐变量的 $\mathbb{ELBO}$ ：

\begin{align*} \operatorname{\mathbb{ELBO}}(\gamma, \psi)=& \iint q_{\psi}(\theta) q_{\psi}(h) \ln p_{\gamma}(y \mid \theta, h, X) \mathbf{d} h \mathbf{~d} \theta \\ &-\operatorname{KL}\left(q_{\psi}(h)|| p_{\gamma}(h)\right)-\operatorname{KL}\left(q_{\psi}(\theta) \| p_{\gamma}(\theta)\right) \end{align*}

上式中，由于近似后验的可分解假设，分别形成了与 $h$ 和 $\theta$ 有关的两个 $KL$ 散度项。

完成推断后，预测分布可以通过关于 $p_{\gamma}(h)$ 和 $q_{\psi}(\theta)$ 的积分得到，即：

p\left(y^{\star} \mid X^{\star}\right)=\iint p_{\gamma}\left(y^{\star} \mid \theta, h, X^{\star}\right) p_{\gamma}(h) \mathbf{d} h q_{\psi}(\theta) \mathbf{d} \theta

比较重要的是：上式中使用了隐变量 $h$ 的先验分布 $p_{\gamma}(h)$ 而不是近似后验 $q_{\psi}(h)$ ，原因很快就会解释。在这一点上，人们可能想知道为什么首先引入隐变量的积分，因为它似乎在符号上对于 $\theta$ 是多余的。为此，我们通过为似然函数提供一个更具体的例子来说明这一点。

考虑一下第 3.1 节中的同方差贝叶斯神经网络示例，其中粗体 $\boldsymbol{\theta}$ 表示神经网络的权重是向量化的，该神经网络具有平均场多元高斯先验 $p(\boldsymbol{\theta})$ 。在含隐变量的形式中，我们引入另一个 $h$ 上的先验，并且在 $h$ 条件下的似然也服从同方差高斯。此时 $\theta$ 和 $h$ 之间的差异就变得比较明显了：新形式中，均值被定义为 $\mu_{\text{lik }}(h, X)=f_{\boldsymbol{\theta}}(h, X)$ ，其中 $\boldsymbol{\theta}$ 将均值函数参数化为神经网络（由下标 $\boldsymbol{\theta}$ 表示），但 $h$ 成为了神经网络的额外输入。通常，在没有额外隐变量 $h$ 的情况下，给定 $\theta$ 和 $X$ 时， $y$ 上的分布是单峰高斯分布。通过人为地将隐变量 $h$ 添加到神经网络的输入中，在给定 $\theta$ 和 $X$ 的情况下，通过 $h$ 的积分， $y$ 上的分布变成非高斯了，并且可以假设为多峰分布。多峰分布更具表现力，因为它可以模拟标签 $y$ 和相应输入 $X$ 之间更具挑战性的关系。

隐变量公式通常与独立同分布的训练数据集 $\left\{\left(y_{n}, X_{n}\right)\right\}_{n=1, . ., N}$ 相结合，参见图 3B 的概率图模型（标为 “i.i.d.”）。由于隐变量 $h$ 被认为是除 $X$ 之外给似然附加的新输入，因此它也被假设为独立同分布的，并获得一个索引 $n$ 。在可分解的似然下， $\mathbb{ELBO}$ 变为：

\begin{align*} \operatorname{\mathbb{ELBO}}(\gamma, \psi)=& \sum_{n=1}^{N} \iint q_{\psi}(\theta) q_{\psi}\left(h_{n}\right) \ln p_{\gamma}\left(y_{n} \mid \theta, h_{n}, X_{n}\right) \mathbf{d} h_{n} \mathbf{~d} \theta \\ &-\sum_{n=1}^{N} \mathbf{KL}\left(q_{\psi}\left(h_{n}\right)|| p_{\gamma}\left(h_{n}\right)\right)-\mathbf{KL}\left(q_{\psi}(\theta)|| p_{\gamma}(\theta)\right) \tag{46} \end{align*}

每个 $h_{n}$ 都有单独的积分项和 $KL$ 项。为新数据点 $\left\{X_{n}^ {\star}\right\}_{n=1, \ldots, N^{*}}$ 预测 $\left\{y_{n}^{\star}\right\}_{i=1, \ldots, N^{\star}}$ 的公式变成：

p\left(y_{1}^{\star}, \ldots, y_{N^{\star}}^{\star} \mid X_{1}^{\star}, \ldots, X_{N^{\star}}^{\star}\right)=\int \prod_{n=1}^{N^{*}} \int p_{\gamma}\left(y_{n}^{\star} \mid \theta, h_{n}, X_{n}^{\star}\right) p_{\gamma}\left(h_{n}\right) \mathbf{d} h_{n} q_{\psi}(\theta) \mathbf{d} \theta \tag{47}

其中重要的是，相对于公式（45）中的非独立同分布， $h_{n}$ 是基于先验 $p_{\gamma}\left(h_{n}\right)$ 做积分，而不是基于近似后验。将 $h_{n}$ 与先验积分的原因是，在训练过程中，每个训练样本 $\left(X_{n}, y_{n}\right)$ 都有一个单独的近似后验 $q_{\psi}\left(h_{n}\right)$ 。近似后验 $q_{\psi}\left(h_{n}\right)$ 可以被理解为辅助训练工具，它很难被泛化到新数据点 $X_{n}^{\star}$ ，并且通常在训练阶段结束后被“扔掉”，因为预测阶段不再需要它。

出于说明目的，让我们为独立同分布提供一个更具体的示例：一维标签 $y_{n}$ 的回归问题。

与之前类似，先验 $p(\boldsymbol{\theta})$ 是神经网络的向量化权重 $\boldsymbol{\theta}$ 上的平均场多元高斯分布。进一步设想 $p(\mathbf{h}_{n})$ 是一个多元的正态高斯分布，并令似然 $p_{\gamma}(y_{n} \mid \boldsymbol{\theta},\mathbf{h}_{n}, X_{n})$ 是方差为 $v_{\text{lik}}^{(\gamma)}$ 的同方差高斯分布，其中 $\gamma$ 表示方差是一个生成参数；令神经网络的均值是以 $\mathbf{h}_{n}$ 和 $X_{n}$ 为输入的函数： $\boldsymbol{\mu}_{\text {lik }}\left( \mathbf{h}_{n}, X_{n}\right)=f_{\theta}\left(\mathbf{h}_{n}, X_{n}\right)$ ；令变分分布 $q_{\psi}(\boldsymbol{\theta})$ 也是平均场多元高斯；重要的是，为每个数据点 $n$ 定义一个 $\mathbf{h}_{n}$ 上的多元高斯近似后验 $q_{\psi}\left(\mathbf{h}_{n}\right)$ ，其中对于每个 $n$ , 其变分参数为“均值–协方差对”。

我们也可以对 $\mathbf{h}_{n}$ 上的近似后验做不同的参数化。例如，通过将 $\left(y_{n}, X_{n}\right)$ 元组映射到 $\mathbf{h}_{n}$ 的均值向量和协方差矩阵，来获得 $q_{\psi}\left(\mathbf{h}_{n} \mid y_{n}, X_{n}\right)$ 。在这种情况下，变分参数是该映射神经网络的权重，而不是每个训练样本单独的均值和协方差。后者被称为“摊销变分推断”，而变分神经网络称为“识别模型”或“编码器”。此时，似然函数 $\mu_{\text{lik}}\left(\mathbf{h}_{n}, X_{n}\right)=f_{\boldsymbol{\theta}} \left(\mathbf{h}_{n}, X_{n}\right)$ 作为生成模型的一部分，被称为“解码器”。

上一段中的示例对某些读者来说可能听起来很熟悉，并且确实提供了条件变分自动编码器的概念泛化 ^[51] ^[87] 。然而，在普通的条件变分自动编码器中，设置稍微简化了。其中解码器（即参数化似然均值 $μ_{lik}(h_n,X_n) = f_θ(h_n,X_n)$ ）的神经网络参数 $θ$ ）被视为生成参数 $γ$ 而不是人们试图推断的隐变量。

回到寻求对 $θ$ 进行推断的一般情形。如果我们将神经网络权重的先验 $p(\theta)$ 和近似后验 $q_\psi (\theta)$ 置换为运行在 $X_n$ 和 $h_n$ 连接域上的高斯过程，将 $f_\theta(h_n,X_n)$ 置换为 $f(h_n,X_n)$ ，其中 $f(\cdot)$ 表示高斯过程随机函数，我们将会得到与上一段例子等价的一个高斯过程。此工作与 ^[22] 中的工作相似。

请注意，如果将 $\mathbf{h}_{n}$ 上的近似后验参数化为 $q_{\psi}\left(\mathbf{h}_{n} \mid X_{n}\right)$ ，即将其建模为一个仅从 $X_{n}$ 映射到 $\mathbf{h}_{n}$ 的均值向量和协方差矩阵，而忽略 $y_{n}$ 的神经网络，则将在训练期间牺牲标签信息，但可以根据上下文为 $X_{n}^{\star}$ 预测 $y_{n}^{\star}$ ：

p\left(y_{1}^{\star}, \ldots, y_{N^{\star}}^{\star} \mid X_{1}^{\star}, \ldots, X_{N^{\star}}^{\star}\right)=\int \prod_{n=1}^{N^{\star}} \int p_{\gamma}\left(y_{n}^{\star} \mid \theta, h_{n}, X_{n}^{\star}\right) q_{\psi}\left(h_{n} \mid X_{n}^{\star}\right) \mathbf{d} h_{n} q_{\psi}(\theta) \mathbf{d} \theta \tag{48}

我们现在可以利用以 $X_{n}^*$ 为条件的近似后验 ${q_{\psi}(h_{n} \mid X_{n}^{\star})}$ ，而在式 (47) 中，我们被迫使用信息较少的先验 $p_{\gamma}\left(h_{n}\right)$ 代替。另请注意，我们有意将公式（48）中的符号从粗体 $\boldsymbol{\theta}$ 和 $\mathbf{h}_{n}$ 恢复为 $\theta$ 和 $h_{n}$ ，目的是为了在符号上与公式（47）一致。

3.4 隐变量模型的重要性加权变分推断

遵循式（38），我们可以继续，将隐变量的想法与重要性加权技巧相结合，以获得更紧致的 $\mathbb{ELBO}$ 下界（估计方差更小）：

\operatorname{\mathbb{ELBO}}_{S}(\gamma, \psi)=\mathbb{E}_{\Pi_{s=1}^{S} q_{\psi}\left(\theta^{(s)}\right) q_{\psi}\left(h^{(s)}\right)}\left[\ln \frac{1}{S} \sum_{s=1}^{S} \frac{p_{\gamma}\left(y \mid \theta^{(s)}, h^{(s)}, X\right) p_{\gamma}\left(\theta^{(s)}\right) p_{\gamma}\left(h^{(s)}\right)}{q_{\psi}\left(\theta^{(s)}\right) q_{\psi}\left(h^{(s)}\right)}\right] \tag{49}

我们可以从中获得与独立同分布数据集 $\left\{\left(y_{n}, X_{n}\right)\right\}_{n=1, \ldots, N}$ 相对应的公式。通过替换似然和 $h$ 的后验近似（以及 $h$ 的先验）及其因子分解对应物。

但有一种替代方法可以将重要性加权与隐变量公式相结合。由于 $h$ 可以被认为是除 $\theta$ 和 $X$ 之外对似然的附加输入，如上一节所述，可以想象 $\int p(y \mid \theta, h, X) p_{\gamma}(h) \mathbf{d} h$ 作为给定 $X$ 和 $\theta$ 时 $y$ 的真实似然。然后，可以通过近似后验 $q_{\psi}(\theta)$ 的普通变分推断公式继续进行。这给我们留下了一个包含对 $h$ 积分的似然项，我们可以通过对 $h$ 的近似推断通过重要性加权来获得下界。这个想法背后的数学细节如下：

\ln p_{\gamma}(y \mid X)= \ln \iint p(y \mid \theta, h, X) p_{\gamma}(h) \mathbf{d} h p_{\gamma}(\theta) \mathbf{d} \theta \tag{50}

\geq \int q_{\psi}(\theta) \ln \int p(y \mid \theta, h, X) p_{\gamma}(h) \mathbf{d} h \mathbf{~d} \theta-\mathbf{KL}\left(q_{\psi}(\theta) \| p_{\gamma}(\theta)\right) \tag{51}

\geq \int q_{\psi}(\theta) \mathbb{E}_{\Pi_{s=1}^{S} q_{\psi}\left(h^{(s)}\right)}\left[\ln \frac{1}{S} \sum_{s=1}^{S} \frac{p\left(y \mid \theta, h^{(s)}, X\right) p_{\gamma}\left(h^{(s)}\right)}{q_{\psi}\left(h^{(s)}\right)}\right] \mathbf{d} \theta \\ -\operatorname{KL}\left(q_{\psi}(\theta) \| p_{\gamma}(\theta)\right) \tag{52}

其中，在公式 (50) 中，我们在 $\theta$ 上应用了 Jensen 不等式，在公式 (51) 中，我们在边缘项 $\int p(y \mid \theta) , h, X) p_{\gamma}(h) \mathbf{d} h$ 上应用了重要性加权技巧。这种类型的推导明确鼓励抵制 $\mathbb{ELBO}$ 增加的估计方差，这与第 4.3 节中含隐变量的稀疏高斯过程的变分推断有些类似。

在此阶段，我们避免了较易获得的独立同分布数据集的情形。同时还要注意，无论选择哪种变分推断类型，预测未知数据 $X^*$ 的新标签 $y^*$ 的方法并没有改变，上一节中关于传统隐变量变分推断的公式（45）和（47）对于隐变量的重要性加权变分推断仍然有效。

3.5 贝叶斯深度学习和贝叶斯层

事实证明，变分推断可以通过堆叠在彼此之上的构建块实现层次化应用。为此，想象在权重空间视角中的 $L$ 个随机函数表示为 $\{θ^{(1)},\{θ^{(2)},...,\{θ^{(L)}\}$ ，每个函数都是从各自的先验分布 $p_γ(θ^{(l)})$ 中采样，其中 $γ$ 表示生成参数， $l \in \{1,2,...,L\}$ 。

第一个随机函数 $θ^{(1)}$ 接收数据点 $X$ 和自先验 $p_γ(h^{(1)})$ 中采样的隐变量 $h^{(1)}$ 作为输入，生成随机变量 $f^{(1)}$ 。第二个随机函数 $θ^{(2)}$ 接收来自 $f^{(1)}$ 的样本以及来自另一个隐变量 $h^{(2)}∼p_γ(h^{(2)})$ 的样本作为输入，产生 $f^{(2)}$ 等等。重复此过程，直到获得最后一层 $L$ 的随机变量 $f^{(L)}$ 。随机变量 $f^{(L)}$ 评估了在给定 $p_γ(y|f^{(L)})$ 时标签 $y$ 的似然。

关于这种层次式生成过程的概率图模型见图 4A ，其中 “似然层” 通过右侧的红色矩形突出显示。似然层之前的所有层都是具有各自随机函数的构建块（接收前一层的输出以及该块专有的隐变量作为输入）。这些块被称为“贝叶斯层” ^[93] ，图 4 A ）左侧图中的红色三角形突出显示了其中第二个。注意，隐变量 $h^{(l)}$ 对于每一层都是可选的，而且每层都有一个 $h^{(l)}$ 就模型灵活性而言实际上是一种矫枉过正，但此处我们选择代表更一般性的情况。

图 4：监督学习设置中深度变分推断的概率图模型。 $X$ 指输入和 $y$ 指标签。随机函数通过符号 $θ$ 在权重空间视角中进行描述，（我们也可以选择在函数空间视角中使用符号 $f(\cdot)$ ）。 A ）为泛化的表述形式；B) 为独立同分布数据集的表述形式，其中将索引 $n$ 添加到根据样本分解的变量上。输入 $X$ 和第一个隐变量 $h^{(1)}$ 确定在哪里评估第一个随机函数 $θ^{(1)}$ 。这产生了一个随机变量 $f^{(1)}$ 与 $h^{(2)}$ 一起确定在哪里评估第二个随机函数 $θ^{(2)}$ ，依此类推。最后一层描述了 $f^{(L)}$ 条件下 $y$ 的似然。左边的红色三角形表示（生成部分）贝叶斯层。贝叶斯层作为深度变分推断的构建块相互堆叠。右边的红色矩形表示最后一个贝叶斯层上的似然层。为了对相应的隐变量进行近似推断，贝叶斯层还需要维护一个近似后验，（即在泛化表述形式中的 $θ^{（l）}$ 以及 $h^{（l）}$ 和独立同分布表述形式中的 $θ^{(l)}$ 以及 $h^{(l)}_n$ ）。

为了对隐函数 $θ$ 和隐变量 $h$ 进行推断，需要对所有 $θ$ 和 $h$ 上的联合分布引入近似后验。对后验做近似建模的常用方法是为隐变量和函数作成对独立，生成 $q_{\psi}\left(\theta^{(1)}\right) q_{\psi}\left(h^{( 1)}\right) \cdots q_{\psi}\left(\theta^{(L)}\right) q_{\psi}\left(h^{(L)}\right)$ ，其中 $\psi$ 表示变分参数。每个 $\left(q_{\psi}\left(\theta^{(l)}\right), q_{\psi}\left(h^{(l)}\right)\right)$ -对都是对应的贝叶斯层 $l$ 的一部分。在此假设下， $\mathbb{ELBO}$ 看起来如下：

\begin{align*} \operatorname{\mathbb{ELBO}}(\gamma, \psi)=& \int q_{\psi}\left(f^{(L)}\right) \ln p_{\gamma}\left(y \mid f^{(L)}\right) \mathbf{d} f^{(L)} \\ &-\sum_{l=1}^{L} \mathbf{KL}\left(q_{\psi}\left(h^{(l)}\right)|| p_{\gamma}\left(h^{(l)}\right)\right)-\sum_{l=1}^{L} \mathbf{KL}\left(q_{\psi}\left(\theta^{(l)}\right)|| p_{\gamma}\left(\theta^{(l)}\right)\right) \tag{53} \end{align*}

其中 $q_{\psi}\left(f^{(L)}\right)$ 指在 $f^{(L)}$ 上的近似后验边缘分布，该边缘分布通过对所有 $\theta^{(l)}$ 和 $h^{(l)}$ （从 1 到 $L$ 的所有层 $l$ ），以及所有随机变量 $f^{(l)}$ （从 1 到 $L- 1$ ）做边缘化得到。请注意，每一层都有各自的关于隐变量和隐函数的 $KL$ 项。

在通过贝叶斯层和似然层的后验近似传播单个输入 $X$ 以评估公式（53）中的预期对数似然项时，每一层都需要“跟踪”其对总 $KL$ 项的贡献（最终 $\mathbb{ELBO}$ 目标的一部分）。此外，通过对每一层中的 $\theta^{(l)}、h^{(l)}$ 和 $f^{(l)}$ 重参数化可以得到一个端到端的可微系统 ^[50] ^[77] ，而最后一个 $f^{(L)}$ 则成了变分参数 $\psi$ 的函数，此处变分参数 $\psi$ 应当覆盖 $l=1$ 到 $L$ 的所有变分分布 $q_{\psi}\left(\theta^{(l)}\right)$ 和 $q_{\psi}\left(h^{(l)}\right)$ 。公式（53）中的期望对数似然项则可以通过 $X$ 在所有层上的多次随机传播获得的独立样本来近似。

在从上面的深度变分推断模型中预测未知数据 $X^{\star}$ 的 $y^{\star}$ 可以通过以下方式完成：

p\left(y^{\star} \mid X^{\star}\right)=\int p_{\gamma}\left(y^{\star} \mid f^{\star(L)}\right) q_{\psi}\left(f^{\star(L)}\right) \mathbf{d} f^{\star(L)} \tag{54}

类似于公式（53）， $q_{\psi}\left(f^{\star(L)}\right)$ 指的是 $f^{\star(L)}$ 上的边缘分布（对所有层的隐变量和隐函数 $\theta^{(l)}$ 和 $h^{(l)}$ ，以及除最后一层外的所有 $f^{\star(l)}$ 做边缘化后的结果）。上标星符号 $^{\star}$ 指通过近似后验模型传播得到的新样本 $X^{\star}$ 。

图 4B 说明了独立同分布数据假设 $\left\{\left(y_{n}, X_{n}\right)\right\}_{n=1, \ldots, N}$ 下生成过程的概率图模型。其中每一层 $l$ 的隐变量 $h_{n}^{(l)}$ 对样本 $n$ 进行分解，但隐函数 $\theta^{(l)}$ 不会。在独立同分布数据假设下， $\mathbb{ELBO}$ 类似于公式（53）：

\begin{align*} \operatorname{\mathbb{ELBO}}(\gamma, \psi)=& \sum_{n=1}^{N} \int q_{\psi}\left(f_{n}^{(L)}\right) \ln p_{\gamma}\left(y_{n} \mid f_{n}^{(L)}\right) \mathbf{d} f_{n}^{(L)} \\ &-\sum_{n=1}^{N} \sum_{l=1}^{L} \mathbf{KL}\left(q_{\psi}\left(h_{n}^{(l)}\right)|| p_{\gamma}\left(h_{n}^{(l)}\right)\right)-\sum_{l=1}^{L} \mathbf{KL}\left(q_{\psi}\left(\theta^{(l)}\right)|| p_{\gamma}\left(\theta^{(l)}\right)\right) \end{align*} \tag{55}

除了每个数据点 $n$ 有一个单独的期望对数似然项，以及每层 $l$ 和数据点 $n$ 有一个单独的的 $h_{n}^{(l)}$ 隐变量 $KL$ 项。然而，每个函数 $\theta^{(l)}$ 在每一层 $l$ 只有一个隐函数 $KL$ 项，因为对于不同数据点 $n$ 函数参数 $\theta^{(l)}$ 是相同的。因此，隐函数的 $KL$ 项也被称为“全局 $KL$ 项”，而隐变量的 $KL$ 项也称为“局部 $KL$ 项”。

给定新数据点 $X_{n}^{\star}$ 预测新的 $y_{n}^{\star}$ 需要相应地调整公式 (54)，通过插入独立同分布似然并通过计算近似后验边缘的期望 $q_{\psi}\left(\mathbf{f}^{\star(L)}\right)$ ，产生：

p\left(y_{1}^{*}, \ldots, y_{N^{*}}^{\star} \mid X_{1}^{\star}, \ldots, X_{N^{*}}^{\star}\right)=\int \prod_{n=1}^{N^{*}} p_{\gamma}\left(y_{n}^{\star} \mid \mathbf{f}^{\star(L)}\right) q_{\psi}\left(\mathbf{f}^{\star(L)}\right) \mathbf{d} \mathbf{f}^{\star(L)} \tag{56}

符号 $\mathbf{f}^{ \star(L)}$ 表示最后一层 $L$ 的多元随机变量，它是通过所有层共同传播所有新评估点 $X_{n}^{\star}$ 获得的。

在本节中，为了保持符号的轻量级，我们尽可能使用了非粗体符号，但大家要记住，这并不意味着相应变量必须是标量。此外，我们主要使用了大多数读者更熟悉的权重空间视角。下一节在介绍稀疏高斯过程的变分推断问题时，我们将恢复到函数空间视角，其中会将第 2 节的内容与第 3 节的内容结合起来。这将为大家提供一个在多标签问题领域，具备高效内存和计算方式的、有关原则性和灵活性近似推断的现代高斯过程技术的概览（例如：使用非高斯和异方差似然）。

4 浅层稀疏高斯过程的变分推断

如第 2 节中介绍的，稀疏高斯过程可以通过控制内存和计算复杂性的预定义数量的或特征来近似难以处理的后验高斯过程。（及其相应上的分布参数）被视为在变分推断过程中最大化 $\mathbb{ELBO}$ 目标的优化参数。在下文中，我们根据本教程的前几部分假设监督学习设置（特别关注独立同分布数据场景）。在第 4.1 节中，我们解释了如何使用稀疏高斯过程模型进行传统变分推断，包括一些实践中常用的技巧。在第 4.2 节中，我们将隐变量引入稀疏高斯过程以增加其灵活性，我们在第 4.3 节中通过重要性加权技巧对其进行了扩展。

IntroducingPointsExample

选择过程的图示。蓝点代表，绿点数据和橙色线代表高斯过程模型的预测均值，被一个标准误差包围。虚线表示现有覆盖的空间，只有在这些区域之外的点才会被选为新。

4.1 浅层稀疏高斯过程

让我们从贝叶斯推断开始，用于具有独立同分布的监督学习。训练数据集 $\left\{\left(y_{n}, X_{n}\right)\right\}_{n=1, \ldots, N}$ 大小为 $N$ ，其中 $y_{n}$ 是指与训练样本 $X_{n}$ 相关的实值标签。然后似然对样本 $n$ 进行分解，并且在给定相应的 $X_{n}$ 的情况下观察单个 $y_{n}$ 的概率表示为 $p_{\gamma}\left(y_{n} \mid f(\cdot), X_{n}\right)=p_{\gamma}\left(y_{n} \mid f\left(X_{n}\right)\right)$ 其中 $f(\cdot)$ 指的是一个未知函数，它在 $X_{n}$ 处评估并根据一些先前的单输出高斯过程 $p_{\gamma}(f(\cdot))$ 分布。为方便起见，我们再次假设 $\gamma$ 指所有生成参数，并且 $f(\cdot)$ 是一个实值函数（尽管后续公式在多标签问题、向量值函数和多输出高斯过程下仍然有效）。 $f(\cdot)$ 上的精确后验高斯过程可以用贝叶斯规则表示为：

p_{\gamma}\left(f(\cdot) \mid y_{1}, \ldots, y_{N}, X_{1}, \ldots, X_{N}\right)=\frac{\prod_{n=1}^{N} p_{\gamma}\left(y_{n} \mid f\left(X_{n}\right)\right) p_{\gamma}(f(\cdot))}{\int \prod_{n=1}^{N} p_{\gamma}\left(y_{n} \mid f\left(X_{n}\right)\right) p_{\gamma}(f(\cdot)) \mathbf{d} f(\cdot)} \tag{57}

也就是说，在任意似然下的最一般情况下，不再保证是高斯过程。如果似然是高斯的， $f\left(X_{n}\right)$ 是特定 $y_{n}$ 的平均值，那么后验高斯过程将是封闭形式的高斯过程 ^[76] 。

然而，这种封闭形式的解需要对一个行列数等于训练样本数量的矩阵求逆，其复杂度是 $N$ 的三次方。因此，即使存在封闭形式的解，对于大 $N$ 而言，后验计算也是难以处理的。

通过在公式 (12) 给出的近似后验稀疏高斯过程下诉诸变分推断，在下文中表示为 $q_{\psi, \gamma}(f(\cdot))$ ，可以轻松处理非高斯似然和同时控制内存和计算复杂度。在这一点上，我们请读者不要对变分和生成参数 $\psi$ 和 $\gamma$ 的下标感到困惑——这方面有点微妙，与普通的变分推断公式不同，将在随后的一段。以下表达式与如何选择无关，即它对普通有效，但对跨域特征也有效。在独立同分布下设置，稀疏高斯过程的 $\mathbb{ELBO}$ 可以写成：

\operatorname{\mathbb{ELBO}}(\gamma, \psi) =\sum_{n=1}^{N} \int q_{\psi, \gamma}(f(\cdot)) \ln p_{\gamma}\left(y_{n} \mid f(\cdot), X_{n}\right) \mathbf{d} f(\cdot)-\operatorname{KL}\left(q_{\psi, \gamma}(f(\cdot)) \| p_{\gamma}(f(\cdot))\right) \tag{58}

=\sum_{n=1}^{N} \int q_{\psi, \gamma}\left(f\left(X_{n}\right)\right) \ln p_{\gamma}\left(y_{n} \mid f\left(X_{n}\right)\right) \mathbf{d} f\left(X_{n}\right)-\mathbf{KL}\left(q_{\psi}(\mathbf{u}) \| p_{\psi, \gamma}(\mathbf{u})\right) \tag{59}

其中变分参数 $\psi$ 是指多元高斯分布 $q_{\psi}(\mathbf{u})$ 对 $\mathbf{u}$ - 的均值和协方差 - 参见公式（3）- ，以及位置 $Z_{1}, \ldots, Z_{M}$ （或的参数，如果它们包含可优化参数）。生成参数 $\gamma$ 通常包括先验核的超参数和似然（例如，同方差高斯似然情况下的似然方差）。术语 $p_{\psi, \gamma}(\mathbf{u})$ 是指由先验过程 $p_{\gamma}(f(\cdot )) .$ 在普通的公式中，先验变量 $p_{\psi, \gamma}(\mathbf{u})$ 只是在计算先验高斯过程的结果点 $Z_{m}$ 。这解释了 $p_{\psi, \gamma}(\mathbf{u})$ 中的下标 $\psi$ ，因为 $p_{\psi, \gamma}(\mathbf{u} )$ 隐含地依赖于作为变分参数的位置。

我们将很快解释如何从公式 (58) 到公式 (59)，但在此之前，强调一个与普通变分推断目标不同的关于变分和生成参数 $\psi$ 和 $\gamma$ 的特性。处理 $q_{\psi, \gamma}(f(\cdot))=\int p_{\psi, \gamma}(f(\cdot) \mid \mathbf{u}) q_{\psi}(\mathbf {u}) \mathbf{d} \mathbf{u}$ ，首先导致公式 (12) 中稀疏高斯过程的公式化，根据定义不仅取决于变分参数 $\psi$ ，还取决于生成参数 $\gamma$ 。这是因为术语 $p_{\psi, \gamma}(f(\cdot) \mid \mathbf{u})$ 是先验高斯过程 $p_{\gamma}(f( \cdot))$ 以 $\mathbf{u}$ 为条件，并且先前的高斯过程是生成模型的一部分。所以先验过程的参数，如核超参数，直接影响近似后验高斯过程。还要注意，符号 $p_{\psi, \gamma}(f(\cdot) \mid \mathbf{u})$ 隐藏了一些“依赖关系”，例如在公式中， $\mathbf{u}$ 被“分配给” $Z_{m}$ ，它们是变分参数，因此解释了 $p_{\psi, \gamma}(f(\cdot) \mid \mathbf{u})$ 中的下标伽玛

从公式（58）到公式（59），我们用有限维随机变量的积分代替了无限维随机函数的积分，解释如下。公式 (59) 中的预期对数似然项仅仅是独立同分布的结果，对 $f(\cdot)$ 进行边缘化的结果。设置和强加于似然的函数形式： $y_{n}$ 以在 $X_{n}$ 处评估的 $f(\cdot)$ 为条件，并且不依赖于除 $X_{n}$ 以外的评估点处的函数值。

然而，第二个 $KL$ 术语需要一些解释。它表示在近似后验 $q_{\psi, \gamma}(f(\cdot))$ 下和在先验 $p_{\gamma}(f(\cdot) )$ ，并且在数学上等价于在 $\mathbf{u}$ 上的变分分布 $q_{\psi}(\mathbf{u})$ 和 $\mathbf{u}$ 上的分布之间的有限维 $KL$ 在先前的过程中 $p_{\psi, \gamma}(\mathbf{u}) .$ 后一个等价可以查阅 ^[63] ：

\operatorname{KL}\left(q_{\psi, \gamma}(f(\cdot))|| p_{\gamma}(f(\cdot))\right)=\int q_{\psi, \gamma}(f(\cdot)) \ln \frac{q_{\psi, \gamma}(f(\cdot))}{p_{\gamma}(f(\cdot))} \mathbf{d} f(\cdot) \tag{60}

=\int q_{\psi, \gamma}(f(\cdot)) \ln \frac{p_{\psi}(\mathbf{u} \mid f(\cdot)) q_{\psi, \gamma}(f(\cdot))}{p_{\psi}(\mathbf{u} \mid f(\cdot)) p_{\gamma}(f(\cdot))} \mathbf{d} f(\cdot) \tag{61}

=\iint q_{\psi, \gamma}(f(\cdot), \mathbf{u}) \ln \frac{q_{\psi, \gamma}(f(\cdot), \mathbf{u})}{p_{\psi, \gamma}(f(\cdot), \mathbf{u})} \mathbf{d} \mathbf{u} \mathbf{d} f(\cdot) \tag{62}

=\iint p_{\psi, \gamma}(f(\cdot) \mid \mathbf{u}) q_{\psi}(\mathbf{u}) \ln \frac{p_{\psi, \gamma}(f(\cdot) \mid \mathbf{u}) q_{\psi}(\mathbf{u})}{p_{\psi, \gamma}(f(\cdot) \mid \mathbf{u}) p_{\psi, \gamma}(\mathbf{u})} \mathrm{d} \mathbf{u} \mathrm{d} f(\cdot) \tag{63}

=\int q_{\psi}(\mathbf{u}) \ln \frac{q_{\psi}(\mathbf{u})}{p_{\psi, \gamma}(\mathbf{u})} \mathbf{d} \mathbf{u}=\operatorname{KL}\left(q_{\psi}(\mathbf{u})|| p_{\psi, \gamma}(\mathbf{u})\right)\tag{64}

上述公式中的关键部分是理解如何从公式（60）到（62），其中我们在近似后验下引入了 $f(\cdot)$ 和 $\mathbf{u}$ 上的联合分布 $q_{\psi, \gamma}(f(\cdot), \mathbf{u})$ 和之前的 $p_{\psi, \gamma}(f(\cdot), \mathbf{u}) .$ 这个由于引入了对 $\mathbf{u}$ 的积分，因此 step 看起来不直观。我们首先通过条件分布 $p_{\psi}(\mathbf{u} \mid f(\cdot))$ 修正公式（60）的对数内的分数，这是一个狄拉克 delta 函数，由通过跨域特征 $\phi_{m}$ （或普通公式中的 $Z_{m}$ ）的线性变换，因此下标 $\psi$ ，因为跨域变换包含变分参数。

请记住， $u$ 是 $f(\cdot)$ 的一个函数并且完全由 $f(\cdot)$ 确定，并且公式 (61) 的对数包含在关节的分数 over $f(\cdot)$ 和近似后验和先验之下（因为条件 $p_ψ(u |f(\cdot))$ 对两者都是一样的）。因此，可以在公式 (62) 中引入上的积分，其中联合将所有概率质量分配给一个特定的给定 $f(\cdot)$ 。在公式 (63) 中，我们然后用其他条件边缘对表达“相反”的对数 over $f(\cdot)$ and $u$ inside 的关节。由于近似后验的定义方式，项 $p_{ψ,γ}(f(\cdot)|u)$ 取消。由于 log 不再依赖于 $f(\cdot)$ ，我们可以边缘化 over $f(\cdot)$ 产生有限维积分 over $u$ 。

在这一点上，呈现稀疏高斯过程的概率图模型可能会很有见地，如图 5A) 所示。到目前为止，我们故意省略了概率图模型，因为我们觉得从教育目的开始，它不一定直观，也没有帮助。

图 5：在独立同分布中具有稀疏高斯过程的变分推断的概率图模型监督学习设置。 $X_n$ 为训练样本和 $y_n$ 是标签。随机函数 $f(\cdot)$ 和 $u$ 都被视为隐变量。评估特定输入位置 $X$ 处的随机函数 $f(\cdot)$ 产生随机变量 $f(X_n)$ 。后者确定对应于 $X_n$ 的 label $y_n$ 的似然。与 $Z$ （在公式中）或与 $φ$ （在跨域形式中）相关联。粗体符号表示所有的（或特征）和它们对应的被折叠成一个变量。这是必要的，因为向量的各个元素不是成对独立的。出于内存和计算效率的考虑，或特征的数量 $M$ is 通常远小于训练样本的数量 $N$ (indexed by $n$ )。具有稀疏高斯过程的普通变分推断背后的概率图模型在 A) 和第 4.1 节的主题中进行了描述。相应的隐变量公式背后的概率图模型需要另一个隐变量 $h_n$ ，在 B) 中描述——这是第 4.2 节的主题。还要注意，/特征不是生成模型的一部分：给定 $X_n$ ， $ui$ 不需要在先验下生成。技术原因是节点 for $f(\cdot)$ 有两个向外的箭头。/特征只是 infer $f(\cdot)$ 的近似后验的一部分，因此是变分参数。

公式 (59) 中 $\mathbb{ELBO}$ 的一个实际优点是，由于高斯假设，KL 项具有解析表达式。在高斯似然的情况下，预期对数似然项也具有封闭形式表达式。但是，如果训练数据点的数量过多，则对所有示例求和可能不可行。然后可以使用小批量处理以获得预期对数似然项的无偏估计 ^[36] 。在其他似然模型下，不存在封闭形式的表达式，必须求助于蒙特卡罗方法或高斯-厄米正交 ^[38] 。在后一种情况下，为了优化目的，高斯随机变量 $f(X_n)$ 被重参数化 ^[50] ^[77] 。另请注意，对于单输出设置，其中 $f(X_n)$ 只是标量，在近似预期对数似然项时，高斯-厄米正交通常不会造成太大的精度损失。

新数据集 $\{X_{n}^*\}_{n=1, \ldots, N^{\star}}$ 的预测 $\{y_{n}^{\star}\}_{n=1, \ldots, N^{*}}$ 通过将似然与近似后验高斯过程相乘并对函数值进行积分，对于稀疏高斯过程很简单：

p\left(y_{1}^{\star}, \ldots, y_{N^{*}}^{\star} \mid X_{1}^{\star}, \ldots, X_{N^{\star}}^{\star}\right)=\int \prod_{n=1}^{N^{*}} p_{\gamma}\left(y_{n}^{\star} \mid f\left(X_{n}^{\star}\right)\right) q_{\psi, \gamma}\left(\mathbf{f}^{\star}\right) \mathbf{d} \mathbf{f}^{\star} \tag{65}

其中 $q_{\psi, \gamma}\left(\mathbf{f}^{\star}\right)$ 表示评估近似后验高斯过程时得到的多元高斯分布 $q_{\psi, \gamma}(f( \cdot))$ 在新观测值 $X_{1}^{\star}, \ldots, X_{N^{*}}^{\star} .$ 对于高斯似然，预测分布具有封闭形式解，因为它是高斯的。对于其他似然，我们需要再次求助于蒙特卡罗方法或高斯-厄米积分。

至此，读者应该对稀疏高斯过程模型的变分推断有了很好的理解。我们继续通过一些参数化技巧来结束本节，以归纳在实际应用中派上用场的变量 $\mathbf{u}$ 。首先，让我们提醒自己如何对的变分分布 $q_{\psi}(\mathbf{u})$ 进行参数化，即作为具有均值向量 $\mathbf{m}_{\mathbf{u}}$ 和协方差矩阵 $\mathbf{S}_{\text{uu}}$ – 见式（3）。变量 $\mathbf{m}_{\mathbf{u}}$ 以差值 $\mathbf{m}_{\mathbf{u}} - \boldsymbol{\mu}_{\mathbf{u}}$ ，其中 $\boldsymbol{\mu}_{\mathbf{u}}$ 是 $\mathbf{u}$ 在先验条件下的均值。我们还可以定义一个替代 $\tilde{\mathbf{u}}:=\mathbf{u}-\boldsymbol{\mu}_{\mathbf{u}}$ 在先验均值下修正 $\boldsymbol{\mu}_{\mathbf{u}}$ ，并通过均值向量 $\mathbf{m}_{\tilde{u}}$ 和协方差矩阵 $\mathbf{S}_{\tilde {u} \tilde{u}}$ 进行参数化，结果如下：

f(\cdot) \sim \mathcal{G} \mathcal{P}\left(\mu(\cdot)+\mathbf{k}_{\cdot \mathbf{u}} \mathbf{K}_{\mathbf{u u}}^{-1} \mathbf{m}_{\tilde{u}}, k\left(\cdot,^{\prime}\right)-\mathbf{k}_{\cdot \mathbf{u}} \mathbf{K}_{\mathbf{u u}}^{-1}\left(\mathbf{K}_{\mathbf{u u}}-\mathbf{S}_{\tilde{u} \tilde{u}}\right) \mathbf{K}_{\mathbf{u u}}^{-1} \mathbf{k}_{\mathbf{u}^{\prime}}\right) \tag{66}

人们可能想知道除了在式（12）中，用 $\mathbf{m}$ 替换 $\mathbf{m}_{\mathbf{u}}-\boldsymbol{\mu}_{\mathbf{u}}$ 和用 $\mathbf{S}_{\text {ũũ}}$ 替换 $S_{uu}$ 之外，这种替代参数化的优势是什么？答案是公式 (59) 中 $\mathbb{ELBO}$ 中的 $KL$ 项变得更方便计算为 $\operatorname{KL}\left(q_{\psi}(\tilde{\mathbf{u}})|| p_{ \gamma}(\tilde{\mathbf{u}})\right) .$ 这是可能的，因为 $\mathbf{KL}$ 在随机变量 u 的所述变换下是不变的。在“变换”的 KL 下，先验下 $\tilde{\mathbf{u}}$ 上的分布 $p_{\gamma}(\tilde{\mathbf{u}})$ 具有零均值，协方差矩阵 $\ mathbf{K}_{\mathbf{uu}}$ 。这在 $2.3$ 节介绍的跨域形式中特别有用，其中根据公式 (13) 计算 $\boldsymbol{\mu}_{\mathbf{u}}$ 需要对平均函数 $\mu(\cdot) 之间的乘积进行积分$ 和输入域 $\mathcal{X}$ 上的特征函数 $\phi_{m}(\cdot)$ 。通常，该积分对于任何平均函数都没有封闭形式的表达式。然而，在 $\tilde{\mathbf{u}}$ 的替代参数化下，这种集成变得不必要——使用任意均值函数因此不再是问题。

利用 KL 在随机变量 $\mathbf{u}$ （或分别为 $\tilde{\mathbf{u}}$ ）的“变量变化”变换下不变的事实，我们可以更进一步并用均值定义 $\hat{\mathbf{u}}:=\operatorname{chol}\left(\mathbf{K}_{\mathbf{uu}}\right) \tilde{\mathbf{u}}$ 向量 $\mathbf{m}_{\hat{u}}$ 和协方差矩阵 $\mathbf{S}_{\text {ûû }} $ ，其中 chol 指的是 Cholesky 分解。这产生 $\operatorname{KL} (q_{\psi}(\hat{\mathbf{u}}) \| p_{\gamma}(\hat{\mathbf{u}}))$ 其中 $p_{\gamma}(\hat{\mathbf{u}})$ 成为标准正态多元高斯（维度为 $M$ ）。后一个参数化需要在公式 (66) 中用 $\operatorname{chol}(\mathbf{K}_{\mathbf{uu}}）^{-1} \mathbf{m}_{\hat{\mathbf{u}}}$ 和 $\mathbf{S}_{\tilde{u} \text { ũ }}$ 和 $\operatorname {chol}\left(\mathbf{K}_{\mathbf{uu}}\right)^{-1} \mathbf{S}_{\hat{u} \hat{u}} \operatorname{chol} \left(\mathbf{K}_{\mathbf{uu}}\right)^{-\top}$ 。请注意， $û$ 的这种参数化是一种特定的白化形式，可以促进从公式 (59) 优化 $\mathbb{ELBO}$ ，并且是当代高斯过程软件框架中提供的标准功能 ^[64] 。

另一个常见的技巧是将生成参数（例如内核长度尺度）初始化为“合理”值（如果这些值已知），然后仅针对变分参数进行初始优化，同时保持生成参数固定。一旦确定了变分参数的合理值（例如，在固定次数的训练迭代之后），生成参数就会“松开”并与变分参数一起联合优化。初始化生成参数，如内核超参数，使得它们离最优值很远，可能会导致大梯度，从而阻碍优化过程。

最后，请注意，如前所述，本节中介绍的所有公式在任意似然、多标签问题、向量值函数和多输出高斯过程下仍然有效。例如，我们可以用异方差高斯似然直接公式化一个回归问题，如下所示 ^[82] 。

在具有两个输出的向量值随机函数 $\mathbf{f}(\cdot)$ 下，我们可以将高斯似然定义为 $p\left(y_{n} \mid \mathbf{f}\left(X_{n }\right)\right)$ 均值 $\boldsymbol{\mu}_{\text {lik }}=\mathbf{f}\left(X_{n}\right)[1]$ 和方差 $v_{\text {lik } }=g\left(\mathbf{f}\left(X_{n}\right)[2]\right)$ ，其中 1 和 2 指的是两个输出索引，其中 $g(\cdot)$ 是严格的具有实线支持的正函数（因为高斯过程函数值是实值但方差需要为正）。这个例子是概念函数空间，相当于前面在第 3.1 节中权重空间公式下为变分推断提出的神经网络例子。

4.2 隐变量的浅层稀疏高斯过程

根据 $3.3$ 节，可以为每个训练示例 $n$ 引入另一个隐变量 $h_{n}$ ，以使稀疏高斯过程的生成模型更加灵活。相应的概率图模型如图 5 B) 所示。为此，假设 $f(\cdot)$ 和所有 $h_{n}$ 的先验分解为 $p_{\gamma}(f(\cdot))$ 和 $\prod_{n=1 }^{N} p_{\gamma}\left(h_{n}\right) .$ 单个示例的似然 $\left(X_{n}, y_{n}\right)$ 然后定义为 $ p*{\gamma}\left(y*{n} \mid f(\cdot), h*{n}, X*{n}\right)=p*{\gamma}\left(y*{n} \mid f\left (h*{n}, X*{n}\right)\right)$，其中符号 $f\left(h_{n}, X_{n}\right)$ 表示高斯过程在输入 $X_{n}$ 和隐变量 $h_{n}$ 。

要理解为什么这会增加建模灵活性，请想象一个均值 $\boldsymbol{\mu}_{\text {lik }}=f\left(h_{n}, X_{n}\right)$ 和固定方差的同方差高斯似然。如果没有隐变量 $h_{n}$ ，则给定 $f(\cdot)$ 和 $X_{n}$ 在 $y_{n}$ 上的分布是单峰的。然而，在隐变量公式下，给定 $f(\cdot)$ 和 $X_{n}$ 的 $y_{n}$ 的似然可以是多峰的（当在 $h_{n}$ 上积分时），因此变得更多富有表现力。在做变分推断时，我们还需要对所有 $h_{n}$ 进行推断。一般假设是近似后验分解如下 $q_{\psi, \gamma}(f(\cdot)) \prod_{n=1}^{N} q_{\psi}\left(h_{n} \right)$ ，其中 $q_{\psi, \gamma}(f(\cdot))$ 取决于变分参数 $\psi$ 和生成参数 $\gamma$ ，如前所述，以及 $q_{\psi} \left(h_{n}\right)$ 指的是 $h_{n}$ 上的近似后验。$ \mathbf{\mathbb{ELBO}}$ 表示如下：

\operatorname{\mathbb{ELBO}}(\gamma, \psi)= \sum_{n=1}^{N} \iint q_{\psi, \gamma}(f(\cdot)) q_{\psi}\left(h_{n}\right) \ln p_{\gamma}\left(y_{n} \mid f(\cdot), h_{n}, X_{n}\right) \mathbf{d} h_{n} \mathbf{~d} f(\cdot) \\ -\sum_{n=1}^{N} \mathbf{KL}\left(q_{\psi}\left(h_{n}\right) \| p_{\gamma}\left(h_{n}\right)\right)-\operatorname{KL}\left(q_{\psi}, \gamma(f(\cdot))|| p_{\gamma}(f(\cdot))\right) \tag{67}

= \sum_{n=1}^{N} \int q_{\psi}\left(h_{n}\right) \int q_{\psi, \gamma}\left(f\left(h_{n}, X_{n}\right)\right) \ln p_{\gamma}\left(y_{n} \mid f\left(h_{n}, X_{n}\right)\right) \mathbf{d} f\left(h_{n}, X_{n}\right) \mathbf{d} h_{n} \\ -\sum_{n=1}^{N} \mathbf{KL}\left(q_{\psi}\left(h_{n}\right) \| p_{\gamma}\left(h_{n}\right)\right)-\operatorname{KL}\left(q_{\psi}, \gamma(\mathbf{u}) \| p_{\psi, \gamma}(\mathbf{u})\right) \tag{68}

推导类似于变分推断，没有额外的隐变量，如公式 (59)。请注意，在预期对数似然项中，对 $f$ 和 $h_{n}$ 的积分已在公式 (67) 和 (68) 之间“交换”。与之前类似，可以对在特定位置 $\left(h_{n}, X_{n}\right)$ 评估的 $f\left(h_{n}, X_{n}\right)$ 进行积分，而不是到所有 $f(\cdot)$ 。然后发生“交换”，因为 $h_{n}$ 是 $f(\cdot)$ 输入的一部分。还要注意，公式（68）的第一项中对 $f\left(h_{n}, X_{n}\right)$ 的最内层期望通常可以有效地计算（例如在高斯似然下的封闭形式）。

可以为每个数据点 $n$ 独立选择近似后验 $q_{\psi}\left(h_{n}\right)$ ，或者通过参数映射 $q_{\psi}\left(h_ {n} \mid y_{n}, X_{n}\right)$ 将训练元组 $\left(y_{n}, X_{n}\right)$ 概率映射到 $h_{n}$ 。从概念上讲，本节中介绍的模型类似于 Dutordoir 等人中介绍的模型 ^[22] ，并且可以解释为函数空间等价于条件变分自编码器的广义版本 ^[51] ^[87] 。条件变分自编码器自然地采用参数空间视图，但将函数参数识别为点估计而不是通过推断。

虽然隐变量稀疏高斯过程比普通稀疏高斯过程更灵活，但公式（68）中的 $\mathbb{ELBO}$ 需要对 $h_{n}$ 进行额外的采样步骤。这个额外的抽样步骤导致 $\mathbb{ELBO}$ 估计的方差增加。在下一节中，我们将提出一种方法来使用之前的重要性加权技巧来缓解这个问题。但在此之前，让我们结束本节如何对新数据示例进行预测 $\left\{y_{n}^{\star}\right\}_{n=1, \ldots, N} \times$ $ \left{X*{n}^{\star}\right}*{n=1, \ldots, N^{\star}}:$

p\left(y_{1}^{\star}, \ldots, y_{N^{*}}^{\star} \mid X_{1}^{\star}, \ldots, X_{N^{\star}}^{\star}\right)=\int \ldots \iint \prod_{n=1}^{N^{\star}} p_{\gamma}\left(y_{n}^{\star} \mid f\left(h_{n}^{\star}, X_{n}^{\star}\right)\right) p_{\gamma}\left(h_{n}^{\star}\right) q_{\psi, \gamma}\left(\mathbf{f}^{\star}\right) \mathbf{d} \mathbf{f}^{\star} \mathbf{d} h_{N^{\star}}^{\star} \mathbf{d} h_{1}^{\star} \tag{69}

其中 $q_{\psi, \gamma}\left(\mathbf{f}^{\star}\right)$ 是指评估 $q_{\psi, \gamma}(f(\cdot ))$ $\left(h_{n}^{\star}, X_{n}^{\star}\right)$ -pairs。请注意，隐变量 $h_{n}^{\star}$ 上的积分是最外层的，因为多元随机变量 $\mathbf{f}^{\star}$ 隐式依赖于所有 $h_{n}^{\star }$ -因为 $f(\cdot)$ 接收 $X_{n}^{\star}$ 和 $h_{n}^{\star}$ 作为联合输入。还要记住，在预测 $y_{n}$ 时需要先验 $p_{\gamma}(h_{n}^{\star})$ 对隐变量 $h_{n}^{\star}$ 用于新数据点 $X_{n}^{\star}$ 。后者是由于这样一个事实，即不可能对先前未见过的数据点 $X^{\star}$ 评估隐变量 $h^{\star}$ 的近似后验 - 既不是在朴素的公式 $q_ψ( h_n)$ 其中每个训练示例 $X_n$ 都有一个近似后验，但对于看不见的数据点 $X^*_n$ 没有，也不在摊销公式下，其中近似后验 $q_ψ(h_n|y_n,X_n)$ 取决于在预测时对于新数据点未知的标签。

4.3 重要性加权的隐变量浅层稀疏高斯过程

如上一节所述，隐变量公式的一个缺点是与普通 VI 相比需要另一个采样步骤。这个额外的采样步骤增加了 \mathbb{ELBO} 估计的方差，导致优化过程中的效率降低。我们在 3.4 节中看到了如何交换计算资源以获得更严格的 \mathbb{ELBO} 下界，同时，可以用更少的估计更可靠地估计方差。后者可以通过重要性加权技巧来实现，如前面针对第 3.4 节中方程 (52) 中的参数空间视图所述。对浅稀疏高斯过程和 i.i.d 应用相同类型的推理。训练数据在函数空间视图中产生：

\begin{align*} \operatorname{\mathbb{ELBO}}_{S}(\gamma, \psi)=& \sum_{n=1}^{N} \mathbb{E}_{\prod_{s=1}^{S} q_{\psi}\left(h_{n}^{(s)}\right) q_{\psi, \gamma}\left(\mathbf{f}_{n}\right)}\left[\ln \frac{1}{S} \sum_{s=1}^{S} \frac{p_{\gamma}\left(y_{n} \mid \mathbf{f}_{n}[s]\right) p_{\gamma}\left(h_{n}^{(s)}\right)}{q_{\psi}\left(h_{n}^{(s)}\right)}\right] \\ &-\operatorname{KL}\left(q_{\psi}(\mathbf{u})|| p_{\psi, \gamma}(\mathbf{u})\right) \end{align*} \tag{70}

其中 $S$ 表示由 $s$ 索引的 $h_{n}$ 的重要性加权重复次数。量 $\mathbf{f}_{n}$ 是在联合评估近似后验高斯过程 $q_{\psi,\gamma}(f(\cdot))$ 时得到的 $S$ 维多元高斯随机变量给定 $X_{n}$ 的所有 $S$ 复制 $h_{n}^{(s)}$ 的位置 $\left(h_{n}^{(s)}, X_{n}\right)$ 请注意，方程（70）中有一个隐含的外部期望隐变量 $h_{n}^{(1)}$ 高达 $h_{n}^{(S)}$ 和隐含的内部期望 w.r.t. $\mathbf{f}_{n}$ 取决于来自外部期望的隐变量。符号 $\mathbf{f}_{n}[s]$ 指的是向量 $\mathbf{f}_{n}$ 的第 $s$ 个分量。

对于稀疏高斯过程，形式为 $\int q_{\psi, \gamma}(f(h, X)) \ln p_{\gamma}(y \mid f(h, X)) \mathrm{d} f(h, X)$ 通常是可有效计算的——例如在高斯似然的情况下以封闭形式。与朴素的 \mathbb{ELBO} 公式相反，方程 (70) 的问题在于它不包含这种预期的对数似然表达式。为了利用有效的可计算性，因此需要将重要性加权与所述预期对数似然表达式相结合 ^[81] 。这可以通过下面详述的一系列步骤来实现。我们首先为边际似然中的隐变量 $h_{n}$ 引入重要性权重：

p_{\gamma}\left(y_{1}, \ldots, y_{N} \mid X_{1}, \ldots, X_{N}\right)=\mathbb{E}_{\prod_{n=1}^{N} p_{\gamma}\left(h_{n}\right)}\left[p_{\gamma}\left(y_{1}, \ldots, y_{N} \mid h_{1}, \ldots, h_{N}, X_{1}, \ldots, X_{N}\right)\right] \tag{71}

=\mathbb{E}_{\prod_{n=1}^{N} q_{\psi}\left(h_{n}\right)}\left[p_{\gamma}\left(y_{1}, \ldots, y_{N} \mid h_{1}, \ldots, h_{N}, X_{1}, \ldots, X_{N}\right) \frac{\prod_{n=1}^{N} p_{\gamma}\left(h_{n}\right)}{\prod_{n=1}^{N} q_{\psi}\left(h_{n}\right)}\right] \tag{72}

其中重要性权重是通过对所有 $h_{n}$ 的近似后验 $\prod_{n=1}^{N} q_{\psi}\left(h_{n}\right)$ 引入的。注意 $p_{\gamma}\left(y_{1}, \ldots, y_{N} \mid h_{1}, \ldots, h_{N}, X_{1}, \ldots, X_{N} \right)$ 是所有标签 $\left\{y_{1}, \ldots, y_{N}\right\}$ 以所有隐变量 $\left\{h_{1}, \ldots, h_{N}\right\}$ 和训练示例 $\left\{X_{1}, \ldots, X_{N}\right\}$ 但重要的是，随机函数 $f(\cdot)$ 被边缘化。

接下来，我们利用普通的 \mathbb{ELBO} 来下界 $\ln p_{\gamma}\left(y_{1}, \ldots, y_{N} \mid h_{1}, \ldots, h_{N}, X_ {1}, \ldots, X_{N}\right)$ 为：

\begin{align*} \ln p_{\gamma}\left(y_{1}, \ldots, y_{N} \mid h_{1}, \ldots, h_{N}, X_{1}, \ldots, X_{N}\right) \geq & \sum_{n=1}^{N} \mathbb{E}_{q_{\psi, \gamma}\left(f\left(h_{n}, X_{n}\right)\right)}\left[\ln p_{\gamma}\left(y_{n} \mid f\left(h_{n}, X_{n}\right)\right)\right] \\ &-\operatorname{KL}\left(q_{\psi}(\mathbf{u}) \| p_{\psi, \gamma}(\mathbf{u})\right) \tag{73} \end{align*}

取方程 (73) 的 exp 给出 $p_{\gamma}\left(y_{1}, \ldots, y_{N} \mid h_{1}, \ldots, h_{N}, X_ {1}, \ldots, X_{N}\right)$ 可以代入方程（72）。在获取日志和一些重新排列后，一个人到达：

\begin{align*} \ln p_{\gamma}\left(y_{1}, \ldots, y_{N} \mid X_{1}, \ldots, X_{N}\right) \geq & \sum_{n=1}^{N} \ln \mathbb{E}_{q_{\psi}\left(h_{n}\right)}\left[\operatorname{explik}_{\gamma, \psi}\left(y_{n}, h_{n}, X_{n}\right) \frac{p_{\gamma}\left(h_{n}\right)}{q_{\psi}\left(h_{n}\right)}\right] \\ &-\operatorname{KL}\left(q_{\psi}(\mathbf{u})|| p_{\psi, \gamma}(\mathbf{u})\right) \tag{74} \end{align*}

其中，为了保持清晰的视图，我们需要定义辅助项 explik $_{\gamma, \psi}\left(y_{n}, h_{n}, X_{n}\right)$ 函数值 $f\left(h_{n}, X_{n}\right)$ 上的预期对数似然项的指数：

\operatorname{explik}_{\gamma, \psi}\left(y_{n}, h_{n}, X_{n}\right):=\exp \left(\int q_{\psi, \gamma}\left(f\left(h_{n}, X_{n}\right)\right) \ln p_{\gamma}\left(y_{n} \mid f\left(h_{n}, X_{n}\right)\right) \mathrm{d} f\left(h_{n}, X_{n}\right)\right) \tag{75}

重要性加权技巧最终可以应用于 r.h.s. 上的第一个对数项。通过为每个 $h_{n}$ 引入由 $s$ 索引的 $S$ 复制，如等式 (70)，产生：

\begin{align*} \ln p_{\gamma}\left(y_{1}, \ldots, y_{N} \mid X_{1}, \ldots, X_{N}\right) \geq & \sum_{n=1}^{N} \mathbb{E}_{\prod_{s=1}^{S} q_{\psi}\left(h_{n}^{(s)}\right)}\left[\ln \frac{1}{S} \sum_{s=1}^{S} \operatorname{explik}_{\gamma, \psi}\left(y_{n}, h_{n}^{(s)}, X_{n}\right) \frac{p_{\gamma}\left(h_{n}^{(s)}\right)}{q_{\psi}\left(h_{n}^{(s)}\right)}\right] \\ &-\mathrm{KL}\left(q_{\psi}(\mathbf{u}) \| p_{\psi, \gamma}(\mathbf{u})\right) \tag{76} \end{align*}

它结合了隐变量 $h_{n}^{(s)}$ 级别上的重要性加权与预期对数似然项对函数值 $f\left(h_{n}^{(s)}, X_{n}\right)$ 的有效可计算性的好处）在表达式 explik $_{\gamma, \psi}\left(y_{n}, h_{n}, X_{n}\right)$ 中，如方程 ( 75)。接下来的几节处理通过将浅稀疏高斯过程彼此叠加而获得的深度稀疏高斯过程，但我们将在介绍后回到第 4.6 节中结合高效可计算性和重要性加权的技巧隐变量深度稀疏高斯过程。

5 深度稀疏高斯过程的变分推断

深度高斯过程可参考：

Damianou, A. and Lawrence, N.D. (2013) ‘Deep gaussian processes’, in Artificial intelligence and statistics. PMLR, pp. 207–215.
Salimbeni, H. and Deisenroth, M. (2017) ‘Doubly stochastic variational inference for deep Gaussian processes’, arXiv preprint arXiv:1705.08933 [Preprint].

本节过渡到具有深度稀疏高斯过程的变分推断，这些高斯过程可以自然地处理对于浅高斯过程模型可能“不够平滑”的函数。深度稀疏高斯过程由 5.2 节中的隐变量扩展，并与 5.3 节中的重要性加权相结合。

5.1 深度稀疏高斯过程

遵循第 2.5 节，更准确地说是图 2，深度高斯过程有可能对不太平滑且变化更突然的函数进行建模（普通高斯过程可能会遇到这些问题）。与第 3.5 节中贝叶斯深度学习的概念逻辑一致，可以通过将多输出高斯过程相互叠加并将最终结果输入可能性来创建生成模型。想象一下 $L$ 向量值随机函数 $\left\{\mathbf{f}^{(1)}(\cdot), \ldots, \mathbf{f}^{(L)}(\cdot )\right\}$ 根据 $L$ 独立先验多输出高斯过程分布，具有联合分布 $p_{\gamma}\left(\mathbf{f}^{(1)}(\cdot)\right) \cdots p_{\gamma}\left(\mathbf{f}^{(L)}(\cdot)\right)$ 。请注意，第一个高斯过程的输入域是 $\mathcal{X}$ 并且每个其他高斯过程的输入维度等于前一个高斯过程的输出维度。实际上，我们建议在除最后一层之外的所有层的先验分布（如果可能，或线性）中使用恒等均值函数。这是为了鼓励将不同的训练输入映射到不同的潜在表示，这有助于学习进度。另一方面，将不同的训练输入映射到相同的潜在表示（例如，如零均值函数所鼓励的那样）可能会阻碍学习进度。

正如之前在 $2.5$ 节中所解释的，单个数据点 $X_{n}$ 如下通过深度高斯过程传播（有关多个数据点，请参阅 $2.5$ 节中的第二段）。一个随机函数 $\mathbf{f}^{(1)}(\cdot)$ 来自先前的高斯过程 $p_{\gamma}\left(\mathbf{f}^{(1)}(\cdot)\right )$ 在 $X_{n}$ 处求值，产生向量值随机变量 $\mathbf{f}_{n}^{(1)}$ 。来自这个随机变量 $\mathbf{f}_{n}^{(1)}$ 的单个样本用作评估第二个先验高斯过程 $p_{\gamma}\left(\mathbf{f}^{( 2)}(\cdot)\right)$ 产生随机变量 $\mathbf{f}_{n}^{(2)}$ （其中一个样本作为下一个先前高斯过程的输入，等等在）。这最终会产生随机变量 $\mathbf{f}_{n}^{(L)}$ ，它决定似然 $p_{\gamma}\left(y_{n} \mid \mathbf{f}_{ n}^{(L)}\right)$ 用于标签 $y_{n}$ 和输入 $X_{n}$ 。在对层 $l \in\{1, \ldots, L\}$ 进行分解的近似后验下，即 $q_{\psi, \gamma}\left(\mathbf{f}^{(1)}(\cdot)\right) \cdots q_{\psi, \gamma}\left(\mathbf{f}^{(L)}(\cdot)\right)$ 其中每个 $q_{\psi, \gamma}\left (\mathbf{f}^{(l)}(\cdot)\right)$ 是一个多输出稀疏高斯过程，\mathbb{ELBO} 定义为 ^[80] ：

\begin{align*} \operatorname{\mathbb{ELBO}}(\gamma, \psi)=& \sum_{n=1}^{N} \mathbb{E}_{q_{\psi, \gamma}\left(\mathbf{f}_{n}^{L-1)}\right)}\left[\int q_{\psi, \gamma}\left(\mathbf{f}_{n}^{(L)} \mid \mathbf{f}_{n}^{(L-1)}\right) \ln p_{\gamma}\left(y_{n} \mid \mathbf{f}_{n}^{(L)}\right) \mathrm{d} \mathbf{f}_{n}^{(L)}\right] \\ &-\sum_{l=1}^{L} \operatorname{KL}\left(q_{\psi}\left(\mathbf{U}^{(l)}\right)|| p_{\psi, \gamma}\left(\mathbf{U}^{(l)}\right)\right) \tag{77} \end{align*}

其中 $\mathbf{U}^{(l)}$ 以矩阵形式表示，符合“output as output” 视图。 $\mathbf{U}^{(l)}$ 的第一维对应于的数量（为了方便，假设每个输出的数量相同），第二维对应于层 $l$ 的输出数量。实际上建议在非终端层初始化 $q_{\psi}(\mathbf{U}^{(l)})$ 以确保在训练初始阶段的“确定性”信息流动。

数量 $q_{\psi, \gamma}\left(\mathbf{f}_{n}^{(L-1)}\right)$ 表示 $\mathbf{f}_{n}^{(L-1)}$ 上的边缘分布，边缘化了之前从 $\mathbf{f}_{n}^{(1)}$ 到 $\mathbf{f}_{n}^{(L -2)}$ 的所有随机变量。需要注意的是 $q_{\psi, \gamma}\left(\mathbf{f}_{n}^{(L-1)}\right)$ 不是高斯分布并且没有闭式表达式因此，实际上，人们需要求助于蒙特卡罗方法。

另一方面， $q_{\psi, \gamma}\left(\mathbf{f}_{n}^{(L)} \mid \mathbf{f}_{n}^{(L- 1)}\right)$ 项在构造上是高斯的：它是最后一层随机变量 $\mathbf{f}_{n}^{(L)}$ 以倒数第二层随机变量 $\mathbf{f}_{n}^{(L-1)}$ 为条件的条件概率。高斯性仅仅是由于 $q_{\psi, \gamma}\left(\mathbf{f}_{n}^{(L)} \mid \mathbf{f}_{n}^{( L-1)}\right)$ 代表了在 $\mathbf{f}_{n}^{(L- 1)}$ 处做了近似后验高斯过程 $q_{\psi,\gamma}(f(\cdot))$ 的评估。在普通的非深度符号中，通常会显式省略对评估位置 $X_{n}$ 的条件，因为它们通常不被视为随机变量。然而，在深度高斯过程中，对于除第一个之外的所有高斯过程，输入都是随机变量，需要对其进行平均。

我们可以首先选择用 $\mathbf{f}_{n}^{(L)}$ 的边缘来表示方程（77）而不显式地提到 $\mathbf{f}_{n}^{(L -1)}$ 。然而，因为 $q_{\psi, \gamma}(\mathbf{f}_{n}^{(L)} \mid \mathbf{f}_{n}^{(L-1)})$ 是高斯分布，方程（77）中对数似然的内期望通常可以有效地计算，例如在高斯似然的情况下。如果我们没有强调最后一层和倒数第二层的不同期望，这就会被隐藏起来。为了获得端到端的可微系统，可以根据前面章节介绍的重参数化技巧，对第 $l$ 层的随机变量 $\mathbf{f}^{(l)}$ 做重参数化 ^[50] ^[77] 。

对于新数据点 $\left\{X_{n}^{\star}\right\}_{n=1, \ldots, N^{\star}}$ ，可以按照如下公式得到预测结果 $\left\{y_{n}^{\star}\right\}_{n=1, \ldots, N}$ ：

p\left(y_{1}^{\star}, \ldots, y_{N^{\star}}^{\star} \mid X_{1}^{\star}, \ldots, X_{N^{\star}}^{\star}\right)=\mathbb{E}_{q_{\psi, \gamma}\left(\mathbf{F}^{\star(L-1)}\right)}\left[\int \prod_{n=1}^{N^{\star}} p_{\gamma}\left(y_{n}^{\star} \mid \mathbf{F}^{\star(L)}[n,:]\right) q_{\psi, \gamma}\left(\mathbf{F}^{\star(L)} \mid \mathbf{F}^{\star(L-1)}\right) \mathrm{d} \mathbf{F}^{\star(L)}\right] \tag{78}

其中大写粗体符号 $\mathbf{F}^{\star}$ 表示矩阵值类型的随机变量（当在输出即输出视图中的多个数据点评估多输出高斯过程时自然会出现，请参阅第 $2.5$ 节）。 $\mathbf{F}^{\star(l)}$ 的第一维对应评价点数（此处为 $N^{\star}$ ）, 第二维对应第 $l$ 层输出头的数量。我们再次将 $\mathbf{F}^{\star(L-1)}$ 和 $\mathbf{F}^{\star(L)}$ 的期望分开，以强调内部期望对数似然项通常可以被有效地计算。符号形式 $\mathbf{F}^{\star(L)}[n,:]$ 指的是位于以 $L$ 索引的最后一层随机变量 $\mathbf{F}^{\star(L)}$ 的第 $n$ 行。

请注意这与公式 (77) 中的符号有何不同，其中我们使用带有下标 $n$ 的 $\mathbf{f}_{n}^{(L)}$ 代替。这不是任意的。在等式 (77) 中，每个数据点 $n$ 都独立地通过深度高斯过程传播，这是由于对可能性施加的函数形式导致的边缘化。然而，在等式 (78) 中，所有样本 $n$ 都需要通过深高斯过程共同传播，这也是使用早先在等式 (65) 中提出的浅层高斯过程模型进行预测的情况。

在下一节中，我们将为每一层 $l \in\{1, \ldots, L\}$ 引入隐变量 $h_{n}^{(l)}$ 以使深度稀疏高斯过程模型更加灵活。在这种情况下，我们将在图 6 中说明生成过程背后的概率图模型。如果我们忽略隐变量的节点 $h_{n}^{(l)}$ ，该概率图模型其实也适用于本节的普通深度稀疏高斯过程。

图 6：独立同分布监督学习设置中含隐变量深度稀疏高斯过程的概率图模型。标签和数据点分别表示为 $y_n$ 和 $X_n$ 。输入 $X_n$ 与来自第一个潜在随机变量 $h^{(1)}_n$ 的样本一起，来评估向量值类型的函数 $f^{(1)}(·)$ 上的第一个高斯过程，这产生了随机变量 $f^{(1)}_n$ 。该随机变量的一个样本与来自第二个隐变量 $h^{(2)}_n$ 的一个样本一起决定在哪里评估第二个 $f^{(2)}_n(·)$ 上的多输出高斯过程，等等。来自该级联结构中最后一个随机变量 $f^{(L)}$ 的样本最终确定了 $y_n$ 的概率。表示为 $φ$ 并且包含 $Z$ 作为一种特殊情况（对于狄拉克特征）。在这里，粗体意味着对于每一层 $l$ 中的所有 $M$ 个/点都存储在一个变量中，并在输出之间共享，以方便表示。如果我们假设/特征不在输出之间共享，那么每个输出将有自己的一组/特征。例如，在普通的公式下， $Z$ 将是一个三维张量（ $M × 输入维数 × 输出数$ ）而不是矩阵（ $M×输入维数$ ）。关联的 $\mathbf{U}$ 是矩阵，其中第一维对应于的数量，第二维对应于输出的数量（无论是否在输出之间共享）。由于计算和内存效率的原因，的总数通常远小于训练样本的数量 $N$ 。

5.2 含隐变量的深度稀疏高斯过程

与前面的部分一致，可以通过为每个数据点 $n$ 和每一层 $l$ 引入隐变量 $h_{n}^{(l)}$ 来增加深度高斯过程建模能力的灵活性，进而有联合先验 $\prod_{n=1}^{N} p_{\gamma}(h_{n}^{(1)}) \cdots p_{\gamma}(h_{n} ^{(L)})$ 。生成模型与之前类似，不同之处在于每个高斯过程先验 $p_{\gamma}\left(\mathbf{f}^{(l)}(\cdot)\right)$ 的输入域与 $h_{n}^{(l)}$ 所在的域连接（concatenated）在一起，在通过深层高斯过程传播单个样本 $X_{n}$ 的上下文中解释如下。

评估第一个先验高斯过程 $p_{\gamma}\left(\mathbf{f}^{(1)}(\cdot)\right)$ 需要从第一个隐变量 $h_{n}^{(1)} \sim p_{\gamma}\left(h_{n}^{(1)}\right)$ 中抽取样本，并与 $X_{n}$ 做连接。由此生成的多元随机变量 $\mathbf{f}_{n}^{(1)}$
$\mathbf{f}_{n}^{(1)}$ 与 $h_{n}^{(2)}$ 一起确定了在哪里评估第二个先验高斯过程 $p_{\gamma} \left(\mathbf{f}^{(2)}(\cdot)\right)$ ，以此类推。
最终的随机变量 $\mathbf{f}_{n}^{(L)}$ 最终决定了的标签 $y_{n}$ 和 $X_{n}$ 相关联的似然 $p_{\gamma}\left(y_{n} \mid \mathbf{f}_{n}^ {(L)}\right)$ 。
在近似稀疏后验过程的因子分解 $q_{\psi, \gamma}\left(\mathbf{f}^{(1)}(\cdot)\right) \cdots q_{\psi, \gamma} \left(\mathbf{f}^{(L)}(\cdot)\right)$ 假设下，通过在为额外的隐变量引入了一个因子化的近似后验 $\prod_{n=1}^{ N} q_{\psi}\left(h_{n}^{(1)}\right) \cdots q_{\psi}\left(h_{n}^{(L)}\right)$ ，可以得到新的 $\mathbb{ELBO}$ 如下 ^[81] ：

\begin{align*} \operatorname{\mathbb{ELBO}}(\gamma, \psi)=& \sum_{n=1}^{N} \mathbb{E}_{q_{\psi, \gamma}\left(\mathbf{f}_{n}^{(L-1)}\right)}\left[\int q_{\psi}\left(h_{n}^{(L)}\right) \int q_{\psi, \gamma}\left(\mathbf{f}_{n}^{(L)} \mid h_{n}^{(L)}, \mathbf{f}_{n}^{(L-1)}\right) \ln p_{\gamma}\left(y_{n} \mid \mathbf{f}_{n}^{(L)}\right) \mathrm{d} \mathbf{f}_{n}^{(L)} \mathrm{d} h_{n}^{(L)}\right] \\ &-\sum_{n=1}^{N} \sum_{l=1}^{L} \operatorname{KL}\left(q_{\psi}\left(h_{n}^{(l)}\right)|| p_{\gamma}\left(h_{n}^{(l)}\right)\right)-\sum_{l=1}^{L} \operatorname{KL}\left(q_{\psi}\left(\mathbf{U}^{(l)}\right) \| p_{\psi, \gamma}\left(\mathbf{U}^{(l)}\right)\right) \tag{79} \end{align*}

基于对 $h_{n}^{(l)}$ 的先验和近似后验的因子分解假设，每个数据点和每一层都会有一个额外的隐变量 $KL$ 项。

注意 $q_{\psi, \gamma}\left(\mathbf{f}_{n}^{(L-1)}\right)$ 指 $\mathbf{f}_{n}^{(L-1)}$ 上的边缘分布，同上一节类似，边缘化了 $\mathbf{f}_{n}^{(1)}$ 到 $\mathbf{f}_{n}^{(L-2)}$ ，也边缘化了 $h_{n}^{(1)}$ 到 $h_{n}^{(L-1)}$ ，同样没有封闭形式的表达式，需要通过蒙特卡洛方法进行评估。

在等式 (79) 中，我们再次显式地表达了通过在 $\mathbf{f}_{n}^{(L)}$ 上平均得到的内部期望对数似然，以强调该项可以在某些条件下进行有效计算（例如高斯似然）。图 6 描绘了含隐变量的深度稀疏高斯过程的概率图模型。它包含普通深度稀疏高斯过程的生成模型，可以将其视为将隐变量节点 $h_{n}^{(l)}$ 忽略时的特殊情况。

对于根据新数据 $\{X_{n} ^{\star}\}_{n=1, \ldots, N^{\star}}$ 预测新标签 $\{y_{n}^{\star}\}_{n=1, \ldots, N^{\star}}$ ，则类似于式（78）：

p(y_{1}^{\star}, \ldots, y_{N^{\star}}^{\star} \mid X_{1}^{\star}, \ldots, X_{N^{\star}}^{\star}) =\mathbb{E}_{q_{\psi, \gamma}\left(\widetilde{\mathbf{F}^{\star}}^{(L-1)}\right)} \left[\int \prod_{n=1}^{N^{\star}} p_{\gamma}\left(y_{n}^{\star} \mid \mathbf{F}^{\star(L)}[n,:]\right) q_{\psi, \gamma}\left(\mathbf{F}^{\star(L)} \mid \widetilde{\mathbf{F}^{\star}}^{(L-1)}\right) \mathrm{d} \mathbf{F}^{\star(L)}\right] \tag{80}

其中符号 $\mathbf{F}^{\star}$ 指通过深度高斯过程联合传播所有新数据点 $\{X_{n}^{\star}\}_{n=1, \ldots, N^{*}}$ 生成的矩阵值类型的随机变量，其中引入简写符号 $\widetilde{\mathbf{F}^{\star}}^{(L-1)}:=\left(h_{n}^{(L)}, \mathbf{F}^{\star(L-1)}\right)$ 以保持清晰视野。在这个阶段，读者应该已经对带有额外隐变量的深度稀疏高斯过程模型的变分推断有了很好的理解。仍有待解决的是如何使用重要性加权技巧使含有隐变量的深度稀疏高斯过程模型具备更高的优化效率，如下节所述。

5.3 重要性加权的隐变量深度稀疏高斯过程

我们已经在第 4.3 节中看到了如何在带有附加隐变量的浅稀疏高斯过程模型中使用重要性加权技巧来实现高效 VI。这个技巧背后的动机是交换计算资源以获得更严格的对数边际似然的下限，并在计算 \mathbb{ELBO} 估计值时在优化过程中实现更小的方差。这个想法是以这样一种方式引入重要性权重，即保留 \mathbb{ELBO} 目标的最内层预期对数似然项，因为该项通常可以有效计算。

在深度稀疏高斯过程中，相同的逻辑适用于从 $h_{n}^{(1)}$ 到 $h_{n}^{(L)}$ 的所有隐变量，根据 4.3 节中的式 (76) 可以在 ^[81] 中找到仅在第一层（但不在第二层）中具有附加隐变量的两层深度稀疏高斯过程的详细推导。在后者基础上，我们在这里展示了 $L$ 稀疏高斯过程层的更一般情况。

我们坚持在第一层只设置一个额外的隐变量（将公式扩展到每一层的额外隐变量在概念上很简单但在符号上很麻烦，目前没有经验证据表明有一个以上的额外隐变量是有益的）。推导有点微妙，但类似于 $4.3$ 部分，并遵循与 ^[81] 的两层设置相同的步骤。最终结果是：

\begin{align*} \operatorname{\mathbb{ELBO}}_{S}(\gamma, \psi)=& \sum_{n=1}^{N} \mathbb{E}_{\Pi_{s=1}^{S} q_{\psi}\left(h_{n}^{(s)}\right) q_{\psi, \gamma}\left(\mathbf{F}_{n}^{(L-1)} \mid \mathbf{h}_{n}\right)}\left[\ln \frac{1}{S} \sum_{s=1}^{S} \operatorname{explik}_{\gamma, \psi}\left(y_{n}, \mathbf{F}_{n}^{(L-1)}[s,:]\right) \frac{p_{\gamma}\left(h_{n}^{(s)}\right)}{q_{\psi}\left(h_{n}^{(s)}\right)}\right] \\ &-\sum_{l=1}^{L} \mathrm{KL}\left(q_{\psi}\left(\mathbf{U}^{(l)}\right)|| p_{\psi, \gamma}\left(\mathbf{U}^{(l)}\right)\right) \tag{81} \end{align*}

其中符号 $h_{n}^{(s)}$ 指的是数据点 $n$ （和 $\mathbf{h}_{n}$ 是存储给定 $n$ 的所有复制的隐变量向量的简写）。矩阵值类型的随机变量 $\mathbf{F}_{n}^{(L-1)}$ （形状为 $S \times$ 输出数）表示深度高斯过程在第二个到-在所有 $S$ 复制中联合评估时的最后一层 $\left(h_{n}^{(s)}, X_{n}\right) .$ 为了保持清晰的视图， $q_{\psi, \ gamma}\left(\mathbf{F}_{n}^{(L-1)} \mid \mathbf{h}_{n}\right)$ 是指输出 $\mathbf{F }_{n}^{(L-1)}$ 在倒数第二层 $L-1$ 边缘化所有先前的高斯过程输出时，但以 $\mathbf{h}_{n}$ 为条件位于第一层。与之前类似，为了简化符号，我们需要引入辅助函数 explik $_{\gamma, \psi}\left(y_{n}, \mathbf{F}_{n}^{(L-1 )}[s,:]\right)$ 定义为：

\operatorname{explik}_{\gamma, \psi}\left(y_{n}, \mathbf{F}_{n}^{(L-1)}[s,:]\right):=\exp \left(\int q_{\psi_{*}, \gamma}\left(\mathbf{f}_{n}^{(L, s)} \mid \mathbf{F}_{n}^{(L-1)}[s,:]\right) \ln p_{\gamma}\left(y_{n} \mid \mathbf{f}_{n}^{(L, s)}\right) \mathrm{df}_{n}^{(L, s)}\right) \tag{82}

其中 $\mathbf{f}_{n}^{(L, s)}$ 指的是最后一层深高斯过程的输出 $L$ 和 $q_{\psi, \gamma}\left(\mathbf {f}_{n}^{(L, s)} \mid \mathbf{F}_{n}^{(L-1)}[s,:]\right)$ 到其条件分布特定复制 s 的倒数第二层 $\mathbf{F}_{n}^{(L-1)}$ 的输出。请注意，由于可能性的分解形式，位于最后一层 $L$ 的高斯过程可以为每个单独的复制 $s$ 独立评估，而所有其他潜在层需要对所有 $S$ 复制进行联合评估。

6 在合成数据上比较不同的稀疏高斯过程

虽然前几节介绍了稀疏高斯过程模型背后的理论及其扩展，但本节旨在提供一个有启发性的例子来证明深度和隐变量高斯过程模型的效果。为此，我们在非平滑和多模态回归问题上拟合了四种不同类型的模型。这四种规格分别是：

根据第 4.1 节的浅稀疏高斯过程。
根据第 5.1 节的两层深度稀疏高斯过程。
根据第 4.3 节的浅稀疏隐变量高斯过程。
根据第 5.3 节的两层深度稀疏高斯过程，第一层有一个隐变量。

请注意，隐变量模型是使用前面概述的重要性加权技巧进行训练的。结果如图 7 所示，展示了将深度高斯过程与隐变量结合时获得的表现力（在本示例中实现了最佳结果）。虽然在这个例子中浅隐变量和深隐变量稀疏高斯过程之间的定性差异可能看起来很小，但 Salimbeni 等人的实证结果提供了强有力的证据 ^[81] ，证明在使隐变量高斯过程变深时，在广泛的回归问题上有显著的性能提升。另请注意，对于深度高斯过程，可以将隐变量添加到任何层（不仅仅是我们示例中的第一个层）。但是，我们在这里遵循 ^[81]并将其留待未来的工作来调查添加更多隐变量是否会进一步提高性能。

图 7：在遵循 Salimbeni 等 ^[81] 的非平滑多模回归问题上对不同的高斯过程模型进行相互比较。第一个图显示了训练数据集：数据点（即 $(X,y)$ 对）由字母“DGP”的黑色像素给出。第二个图显示了使用先验零均值函数和先验 RBF 核（黑色背景上的白色）拟合的浅稀疏高斯过程模型的预测样本。第三个图显示了由两个相互堆叠的高斯过程(DGP) 组成的深度高斯过程的预测。第四幅图显示了一个浅的隐变量高斯过程(LV-GP)。最后一个图通过向第一层 (LV-DGP) 添加一个隐变量，从第三个图扩展了两层深高斯过程。这些图展示了隐变量在复杂任务中的重要性：当结合深度高斯过程和隐变量时，拟合质量从左到右增加，以获得最佳结果。

7 更深入的主题

7.1 非监督学习中的隐变量变分推断问题

7.2 上下文赌博机（Contextual Bandits）的推断问题

7.3 强化学习的推断问题

7.4 基于模型强化学习的变分推断方法

7.5 基于部分可观测模型强化学习的变分推断方法

8 总结

本教程的目的是提供对稀疏高斯过程、变分推断以及如何使用稀疏高斯过程模型进行变分推断的调研和概述，面向既不熟悉高斯过程也不熟悉变分推断的广大读者。本文提纲背后的基本想法是将第 2 节中的高斯过程和稀疏高斯过程明确地作为独立模型引入，并且超出了精确或近似推断的范围。然后在第 3 节中介绍了推断方法，涵盖使用变分推断进行近似推断背后的主要思想，但出于教学原因主要侧重于 权重空间模型。第 4 、5、6 节介绍如何使用稀疏高斯过程（即函数空间模型）做变分推断。需要注意，虽然这三节要求第 2 节和第 3 节作为必要的先决条件，但前两节本身都可以作为独立板块来研究。第 7 节涵盖了我们认为重要的主题，但并不作为文章的核心部分。这些主题在非序列和序列决策（没有和有环境模型）的背景下呈现了从无监督学习到强化学习的不同场景中的变分推断目标。

在第 2 节中引入稀疏高斯过程的主要思想是将其视为推断范围之外的独立模型。我们从多元高斯分布和多元高斯分布（也产生高斯分布）中的多元高斯分布和条件运算开始。这对于理解稀疏高斯过程是必要的，稀疏高斯过程本质上是在有限变量集上调节高斯过程的结果。事实证明，对该主题的适当阐述可以访问高斯过程领域的最新进展，例如跨域高斯过程以提供更灵活的特征以及计算增益、可以处理多标签问题的多输出高斯过程，以及可以处理多标签问题的深度高斯过程保持对非平滑函数建模的潜力（普通高斯过程可能会遇到问题）。

第 3 节可以作为独立的部分来阅读，它介绍了使用变分推断进行近似推断背后的思想，重点是我们感觉一大群读者熟悉的权重空间模型而不是函数空间模型。我们从精确推断、它的问题以及如何使用传统变分推断提供补救措施开始。但随后也会涵盖更高级的主题，例如重要性加权变分推断以提高推断例程的质量（以增加计算复杂性为代价）、隐变量变分推断以实现更具表现力的建模，直到呈现贝叶斯的通用框架使用贝叶斯层进行深度学习（将近似推断块堆叠在彼此之上）。

具有稀疏高斯过程模型的变分推断最终在第 4 、5、6 节中介绍，并依赖于前面的部分作为先决条件。我们从如何用普通的稀疏高斯过程做变分推断开始，然后扩展到隐变量稀疏高斯过程、重要性加权稀疏高斯过程（第 4 节）；第 5 节进一步扩展到深度稀疏高斯过程。在第 6 节中，我们在一个具有挑战性的多模态合成示例中达到高潮，该示例展示了将所有前面提到的扩展、更精确地重要性加权和隐变量与深度高斯过程相结合时建模的灵活性。在此过程中，我们为实验者提供了一些关于如何在实际工作中训练稀疏高斯过程模型的有用提示。

第 7 节中进一步涉及的主题以一些有趣的变分推断目标结束了手稿，超出了普通监督学习（我们在整个手稿中使用它作为我们的默认设置）。这些示例包括用于无监督学习的变分推断，但也用于展示如何从推断角度恢复非序列和序列决策问题的强化学习。我们还展示了如何为顺序决策问题学习环境模型，无论是在代理完全或部分可观测到环境时。

参考文献

[1] V Adam, S Eleftheriadis, A Artemev, N Durrande, and J Hensman. Doubly sparse variational Gaussian processes. In Proceedings of the International Conference on Artificial Intelligence andStatistics, 2020.
[2] M A Alvarez and N D Lawrence. Sparse convolved Gaussian processes for multi-output regression. In Advances in Neural Information Processing Systems, 2008.
[3] M A Alvarez, D Luengo, and N D Lawrence. Latent force models. In Proceedings of the International Conference on Artificial Intelligence and Statistics, 2009.
[4] M A Alvarez, D Luengo, M Titsias, and N D Lawrence. Efficient multioutput Gaussian processes through variational inducing kernels. In Proceedings of the International Conference on Artificial Intelligence and Statistics, 2010.
[5] M A Alvarez, L Rosasco, and N D Lawrence. Kernels for vector-valued functions: a review. Foundations and Trends in Machine Learning, 2012.
[6] M G Azar, V Gomez, and H J Kappen. Dynamic policy programming with function approximation. In Proceedings of the International Conference on Artificial Intelligence and Statistics, 2011.
[7] C M Bishop. Pattern Recognition and Machine Learning. Springer, 2006.
[8] K Blomqvist, S Kaski, and M Heinonen. Deep convolutional Gaussian processes. In Proceedingsof the European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases, 2019.
[9] C Blundell, J Cornebise, K Kavukcuoglu, and D Wierstra. Weight uncertainty in neural networks.In Proceedings of the International Conference on Machine Learning, 2015.
[10] V Borovitskiy, A Terenin, P Mostowsky, and M P Deisenroth. Matern Gaussian processes on Rie-mannian manifolds. arXiv, 2020.
[11] P Boyle and M Frean. Dependent Gaussian processes. In Advances in Neural Information Processing Systems, 2004.
[12] T D Bui, J Yan, and R E Turner. A unifying framework for Gaussian process pseudo-point approximations using power expectation propagation. Journal of Machine Learning Research, 2017.
[13] Y Burda, R B Grosse, and R Salakhutdinov. Importance weighted autoencoders. In Proceedings of the International Conference on Learning Representations, 2016.
[14] D R Burt, C E Rasmussen, and M van der Wilk. Rates of convergence for sparse variational Gaussianprocess regression. In Proceedings of the International Conference on Machine Learning, 2019.
[15] D R Burt, C E Rasmussen, and M van der Wilk. Variational orthogonal features. arXiv, 2020.
[16] K Chua, R Calandra, R McAllister, and S Levine. Deep reinforcement learning in a handful of trials using probabilistic dynamics models. In Advances in Neural Information Processing Systems,2018.
[17] T M Cover and J A Thomas. Elements of Information Theory. Wiley & Sons, 2006.
[18] A Damianou and N D Lawrence. Deep Gaussian processes. In Proceedings of the InternationalConference on Artificial Intelligence and Statistics, 2013.
[19] A Damianou, M Titsias, and N D Lawrence. Variational inference for latent variables and uncertain inputs in Gaussian processes. Journal of Machine Learning Research, 2016.
[20] M P Deisenroth and C E Rasmussen. PILCO: A model-based and data-efficient approach to policy search. In Proceedings of the International Conference on Machine Learning, 2011.
[21] J Domke and D Sheldon. Importance weighting and variational inference. In Advances in Neural Information Processing Systems, 2018.
[22] V Dutordoir, H Salimbeni, M P Deisenroth, and J Hensman. Gaussian process conditional density estimation. In Advances in Neural Information Processing Systems, 2018.
[23] V Dutordoir, N Durrande, and J Hensman. Sparse Gaussian processes with spherical harmonic features. In Proceedings of the International Conference on Machine Learning, 2020a.
[24] V Dutordoir, M van der Wilk, A Artemev, and J Hensman. Bayesian image classification with deep convolutional Gaussian processes. In Proceedings of the International Conference on Artificial Intelligence and Statistics, 2020b.
[25] D Duvenaud, O Rippel, R P Adams, and Z Ghahramani. Avoiding pathologies in very deep net-works. In Proceedings of the International Conference on Artificial Intelligence and Statistics,2014.
[26] S Eleftheriadis, T F W Nicholson, M P Deisenroth, and J Hensman. Identification of Gaussian process state space models. In Advances in Neural Information Processing Systems, 2017.
[27] R Fox, A Pakman, and N Tishby. Taming the noise in reinforcement learning via soft updates. In Proceedings of the Conference on Uncertainty in Artificial Intelligence, 2016.
[28] J R Gardner, G Pleiss, D Bindel, K Q Weinberger, and A G Wilson.高斯过程 yTorch: Blackbox matrix-matrix Gaussian process inference with 高斯过程 U acceleration. In Advances in Neural Information Processing Systems, 2018.
[29] T Genewein, F Leibfried, J Grau-Moya, and D A Braun. Bounded rationality, abstraction, and hierarchical decision making: An information-theoretic optimality principle. Frontiers in Roboticsand AI, 2015.
[30] J Grau-Moya, F Leibfried, T Genewein, and D A Braun. Planning with information processing constraints and model uncertainty in Markov decision processes. In Proceedings of the European Conference on Machine Learning and Principles and Practice of Knowledge Discovery inDatabases, 2016.
[31] J Grau-Moya, F Leibfried, and H Bou-Ammar. Balancing two-player stochastic games with soft Q-learning. In Proceedings of the International Joint Conference on Artificial Intelligence, 2018.
[32] J Grau-Moya, F Leibfried, and P Vrancx. Soft Q-learning with mutual-information regularization. In Proceedings of the International Conference on Learning Representations, 2019.
[33] T Haarnoja, H Tang, P Abbeel, and S Levine. Reinforcement learning with deep energy-based policies. Proceedings of the International Conference on Machine Learning, 2017.
[34] T Haarnoja, A Zhou, P Abbeel, and S Levine. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor. In Proceedings of the International Conference on Machine Learning, 2018.
[35] T Haarnoja, A Zhou, K Hartikainen, G Tucker, S Ha, J Tan, V Kumar, H Zhu, A Gupta, P Abbeel,and S Levine. Soft actor-critic algorithms and applications. arXiv, 2019.
[36] J Hensman, N Fusi, and N D Lawrence. Gaussian processes for big data. In Proceedings of the Conference on Uncertainty in Artificial Intelligence, 2013.
[37] J Hensman, A G G Matthews, M Filippone, and Z Ghahramani. MCMC for variationally sparse Gaussian processes. In Advances in Neural Information Processing Systems, 2015a.
[38] J Hensman, A G G Matthews, and Z Ghahramani. Scalable variational Gaussian process classification. Journal of Machine Learning Research, 2015b.
[39] J Hensman, N Durrande, and A Solin. Variational Fourier features for Gaussian processes. Journal of Machine Learning Research, 2018.
[40] D Higdon. Space and space-time modeling using process convolutions. Quantitative Methods for Current Environmental Issues, 2002.
[41] I Higgins, L Matthey, A Pal, C Burgess, X Glorot, M Botvinick, S Mohamed, and A Lerchner. Beta-VAE: Learning basic visual concepts with a constrained variational framework. In Proceedingsof the International Conference on Learning Representations, 2017.
[42] H Hihn and D A Braun. Specialization in hierarchical learning systems. Neural Processing Letters,2020.
[43] H Hihn, S Gottwald, and D A Braun. An information-theoretic on-line learning principle for specialization in hierarchical decision-making systems. In Proceedings of the IEEE Conference onDecision and Control, 2019.
[44] M Janner, J Fu, M Zhang, and S Levine. When to trust your model: Model-based policy optimization. In Advances in Neural Information Processing Systems, 2019.
[45] A G Journel and C J Huijbregts. Mining Geostatistics. Academic Press, 1978.
[46] L P Kaelbling, M L Littman, and A R Cassandra. Planning and acting in partially observable stochastic domains.Artificial Intelligence, 1998.
[47] L Kaiser, M Babaeizadeh, P Milos, B Osinski, R H Campbell, K Czechowski, D Erhan, C Finn,P Kozakowski, S Levine, A Mohiuddin, R Sepassi, G Tucker, and H Michalewski. Model-based reinforcement learning for Atari. In Proceedings of the International Conference on Learning Representations, 2020.
[48] S Kamthe and M P Deisenroth. Data-efficient reinforcement learning with probabilistic model predictive control. In Proceedings of the International Conference on Artificial Intelligence andStatistics, 2018.
[49] M Karny. Fully probabilistic design unifies and supports dynamic decision making under uncertainty. Information Sciences, 2020.
[50] D P Kingma and M Welling. Auto-encoding variational Bayes. In Proceedings of the International Conference on Learning Representations, 2014.
[51] D P Kingma, D J Rezende, S Mohamed, and M Welling. Semi-supervised learning with deep generative models. In Advances in Neural Information Processing Systems, 2015.
[52] T Kurutach, I Clavera, Y Duan, A Tamar, and P Abbeel. Model-ensemble trust-region policy optimization. In Proceedings of the International Conference on Learning Representations, 2018.
[53] T Lattimore and C Szepesvari. Bandit Algorithms. Cambridge University Press, 2020.
[54] M Lazaro-Gredilla and A Figueiras-Vidal. Interdomain Gaussian processes for sparse inference using inducing features. In Advances in Neural Information Processing Systems, 2009.
[55] F Leibfried and D A Braun. A reward-maximizing spiking neuron as a bounded rational decisionmaker. Neural Computation, 2015.
[56] F Leibfried and D A Braun. Bounded rational decision-making in feed forward neural networks. In Proceedings of the Conference on Uncertainty in Artificial Intelligence, 2016.
[57] F Leibfried and J Grau-Moya. Mutual-information regularization in Markov decision processes andactor-critic learning. In Proceedings of the Conference on Robot Learning, 2019.
[58] F Leibfried and P Vrancx. Model-based regularization for deep reinforcement learning with transcoder networks. In NIPS Workshop, 2018.
[59] F Leibfried, J Grau-Moya, and H Bou-Ammar. An information-theoretic optimality principle for deep reinforcement learning. InNIPS Workshop, 2018.
[60] F Leibfried, S Pascual-Diaz, and J Grau-Moya. A unified Bellman optimality principle combining reward maximization and empowerment. In Advances in Neural Information Processing Systems,2019.
[61] S Levine. Reinforcement learning and control as probabilistic inference: Tutorial and review. arXiv,2018.
[62] Y Luo, H Xu, Y Li, Y Tian, T Darrell, and T Ma. Algorithmic framework for model-based deep reinforcement learning with theoretical guarantees. In Proceedings of the International Conferenceon Learning Representations, 2019.
[63] A G G Matthews, J Hensman, R Turner, and Z Ghahramani. On sparse variational methods and the Kullback-Leibler divergence between stochastic processes. In Proceedings of the International Conference on Artificial Intelligence and Statistics, 2016.
[64] A G G Matthews, M van der Wilk, T Nickson, K Fujii, A Boukouvalas, P Leon-Villagra, Z Ghahra-mani, and J Hensman.高斯过程 flow: A Gaussian process library using TensorFlow. Journal of MachineLearning Research, 2017.
[65] C A Micchelli and M Pontil. On learning vector-valued functions.Neural Computation, 2005.
[66] O Nachum, M Norouzi, K Xu, and D Schuurmans. Bridging the gap between value and policy based reinforcement learning.Advances in Neural Information Processing Systems, 2017.
[67] A Nagabandi, G Kahn, R S Fearing, and S Levine. Neural network dynamics for model-based deep reinforcement learning with model-free fine-tuning. In Proceedings of IEEE International Conference on Robotics and Automation, 2018.
[68] G Neu, V Gomez, and A Jonsson. A unified view of entropy-regularized Markov decision processes. arXiv, 2017.
[69] A O’Hagan. Some Bayesian numerical analysis. Bayesian Statistics, 1992.
[70] P A Ortega and D A Braun. Thermodynamics as a theory of decision-making with information processing costs. Proceedings of the Royal Society A, 2013.
[71] P A Ortega, D A Braun, J Dyer, K-E Kim, and N Tishby. Information-theoretic bounded rationality. arXiv, 2015.
[72] Z Peng, T Genewein, F Leibfried, and D A Braun. An information-theoretic on-line update principle for perception-action coupling. In Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems, 2017.
[73] J C Petangoda, S Pascual-Diaz, V Adam, P Vrancx, and J Grau-Moya. Disentangled skill embeddings for reinforcement learning. InNIPS Workshop, 2019.
[74] J Peters, K Mulling, and Y Altun. Relative entropy policy search. In Proceedings of the AAAIConference on Artificial Intelligence, 2010.
[75] A Piche, V Thomas, C Ibrahim, Y Bengio, and C Pal. Probabilistic planning with sequential MonteCarlo methods. In Proceedings of the International Conference on Learning Representations,2019.
[76] C E Rasmussen and C K I Williams.Gaussian Processes for Machine Learning. MIT Press, 2006.
[77] D J Rezende, S Mohamed, and D Wierstra. Stochastic backpropagation and approximate inferencein deep generative models. In Proceedings of the International Conference on Machine Learning,2014.
[78] G Riutort-Mayol, P-C Buerkner, M R Andersen, A Solin, and A Vehtari. Practical Hilbert space approximate Bayesian Gaussian processes for probabilistic programming. Computing ResearchRepository, 2020.
[79] J Rubin, O Shamir, and N Tishby. Trading value and information in MDPs. In Decision Making with Imperfect Decision Makers. Springer, 2012.
[80] H Salimbeni and M P Deisenroth. Doubly stochastic variational inference for deep Gaussian processes. In Advances in Neural Information Processing Systems, 2017.
[81] H Salimbeni, V Dutordoir, J Hensman, and M P Deisenroth. Deep Gaussian processes with importance weighted variational inference. In Proceedings of the International Conference on Machine Learning, 2019.
[82] A D Saul, J Hensman, A Vehtari, and N D Lawrence. Chained Gaussian processes. In Proceedingsof the International Conference on Artificial Intelligence and Statistics, 2016.
[83] J Schrittwieser, I Antonoglou, T Hubert, K Simonyan, L Sifre, S Schmitt, A Guez, E Lockhart,D Hassabis, T Graepel, T Lillicrap, and D Silver. Mastering Atari, Go, Chess and Shogi by planning with a learned model. arXiv, 2020.
[84] J Schulman, S Levine, P Moritz, M Jordan, and P Abbeel. Trust region policy optimization. In Proceedings of the International Conference on Machine Learning, 2015.
[85] J Schulman, P Abbeel, and X Chen. Equivalence between policy gradients and soft Q-learning. arXiv, 2017.
[86] C A Sims. Rational in attention and monetary economics. InHandbook of Monetary Economics.Elsevier, 2010.
[87] K Sohn, H Lee, and X Yan. Learning structured output representation using deep conditional generative models. Advances in Neural Information Processing Systems, 2015.
[88] R S Sutton. Integrated architectures for learning, planning, and reacting based on approximating dynamic programming. In Proceedings of the International Conference on Machine Learning,1990.
[89] R S Sutton and A G Barto. Reinforcement Learning: An Introduction. MIT Press, 1998.
[90] S Tiomkin and N Tishby. A unified Bellman equation for causal information and value in Markov decision processes. InarXiv, 2018.
[91] N Tishby and D Polani. Information theory of decisions and actions. In Perception-Action Cycle. Springer, 2011.
[92] M Titsias. Variational learning of inducing variables in sparse Gaussian processes. In Proceedingsof the International Conference on Artificial Intelligence and Statistics, 2009.
[93] D Tran, M W Dusenberry, M van der Wilk, and D Hafner. Bayesian layers: A module for neural network uncertainty. In Advances in Neural Information Processing Systems, 2019.
[94] S Tschiatschek, K Arulkumaran, J Stuhmer, and K Hofmann. Variational inference for data-efficient model learning in POMDPs. arXiv, 2018.
[95] M van der Wilk and C E Rasmussen. Convolutional Gaussian processes. In Advances in Neural Information Processing Systems, 2017.
[96] M van der Wilk, V Dutordoir, S T John, A Artemev, V Adam, and J Hensman. A framework for interdomain and multioutput Gaussian processes. arXiv, 2020.
[97] T Wang and J Ba. Exploring model-based planning with policy networks. arXiv, 2019.
[98] T Wang, X Bao, I Clavera, J Hoang, Y Wen, E Langlois, S Zhang, G Zhang, P Abbeel, and Y Ba. Benchmarking model-based reinforcement learning. arXiv, 2019.
[99] F Wenzel, K Roth, B Veeling, J Swiatkowski, L Tran, S Mandt, J Snoek, T Salimans, R Jenatton,and S Nowozin. How good is the Bayes posterior in deep neural networks really? In Proceedings of the International Conference on Machine Learning, 2020.
[100] J T Wilson, V Borovitskiy, A Terenin, P Mostowsky, and M P Deisenroth. Efficiently samplingfunctions from Gaussian process posteriors. In Proceedings of the International Conference on Machine Learning, 2020.
[101] B D Ziebart. Modeling purposeful adaptive behavior wih the principle of maximum causal entropy. PhD thesis, Carnegie Mellon University, USA, 2010.