重要性加权变分推断方法

【摘要】最近有工作使用重要性采样的思路，来确定更紧致的变分似然边界。本文阐明了该想法对纯概率推断的适用性，展示了重要性加权变分推断技术作为一种增强的变分推断方法，能够识别先前工作中的松散性。实验证实了重要性加权变分推断在概率推断方面的实用性。作为另一个成果，本文研究了使用椭圆分布的推断方法，该方法提高了低维准确性和高维收敛性。

【原文】 J Domke and D Sheldon (2018), Importance weighting and variational inference. In Advances in Neural Information Processing Systems. https://arxiv.org/abs/1808.09034

1 问题提出

概率建模通过为不可观测的变量 $\mathbf{z}$ 和可观测变量 $\mathbf{x}$ 制定联合模型 $p(\mathbf{z}, \mathbf{x})$ 来推断世界，然后查询后验分布 $p(\mathbf{z} \mid \mathbf{x})$ 以了解给定证据 $\mathbf{x}$ 的隐藏量。常见的任务是从后验 $p(\mathbf{z} \mid \mathbf{x})$ 中抽取样本，或利用后验计算期望。但直接执行这些任务通常是难以处理的，因此大量研究致力于近似推断方法。

变分推断是近似推断的主要方法。在变分推断中，用一个简单分布族中易于处理的分布 $q(\mathbf{z})$ 来近似真实后验 $p(\mathbf{z} \mid \mathbf{x})$ 。通常基于以下分解来选择近似后验 $q$ （见 ^[21] 的式 11 - 式 12 ）：

\log p(\mathbf{x})=\underbrace{\underset{q(\mathbf{z})}{\mathbb{E}} \log \frac{p(\mathbf{z}, \mathbf{x})}{q(\mathbf{z})}}_{\operatorname{ELBO}[q(\mathbf{z}) \| p(\mathbf{z}, \mathbf{x})]}+\underbrace{\operatorname{KL}[q(\mathbf{z}) \| p(\mathbf{z} \mid \mathbf{x})]}_{\text {divergence }} \tag{1}

上式中第一项为对数边缘似然 $\log p(\mathbf{x})$ 的下界，被称为“证据下界（ $ELBO$ ）”。选择 $q$ 的目标是使 $ELBO$ 尽可能大，同时保证其维持为 $\log p(\mathbf{x})$ 的下界，而且尽可能紧致，从而使得 KL 散度中的 $q$ 更接近 $p$ 。

$ELBO$ 与重要性采样密切相关。对于固定的 $q$ ，定义一个随机变量 $R=\frac{p(\mathbf{z}, \mathbf{x})}{q(\mathbf{z})}$ ，其中 $\mathrm{z} \sim q$ ，该变量满足条件 $p(\mathbf{x})=\mathbb{E} R$ （这也是重要性采样的基础）。依据 Jensen 不等式，可以写出 $\log p(\mathbf{x}) = \log \mathbb{E}R \geq \mathbb{E} \log R=\operatorname{ELBO}[q \\| p]$ ，这正是现代黑盒版变分推断的基础 ^[19] 。在黑盒变分推断中，常使用蒙特卡罗随机样本来估计 $\mathbb{E} \log R$ ，其方式类似于用重要性采样来估计 $\mathbb{E} R$ 。

至关重要的是，变分推断用于获取下界的唯一属性是 $p(\mathbf{x})=\mathbb{E} R$ 。很容易看处， $R$ 的分布越聚集于其均值 $p(\mathbf{x})$ 附近，Jensen 不等式越会产生更紧致的下界。因此，一种自然的想法是在均值相同条件下，优先选取分布更为聚集的随机变量，例如样本均值 $R_{M}=\frac{1}{M} \sum_{m=1}^{M} R_m$ 。然后，通过相同的推理， $\log p(\mathbf{x}) \geq \mathbb{E} \log R_{M}$ 。后者是重要性加权自动编码器的目标 ^[5] ，我们称其为重要性加权证据下界（ $IW-ELBO$ ），而选择 $q$ 以最大化该目标的过程，被称为重要性加权变分推断 (IWVI)。

但此时应暂停一下，公式（1）中的分解使我们清楚地看到，在优化 $ELBO$ 时，标准变分推断在何种意义上使 $q$ 接近于 $p$ 。通过切换到一维随机变量 $R_M$ ，我们导出了 IW-ELBO，它给出了 $\log p(x)$ 上更紧致的下界。从学习任务角度，我们已经达到目的了。但对于概率推断任务，我们无法确定到底在什么意义上 $q$ “接近了” $p$ ，也无法确定应该如何使用 $q$ 来计算后验期望（即预测）。

本文的贡献一：提供了重要性加权变分推断（IWVI）的一个新视角。

强化了 IWVI 和自归一化重要性采样方法（NIS）之间的精确关系 ^[17] ，它指导我们如何将 IWVI 用于“纯概率推断”的应用场景。具体来说，IWVI 是增强变分推断的一个实例，最大化 $IW-ELBO$ 正好对应于最小化 $q_M$ 和 $p_M$ 之间的 KL 散度，其中 $q_M$ 由 $M$ 个来自 $q$ 的 $NIS$ 采样样本构成，而 $p_M$ 则是由 1 个来自 $p$ 的样本和 $M−1$ 个来自 $q$ 的哑样本联合构成。这对于我们关注的概率推断任务具有重要意义（与学习任务相对）。在优化 $q$ 之后，应该使用 $NIS$ 计算后验期望。我们展示了 IWVI 不仅显著收紧了 $\log p(x)$ 的下界，而且显著减少了后验期望（预测）的估计误差。

先前有工作建立了 IWVI 和 $NIS$ 之间的连接，但仅仅表明 $IW-ELBO$ 是一个应用于 $NIS$ 分布的 $ELBO$ 下界 ^[6] ^[16] ^[2] 。我们将这种关系精确为增强变分推断的一个实例，并精确量化了 $IW-ELBO$ 与应用于 $NIS$ 分布的常规 $ELBO$ 之间的差别，其本质上是一个条件 KL 散度。

本文的贡献二：将“防御性采样” ^[17]的思想应用于变分推断，进一步探索了变分推断和重要性采样之间的联系。

防御性重要性采样使用平坦的 $q$ 分布，以避免出现在 $p$ 中有概率密度的区域，在 $q$ 中却几乎没有概率质量的情况，进而减少方差。这个想法因为要做 “众数搜索” 而与常规变分推断方法不太兼容，但却和 IWVI 非常兼容。我们展示了如何使用椭圆分布和重参数化技巧，来实现一种防御性采样形式，而几乎没有增加黑盒变分推断的额外开销。 椭圆变分推断，在 $ELBO$ 和后验期望方面，比高斯黑盒变分推断提供了一些小的改进。不过在更高维度上，这些改进会减弱，但椭圆变分推断在收敛可靠性和收敛速度方面有着显著提升。这与“在与 $p$ 不匹配时，建议使用防御性 $q$ 的概念” 是一致的。

2 变分推断

重新考虑式（1）中的 “ELBO 分解” 。变分推断最大化了 $q$ 上的 “证据下界”（ELBO）。由于散度项是非负的，这会同时收紧了 $\log p(x)$ 上的下界。由于散度和 $ELBO$ 以常数变化，因此最大化 $ELBO$ 等效于最小化散度。所以，变分推断可以被认为是同时解决了两个问题：

“概率推断”问题，即在 KL 散度项中找到一个接近于后验 $p(z|x)$ 的相似分布 $q(z)$ 。
“边缘似然的边界”问题，即找到边缘似然（也称证据） $\log p(x)$ 的下界。

“概率推断”问题通常与贝叶斯推断一起使用。典型任务场景如下：

用户指定模型 $p(\mathbf{z},\mathbf{x})$ ，观测到一些数据 $\mathbf{x}$ ，并且对隐变量 $\mathbf{z}$ 上的后验分布 $p(\mathbf{z}|\mathbf{x})$ 感兴趣。虽然 MCMC 最常被用于解决该问题 ^[9] ^[22] ，但高计算成本促进了变分推断方法的使用 ^[11] ^[3] 。用户可能对后验的很多方面都感兴趣，但本文将专注于“基于后验分布求期望”的任务，即对于用户感兴趣的、以隐变量为输入的任意函数 $t(\mathbf{z})$ （如： $\mathbf{z}$ 的均值、方差等），希望能够通过后验分布上的边缘化，估计出 $\mathbb{E}_{p(\mathbf{z}|\mathbf{x})}t(\mathbf{z})$ 。

“边缘似然的边界”问题通常用于支持最大似然学习。典型任务场景如下：

假设 $p_θ(\mathbf{z},\mathbf{x})$ 是观测数据 $\mathbf{x}$ 和隐藏变量 $\mathbf{z}$ 的某种分布，希望得到能够使观测数据的边缘似然 $p_{\theta}(\mathbf{x})$ 最大化的 $θ$ 。但当积分 $p_θ(\mathbf{x}) =∫p_θ(\mathbf{z},\mathbf{x})d\mathbf{z}$ 难以处理时，会转而寻求优化易于处理的对数边缘似然下界 $\mathbb{E}_{q(\mathbf{z})} \log (p_{\theta}(\mathbf{z},\mathbf{x})/q(\mathbf{z}))$ ，以获得对生成参数（ $\theta$ ）和变分参数（即近似分布 $q$ 的参数）的推断 ^[21] 。该想法最近在变分自动编码器 (VAE) 上取得了巨大的成功 ^[10] 。

注：模型的参数 $\theta$ 通常被称为生成参数，而变分分布 $q$ 的参数通常被称为变分参数。

3 重要性加权

最近，重要性采样的思想被应用于在变分自编码器中，用于获得更紧致的 $ELBO$ ^[5] 。本文回顾了该想法，并建立了其与增强变分推断之间的联系，明确了如何将重要性采样的思想应用于概率推断问题。

取任意点 $\mathbf{x}$ 处的随机变量 $R_{\mathbf{x}}$ ，令 $\mathbb{E}R_{\mathbf{x}}=p(\mathbf{x})$ ，从而将其视为 $p(\mathbf{x})$ 的“估计器”。那么通过 Jensen 不等式很容易看出：

\log p(\mathbf{x})=\underbrace{\mathbb{E} \log R_{\mathbf{x}}}_{\text {bound }}+\underbrace{\mathbb{E} \log \frac{p(\mathbf{x})}{R_{\mathbf{x}}}}_{\text {looseness }} \tag{2}

其中第一项是 $\log p(\mathbf{x})$ 的下界，第二项为非负项，代表松散度。如果 $R_{\mathbf{x}}$ 高度集中，则下界会很紧致。

虽然式（2）看起来很琐碎，但它是式（ 1 ）中 $ELBO$ 分解的泛化。要认识到这一点，可以将随机变量 $R$ 定义为：

R_{\mathbf{x}}=\omega(\mathbf{z})=\frac{p(\mathbf{z}, \mathbf{x})}{q(\mathbf{z})}, \mathbf{z} \sim q \tag{3}

显然相对于 $q(\mathbf{z}）$ 做平均估计时， $\mathbb{E} R=p(\mathbf{x})$ ，并且式（2）变为了式（1）。

式（ 2 ）相较于式（ 1 ）的优点是增加了灵活性：替代的估计器 $R_{\mathbf{x}}$ 可以对 $\log p(\mathbf{x})$ 给出更紧致的边界。一个自然的想法是从 $q$ 中抽取 $M$ 个独立同分布样本 $Z_m$ ，然后像重要性采样那样做平均估计：

R_{\mathbf{x},M}=\frac{1}{M} \sum_{m=1}^{M} \frac{p\left(\mathbf{z}_{m}, \mathbf{x}\right)}{q\left(\mathbf{z}_{m}\right)}, \mathbf{z}_{m} \sim q \tag{4}

式中， $M$ 为抽取的样本数量。 $\mathbb{E} R_{\mathbf{x},M}=p(\mathbf{x})$ 总是能够保证的，但随着 $M$ 的增大， $R_{\mathbf{x},M}$ 的分布在零附近的概率质量越来越趋近于零，并导致更紧致的边界（图 1 ）。

上述方法导致了一个 $\log p(\mathbf{x})$ 上更紧致的 “重要性加权证据下界（IW-ELBO）” ，即：

\text{IW-ELBO}_{M}[q(\mathbf{z}) \| p(\mathbf{z}, \mathbf{x})]:=\underset{q\left(\mathbf{z}_{1: M}\right)}{\mathbb{E}} \log \frac{1}{M} \sum_{m=1}^{M} \frac{p\left(\mathbf{z}_{m}, \mathbf{x}\right)}{q\left(\mathbf{z}_{m}\right)} \tag{5}

其中 $\mathbf{z}_{1: M}$ 是 $\left(\mathbf{z}_{1}, \ldots, \mathbf{z}_{M}\right)$ 的简写，并且 $q\left(\mathbf{z}_{1: M}\right)=q\left(\mathbf{z}_{1}\right) \cdots q\left(\mathbf{z}_{M} \right)$ 。该下界是 Burda 等人在支持变分自动编码器的最大似然学习背景下首先提出的 ^[5] 。

图 1： $R_M$ 的密度如何随 $M$ 变化 (分布和设置见图 2)。

3.1 $IW-ELBO$ 的生成过程

虽然式（ 2 ）清楚地表明优化 $IW-ELBO$ 能够收紧 $\log p(\mathbf{x})$ 的下界，但这与“概率推断”之间的关系并不明显。是否有一些散度正在被最小化呢？下面的定理（ 1 ）表明，可以通过构造增强的分布 $p_{M}\left(\mathbf{z}_{1: M}, \mathbf{x}\right)$ 和 $q_{M}\left (\mathbf{z}_{1: M}\right)$ ，然后对联合分布应用公式（ 1 ）中的 $ELBO$ 分解来理解：

定理 1 (重要性加权变分推断)
令 $q_{M}\left(\mathbf{z}_{1: M}\right)$ 是由算法（ 1 ）所描述生成过程的概率密度，该过程建立在对 $q$ 的 $M$ 个样本的自归一化重要性采样之上。令 $ p_{M}(\mathbf{z}{1: M}, \mathbf{x})=p(\mathbf{z}{1}, \mathbf{x}\ ) q(\mathbf{z}_{2: M}) $ 是基于 $p$ 的样本 $\mathbf{z}_{1}$ 、 $\mathbf{x}$ ，和 $q$ 中抽取的“虚拟”样本 $\mathbf{z}_{2: M}$ 得到的密度。则：
$q_{M}\left(\mathbf{z}_{1: M}\right)=\frac{p_{M}\left(\mathbf{z}_{1: M}, \mathbf{x}\right)}{\frac{1}{M} \sum_{m=1}^{M} \omega\left(\mathbf{z}_{m}\right)} \tag{6}$
更进一步，式（ 1 ）中应用于 $q_{M}$ 和 $p_{M}$ 的 $ELBO$ 分解是：
$\log p(\mathbf{x})=\mathrm{IW}-\operatorname{ELBO}_{M}[q(\mathbf{z}) \| p(\mathbf{z}, \mathbf{x})]+\operatorname{KL}\left[q_{M}\left(\mathbf{z}_{1: M}\right) \| p_{M}\left(\mathbf{z}_{1: M} \mid \mathbf{x}\right)\right] \tag{7}$

我们将最大化 $IW-ELBO$ 的过程称为“重要性加权变分推断”（IWVI）。而 Burda 等人使用“重要性加权自编码器”来优化式（ 5 ）来作为变分自编码器的似然下界，但该术语将重要性加权思想与特定模型绑定了起来，在概率推断问题上不建议使用。

算法（1）中 $q_M$ 的生成过程与自归一化重要性采样（ $NIS$ ）非常相似。通常的 $NIS$ 分布会抽取一个大小为 $M$ 的批次，然后以与重要性权重成比例的概率 “选择” 某个变量。 $NIS$ 与边缘分布 $q_M(\mathbf{z}_1)$ 基本相同，但 $q_M(\mathbf{z}_{1:M})$ 的生成过程额外地保留了“未被选择”的变量，并将它们重新标记为 $\mathbf{z}_{2:M}$ 。

以前的工作 ^[6] ^[2] ^[16] ^[12] 调查了 $NIS$ 和 $IW-ELBO$ 之间的相似联系。在我们的概念中，他们表明：

\log p(\mathbf{x}) \geq \operatorname{ELBO}\left[q_{M}\left(\mathbf{z}_{1}\right) \| p\left(\mathbf{z}_{1}, \mathbf{x}\right)\right] \geq \text{IW-ELBO}_{M}[q(\mathbf{z}) \| p(\mathbf{z}, \mathbf{x})] \tag{8}

也就是说，他们表明 $IW-ELBO$ 是 $NIS$ 分布和 $p$ 之间的 $ELBO$ 下界，但是没有量化第二个不等式中的差距。我们的研究结果清楚地表明，通过最大化 $IW-ELBO$ 到底被最小化了多少 KL 散度，以及这样做在多大意义上使 $q$ “更接近” $p$ 了。作为推论，我们还量化了上述不等式的差距，参见下面的定理（2）。

最近的分解 ^[12] 与定理（1）相关，但基于不同的增强分布 $q_{M}^{I S}$ 和 $p_{M}^{I S}$ 。这个结果是根本不同的，因为它让 $q_{M}^{IS}$ “固定”为一个大小为 $M$ 从 $q$ 的独立样本，并修改 $p_{M}^{IS}$ 所以它的边际接近 $q$ 。这不影响推断。将此与我们的结果进行对比，其中 $q_{M}\left(\mathbf{z}_{1}\right)$ 越来越接近 $p\left(\mathbf{z}_{1} \mid \ mathbf{x}\right)$ ，可用于概率推断。详见附录（A.3.2 节）。

如果 IWVI 将用于一般概率查询，那么确定精确的生成过程是有用的，这是我们工作的重点，而且据我们所知，以前没有被调查过。例如， $t(\mathbf{z})$ 的期望值可以近似为

\underset{p(\mathbf{z} \mid \mathbf{x})}{\mathbb{E}} t(\mathbf{z})=\underset{p_{M}\left(\mathbf{z}_{1} \mid \mathbf{x}\right)}{\mathbb{E}} t\left(\mathbf{z}_{1}\right) \approx \underset{q_{M}\left(\mathbf{z}_{1}\right)}{\mathbb{E}} t\left(\mathbf{z}_{1}\right)=\underset{q\left(\mathbf{z}_{1: M}\right)}{\mathbb{E}} \frac{\sum_{m=1}^{M} \omega\left(\mathbf{z}_{m}\right) t\left(\mathbf{z}_{m}\right)}{\sum_{m=1}^{M} \omega\left(\mathbf{z}_{m}\right)} \tag{9}

最终的等式由附录中的引理（ 4 ）建立。这里，内部近似是合理的，因为 IWVI 最小化了 $q_{M}\left(\mathbf{z}_{1: M}\right)$ 和 $p_{M}\left(\mathbf{z }_{1: M} \mid \mathbf{x}\right)$ 。然而，这并不等同于最小化 $q_{M}\left(\mathbf{z}_{1}\right)$ 和 $p_{M}\left(\mathbf{z}_{1} \mid \mathbf{x}\right)$ ，如下面结果所示。

定理 2. 与 IWVI 相关的边缘和联合散度由下式相关
$\operatorname{KL}\left[q_{M}\left(\mathbf{z}_{1: M}\right) \| p_{M}\left(\mathbf{z}_{1: M} \mid \mathbf{x}\right)\right]=\operatorname{KL}\left[q_{M}\left(\mathbf{z}_{1}\right) \| p\left(\mathbf{z}_{1} \mid \mathbf{x}\right)\right]+\operatorname{KL}\left[q_{M}\left(\mathbf{z}_{2: M} \mid \mathbf{z}_{1}\right) \| q\left(\mathbf{z}_{2: M}\right)\right]$
因此，式（ 8 ）的第一个不等式的差正好是 $\mathrm{KL}\left[q_{M}\left(\mathbf{z}_{1}\right) \| p\left(\mathbf{z}_{1} \mid \mathbf{x}\right)\right]$ 并且第二个不等式中的差正好是 $\mathrm{KL}\left[q_{M}\left(\mathbf{z}_{2: M} \mid \mathbf{z}_{1}\right) \| q\left(\mathbf{z}_{2: M}\right)\right]$ 。

第一项是 $q_{M}$ 的边际（即“标准”NIS 分布）与后验分布之间的差异。原则上，这正是我们想要最小化以证明等式的分歧。 $9 .$ 但是，自 Alg 中的选择阶段以来，第二项不为零。 1 留下 $\mathbf{z}_{2: M}$ 在 $q_{M}$ 下的分布与在 $q$ 下不同。由于该项与等式 9 中近似的质量无关，因此 IWVI 真正最小化了上限。因此，IWVI 可以被视为辅助变分推断 [1] 的一个实例，其中联合发散度上限为感兴趣的发散度。

图 2：两个高斯 ( $\mathcal{N}$ ) 和两个学生-T ( $\mathcal{T}$ ) 变分分布，均具有恒定方差和 A 或 B 其中一个均值。对于 $M=1$ ，最好使用更接近 $p$ 的一种模式的均值。对于大一些的 $M$ ，中心的平均值更好，并且学生 -T 的重尾导致对 $p$ 更好地近似，以及在 $IW-ELBO$ 和矩误差方面的更好性能。

4 重要性采样的方差

5 椭圆分布

6 重参数化和椭圆分布

7 实验

References

[1] Felix V. Agakov and David Barber. An auxiliary variational method. InNeural InformationProcessing, Lecture Notes in Computer Science, pages 561–566. Springer, Berlin, Heidelberg,2004.
[2] Philip Bachman and Doina Precup. Training deep generative models: Variations on a theme. InNIPS Workshop: Advances in Approximate Bayesian Inference, 2015.
[3] Robert Bamler, Cheng Zhang, Manfred Opper, and Stephan Mandt. Perturbative black boxvariational inference. InNIPS, 2017.
[4] Peter J Bickel and Kjell A Doksum.Mathematical statistics: basic ideas and selected topics,volume I, volume 117. CRC Press, 2015.
[5] Yuri Burda, Roger Grosse, and Ruslan Salakhutdinov. Importance weighted autoencoders.2015.
[6] Chris Cremer, Quaid Morris, and David Duvenaud. Reinterpreting importance-weightedautoencoders. 2017.
[7] Adji Bousso Dieng, Dustin Tran, Rajesh Ranganath, John Paisley, and David Blei. Variationalinference viaχupper bound minimization. InNIPS, pages 2729–2738. 2017.
[8] Kaitai Fang, Samuel Kotz, and Kai Wang Ng.Symmetric multivariate and related distributions.Number 36 in Monographs on statistics and applied probability. Chapman and Hall, 1990.9
[9] W. R. Gilks, A. Thomas, and D. J. Spiegelhalter. A language and program for complex bayesianmodelling. 43(1):169–177, 1994.
[10] Diederik P. Kingma and Max Welling. Auto-encoding variational bayes. InICLR.
[11] Alp Kucukelbir, Dustin Tran, Rajesh Ranganath, Andrew Gelman, and David M. Blei. Auto-matic differentiation variational inference. 18(14):1–45, 2017.
[12] Tuan Anh Le, Maximilian Igl, Tom Rainforth, Tom Jin, and Frank Wood. Auto-EncodingSequential Monte Carlo. InICLR, 2018.
[13] Chris J Maddison, John Lawson, George Tucker, Nicolas Heess, Mohammad Norouzi, AndriyMnih, Arnaud Doucet, and Yee Teh. Filtering variational objectives. InNIPS, pages 6576–6586.2017.
[14] Józef Marcinkiewicz and Antoni Zygmund. Quelques théoremes sur les fonctions indépendantes.Fund. Math, 29:60–90, 1937.
[15] Minka, Thomas. Expectation propagation for approximate bayesian inference. InUAI, 2001.
[16] Christian A. Naesseth, Scott W. Linderman, Rajesh Ranganath, and David M. Blei. Variationalsequential monte carlo. InAISTATS, 2018.
[17] Art Owen.Monte Carlo theory, methods and examples. 2013.
[18] Tom Rainforth, Adam R. Kosiorek, Tuan Anh Le, Chris J. Maddison, Maximilian Igl, FrankWood, and Yee Whye Teh. Tighter variational bounds are not necessarily better.
[19] Rajesh Ranganath, Sean Gerrish, and David M. Blei. Black box variational inference. InAISTATS, 2014.
[20] Francisco J. R. Ruiz, Michalis K. Titsias, and David M. Blei. Overdispersed black-box varia-tional inference. InUAI, 2016.
[21] L. K. Saul, T. Jaakkola, and M. I. Jordan. Mean field theory for sigmoid belief networks.Journal of Artificial Intelligence Research, 4:61–76, 1996.
[22] Stan Development Team. Modeling language user’s guide and reference manual, version 2.17.0,2017.
[23] Tom Minka. Divergence measures and message passing. 2005.