【摘要】最近有工作使用重要性采样的思路,来确定更紧致的变分似然边界。本文阐明了该想法对纯概率推断的适用性,展示了重要性加权变分推断技术作为一种增强的变分推断方法,能够识别先前工作中的松散性。实验证实了重要性加权变分推断在概率推断方面的实用性。作为另一个成果,本文研究了使用椭圆分布的推断方法,该方法提高了低维准确性和高维收敛性。

【原文】 J Domke and D Sheldon (2018), Importance weighting and variational inference. In Advances in Neural Information Processing Systems. https://arxiv.org/abs/1808.09034

1 问题提出

概率建模通过为不可观测的变量 $\mathbf{z}$ 和可观测变量 $\mathbf{x}$ 制定联合模型 $p(\mathbf{z}, \mathbf{x})$ 来推断世界,然后查询后验分布 $p(\mathbf{z} \mid \mathbf{x})$ 以了解给定证据 $\mathbf{x}$ 的隐藏量。常见的任务是从后验 $p(\mathbf{z} \mid \mathbf{x})$ 中抽取样本,或利用后验计算期望。但直接执行这些任务通常是难以处理的,因此大量研究致力于近似推断方法。

变分推断是近似推断的主要方法。在变分推断中,用一个简单分布族中易于处理的分布 $q(\mathbf{z})$ 来近似真实后验 $p(\mathbf{z} \mid \mathbf{x})$ 。通常基于以下分解来选择近似后验 $q$ ( 见 [21] 的式 11 - 式 12 ): $$ \log p(\mathbf{x})=\underbrace{\underset{q(\mathbf{z})}{\mathbb{E}} \log \frac{p(\mathbf{z}, \mathbf{x})}{q(\mathbf{z})}}_{\operatorname{ELBO}[q(\mathbf{z}) \| p(\mathbf{z}, \mathbf{x})]}+\underbrace{\operatorname{KL}[q(\mathbf{z}) \| p(\mathbf{z} \mid \mathbf{x})]}_{\text {divergence }} \tag{1} $$ 上式中第一项为对数边缘似然 $\log p(\mathbf{x})$ 的下界,被称为“证据下界( $ELBO$ )”。选择 $q$ 的目标是使 $ELBO$ 尽可能大,同时保证其维持为 $\log p(\mathbf{x})$ 的下界,而且尽可能紧致,从而使得 KL 散度中的 $q$ 更接近 $p$ 。 $ELBO$ 与重要性采样密切相关。对于固定的 $q$ ,定义一个随机变量 $R=\frac{p(\mathbf{z}, \mathbf{x})}{q(\mathbf{z})}$ ,其中 $\mathrm{z} \sim q$ ,该变量满足条件 $p(\mathbf{x})=\mathbb{E} R$ (这也是重要性采样的基础)。依据 Jensen 不等式,可以写出 $\log p(\mathbf{x}) = \log \mathbb{E}R \geq \mathbb{E} \log R=\operatorname{ELBO}[q \\| p]$ ,这正是现代黑盒版变分推断的基础 [19] 。在黑盒变分推断中,常使用蒙特卡罗随机样本来估计 $\mathbb{E} \log R$ ,其方式类似于用重要性采样来估计 $\mathbb{E} R$ 。 至关重要的是,变分推断用于获取下界的唯一属性是 $p(\mathbf{x})=\mathbb{E} R$ 。很容易看处,$R$ 的分布越聚集于其均值 $p(\mathbf{x})$ 附近,Jensen 不等式越会产生更紧致的下界。因此,一种自然的想法是在均值相同条件下,优先选取分布更为聚集的随机变量,例如样本均值 $R_{M}=\frac{1}{M} \sum_{m=1}^{M} R_m$ 。然后,通过相同的推理,$\log p(\mathbf{x}) \geq \mathbb{E} \log R_{M}$。后者是重要性加权自动编码器的目标 [5] ,我们称其为重要性加权证据下界( $IW-ELBO$ ),而选择 $q$ 以最大化该目标的过程,被称为重要性加权变分推断 (IWVI)。 但此时应暂停一下,公式(1)中的分解使我们清楚地看到,在优化 $ELBO$ 时,标准变分推断在何种意义上使 $q$ 接近于$p$。通过切换到一维随机变量 $R_M$ ,我们导出了 IW-ELBO,它给出了 $\log p(x)$ 上更紧致的下界。从学习任务角度,我们已经达到目的了。但对于概率推断任务,我们无法确定到底在什么意义上 $q$ “接近了” $p$,也无法确定应该如何使用 $q$ 来计算后验期望(即预测)。 **本文的贡献一:提供了重要性加权变分推断(IWVI)的一个新视角。** 强化了 IWVI 和自归一化重要性采样方法(NIS)之间的精确关系 [17] ,它指导我们如何将 IWVI 用于“纯概率推断”的应用场景。具体来说,IWVI 是增强变分推断的一个实例,最大化 $IW-ELBO$ 正好对应于最小化 $q_M$ 和 $p_M$ 之间的 KL 散度,其中 $q_M$ 由 $M$ 个来自 $q$ 的 $NIS$ 采样样本构成,而 $p_M$ 则是由 1 个来自 $p$ 的样本和 $M−1$ 个来自 $q$ 的哑样本联合构成。 这对于我们关注的概率推断任务具有重要意义(与学习任务相对)。在优化 $q$ 之后,应该使用 $NIS$ 计算后验期望。我们展示了 IWVI 不仅显著收紧了 $\log p(x)$ 的下界,而且显著减少了后验期望(预测)的估计误差。 先前有工作建立了 IWVI 和 $NIS$ 之间的连接,但仅仅表明 $IW-ELBO$ 是一个应用于 $NIS$ 分布的 $ELBO$ 下界 [6] [16] [2] 。我们将这种关系精确为增强变分推断的一个实例,并精确量化了 $IW-ELBO$ 与应用于 $NIS$ 分布的常规 $ELBO$ 之间的差别,其本质上是一个条件 KL 散度。 **本文的贡献二:将“防御性采样” [17]的思想应用于变分推断,进一步探索了变分推断和重要性采样之间的联系。** 防御性重要性采样使用平坦的 $q$ 分布,以避免出现在 $p$ 中有概率密度的区域,在 $q$ 中却几乎没有概率质量的情况,进而减少方差。这个想法因为要做 “众数搜索” 而与常规变分推断方法不太兼容,但却和 IWVI 非常兼容。我们展示了如何使用椭圆分布和重参数化技巧,来实现一种防御性采样形式,而几乎没有增加黑盒变分推断的额外开销。 `椭圆变分推断`, 在 $ELBO$ 和后验期望方面,比`高斯黑盒变分推断`提供了一些小的改进。不过在更高维度上,这些改进会减弱,但`椭圆变分推断`在`收敛可靠性`和`收敛速度`方面有着显著提升。这与“在与 $p$ 不匹配时,建议使用防御性 $q$ 的概念” 是一致的。 ## 2 变分推断 重新考虑式(1)中的 “ELBO 分解” 。变分推断最大化了 $q$ 上的 “证据下界”(ELBO)。由于散度项是非负的,这会同时收紧了 $\log p(x)$ 上的下界。由于散度和 $ELBO$ 以常数变化,因此最大化 $ELBO$ 等效于最小化散度。所以,变分推断可以被认为是同时解决了两个问题: - **“概率推断”问题**,即在 KL 散度项中找到一个接近于后验 $p(z|x)$ 的相似分布 $q(z)$。 - **“边缘似然的边界”问题**,即找到边缘似然(也称证据) $\log p(x)$ 的下界。 “概率推断”问题通常与贝叶斯推断一起使用。典型任务场景如下: 用户指定模型 $p(\mathbf{z},\mathbf{x})$ ,观测到一些数据 $\mathbf{x}$,并且对隐变量 $\mathbf{z}$ 上的后验分布 $p(\mathbf{z}|\mathbf{x})$ 感兴趣。虽然 MCMC 最常被用于解决该问题 [9] [22] ,但高计算成本促进了变分推断方法的使用 [11] [3] 。 用户可能对后验的很多方面都感兴趣,但本文将专注于“基于后验分布求期望”的任务,即对于用户感兴趣的、以隐变量为输入的任意函数 $t(\mathbf{z})$ (如:$\mathbf{z}$ 的均值、方差等),希望能够通过后验分布上的边缘化,估计出 $\mathbb{E}_{p(\mathbf{z}|\mathbf{x})}t(\mathbf{z})$ 。 “边缘似然的边界”问题通常用于支持`最大似然学习`。典型任务场景如下: 假设 $p_θ(\mathbf{z},\mathbf{x})$ 是观测数据 $\mathbf{x}$ 和隐藏变量 $\mathbf{z}$ 的某种分布,希望得到能够使观测数据的边缘似然 $p_{\theta}(\mathbf{x})$ 最大化的 $θ$ 。但当积分 $p_θ(\mathbf{x}) =∫p_θ(\mathbf{z},\mathbf{x})d\mathbf{z}$ 难以处理时,会转而寻求优化易于处理的对数边缘似然下界 $\mathbb{E}_{q(\mathbf{z})} \log (p_{\theta}(\mathbf{z},\mathbf{x})/q(\mathbf{z}))$ ,以获得对生成参数( $\theta$ )和变分参数 (即近似分布 $q$ 的参数)的推断 [21] 。该想法最近在变分自动编码器 (VAE) 上取得了巨大的成功 [10] 。 > 注:模型的参数 $\theta$ 通常被称为`生成参数`,而变分分布 $q$ 的参数通常被称为`变分参数`。 ## 3 重要性加权 最近,重要性采样的思想被应用于在变分自编码器中,用于获得更紧致的 $ELBO$ [5] 。本文回顾了该想法,并建立了其与增强变分推断之间的联系,明确了如何将重要性采样的思想应用于`概率推断`问题。 取任意点 $\mathbf{x}$ 处的随机变量 $R_{\mathbf{x}}$,令 $\mathbb{E}R_{\mathbf{x}}=p(\mathbf{x})$ ,从而将其视为 $p(\mathbf{x})$ 的“估计器”。那么通过 Jensen 不等式很容易看出: $$ \log p(\mathbf{x})=\underbrace{\mathbb{E} \log R_{\mathbf{x}}}_{\text {bound }}+\underbrace{\mathbb{E} \log \frac{p(\mathbf{x})}{R_{\mathbf{x}}}}_{\text {looseness }} \tag{2} $$ 其中第一项是 $\log p(\mathbf{x})$ 的下界,第二项为非负项,代表松散度。如果 $R_{\mathbf{x}}$ 高度集中,则下界会很紧致。 虽然式(2)看起来很琐碎,但它是式( 1 )中 $ELBO$ 分解的泛化。要认识到这一点,可以将随机变量 $R$ 定义为: $$ R_{\mathbf{x}}=\omega(\mathbf{z})=\frac{p(\mathbf{z}, \mathbf{x})}{q(\mathbf{z})}, \mathbf{z} \sim q \tag{3} $$ 显然相对于 $q(\mathbf{z})$ 做平均估计时, $\mathbb{E} R=p(\mathbf{x})$ ,并且式(2)变为了式(1)。 式( 2 )相较于式( 1 )的优点是增加了灵活性:替代的估计器 $R_{\mathbf{x}}$ 可以对 $\log p(\mathbf{x})$ 给出更紧致的边界。一个自然的想法是从 $q$ 中抽取 $M$ 个独立同分布样本 $Z_m$ ,然后像重要性采样那样做平均估计: $$ R_{\mathbf{x},M}=\frac{1}{M} \sum_{m=1}^{M} \frac{p\left(\mathbf{z}_{m}, \mathbf{x}\right)}{q\left(\mathbf{z}_{m}\right)}, \mathbf{z}_{m} \sim q \tag{4} $$ 式中, $M$ 为抽取的样本数量。$\mathbb{E} R_{\mathbf{x},M}=p(\mathbf{x})$ 总是能够保证的,但随着 $M$ 的增大,$R_{\mathbf{x},M}$ 的分布在零附近的概率质量越来越趋近于零,并导致更紧致的边界(图 1 )。 上述方法导致了一个 $\log p(\mathbf{x})$ 上更紧致的 "重要性加权证据下界(IW-ELBO)" ,即: $$ \text{IW-ELBO}_{M}[q(\mathbf{z}) \| p(\mathbf{z}, \mathbf{x})]:=\underset{q\left(\mathbf{z}_{1: M}\right)}{\mathbb{E}} \log \frac{1}{M} \sum_{m=1}^{M} \frac{p\left(\mathbf{z}_{m}, \mathbf{x}\right)}{q\left(\mathbf{z}_{m}\right)} \tag{5} $$ 其中 $\mathbf{z}_{1: M}$ 是 $\left(\mathbf{z}_{1}, \ldots, \mathbf{z}_{M}\right)$ 的简写 ,并且 $q\left(\mathbf{z}_{1: M}\right)=q\left(\mathbf{z}_{1}\right) \cdots q\left(\mathbf{z}_{M} \right)$ 。该下界是 Burda 等人在支持变分自动编码器的最大似然学习背景下首先提出的 [5] 。 ![](https://xishansnowblog.oss-cn-beijing.aliyuncs.com/images/images/stats-20211104085903-b02a.webp) > 图 1:$R_M$ 的密度如何随 $M$ 变化 (分布和设置见图 2)。 ### 3.1 $IW-ELBO$ 的生成过程 虽然式( 2 )清楚地表明优化 $IW-ELBO$ 能够收紧 $\log p(\mathbf{x})$ 的下界,但这与“概率推断”之间的关系并不明显。是否有一些散度正在被最小化呢?下面的定理( 1 )表明,可以通过构造增强的分布 $p_{M}\left(\mathbf{z}_{1: M}, \mathbf{x}\right)$ 和 $q_{M}\left (\mathbf{z}_{1: M}\right)$ ,然后对联合分布应用公式( 1 )中的 $ELBO$ 分解来理解: > > > 定理 1 (重要性加权变分推断) > 令 $q_{M}\left(\mathbf{z}_{1: M}\right)$ 是由算法( 1 )所描述生成过程的概率密度,该过程建立在对 $q$ 的 $M$ 个样本的自归一化重要性采样之上。令 $ p_{M}(\mathbf{z}_{1: M}, \mathbf{x})=p(\mathbf{z}_{1}, \mathbf{x}\ ) q(\mathbf{z}_{2: M}) $ 是基于 $p$ 的样本 $\mathbf{z}_{1}$ 、 $\mathbf{x}$ ,和 $q$ 中抽取的“虚拟”样本 $\mathbf{z}_{2: M}$ 得到的密度。则: > > $$ > q_{M}\left(\mathbf{z}_{1: M}\right)=\frac{p_{M}\left(\mathbf{z}_{1: M}, \mathbf{x}\right)}{\frac{1}{M} \sum_{m=1}^{M} \omega\left(\mathbf{z}_{m}\right)} \tag{6} > $$ > > 更进一步,式( 1 )中应用于 $q_{M}$ 和 $p_{M}$ 的 $ELBO$ 分解是: > > $$ > \log p(\mathbf{x})=\mathrm{IW}-\operatorname{ELBO}_{M}[q(\mathbf{z}) \| p(\mathbf{z}, \mathbf{x})]+\operatorname{KL}\left[q_{M}\left(\mathbf{z}_{1: M}\right) \| p_{M}\left(\mathbf{z}_{1: M} \mid \mathbf{x}\right)\right] \tag{7} > $$ > ![](https://xishansnowblog.oss-cn-beijing.aliyuncs.com/images/images/stats-20211104094502-8cfc.webp) 我们将最大化 $IW-ELBO$ 的过程称为“重要性加权变分推断”(IWVI)。 而 Burda 等人使用“重要性加权自编码器”来优化式( 5 )来作为变分自编码器的似然下界,但该术语将重要性加权思想与特定模型绑定了起来,在概率推断问题上不建议使用。 算法(1)中 $q_M$ 的生成过程与自归一化重要性采样( $NIS$ )非常相似。通常的 $NIS$ 分布会抽取一个大小为 $M$ 的批次,然后以与重要性权重成比例的概率 “选择” 某个变量。 $NIS$ 与边缘分布 $q_M(\mathbf{z}_1)$ 基本相同,但 $q_M(\mathbf{z}_{1:M})$ 的生成过程额外地保留了“未被选择”的变量,并将它们重新标记为 $\mathbf{z}_{2:M}$。 以前的工作 [6] [2] [16] [12] 调查了 $NIS$ 和 $IW-ELBO$ 之间的相似联系。在我们的概念中,他们表明: $$ \log p(\mathbf{x}) \geq \operatorname{ELBO}\left[q_{M}\left(\mathbf{z}_{1}\right) \| p\left(\mathbf{z}_{1}, \mathbf{x}\right)\right] \geq \text{IW-ELBO}_{M}[q(\mathbf{z}) \| p(\mathbf{z}, \mathbf{x})] \tag{8} $$ 也就是说,他们表明 $IW-ELBO$ 是 $NIS$ 分布和 $p$ 之间的 $ELBO$ 下界,但是没有量化第二个不等式中的差距。我们的研究结果清楚地表明,通过最大化 $IW-ELBO$ 到底被最小化了多少 KL 散度,以及这样做在多大意义上使 $q$ “更接近” $p$ 了。作为推论,我们还量化了上述不等式的差距,参见下面的定理(2)。 最近的分解 [12] 与定理(1)相关,但基于不同的增强分布 $q_{M}^{I S}$ 和 $p_{M}^{I S}$ 。这个结果是根本不同的,因为它让 $q_{M}^{IS}$ “固定”为一个大小为 $M$ 从 $q$ 的独立样本,并修改 $p_{M}^{IS}$ 所以它的边际接近 $q$。这不影响推断。将此与我们的结果进行对比,其中 $q_{M}\left(\mathbf{z}_{1}\right)$ 越来越接近 $p\left(\mathbf{z}_{1} \mid \ mathbf{x}\right)$,可用于概率推断。详见附录(A.3.2 节)。 如果 IWVI 将用于一般概率查询,那么确定精确的生成过程是有用的,这是我们工作的重点,而且据我们所知,以前没有被调查过。例如,$t(\mathbf{z})$ 的期望值可以近似为 $$ \underset{p(\mathbf{z} \mid \mathbf{x})}{\mathbb{E}} t(\mathbf{z})=\underset{p_{M}\left(\mathbf{z}_{1} \mid \mathbf{x}\right)}{\mathbb{E}} t\left(\mathbf{z}_{1}\right) \approx \underset{q_{M}\left(\mathbf{z}_{1}\right)}{\mathbb{E}} t\left(\mathbf{z}_{1}\right)=\underset{q\left(\mathbf{z}_{1: M}\right)}{\mathbb{E}} \frac{\sum_{m=1}^{M} \omega\left(\mathbf{z}_{m}\right) t\left(\mathbf{z}_{m}\right)}{\sum_{m=1}^{M} \omega\left(\mathbf{z}_{m}\right)} \tag{9} $$ 最终的等式由附录中的引理( 4 )建立。这里,内部近似是合理的,因为 IWVI 最小化了 $q_{M}\left(\mathbf{z}_{1: M}\right)$ 和 $p_{M}\left(\mathbf{z }_{1: M} \mid \mathbf{x}\right)$。然而,这并不等同于最小化 $q_{M}\left(\mathbf{z}_{1}\right)$ 和 $p_{M}\left(\mathbf{z}_{1} \mid \mathbf{x}\right)$,如下面结果所示。 > 定理 2. 与 IWVI 相关的边缘和联合散度由下式相关 > > $$ > \operatorname{KL}\left[q_{M}\left(\mathbf{z}_{1: M}\right) \| p_{M}\left(\mathbf{z}_{1: M} \mid \mathbf{x}\right)\right]=\operatorname{KL}\left[q_{M}\left(\mathbf{z}_{1}\right) \| p\left(\mathbf{z}_{1} \mid \mathbf{x}\right)\right]+\operatorname{KL}\left[q_{M}\left(\mathbf{z}_{2: M} \mid \mathbf{z}_{1}\right) \| q\left(\mathbf{z}_{2: M}\right)\right] > $$ > > 因此,式( 8 )的第一个不等式的差正好是 $\mathrm{KL}\left[q_{M}\left(\mathbf{z}_{1}\right) \| p\left(\mathbf{z}_{1} \mid \mathbf{x}\right)\right]$ 并且第二个不等式中的差正好是 $\mathrm{KL}\left[q_{M}\left(\mathbf{z}_{2: M} \mid \mathbf{z}_{1}\right) \| q\left(\mathbf{z}_{2: M}\right)\right]$。 第一项是 $q_{M}$ 的边际(即“标准”NIS 分布)与后验分布之间的差异。原则上,这正是我们想要最小化以证明等式的分歧。 $9 .$ 但是,自 Alg 中的选择阶段以来,第二项不为零。 1 留下 $\mathbf{z}_{2: M}$ 在 $q_{M}$ 下的分布与在 $q$ 下不同。由于该项与等式 9 中近似的质量无关,因此 IWVI 真正最小化了上限。因此,IWVI 可以被视为辅助变分推断 [1] 的一个实例,其中联合发散度上限为感兴趣的发散度。 ![](https://xishansnowblog.oss-cn-beijing.aliyuncs.com/images/images/stats-20211104090151-4474.webp) > 图 2:两个高斯 ($\mathcal{N}$) 和两个学生-T ($\mathcal{T}$) 变分分布,均具有恒定方差和 A 或 B 其中一个均值。对于 $M=1$,最好使用更接近 $p$ 的一种模式的均值。对于大一些的 $M$ ,中心的平均值更好,并且学生 -T 的重尾导致对 $p$ 更好地近似,以及在 $IW-ELBO$ 和矩误差方面的更好性能。 ## 4 重要性采样的方差 ## 5 椭圆分布 ## 6 重参数化和椭圆分布 ## 7 实验 ## References

  • [1] Felix V. Agakov and David Barber. An auxiliary variational method. InNeural InformationProcessing, Lecture Notes in Computer Science, pages 561–566. Springer, Berlin, Heidelberg,2004.
  • [2] Philip Bachman and Doina Precup. Training deep generative models: Variations on a theme. InNIPS Workshop: Advances in Approximate Bayesian Inference, 2015.
  • [3] Robert Bamler, Cheng Zhang, Manfred Opper, and Stephan Mandt. Perturbative black boxvariational inference. InNIPS, 2017.
  • [4] Peter J Bickel and Kjell A Doksum.Mathematical statistics: basic ideas and selected topics,volume I, volume 117. CRC Press, 2015.
  • [5] Yuri Burda, Roger Grosse, and Ruslan Salakhutdinov. Importance weighted autoencoders.2015.
  • [6] Chris Cremer, Quaid Morris, and David Duvenaud. Reinterpreting importance-weightedautoencoders. 2017.
  • [7] Adji Bousso Dieng, Dustin Tran, Rajesh Ranganath, John Paisley, and David Blei. Variationalinference viaχupper bound minimization. InNIPS, pages 2729–2738. 2017.
  • [8] Kaitai Fang, Samuel Kotz, and Kai Wang Ng.Symmetric multivariate and related distributions.Number 36 in Monographs on statistics and applied probability. Chapman and Hall, 1990.9
  • [9] W. R. Gilks, A. Thomas, and D. J. Spiegelhalter. A language and program for complex bayesianmodelling. 43(1):169–177, 1994.
  • [10] Diederik P. Kingma and Max Welling. Auto-encoding variational bayes. InICLR.
  • [11] Alp Kucukelbir, Dustin Tran, Rajesh Ranganath, Andrew Gelman, and David M. Blei. Auto-matic differentiation variational inference. 18(14):1–45, 2017.
  • [12] Tuan Anh Le, Maximilian Igl, Tom Rainforth, Tom Jin, and Frank Wood. Auto-EncodingSequential Monte Carlo. InICLR, 2018.
  • [13] Chris J Maddison, John Lawson, George Tucker, Nicolas Heess, Mohammad Norouzi, AndriyMnih, Arnaud Doucet, and Yee Teh. Filtering variational objectives. InNIPS, pages 6576–6586.2017.
  • [14] Józef Marcinkiewicz and Antoni Zygmund. Quelques théoremes sur les fonctions indépendantes.Fund. Math, 29:60–90, 1937.
  • [15] Minka, Thomas. Expectation propagation for approximate bayesian inference. InUAI, 2001.
  • [16] Christian A. Naesseth, Scott W. Linderman, Rajesh Ranganath, and David M. Blei. Variationalsequential monte carlo. InAISTATS, 2018.
  • [17] Art Owen.Monte Carlo theory, methods and examples. 2013.
  • [18] Tom Rainforth, Adam R. Kosiorek, Tuan Anh Le, Chris J. Maddison, Maximilian Igl, FrankWood, and Yee Whye Teh. Tighter variational bounds are not necessarily better.
  • [19] Rajesh Ranganath, Sean Gerrish, and David M. Blei. Black box variational inference. InAISTATS, 2014.
  • [20] Francisco J. R. Ruiz, Michalis K. Titsias, and David M. Blei. Overdispersed black-box varia-tional inference. InUAI, 2016.
  • [21] L. K. Saul, T. Jaakkola, and M. I. Jordan. Mean field theory for sigmoid belief networks.Journal of Artificial Intelligence Research, 4:61–76, 1996.
  • [22] Stan Development Team. Modeling language user’s guide and reference manual, version 2.17.0,2017.
  • [23] Tom Minka. Divergence measures and message passing. 2005.