【摘要】最近有工作使用重要性采样的思路,来确定更紧致的变分似然边界。本文阐明了该想法对纯概率推断的适用性,展示了重要性加权变分推断技术作为一种增强的变分推断方法,能够识别先前工作中的松散性。实验证实了重要性加权变分推断在概率推断方面的实用性。作为另一个成果,本文研究了使用椭圆分布的推断方法,该方法提高了低维准确性和高维收敛性。

【原文】 J Domke and D Sheldon (2018), Importance weighting and variational inference. In Advances in Neural Information Processing Systems. https://arxiv.org/abs/1808.09034

1 问题提出

概率建模通过为不可观测的变量 z\mathbf{z} 和可观测变量 x\mathbf{x} 制定联合模型 p(z,x)p(\mathbf{z}, \mathbf{x}) 来推断世界,然后查询后验分布 p(zx)p(\mathbf{z} \mid \mathbf{x}) 以了解给定证据 x\mathbf{x} 的隐藏量。常见的任务是从后验 p(zx)p(\mathbf{z} \mid \mathbf{x}) 中抽取样本,或利用后验计算期望。但直接执行这些任务通常是难以处理的,因此大量研究致力于近似推断方法。

变分推断是近似推断的主要方法。在变分推断中,用一个简单分布族中易于处理的分布 q(z)q(\mathbf{z}) 来近似真实后验 p(zx)p(\mathbf{z} \mid \mathbf{x}) 。通常基于以下分解来选择近似后验 qq ( 见 [21] 的式 11 - 式 12 ):

logp(x)=Eq(z)logp(z,x)q(z)ELBO[q(z)p(z,x)]+KL[q(z)p(zx)]divergence (1)\log p(\mathbf{x})=\underbrace{\underset{q(\mathbf{z})}{\mathbb{E}} \log \frac{p(\mathbf{z}, \mathbf{x})}{q(\mathbf{z})}}_{\operatorname{ELBO}[q(\mathbf{z}) \| p(\mathbf{z}, \mathbf{x})]}+\underbrace{\operatorname{KL}[q(\mathbf{z}) \| p(\mathbf{z} \mid \mathbf{x})]}_{\text {divergence }} \tag{1}

上式中第一项为对数边缘似然 logp(x)\log p(\mathbf{x}) 的下界,被称为“证据下界( ELBOELBO )”。选择 qq 的目标是使 ELBOELBO 尽可能大,同时保证其维持为 logp(x)\log p(\mathbf{x}) 的下界,而且尽可能紧致,从而使得 KL 散度中的 qq 更接近 pp

ELBOELBO 与重要性采样密切相关。对于固定的 qq ,定义一个随机变量 R=p(z,x)q(z)R=\frac{p(\mathbf{z}, \mathbf{x})}{q(\mathbf{z})} ,其中 zq\mathrm{z} \sim q ,该变量满足条件 p(x)=ERp(\mathbf{x})=\mathbb{E} R (这也是重要性采样的基础)。依据 Jensen 不等式,可以写出 logp(x)=logERElogR=ELBO[qp]\log p(\mathbf{x}) = \log \mathbb{E}R \geq \mathbb{E} \log R=\operatorname{ELBO}[q \\| p] ,这正是现代黑盒版变分推断的基础 [19] 。在黑盒变分推断中,常使用蒙特卡罗随机样本来估计 ElogR\mathbb{E} \log R ,其方式类似于用重要性采样来估计 ER\mathbb{E} R

至关重要的是,变分推断用于获取下界的唯一属性是 p(x)=ERp(\mathbf{x})=\mathbb{E} R 。很容易看处,RR 的分布越聚集于其均值 p(x)p(\mathbf{x}) 附近,Jensen 不等式越会产生更紧致的下界。因此,一种自然的想法是在均值相同条件下,优先选取分布更为聚集的随机变量,例如样本均值 RM=1Mm=1MRmR_{M}=\frac{1}{M} \sum_{m=1}^{M} R_m 。然后,通过相同的推理,logp(x)ElogRM\log p(\mathbf{x}) \geq \mathbb{E} \log R_{M}。后者是重要性加权自动编码器的目标 [5] ,我们称其为重要性加权证据下界( IWELBOIW-ELBO ),而选择 qq 以最大化该目标的过程,被称为重要性加权变分推断 (IWVI)。

但此时应暂停一下,公式(1)中的分解使我们清楚地看到,在优化 ELBOELBO 时,标准变分推断在何种意义上使 qq 接近于pp。通过切换到一维随机变量 RMR_M ,我们导出了 IW-ELBO,它给出了 logp(x)\log p(x) 上更紧致的下界。从学习任务角度,我们已经达到目的了。但对于概率推断任务,我们无法确定到底在什么意义上 qq “接近了” pp,也无法确定应该如何使用 qq 来计算后验期望(即预测)。

本文的贡献一:提供了重要性加权变分推断(IWVI)的一个新视角。

强化了 IWVI 和自归一化重要性采样方法(NIS)之间的精确关系 [17] ,它指导我们如何将 IWVI 用于“纯概率推断”的应用场景。具体来说,IWVI 是增强变分推断的一个实例,最大化 IWELBOIW-ELBO 正好对应于最小化 qMq_MpMp_M 之间的 KL 散度,其中 qMq_MMM 个来自 qqNISNIS 采样样本构成,而 pMp_M 则是由 1 个来自 pp 的样本和 M1M−1 个来自 qq 的哑样本联合构成。 这对于我们关注的概率推断任务具有重要意义(与学习任务相对)。在优化 qq 之后,应该使用 NISNIS 计算后验期望。我们展示了 IWVI 不仅显著收紧了 logp(x)\log p(x) 的下界,而且显着减少了后验期望(预测)的估计误差。

先前有工作建立了 IWVI 和 NISNIS 之间的连接,但仅仅表明 IWELBOIW-ELBO 是一个应用于 NISNIS 分布的 ELBOELBO 下界 [6] [16] [2] 。我们将这种关系精确为增强变分推断的一个实例,并精确量化了 IWELBOIW-ELBO 与应用于 NISNIS 分布的常规 ELBOELBO 之间的差别,其本质上是一个条件 KL 散度。

本文的贡献二:将“防御性采样” [17]的思想应用于变分推断,进一步探索了变分推断和重要性采样之间的联系。

防御性重要性采样使用平坦的 qq 分布,以避免出现在 pp 中有概率密度的区域,在 qq 中却几乎没有概率质量的情况,进而减少方差。这个想法因为要做 “众数搜索” 而与常规变分推断方法不太兼容,但却和 IWVI 非常兼容。我们展示了如何使用椭圆分布和重参数化技巧,来实现一种防御性采样形式,而几乎没有增加黑盒变分推断的额外开销。 椭圆变分推断, 在 ELBOELBO 和后验期望方面,比高斯黑盒变分推断提供了一些小的改进。不过在更高维度上,这些改进会减弱,但椭圆变分推断收敛可靠性收敛速度方面有着显著提升。这与“在与 pp 不匹配时,建议使用防御性 qq 的概念” 是一致的。

2 变分推断

重新考虑式(1)中的 “ELBO 分解” 。变分推断最大化了 qq 上的 “证据下界”(ELBO)。由于散度项是非负的,这会同时收紧了 logp(x)\log p(x) 上的下界。由于散度和 ELBOELBO 以常数变化,因此最大化 ELBOELBO 等效于最小化散度。所以,变分推断可以被认为是同时解决了两个问题:

  • “概率推断”问题,即在 KL 散度项中找到一个接近于后验 p(zx)p(z|x) 的相似分布 q(z)q(z)

  • “边缘似然的边界”问题,即找到边缘似然(也称证据) logp(x)\log p(x) 的下界。

“概率推断”问题通常与贝叶斯推断一起使用。典型任务场景如下:

用户指定模型 p(z,x)p(\mathbf{z},\mathbf{x}) ,观测到一些数据 x\mathbf{x},并且对隐变量 z\mathbf{z} 上的后验分布 p(zx)p(\mathbf{z}|\mathbf{x}) 感兴趣。虽然 MCMC 最常被用于解决该问题 [9] [22] ,但高计算成本促进了变分推断方法的使用 [11] [3] 。 用户可能对后验的很多方面都感兴趣,但本文将专注于“基于后验分布求期望”的任务,即对于用户感兴趣的、以隐变量为输入的任意函数 t(z)t(\mathbf{z}) (如:z\mathbf{z} 的均值、方差等),希望能够通过后验分布上的边缘化,估计出 Ep(zx)t(z)\mathbb{E}_{p(\mathbf{z}|\mathbf{x})}t(\mathbf{z})

“边缘似然的边界”问题通常用于支持最大似然学习。典型任务场景如下:

假设 pθ(z,x)p_θ(\mathbf{z},\mathbf{x}) 是观测数据 x\mathbf{x} 和隐藏变量 z\mathbf{z} 的某种分布,希望得到能够使观测数据的边缘似然 pθ(x)p_{\theta}(\mathbf{x}) 最大化的 θθ 。但当积分 pθ(x)=pθ(z,x)dzp_θ(\mathbf{x}) =∫p_θ(\mathbf{z},\mathbf{x})d\mathbf{z} 难以处理时,会转而寻求优化易于处理的对数边缘似然下界 Eq(z)log(pθ(z,x)/q(z))\mathbb{E}_{q(\mathbf{z})} \log (p_{\theta}(\mathbf{z},\mathbf{x})/q(\mathbf{z})) ,以获得对生成参数( θ\theta )和变分参数 (即近似分布 qq 的参数)的推断 [21] 。该想法最近在变分自动编码器 (VAE) 上取得了巨大的成功 [10]

注:模型的参数 θ\theta 通常被称为生成参数,而变分分布 qq 的参数通常被称为变分参数

3 重要性加权

最近,重要性采样的思想被应用于在变分自编码器中,用于获得更紧致的 ELBOELBO [5] 。本文回顾了该想法,并建立了其与增强变分推断之间的联系,明确了如何将重要性采样的思想应用于概率推断问题。

取任意点 x\mathbf{x} 处的随机变量 RxR_{\mathbf{x}},令 ERx=p(x)\mathbb{E}R_{\mathbf{x}}=p(\mathbf{x}) ,从而将其视为 p(x)p(\mathbf{x}) 的“估计器”。那么通过 Jensen 不等式很容易看出:

logp(x)=ElogRxbound +Elogp(x)Rxlooseness (2)\log p(\mathbf{x})=\underbrace{\mathbb{E} \log R_{\mathbf{x}}}_{\text {bound }}+\underbrace{\mathbb{E} \log \frac{p(\mathbf{x})}{R_{\mathbf{x}}}}_{\text {looseness }} \tag{2}

其中第一项是 logp(x)\log p(\mathbf{x}) 的下界,第二项为非负项,代表松散度。如果 RxR_{\mathbf{x}} 高度集中,则下界会很紧致。

虽然式(2)看起来很琐碎,但它是式( 1 )中 ELBOELBO 分解的泛化。要认识到这一点,可以将随机变量 RR 定义为:

Rx=ω(z)=p(z,x)q(z),zq(3)R_{\mathbf{x}}=\omega(\mathbf{z})=\frac{p(\mathbf{z}, \mathbf{x})}{q(\mathbf{z})}, \mathbf{z} \sim q \tag{3}

显然相对于 q(zq(\mathbf{z}) 做平均估计时, ER=p(x)\mathbb{E} R=p(\mathbf{x}) ,并且式(2)变为了式(1)。

式( 2 )相较于式( 1 )的优点是增加了灵活性:替代的估计器 RxR_{\mathbf{x}} 可以对 logp(x)\log p(\mathbf{x}) 给出更紧致的边界。一个自然的想法是从 qq 中抽取 MM 个独立同分布样本 ZmZ_m ,然后像重要性采样那样做平均估计:

Rx,M=1Mm=1Mp(zm,x)q(zm),zmq(4)R_{\mathbf{x},M}=\frac{1}{M} \sum_{m=1}^{M} \frac{p\left(\mathbf{z}_{m}, \mathbf{x}\right)}{q\left(\mathbf{z}_{m}\right)}, \mathbf{z}_{m} \sim q \tag{4}

式中, MM 为抽取的样本数量。ERx,M=p(x)\mathbb{E} R_{\mathbf{x},M}=p(\mathbf{x}) 总是能够保证的,但随着 MM 的增大,Rx,MR_{\mathbf{x},M} 的分布在零附近的概率质量越来越趋近于零,并导致更紧致的边界(图 1 )。

上述方法导致了一个 logp(x)\log p(\mathbf{x}) 上更紧致的 “重要性加权证据下界(IW-ELBO)” ,即:

IW-ELBOM[q(z)p(z,x)]:=Eq(z1:M)log1Mm=1Mp(zm,x)q(zm)(5)\text{IW-ELBO}_{M}[q(\mathbf{z}) \| p(\mathbf{z}, \mathbf{x})]:=\underset{q\left(\mathbf{z}_{1: M}\right)}{\mathbb{E}} \log \frac{1}{M} \sum_{m=1}^{M} \frac{p\left(\mathbf{z}_{m}, \mathbf{x}\right)}{q\left(\mathbf{z}_{m}\right)} \tag{5}

其中 z1:M\mathbf{z}_{1: M}(z1,,zM)\left(\mathbf{z}_{1}, \ldots, \mathbf{z}_{M}\right) 的简写 ,并且 q(z1:M)=q(z1)q(zM)q\left(\mathbf{z}_{1: M}\right)=q\left(\mathbf{z}_{1}\right) \cdots q\left(\mathbf{z}_{M} \right) 。该下界是 Burda 等人在支持变分自动编码器的最大似然学习背景下首先提出的 [5]

图 1:RMR_M 的密度如何随 MM 变化 (分布和设置见图 2)。

3.1 IWELBOIW-ELBO 的生成过程

虽然式( 2 )清楚地表明优化 IWELBOIW-ELBO 能够收紧 logp(x)\log p(\mathbf{x}) 的下界,但这与“概率推断”之间的关系并不明显。是否有一些散度正在被最小化呢?下面的定理( 1 )表明,可以通过构造增强的分布 pM(z1:M,x)p_{M}\left(\mathbf{z}_{1: M}, \mathbf{x}\right)qM(z1:M)q_{M}\left (\mathbf{z}_{1: M}\right) ,然后对联合分布应用公式( 1 )中的 ELBOELBO 分解来理解:

定理 1 (重要性加权变分推断)
qM(z1:M)q_{M}\left(\mathbf{z}_{1: M}\right) 是由算法( 1 )所描述生成过程的概率密度,该过程建立在对 qqMM 个样本的自归一化重要性采样之上。令 $ p_{M}(\mathbf{z}{1: M}, \mathbf{x})=p(\mathbf{z}{1}, \mathbf{x}\ ) q(\mathbf{z}_{2: M}) $ 是基于 pp 的样本 z1\mathbf{z}_{1}x\mathbf{x} ,和 qq 中抽取的“虚拟”样本 z2:M\mathbf{z}_{2: M} 得到的密度。则:

qM(z1:M)=pM(z1:M,x)1Mm=1Mω(zm)(6)q_{M}\left(\mathbf{z}_{1: M}\right)=\frac{p_{M}\left(\mathbf{z}_{1: M}, \mathbf{x}\right)}{\frac{1}{M} \sum_{m=1}^{M} \omega\left(\mathbf{z}_{m}\right)} \tag{6}

更进一步,式( 1 )中应用于 qMq_{M}pMp_{M}ELBOELBO 分解是:

logp(x)=IWELBOM[q(z)p(z,x)]+KL[qM(z1:M)pM(z1:Mx)](7)\log p(\mathbf{x})=\mathrm{IW}-\operatorname{ELBO}_{M}[q(\mathbf{z}) \| p(\mathbf{z}, \mathbf{x})]+\operatorname{KL}\left[q_{M}\left(\mathbf{z}_{1: M}\right) \| p_{M}\left(\mathbf{z}_{1: M} \mid \mathbf{x}\right)\right] \tag{7}

我们将最大化 IWELBOIW-ELBO 的过程称为“重要性加权变分推断”(IWVI)。 而 Burda 等人使用“重要性加权自编码器”来优化式( 5 )来作为变分自编码器的似然下界,但该术语将重要性加权思想与特定模型绑定了起来,在概率推断问题上不建议使用。

算法(1)中 qMq_M 的生成过程与自归一化重要性采样( NISNIS )非常相似。通常的 NISNIS 分布会抽取一个大小为 MM 的批次,然后以与重要性权重成比例的概率 “选择” 某个变量。 NISNIS 与边缘分布 qM(z1)q_M(\mathbf{z}_1) 基本相同,但 qM(z1:M)q_M(\mathbf{z}_{1:M}) 的生成过程额外地保留了“未被选择”的变量,并将它们重新标记为 z2:M\mathbf{z}_{2:M}

以前的工作 [6] [2] [16] [12] 调查了 NISNISIWELBOIW-ELBO 之间的相似联系。在我们的概念中,他们表明:

logp(x)ELBO[qM(z1)p(z1,x)]IW-ELBOM[q(z)p(z,x)](8)\log p(\mathbf{x}) \geq \operatorname{ELBO}\left[q_{M}\left(\mathbf{z}_{1}\right) \| p\left(\mathbf{z}_{1}, \mathbf{x}\right)\right] \geq \text{IW-ELBO}_{M}[q(\mathbf{z}) \| p(\mathbf{z}, \mathbf{x})] \tag{8}

也就是说,他们表明 IWELBOIW-ELBONISNIS 分布和 pp 之间的 ELBOELBO 下界,但是没有量化第二个不等式中的差距。我们的研究结果清楚地表明,通过最大化 IWELBOIW-ELBO 到底被最小化了多少 KL 散度,以及这样做在多大意义上使 qq “更接近” pp 了。作为推论,我们还量化了上述不等式的差距,参见下面的定理(2)。

最近的分解 [12] 与定理(1)相关,但基于不同的增强分布 qMISq_{M}^{I S}pMISp_{M}^{I S} 。这个结果是根本不同的,因为它让 qMISq_{M}^{IS} “固定”为一个大小为 MMqq 的独立样本,并修改 pMISp_{M}^{IS} 所以它的边际接近 qq。这不影响推断。将此与我们的结果进行对比,其中 qM(z1)q_{M}\left(\mathbf{z}_{1}\right) 越来越接近 p(z1 mathbfx)p\left(\mathbf{z}_{1} \mid \ mathbf{x}\right),可用于概率推断。详见附录(A.3.2 节)。

如果 IWVI 将用于一般概率查询,那么确定精确的生成过程是有用的,这是我们工作的重点,而且据我们所知,以前没有被调查过。例如,t(z)t(\mathbf{z}) 的期望值可以近似为

Ep(zx)t(z)=EpM(z1x)t(z1)EqM(z1)t(z1)=Eq(z1:M)m=1Mω(zm)t(zm)m=1Mω(zm)(9)\underset{p(\mathbf{z} \mid \mathbf{x})}{\mathbb{E}} t(\mathbf{z})=\underset{p_{M}\left(\mathbf{z}_{1} \mid \mathbf{x}\right)}{\mathbb{E}} t\left(\mathbf{z}_{1}\right) \approx \underset{q_{M}\left(\mathbf{z}_{1}\right)}{\mathbb{E}} t\left(\mathbf{z}_{1}\right)=\underset{q\left(\mathbf{z}_{1: M}\right)}{\mathbb{E}} \frac{\sum_{m=1}^{M} \omega\left(\mathbf{z}_{m}\right) t\left(\mathbf{z}_{m}\right)}{\sum_{m=1}^{M} \omega\left(\mathbf{z}_{m}\right)} \tag{9}

最终的等式由附录中的引理( 4 )建立。这里,内部近似是合理的,因为 IWVI 最小化了 qM(z1:M)q_{M}\left(\mathbf{z}_{1: M}\right)pM(z1:Mx)p_{M}\left(\mathbf{z }_{1: M} \mid \mathbf{x}\right)。然而,这并不等同于最小化 qM(z1)q_{M}\left(\mathbf{z}_{1}\right)pM(z1x)p_{M}\left(\mathbf{z}_{1} \mid \mathbf{x}\right),如下面结果所示。

定理 2. 与 IWVI 相关的边缘和联合散度由下式相关

KL[qM(z1:M)pM(z1:Mx)]=KL[qM(z1)p(z1x)]+KL[qM(z2:Mz1)q(z2:M)]\operatorname{KL}\left[q_{M}\left(\mathbf{z}_{1: M}\right) \| p_{M}\left(\mathbf{z}_{1: M} \mid \mathbf{x}\right)\right]=\operatorname{KL}\left[q_{M}\left(\mathbf{z}_{1}\right) \| p\left(\mathbf{z}_{1} \mid \mathbf{x}\right)\right]+\operatorname{KL}\left[q_{M}\left(\mathbf{z}_{2: M} \mid \mathbf{z}_{1}\right) \| q\left(\mathbf{z}_{2: M}\right)\right]

因此,式( 8 )的第一个不等式的差正好是 KL[qM(z1)p(z1x)]\mathrm{KL}\left[q_{M}\left(\mathbf{z}_{1}\right) \| p\left(\mathbf{z}_{1} \mid \mathbf{x}\right)\right] 并且第二个不等式中的差正好是 KL[qM(z2:Mz1)q(z2:M)]\mathrm{KL}\left[q_{M}\left(\mathbf{z}_{2: M} \mid \mathbf{z}_{1}\right) \| q\left(\mathbf{z}_{2: M}\right)\right]

第一项是 qMq_{M} 的边际(即“标准”NIS 分布)与后验分布之间的差异。原则上,这正是我们想要最小化以证明等式的分歧。 9.9 . 但是,自 Alg 中的选择阶段以来,第二项不为零。 1 留下 z2:M\mathbf{z}_{2: M}qMq_{M} 下的分布与在 qq 下不同。由于该项与等式 9 中近似的质量无关,因此 IWVI 真正最小化了上限。因此,IWVI 可以被视为辅助变分推断 [1] 的一个实例,其中联合发散度上限为感兴趣的发散度。

图 2:两个高斯 (N\mathcal{N}) 和两个学生-T (T\mathcal{T}) 变分分布,均具有恒定方差和 A 或 B 其中一个均值。对于 M=1M=1,最好使用更接近 pp 的一种模式的均值。对于大一些的 MM ,中心的平均值更好,并且学生 -T 的重尾导致对 pp 更好地近似,以及在 IWELBOIW-ELBO 和矩误差方面的更好性能。

4 重要性采样的方差

5 椭圆分布

6 重参数化和椭圆分布

7 实验

References

  • [1] Felix V. Agakov and David Barber. An auxiliary variational method. InNeural InformationProcessing, Lecture Notes in Computer Science, pages 561–566. Springer, Berlin, Heidelberg,2004.
  • [2] Philip Bachman and Doina Precup. Training deep generative models: Variations on a theme. InNIPS Workshop: Advances in Approximate Bayesian Inference, 2015.
  • [3] Robert Bamler, Cheng Zhang, Manfred Opper, and Stephan Mandt. Perturbative black boxvariational inference. InNIPS, 2017.
  • [4] Peter J Bickel and Kjell A Doksum.Mathematical statistics: basic ideas and selected topics,volume I, volume 117. CRC Press, 2015.
  • [5] Yuri Burda, Roger Grosse, and Ruslan Salakhutdinov. Importance weighted autoencoders.2015.
  • [6] Chris Cremer, Quaid Morris, and David Duvenaud. Reinterpreting importance-weightedautoencoders. 2017.
  • [7] Adji Bousso Dieng, Dustin Tran, Rajesh Ranganath, John Paisley, and David Blei. Variationalinference viaχupper bound minimization. InNIPS, pages 2729–2738. 2017.
  • [8] Kaitai Fang, Samuel Kotz, and Kai Wang Ng.Symmetric multivariate and related distributions.Number 36 in Monographs on statistics and applied probability. Chapman and Hall, 1990.9
  • [9] W. R. Gilks, A. Thomas, and D. J. Spiegelhalter. A language and program for complex bayesianmodelling. 43(1):169–177, 1994.
  • [10] Diederik P. Kingma and Max Welling. Auto-encoding variational bayes. InICLR.
  • [11] Alp Kucukelbir, Dustin Tran, Rajesh Ranganath, Andrew Gelman, and David M. Blei. Auto-matic differentiation variational inference. 18(14):1–45, 2017.
  • [12] Tuan Anh Le, Maximilian Igl, Tom Rainforth, Tom Jin, and Frank Wood. Auto-EncodingSequential Monte Carlo. InICLR, 2018.
  • [13] Chris J Maddison, John Lawson, George Tucker, Nicolas Heess, Mohammad Norouzi, AndriyMnih, Arnaud Doucet, and Yee Teh. Filtering variational objectives. InNIPS, pages 6576–6586.2017.
  • [14] Józef Marcinkiewicz and Antoni Zygmund. Quelques théoremes sur les fonctions indépendantes.Fund. Math, 29:60–90, 1937.
  • [15] Minka, Thomas. Expectation propagation for approximate bayesian inference. InUAI, 2001.
  • [16] Christian A. Naesseth, Scott W. Linderman, Rajesh Ranganath, and David M. Blei. Variationalsequential monte carlo. InAISTATS, 2018.
  • [17] Art Owen.Monte Carlo theory, methods and examples. 2013.
  • [18] Tom Rainforth, Adam R. Kosiorek, Tuan Anh Le, Chris J. Maddison, Maximilian Igl, FrankWood, and Yee Whye Teh. Tighter variational bounds are not necessarily better.
  • [19] Rajesh Ranganath, Sean Gerrish, and David M. Blei. Black box variational inference. InAISTATS, 2014.
  • [20] Francisco J. R. Ruiz, Michalis K. Titsias, and David M. Blei. Overdispersed black-box varia-tional inference. InUAI, 2016.
  • [21] L. K. Saul, T. Jaakkola, and M. I. Jordan. Mean field theory for sigmoid belief networks.Journal of Artificial Intelligence Research, 4:61–76, 1996.
  • [22] Stan Development Team. Modeling language user’s guide and reference manual, version 2.17.0,2017.
  • [23] Tom Minka. Divergence measures and message passing. 2005.