重要性加权变分推断方法
【摘要】最近有工作使用重要性采样的思路,来确定更紧致的变分似然边界。本文阐明了该想法对纯概率推断的适用性,展示了重要性加权变分推断技术作为一种增强的变分推断方法,能够识别先前工作中的松散性。实验证实了重要性加权变分推断在概率推断方面的实用性。作为另一个成果,本文研究了使用椭圆分布的推断方法,该方法提高了低维准确性和高维收敛性。
【原文】 J Domke and D Sheldon (2018), Importance weighting and variational inference. In Advances in Neural Information Processing Systems. https://arxiv.org/abs/1808.09034
1 问题提出
概率建模通过为不可观测的变量 和可观测变量 制定联合模型 来推断世界,然后查询后验分布 以了解给定证据 的隐藏量。常见的任务是从后验 中抽取样本,或利用后验计算期望。但直接执行这些任务通常是难以处理的,因此大量研究致力于近似推断方法。
变分推断是近似推断的主要方法。在变分推断中,用一个简单分布族中易于处理的分布 来近似真实后验 。通常基于以下分解来选择近似后验 ( 见 [21] 的式 11 - 式 12 ):
上式中第一项为对数边缘似然 的下界,被称为“证据下界( )”。选择 的目标是使 尽可能大,同时保证其维持为 的下界,而且尽可能紧致,从而使得 KL 散度中的 更接近 。
与重要性采样密切相关。对于固定的 ,定义一个随机变量 ,其中 ,该变量满足条件 (这也是重要性采样的基础)。依据 Jensen 不等式,可以写出 ,这正是现代黑盒版变分推断的基础 [19] 。在黑盒变分推断中,常使用蒙特卡罗随机样本来估计 ,其方式类似于用重要性采样来估计 。
至关重要的是,变分推断用于获取下界的唯一属性是 。很容易看处, 的分布越聚集于其均值 附近,Jensen 不等式越会产生更紧致的下界。因此,一种自然的想法是在均值相同条件下,优先选取分布更为聚集的随机变量,例如样本均值 。然后,通过相同的推理,。后者是重要性加权自动编码器的目标 [5] ,我们称其为重要性加权证据下界( ),而选择 以最大化该目标的过程,被称为重要性加权变分推断 (IWVI)。
但此时应暂停一下,公式(1)中的分解使我们清楚地看到,在优化 时,标准变分推断在何种意义上使 接近于。通过切换到一维随机变量 ,我们导出了 IW-ELBO,它给出了 上更紧致的下界。从学习任务角度,我们已经达到目的了。但对于概率推断任务,我们无法确定到底在什么意义上 “接近了” ,也无法确定应该如何使用 来计算后验期望(即预测)。
本文的贡献一:提供了重要性加权变分推断(IWVI)的一个新视角。
强化了 IWVI 和自归一化重要性采样方法(NIS)之间的精确关系 [17] ,它指导我们如何将 IWVI 用于“纯概率推断”的应用场景。具体来说,IWVI 是增强变分推断的一个实例,最大化 正好对应于最小化 和 之间的 KL 散度,其中 由 个来自 的 采样样本构成,而 则是由 1 个来自 的样本和 个来自 的哑样本联合构成。 这对于我们关注的概率推断任务具有重要意义(与学习任务相对)。在优化 之后,应该使用 计算后验期望。我们展示了 IWVI 不仅显著收紧了 的下界,而且显着减少了后验期望(预测)的估计误差。
先前有工作建立了 IWVI 和 之间的连接,但仅仅表明 是一个应用于 分布的 下界 [6] [16] [2] 。我们将这种关系精确为增强变分推断的一个实例,并精确量化了 与应用于 分布的常规 之间的差别,其本质上是一个条件 KL 散度。
本文的贡献二:将“防御性采样” [17]的思想应用于变分推断,进一步探索了变分推断和重要性采样之间的联系。
防御性重要性采样使用平坦的 分布,以避免出现在 中有概率密度的区域,在 中却几乎没有概率质量的情况,进而减少方差。这个想法因为要做 “众数搜索” 而与常规变分推断方法不太兼容,但却和 IWVI 非常兼容。我们展示了如何使用椭圆分布和重参数化技巧,来实现一种防御性采样形式,而几乎没有增加黑盒变分推断的额外开销。 椭圆变分推断
, 在 和后验期望方面,比高斯黑盒变分推断
提供了一些小的改进。不过在更高维度上,这些改进会减弱,但椭圆变分推断
在收敛可靠性
和收敛速度
方面有着显著提升。这与“在与 不匹配时,建议使用防御性 的概念” 是一致的。
2 变分推断
重新考虑式(1)中的 “ELBO 分解” 。变分推断最大化了 上的 “证据下界”(ELBO)。由于散度项是非负的,这会同时收紧了 上的下界。由于散度和 以常数变化,因此最大化 等效于最小化散度。所以,变分推断可以被认为是同时解决了两个问题:
-
“概率推断”问题,即在 KL 散度项中找到一个接近于后验 的相似分布 。
-
“边缘似然的边界”问题,即找到边缘似然(也称证据) 的下界。
“概率推断”问题通常与贝叶斯推断一起使用。典型任务场景如下:
用户指定模型 ,观测到一些数据 ,并且对隐变量 上的后验分布 感兴趣。虽然 MCMC 最常被用于解决该问题 [9] [22] ,但高计算成本促进了变分推断方法的使用 [11] [3] 。 用户可能对后验的很多方面都感兴趣,但本文将专注于“基于后验分布求期望”的任务,即对于用户感兴趣的、以隐变量为输入的任意函数 (如: 的均值、方差等),希望能够通过后验分布上的边缘化,估计出 。
“边缘似然的边界”问题通常用于支持最大似然学习
。典型任务场景如下:
假设 是观测数据 和隐藏变量 的某种分布,希望得到能够使观测数据的边缘似然 最大化的 。但当积分 难以处理时,会转而寻求优化易于处理的对数边缘似然下界 ,以获得对生成参数( )和变分参数 (即近似分布 的参数)的推断 [21] 。该想法最近在变分自动编码器 (VAE) 上取得了巨大的成功 [10] 。
注:模型的参数 通常被称为
生成参数
,而变分分布 的参数通常被称为变分参数
。
3 重要性加权
最近,重要性采样的思想被应用于在变分自编码器中,用于获得更紧致的 [5] 。本文回顾了该想法,并建立了其与增强变分推断之间的联系,明确了如何将重要性采样的思想应用于概率推断
问题。
取任意点 处的随机变量 ,令 ,从而将其视为 的“估计器”。那么通过 Jensen 不等式很容易看出:
其中第一项是 的下界,第二项为非负项,代表松散度。如果 高度集中,则下界会很紧致。
虽然式(2)看起来很琐碎,但它是式( 1 )中 分解的泛化。要认识到这一点,可以将随机变量 定义为:
显然相对于 做平均估计时, ,并且式(2)变为了式(1)。
式( 2 )相较于式( 1 )的优点是增加了灵活性:替代的估计器 可以对 给出更紧致的边界。一个自然的想法是从 中抽取 个独立同分布样本 ,然后像重要性采样那样做平均估计:
式中, 为抽取的样本数量。 总是能够保证的,但随着 的增大, 的分布在零附近的概率质量越来越趋近于零,并导致更紧致的边界(图 1 )。
上述方法导致了一个 上更紧致的 “重要性加权证据下界(IW-ELBO)” ,即:
其中 是 的简写 ,并且 。该下界是 Burda 等人在支持变分自动编码器的最大似然学习背景下首先提出的 [5] 。
图 1: 的密度如何随 变化 (分布和设置见图 2)。
3.1 的生成过程
虽然式( 2 )清楚地表明优化 能够收紧 的下界,但这与“概率推断”之间的关系并不明显。是否有一些散度正在被最小化呢?下面的定理( 1 )表明,可以通过构造增强的分布 和 ,然后对联合分布应用公式( 1 )中的 分解来理解:
定理 1 (重要性加权变分推断)
令 是由算法( 1 )所描述生成过程的概率密度,该过程建立在对 的 个样本的自归一化重要性采样之上。令 $ p_{M}(\mathbf{z}{1: M}, \mathbf{x})=p(\mathbf{z}{1}, \mathbf{x}\ ) q(\mathbf{z}_{2: M}) $ 是基于 的样本 、 ,和 中抽取的“虚拟”样本 得到的密度。则:
更进一步,式( 1 )中应用于 和 的 分解是:
我们将最大化 的过程称为“重要性加权变分推断”(IWVI)。 而 Burda 等人使用“重要性加权自编码器”来优化式( 5 )来作为变分自编码器的似然下界,但该术语将重要性加权思想与特定模型绑定了起来,在概率推断问题上不建议使用。
算法(1)中 的生成过程与自归一化重要性采样( )非常相似。通常的 分布会抽取一个大小为 的批次,然后以与重要性权重成比例的概率 “选择” 某个变量。 与边缘分布 基本相同,但 的生成过程额外地保留了“未被选择”的变量,并将它们重新标记为 。
以前的工作 [6] [2] [16] [12] 调查了 和 之间的相似联系。在我们的概念中,他们表明:
也就是说,他们表明 是 分布和 之间的 下界,但是没有量化第二个不等式中的差距。我们的研究结果清楚地表明,通过最大化 到底被最小化了多少 KL 散度,以及这样做在多大意义上使 “更接近” 了。作为推论,我们还量化了上述不等式的差距,参见下面的定理(2)。
最近的分解 [12] 与定理(1)相关,但基于不同的增强分布 和 。这个结果是根本不同的,因为它让 “固定”为一个大小为 从 的独立样本,并修改 所以它的边际接近 。这不影响推断。将此与我们的结果进行对比,其中 越来越接近 ,可用于概率推断。详见附录(A.3.2 节)。
如果 IWVI 将用于一般概率查询,那么确定精确的生成过程是有用的,这是我们工作的重点,而且据我们所知,以前没有被调查过。例如, 的期望值可以近似为
最终的等式由附录中的引理( 4 )建立。这里,内部近似是合理的,因为 IWVI 最小化了 和 。然而,这并不等同于最小化 和 ,如下面结果所示。
定理 2. 与 IWVI 相关的边缘和联合散度由下式相关
因此,式( 8 )的第一个不等式的差正好是 并且第二个不等式中的差正好是 。
第一项是 的边际(即“标准”NIS 分布)与后验分布之间的差异。原则上,这正是我们想要最小化以证明等式的分歧。 但是,自 Alg 中的选择阶段以来,第二项不为零。 1 留下 在 下的分布与在 下不同。由于该项与等式 9 中近似的质量无关,因此 IWVI 真正最小化了上限。因此,IWVI 可以被视为辅助变分推断 [1] 的一个实例,其中联合发散度上限为感兴趣的发散度。
图 2:两个高斯 () 和两个学生-T () 变分分布,均具有恒定方差和 A 或 B 其中一个均值。对于 ,最好使用更接近 的一种模式的均值。对于大一些的 ,中心的平均值更好,并且学生 -T 的重尾导致对 更好地近似,以及在 和矩误差方面的更好性能。
4 重要性采样的方差
5 椭圆分布
6 重参数化和椭圆分布
7 实验
References
- [1] Felix V. Agakov and David Barber. An auxiliary variational method. InNeural InformationProcessing, Lecture Notes in Computer Science, pages 561–566. Springer, Berlin, Heidelberg,2004.
- [2] Philip Bachman and Doina Precup. Training deep generative models: Variations on a theme. InNIPS Workshop: Advances in Approximate Bayesian Inference, 2015.
- [3] Robert Bamler, Cheng Zhang, Manfred Opper, and Stephan Mandt. Perturbative black boxvariational inference. InNIPS, 2017.
- [4] Peter J Bickel and Kjell A Doksum.Mathematical statistics: basic ideas and selected topics,volume I, volume 117. CRC Press, 2015.
- [5] Yuri Burda, Roger Grosse, and Ruslan Salakhutdinov. Importance weighted autoencoders.2015.
- [6] Chris Cremer, Quaid Morris, and David Duvenaud. Reinterpreting importance-weightedautoencoders. 2017.
- [7] Adji Bousso Dieng, Dustin Tran, Rajesh Ranganath, John Paisley, and David Blei. Variationalinference viaχupper bound minimization. InNIPS, pages 2729–2738. 2017.
- [8] Kaitai Fang, Samuel Kotz, and Kai Wang Ng.Symmetric multivariate and related distributions.Number 36 in Monographs on statistics and applied probability. Chapman and Hall, 1990.9
- [9] W. R. Gilks, A. Thomas, and D. J. Spiegelhalter. A language and program for complex bayesianmodelling. 43(1):169–177, 1994.
- [10] Diederik P. Kingma and Max Welling. Auto-encoding variational bayes. InICLR.
- [11] Alp Kucukelbir, Dustin Tran, Rajesh Ranganath, Andrew Gelman, and David M. Blei. Auto-matic differentiation variational inference. 18(14):1–45, 2017.
- [12] Tuan Anh Le, Maximilian Igl, Tom Rainforth, Tom Jin, and Frank Wood. Auto-EncodingSequential Monte Carlo. InICLR, 2018.
- [13] Chris J Maddison, John Lawson, George Tucker, Nicolas Heess, Mohammad Norouzi, AndriyMnih, Arnaud Doucet, and Yee Teh. Filtering variational objectives. InNIPS, pages 6576–6586.2017.
- [14] Józef Marcinkiewicz and Antoni Zygmund. Quelques théoremes sur les fonctions indépendantes.Fund. Math, 29:60–90, 1937.
- [15] Minka, Thomas. Expectation propagation for approximate bayesian inference. InUAI, 2001.
- [16] Christian A. Naesseth, Scott W. Linderman, Rajesh Ranganath, and David M. Blei. Variationalsequential monte carlo. InAISTATS, 2018.
- [17] Art Owen.Monte Carlo theory, methods and examples. 2013.
- [18] Tom Rainforth, Adam R. Kosiorek, Tuan Anh Le, Chris J. Maddison, Maximilian Igl, FrankWood, and Yee Whye Teh. Tighter variational bounds are not necessarily better.
- [19] Rajesh Ranganath, Sean Gerrish, and David M. Blei. Black box variational inference. InAISTATS, 2014.
- [20] Francisco J. R. Ruiz, Michalis K. Titsias, and David M. Blei. Overdispersed black-box varia-tional inference. InUAI, 2016.
- [21] L. K. Saul, T. Jaakkola, and M. I. Jordan. Mean field theory for sigmoid belief networks.Journal of Artificial Intelligence Research, 4:61–76, 1996.
- [22] Stan Development Team. Modeling language user’s guide and reference manual, version 2.17.0,2017.
- [23] Tom Minka. Divergence measures and message passing. 2005.