在变分贝叶斯方法中, 证据下界 (通常缩写为 ELBO ,有时也称为 变分下界 [1] 或 负变分自由能 )是一个关于观测数据对数似然的常用下界。
1 术语和符号
设 X X X 和 Z Z Z 为随机变量,其联合分布为 p θ ( X , Z ) p_\theta(X,Z) p θ ( X , Z ) (简写为 p θ p_{\theta} p θ ),p θ ( X ) p_{\theta}(X) p θ ( X ) 是 X X X 的边缘分布,p θ ( Z ∣ X ) p_{\theta}(Z \mid X) p θ ( Z ∣ X ) 是给定 X X X 时 Z Z Z 的条件分布。
对于 X X X 的任意样本实现 x ∼ p θ x \sim p_{\theta} x ∼ p θ 和任何分布 q ϕ q_{\phi} q ϕ ,有
ln p θ ( x ) ≥ E z ∼ q ϕ [ ln p θ ( x , z ) q ϕ ( z ) ] . \ln p_{\theta}(x) \geq \mathbb {E}_{z \sim q_{\phi }} \left[\ln{\frac{p_{\theta}(x,z)}{q_{\phi}(z)}}\right].
ln p θ ( x ) ≥ E z ∼ q ϕ [ ln q ϕ ( z ) p θ ( x , z ) ] .
在变分贝叶斯方法的术语中,观测变量的分布 p θ ( X ) p_{\theta}(X) p θ ( X ) 通常被称为 证据 ,其对数形式 ln p θ ( X ) \ln p_{\theta}(X) ln p θ ( X ) 被称为 对数证据 。不过,有时候人们会将两者混用。
ELBO 没有普遍固定的表示法。在本文中我们使用如下形式:
L ( ϕ , θ ; x ) : = E z ∼ q ϕ ( ⋅ ∣ x ) [ ln p θ ( x , z ) q ϕ ( z ∣ x ) ] . L ( \phi , \theta ; x ) := \mathbb{E}_{z\sim q_{\phi}(\cdot |x)}\left[\ln{\frac {p_{\theta }(x,z)}{q_{\phi }(z|x)}}\right].
L ( ϕ , θ ; x ) := E z ∼ q ϕ ( ⋅ ∣ x ) [ ln q ϕ ( z ∣ x ) p θ ( x , z ) ] .
2 动机
(1)变分贝叶斯推断
假设我们有一个可观测的随机变量 X X X ,我们的目标是希望找到它的真实分布 p ∗ p^* p ∗ ,以便能够通过采样生成新数据,并估计未来事件的概率。但一般来说,不可能准确地找到 p ∗ p^* p ∗ ,这迫使我们去寻找一个好的 近似值
也就是说,我们定义一个足够大的参数化分布族 { p θ } , θ ∈ Θ \{ p_{\theta} \},\theta \in \Theta { p θ } , θ ∈ Θ ,然后对某些损失函数 L L L 求解 min θ L ( p θ , p ∗ ) \min \limits_{\theta} L(p_{\theta} ,p^{*}) θ min L ( p θ , p ∗ ) 。 解决此问题的一种可能方法是考虑从 p θ p_{\theta} p θ 到 p θ + δ θ p_{\theta + \delta \theta} p θ + δ θ 的微小变化,并求解 L ( p θ , p ∗ ) − L ( p θ + δ θ , p ∗ ) = 0 L(p_{\theta} , p^{*}) − L(p_{\theta + \delta \theta}, p^{*}) = 0 L ( p θ , p ∗ ) − L ( p θ + δ θ , p ∗ ) = 0 ,这通常被称为 变分法 。
由于没有多少显式参数化分布族(所有经典分布族,例如正态分布等,都过于简单化,无法对真实分布进行建模),我们可以考虑通过隐变量来 隐式参数化 概率分布:
首先,在隐随机变量 Z Z Z 上定义一个简单分布 p ( z ) p(z) p ( z ) 。通常采用正态分布或均匀分布就足够。
接下来,定义一组由 θ \theta θ 参数化的复杂函数 f θ f_{\theta} f θ (例如深度神经网络)。
最后,定义一种方法将任意 f θ ( z ) f_{\theta}(z) f θ ( z ) 转换为可观测随机变量 X X X 上的简单分布。例如,设 f θ ( z ) = ( f 1 ( z ) , f 2 ( z ) ) f_{\theta}(z)=(f_{1}(z),f_{2}(z)) f θ ( z ) = ( f 1 ( z ) , f 2 ( z )) 有两个输出,那么我们可以定义 X X X 上的对应分布为正态分布 N ( f 1 ( z ) , e f 2 ( z ) ) N (f_{1}(z),e^{f_{2}(z)}) N ( f 1 ( z ) , e f 2 ( z ) ) 。
这定义了 ( X , Z ) (X,Z) ( X , Z ) 上的联合分布族 p θ p_{\theta} p θ 。从联合分布 ( x , z ) ∼ p θ ( x , z ) \sim p_{\theta} ( x , z ) ∼ p θ 中采样变得非常容易:只需先对隐变量 z ∼ p z \sim p z ∼ p 采样,然后计算 f θ ( z ) f_{\theta}(z) f θ ( z ) ,最后利用 f θ ( z ) f_{\theta}(z) f θ ( z ) 从 x ∼ p θ ( ⋅ ∣ z ) x \sim p_{\theta}(\cdot |z) x ∼ p θ ( ⋅ ∣ z ) 中采样。
注: 上面的描述对应于变分自编码器的解码器。其基本思想是通过对一个简单分布的非线性计算,生成一个复杂分布,然后用这个复杂分布来代替变分分布使用。之所以说是隐式参数化,是因为此变分分布没有简单分布的封闭形式。
换句话说,我们有一个可观测变量和隐变量的 生成模型 。现在,如果联合分布 p θ p_{\theta} p θ 与真实分布 p ∗ p^* p ∗ 非常接近,则我们认为 p θ p_{\theta} p θ 是一个足够好的近似:
p θ ( X ) ≈ p ∗ ( X ) p_{\theta}(X) \approx p^{*}(X)
p θ ( X ) ≈ p ∗ ( X )
注意,我们关注的是可观测变量 X X X 的边缘分布,因此,公式左侧需要在联合分布 p θ ( X , Z ) p_{\theta}(X,Z) p θ ( X , Z ) 基础上边缘化掉隐变量 Z Z Z 。
一般来说,不太可能执行边缘化积分 p θ ( x ) = ∫ p θ ( x ∣ z ) p ( z ) d z p_{\theta}(x)=\int p_{\theta }(x|z)p(z)dz p θ ( x ) = ∫ p θ ( x ∣ z ) p ( z ) d z ,这迫使我们寻找另一个近似值。
根据概率公式有 p θ ( x ) = p θ ( x ∣ z ) p ( z ) p θ ( z ∣ x ) p_{\theta}(x)=\frac{p_{\theta}(x|z)p(z)}{p_{\theta}(z|x)} p θ ( x ) = p θ ( z ∣ x ) p θ ( x ∣ z ) p ( z ) ,也就是说,我们只要找到条件分布 p θ ( z ∣ x ) p_{\theta}(z|x) p θ ( z ∣ x ) 的一个好的近似值,同样能够得到 X X X 的边缘分布。因此,可以定义另一个分布族 q ϕ ( z ∣ x ) q_{\phi}(z|x) q ϕ ( z ∣ x ) 并用它来近似 p θ ( z ∣ x ) p_{\theta}(z|x) p θ ( z ∣ x ) 。这是一个隐变量 Z Z Z 的 判别模型 。
整个情况总结如下表:
在 贝叶斯 语言中,上述 X X X 为可观测变量,Z Z Z 是(不可观测的)隐变量,p ( z ) p(z) p ( z ) 是隐变量 Z Z Z 的 先验分布 ,p θ ( x ∣ z ) p_{\theta}(x|z) p θ ( x ∣ z ) 为似然函数,而 p θ ( z ∣ x ) p_{\theta}(z|x) p θ ( z ∣ x ) 是隐变量 Z Z Z 的后验分布。也就是说,给定观测 x x x ,我们可以计算 p θ ( z ∣ x ) p_{\theta}(z|x) p θ ( z ∣ x ) 来推断什么 z z z 可能会导致 x x x 。如果按照贝叶斯定理的话,需要首先计算积分项 p θ ( x ) = ∫ p θ ( x ∣ z ) p ( z ) d z p_{\theta}(x)=\int p_{\theta}(x|z)p(z)dz p θ ( x ) = ∫ p θ ( x ∣ z ) p ( z ) d z ,然后计算得出 p θ ( z ∣ x ) = p θ ( x ∣ z ) p ( z ) p θ ( x ) p_{\theta} (z|x) =\frac {p_{\theta}(x|z)p(z)}{p_{\theta}(x)} p θ ( z ∣ x ) = p θ ( x ) p θ ( x ∣ z ) p ( z ) 。这显然执行起来代价过于昂贵,但如果可以为大多数 x x x 找到一个好的近似值 q ϕ ( z ∣ x ) ≈ p θ ( z ∣ x ) q_{\phi}(z|x) \approx p_{\theta}(z|x) q ϕ ( z ∣ x ) ≈ p θ ( z ∣ x ) ,我们就可以从 x x x 廉价地推断出 z z z 。这种利用 q ϕ q_{\phi} q ϕ 直接对 x x x 进行计算得到 z z z 的方式,也被称为 摊销推断 。
总体而言,我们提出了一个 变分贝叶斯推断 的问题。
(2) ELBO 的推导
变分推断的一个基本目标是最小化 Kullback–Leibler 散度(KL-散度),这等效于最大化对数似然:
E x ∼ p ∗ ( x ) [ ln p θ ( x ) ] = − H ( p ∗ ) − D K L ( p ∗ ( x ) ∥ p θ ( x ) ) \mathbb{E}_{x\sim p^{*}(x)}[\ln p_{\theta }(x)]=-H(p^{*})-D_{\mathit {KL}}(p^{*}(x)\|p_{\theta }(x))
E x ∼ p ∗ ( x ) [ ln p θ ( x )] = − H ( p ∗ ) − D KL ( p ∗ ( x ) ∥ p θ ( x ))
其中 H ( p ∗ ) = − E x ∼ p ∗ [ ln p ∗ ( x ) ] H ( p^{*} )=-\mathbb {E} _{x\sim p^{*}}[\ln p^{*}(x)] H ( p ∗ ) = − E x ∼ p ∗ [ ln p ∗ ( x )] 是真实分布的熵,可以认为是一个常数。所以如果想要最大化 E x ∼ p ∗ ( x ) [ ln p θ ( x ) ] \mathbb{E}_{x\sim p^{*}(x)}[\ln p_{\theta }(x)] E x ∼ p ∗ ( x ) [ ln p θ ( x )] ,只需要最小化 D K L ( p ∗ ( x ) ∥ p θ ( x ) ) D_{KL} (p^ {*}(x)\|p_{\theta }(x)) D K L ( p ∗ ( x ) ∥ p θ ( x )) 即可。通过这种最小化来找到近似值 p θ ≈ p ∗ p_{\theta} \approx p^{*} p θ ≈ p ∗ 。
为了最大化 E x ∼ p ∗ ( x ) [ ln p θ ( x ) ] \mathbb{E}_{x\sim p^{*}(x)}[\ln p_{\theta }(x)] E x ∼ p ∗ ( x ) [ ln p θ ( x )] ,我们可以简单地采样许多 x i ∼ p ∗ ( x ) x_i \sim p^{*}( x) x i ∼ p ∗ ( x ) ,即使用重要性采样
N E x ∼ p ∗ ( x ) [ ln p θ ( x ) ] ≈ max θ ∑ i ln p θ ( x i ) N \mathbb {E}_{x \sim p^{*}(x)}[\ln p_{\theta }(x)] \approx \max _{\theta} \sum_{i} \ln p_{\theta }(x_{i})
N E x ∼ p ∗ ( x ) [ ln p θ ( x )] ≈ θ max i ∑ ln p θ ( x i )
为了最大化 ∑ i ln p θ ( x i ) \sum\limits_{i}\ln p_{\theta }(x_{i}) i ∑ ln p θ ( x i ) ,有必要找到 ln p θ ( x ) \ln p_{\theta}(x) ln p θ ( x ) :
ln p θ = ln ∫ p θ ( x ∣ z ) p ( z ) d z \ln p_{\theta} = \ln \int p_{\theta }(x|z)p(z)dz
ln p θ = ln ∫ p θ ( x ∣ z ) p ( z ) d z
这通常没有封闭形式,只能进行估计,常用方法是重要性采样的蒙特卡洛积分:
∫ p θ ( x ∣ z ) p ( z ) d z = E z ∼ q ϕ ( ⋅ ∣ x ) [ p θ ( x , z ) q ϕ ( z ∣ x ) ] \int p_{\theta}(x|z)p(z)dz = \mathbb {E} _{z\sim q_{\phi }(\cdot |x)}\left[{\frac {p_{\theta }(x,z)}{q_{\phi }(z|x)}}\right]
∫ p θ ( x ∣ z ) p ( z ) d z = E z ∼ q ϕ ( ⋅ ∣ x ) [ q ϕ ( z ∣ x ) p θ ( x , z ) ]
其中 q ϕ ( z ∣ x ) q_{\phi} (z|x) q ϕ ( z ∣ x ) 是我们用于执行蒙特卡洛积分的 z z z 上的采样分布。
所以我们看到,如果对 z ∼ q ϕ ( ⋅ ∣ x ) z \sim q_{\phi}(\cdot |x) z ∼ q ϕ ( ⋅ ∣ x ) 进行采样,那么 p θ ( x , z ) q ϕ ( z ∣ x ) \frac{p_{\theta}(x,z)}{q_{\phi}(z|x) } q ϕ ( z ∣ x ) p θ ( x , z ) 是 p θ ( x ) p_{\theta}(x) p θ ( x ) 的无偏估计。不幸的是,这并没有给处 ln p θ ( x ) \ln p_{\theta}(x) ln p θ ( x ) 的无偏估计,因为 ln \ln ln 是非线性的。事实上,根据 Jensen 不等式,
ln p θ ( x ) = ln E z ∼ q ϕ ( ⋅ ∣ x ) [ p θ ( x , z ) q ϕ ( z ∣ x ) ] ≥ E z ∼ q ϕ ( ⋅ ∣ x ) [ ln p θ ( x , z ) q ϕ ( z ∣ x ) ] \ln p_{\theta}(x)=\ln \mathbb{E} _{z\sim q_{\phi}(\cdot |x)} \left[{\frac {p_{\theta }(x,z)}{q_{\phi }(z|x)}}\right] \geq \mathbb{E}_{z\sim q_{\phi}(\cdot |x)} \left[\ln{\frac {p_{\theta }(x,z)}{q_{\phi }(z|x)}}\right]
ln p θ ( x ) = ln E z ∼ q ϕ ( ⋅ ∣ x ) [ q ϕ ( z ∣ x ) p θ ( x , z ) ] ≥ E z ∼ q ϕ ( ⋅ ∣ x ) [ ln q ϕ ( z ∣ x ) p θ ( x , z ) ]
ln p θ ( x ) \ln p_{\theta}(x) ln p θ ( x ) 的所有明显估计都向下偏置,因为无论采用多少 z i ∼ q ϕ ( ⋅ ∣ x ) z_i\sim q_{\phi }(\cdot |x) z i ∼ q ϕ ( ⋅ ∣ x ) 样本,都有 Jensen 不等式:
E z i ∼ q ϕ ( ⋅ ∣ x ) [ ln ( 1 N ∑ i p θ ( x , z i ) q ϕ ( z i ∣ x ) ) ] ≤ ln E z i ∼ q ϕ ( ⋅ ∣ x ) [ 1 N ∑ i p θ ( x , z i ) q ϕ ( z i ∣ x ) ] = ln p θ ( x ) \mathbb{E}_{z_{i} \sim q_{\phi }(\cdot |x)}\left[\ln\left({\frac {1}{N}}\sum _{i}{\frac {p_{\theta }(x,z_{i})}{q_{\phi }(z_{i}|x)}}\right)\right] \leq \ln \mathbb {E} _{z_{i}\sim q_{\phi }(\cdot |x)}\left[{\frac {1}{N}}\sum _{i}{\frac {p_{\theta }(x,z_{i})}{q_{\phi }(z_{i}|x)}}\right] = \ln p_{\theta }(x)
E z i ∼ q ϕ ( ⋅ ∣ x ) [ ln ( N 1 i ∑ q ϕ ( z i ∣ x ) p θ ( x , z i ) ) ] ≤ ln E z i ∼ q ϕ ( ⋅ ∣ x ) [ N 1 i ∑ q ϕ ( z i ∣ x ) p θ ( x , z i ) ] = ln p θ ( x )
减去右边,我们看到问题归结为零偏差估计:
E z i ∼ q ϕ ( ⋅ ∣ x ) [ ln ( 1 N ∑ i p θ ( z i ∣ x ) q ϕ ( z i ∣ x ) ) ] ≤ 0 \mathbb{E}_{z_{i}\sim q_{\phi }(\cdot |x)}\left[\ln\left({\frac {1}{N}}\sum _{i}{\frac {p_{\theta }(z_{i}|x)}{q_{\phi }(z_{i}|x)}}\right)\right]\leq 0
E z i ∼ q ϕ ( ⋅ ∣ x ) [ ln ( N 1 i ∑ q ϕ ( z i ∣ x ) p θ ( z i ∣ x ) ) ] ≤ 0
通过 delta 方法,我们有
E z i ∼ q ϕ ( ⋅ ∣ x ) [ ln ( 1 N ∑ i p θ ( z i ∣ x ) q ϕ ( z i ∣ x ) ) ] ≈ − 1 2 N V z ∼ q ϕ ( ⋅ ∣ x ) [ p θ ( z ∣ x ) q ϕ ( z ∣ x ) ] = O ( N − 1 ) \mathbb{E}_{z_{i}\sim q_{\phi }(\cdot |x)}\left[\ln\left({\frac {1}{N}}\sum _{i}{\frac {p_{\theta }(z_{i}|x)}{q_{\phi }(z_{i}|x)}}\right)\right]\approx -{\frac {1}{2N}}\mathbb {V} _{z\sim q_{\phi }(\cdot |x)}\left[{\frac {p_{\theta }(z|x)}{q_{\phi }(z|x)}}\right]=O(N^{-1})
E z i ∼ q ϕ ( ⋅ ∣ x ) [ ln ( N 1 i ∑ q ϕ ( z i ∣ x ) p θ ( z i ∣ x ) ) ] ≈ − 2 N 1 V z ∼ q ϕ ( ⋅ ∣ x ) [ q ϕ ( z ∣ x ) p θ ( z ∣ x ) ] = O ( N − 1 )
如果继续这样做,我们将获得重要性加权的自编码器 [2] 。但是我们回到 N = 1 N = 1 N = 1 的最简单情况:
ln p θ ( x ) = ln E z ∼ q ϕ ( ⋅ ∣ x ) [ p θ ( x , z ) q ϕ ( z ∣ x ) ] ≥ E z ∼ q ϕ ( ⋅ ∣ x ) [ ln p θ ( x , z ) q ϕ ( z ∣ x ) ] \ln p_{\theta}(x)=\ln\mathbb {E} _{z\sim q_{\phi }(\cdot |x)}\left[{\frac {p_{\theta }(x,z)}{q_{\phi }(z|x)}}\right]\geq \mathbb {E} _{z\sim q_{\phi }(\cdot |x)}\left[\ln{\frac {p_{\theta }(x,z)}{q_{\phi }(z|x)}}\right]
ln p θ ( x ) = ln E z ∼ q ϕ ( ⋅ ∣ x ) [ q ϕ ( z ∣ x ) p θ ( x , z ) ] ≥ E z ∼ q ϕ ( ⋅ ∣ x ) [ ln q ϕ ( z ∣ x ) p θ ( x , z ) ]
不等式的散度有一个封闭形式:
ln p θ ( x ) − E z ∼ q ϕ ( ⋅ ∣ x ) [ ln p θ ( x , z ) q ϕ ( z ∣ x ) ] = D K L ( q ϕ ( ⋅ ∣ x ) ∥ p θ ( ⋅ ∣ x ) ) ≥ 0 \ln p_{\theta} (x)-\mathbb {E} _{z\sim q_{\phi }(\cdot |x)}\left[\ln{\frac {p_{\theta }(x,z)}{q_{\phi }(z|x)}}\right]=D_{\mathit {KL}}(q_{\phi }(\cdot |x)\|p_{\theta }(\cdot |x))\geq 0
ln p θ ( x ) − E z ∼ q ϕ ( ⋅ ∣ x ) [ ln q ϕ ( z ∣ x ) p θ ( x , z ) ] = D KL ( q ϕ ( ⋅ ∣ x ) ∥ p θ ( ⋅ ∣ x )) ≥ 0
这样就得到了 ELBO 函数:
L ( ϕ , θ ; x ) : = ln p θ ( x ) − D K L ( q ϕ ( ⋅ ∣ x ) ∥ p θ ( ⋅ ∣ x ) ) L ( \phi , \theta ; x ) := \ln p_{\theta}(x)-D_{\mathit {KL}}(q_{\phi }(\cdot |x)\|p_{\theta }(\cdot |x))
L ( ϕ , θ ; x ) := ln p θ ( x ) − D KL ( q ϕ ( ⋅ ∣ x ) ∥ p θ ( ⋅ ∣ x ))
(3)最大化 ELBO
对于固定的 x x x ,优化 max θ , ϕ L ( ϕ , θ ; x ) \max_{\theta, \phi} L(\phi ,\theta ;x) max θ , ϕ L ( ϕ , θ ; x ) 同时尝试最大化 ln p θ ( x ) \ln p_{\theta}(x) ln p θ ( x ) 并最小化 D K L ( q ϕ ( ⋅ ∣ x ) ∥ p θ ( ⋅ ∣ x ) ) D_{ KL} (q_{\phi }(\cdot |x)\|p_{\theta }(\cdot |x)) D K L ( q ϕ ( ⋅ ∣ x ) ∥ p θ ( ⋅ ∣ x )) 。如果 p θ p_{\theta} p θ 和 q ϕ q_{\phi} q ϕ 的参数化足够灵活,我们将获得一些 ϕ ^ \hat{\phi} ϕ ^ , θ ^ \hat{\theta} θ ^ ,这样我们同时拥有
ln p θ ^ ( x ) ≈ max θ ln p θ ( x ) ; q ϕ ^ ( ⋅ ∣ x ) ≈ p θ ^ ( ⋅ ∣ x ) \begin{align}
&\ln p_{\hat{ \theta}}(x)\approx \max _{\theta }\ln p_{\theta }(x);\\
&q_{\hat {\phi }}(\cdot |x)\approx p_{\hat {\theta }}(\cdot |x)
\end{align}
ln p θ ^ ( x ) ≈ θ max ln p θ ( x ) ; q ϕ ^ ( ⋅ ∣ x ) ≈ p θ ^ ( ⋅ ∣ x )
因为
E x ∼ p ∗ ( x ) [ ln p θ ( x ) ] = − H ( p ∗ ) − D K L ( p ∗ ( x ) ∥ p θ ( x ) ) \mathbb{E}_{x\sim p^{*}(x)}[\ln p_{\theta }(x)]=-H(p^{*})-D_{\mathit {KL}}(p^{*}(x)\|p_{\theta }(x))
E x ∼ p ∗ ( x ) [ ln p θ ( x )] = − H ( p ∗ ) − D KL ( p ∗ ( x ) ∥ p θ ( x ))
所以有
ln p θ ^ ( x ) ≈ max θ − H ( p ∗ ) − D K L ( p ∗ ( x ) ∥ p θ ( x ) ) \ln p_{\hat{ \theta}} (x)\approx \max _{\theta }-H(p^{*})-D_{\mathit {KL}}(p^{*}(x)\|p_{\theta }(x))
ln p θ ^ ( x ) ≈ θ max − H ( p ∗ ) − D KL ( p ∗ ( x ) ∥ p θ ( x ))
进而
θ ^ ≈ arg min θ D K L ( p ∗ ( x ) ∥ p θ ( x ) ) \hat{\theta} \approx \arg \min_{\theta} D_{\mathit {KL}}(p^{*}(x)\|p_{\theta }(x))
θ ^ ≈ arg θ min D KL ( p ∗ ( x ) ∥ p θ ( x ))
换句话说,最大化 ELBO 将同时允许我们获得一个准确的生成式模型 p θ ^ ≈ p ∗ p_{\hat{ \theta}} \approx p^{*} p θ ^ ≈ p ∗ 和一个准确的判别式模型 q ϕ ^ ( ⋅ ∣ x ) ≈ p θ ^ ( ⋅ ∣ x ) q_{\hat{ \phi}} (\cdot |x)\approx p_{\hat {\theta }}(\cdot |x) q ϕ ^ ( ⋅ ∣ x ) ≈ p θ ^ ( ⋅ ∣ x ) 。
3 主要形式
ELBO 有许多可能的表达方式,每个表达方式都有不同的侧重点。
E z ∼ q ϕ ( ⋅ ∣ x ) [ ln p θ ( x , z ) q ϕ ( z ∣ x ) ] = ∫ q ϕ ( z ∣ x ) ln p θ ( x , z ) q ϕ ( z ∣ x ) d z \mathbb{E}_{z\sim q_{\phi }(\cdot |x)}\left[\ln{\frac {p_{\theta }(x,z)}{q_{\phi }(z|x)}}\right]=\int q_{\phi }(z|x)\ln{\frac {p_{\theta }(x,z)}{q_{\phi }(z|x)}}dz
E z ∼ q ϕ ( ⋅ ∣ x ) [ ln q ϕ ( z ∣ x ) p θ ( x , z ) ] = ∫ q ϕ ( z ∣ x ) ln q ϕ ( z ∣ x ) p θ ( x , z ) d z
这种形式表明,如果我们对 z ∼ q ϕ ( ⋅ ∣ x ) z \sim q_{\phi} (\cdot |x) z ∼ q ϕ ( ⋅ ∣ x ) 进行采样,则 ln p θ ( x , z ) q ϕ ( z ∣ x ) \ln \frac{p_{\theta}(x,z)}{q_{\phi}(z|x)} ln q ϕ ( z ∣ x ) p θ ( x , z ) 是 ELBO 的无偏估计量。
ln p θ ( x ) − D K L ( q ϕ ( ⋅ ∣ x ) ∥ p θ ( ⋅ ∣ x ) ) \ln p_{\theta}(x)-D_{\mathit {KL}}(q_{\phi }(\cdot |x)\;\|\;p_{\theta }(\cdot |x))
ln p θ ( x ) − D KL ( q ϕ ( ⋅ ∣ x ) ∥ p θ ( ⋅ ∣ x ))
这种形式表明 ELBO 是证据 ln p θ ( x ) \ln p_{\theta}(x) ln p θ ( x ) 的下界,并且关于 ϕ \phi ϕ 最大化 ELBO 等同于最小化 KL 散度 p θ ( ⋅ ∣ x ) p_{\theta}(\cdot|x) p θ ( ⋅ ∣ x ) 到 q ϕ ( ⋅ ∣ x ) q_{\phi}(\cdot |x) q ϕ ( ⋅ ∣ x ) 。
E z ∼ q ϕ ( ⋅ ∣ x ) [ ln p θ ( x ∣ z ) ] − D K L ( q ϕ ( ⋅ ∣ x ) ∥ p ) \mathbb{E}_{z\sim q_{\phi }(\cdot |x)}[\ln p_{\theta }(x|z)]-D_{\mathit {KL}}(q_{\phi }(\cdot |x)\;\|\;p)
E z ∼ q ϕ ( ⋅ ∣ x ) [ ln p θ ( x ∣ z )] − D KL ( q ϕ ( ⋅ ∣ x ) ∥ p )
这种形式表明,最大化 ELBO 同时尝试使 q ϕ ( ⋅ ∣ x ) q_{\phi} (\cdot |x) q ϕ ( ⋅ ∣ x ) 接近 p p p 并将 q ϕ ( ⋅ ∣ x ) q_{\phi}(\cdot |x) q ϕ ( ⋅ ∣ x ) 集中在那些最大化 的 z z z 上 ln p θ ( x ∣ z ) \ln p_{\theta}(x|z) ln p θ ( x ∣ z ) 。也就是说,近似后验 q ϕ ( ⋅ ∣ x ) q_{\phi}(\cdot |x) q ϕ ( ⋅ ∣ x ) 在保持接近先验 p p p 和向最大似然 arg max z ln p θ ( x ∣ z ) \arg \max_z \ln p_{\theta }(x|z) arg max z ln p θ ( x ∣ z ) 移动之间取得平衡。
H ( q ϕ ( ⋅ ∣ x ) ) + E z ∼ q ( ⋅ ∣ x ) [ ln p θ ( z ∣ x ) ] + ln p θ ( x ) H ( q_{\phi}(\cdot |x))+\mathbb {E} _{z\sim q(\cdot |x)}[\ln p_{\theta }(z|x)]+\ln p_{\theta }(x)
H ( q ϕ ( ⋅ ∣ x )) + E z ∼ q ( ⋅ ∣ x ) [ ln p θ ( z ∣ x )] + ln p θ ( x )
这种形式表明,最大化 ELBO 同时尝试保持 q p h i ( ⋅ ∣ x ) q_{phi}(\cdot |x) q p hi ( ⋅ ∣ x ) 的熵较高,并将 q p h i ( ⋅ ∣ x ) q_{phi}(\cdot |x) q p hi ( ⋅ ∣ x ) 集中在那些最大化的 z z z 上 ln p θ ( z ∣ x ) \ln p_{\theta}(z|x) ln p θ ( z ∣ x ) 。也就是说,近似后验 q ϕ ( ⋅ ∣ x ) q_{\phi}(\cdot |x) q ϕ ( ⋅ ∣ x ) 在均匀分布和向最大后验 arg max z ln p θ ( z ∣ x ) \arg \max_z \ln p_{\theta }(z|x) arg max z ln p θ ( z ∣ x ) 移动之间取得平衡。
数据处理不等式
假设我们从 p ∗ p^* p ∗ 中抽取 N N N 个独立样本,并将它们收集在数据集 D = { x 1 , . . . , x N } D = \{ x_1,...,x_{N}\} D = { x 1 , ... , x N } 中,那么我们有经验分布 q D ( x ) = 1 N ∑ i δ x i q_D(x) ={\frac {1}{N}}\sum_{i}\delta _{x_{i}} q D ( x ) = N 1 ∑ i δ x i 。
我们可以通过最大化对数似然 ln p θ ( D ) \ln p_{\theta}(D) ln p θ ( D ) 来将 p θ ( x ) p_{\theta}(x) p θ ( x ) 拟合到 q D ( x ) q_D(x) q D ( x ) , 来完成:
D K L ( q D ( x ) ∥ p θ ( x ) ) = − 1 N ∑ i ln p θ ( x i ) − H ( q D ) = − 1 N ln p θ ( D ) + H ( q D ) D_{KL}(q_{D}(x)\|p_{\theta }(x))=-{\frac {1}{N}}\sum _{i}\ln p_{\theta }(x_{i})-H(q_{D})=-{\frac {1}{N}}\ln p_{\theta }(D)+H(q_{D})
D K L ( q D ( x ) ∥ p θ ( x )) = − N 1 i ∑ ln p θ ( x i ) − H ( q D ) = − N 1 ln p θ ( D ) + H ( q D )
现在,根据 ELBO 不等式,我们可以为 ln p θ ( D ) \ln p_{\theta} (D) ln p θ ( D ) 设置下界,因此有
D K L ( q D ( x ) ∥ p θ ( x ) ) ≤ − 1 N L ( ϕ , θ ; D ) − H ( q D ) D_{KL}(q_{D}(x)\|p_{\theta }(x))\leq -{\frac {1}{N}}L(\phi ,\theta ;D)-H(q_{D})
D K L ( q D ( x ) ∥ p θ ( x )) ≤ − N 1 L ( ϕ , θ ; D ) − H ( q D )
右侧简化为 KL 散度,因此我们得到:
D K L ( q D ( x ) ∥ p θ ( x ) ) ≤ − 1 N ∑ i L ( ϕ , θ ; x i ) − H ( q D ) = D K L ( q D , ϕ ( x , z ) ; p θ ( x , z ) ) D_{\mathit{KL}}(q_D(x) \| p_{\theta}(x)) \leq - \frac{1}{N} \sum_{i} L(\phi,\theta;x_{i}) - H(q_D) = D_{\mathit{KL}}(q_{D,\phi}(x,z);p_{\theta}(x,z))
D KL ( q D ( x ) ∥ p θ ( x )) ≤ − N 1 i ∑ L ( ϕ , θ ; x i ) − H ( q D ) = D KL ( q D , ϕ ( x , z ) ; p θ ( x , z ))
这个结果可以被解释为 数据处理不等式 的一个特例。在这种解释中,最大化 L ( ϕ , θ ; D ) = ∑ i L ( ϕ , θ ; x i ) L(\phi,\theta;D) = \sum\limits_{i} L(\phi ,\theta ;x_{i}) L ( ϕ , θ ; D ) = i ∑ L ( ϕ , θ ; x i ) 就是最小化 D K L ( q D , ϕ ( x , z ) ; p θ ( x , z ) ) D_{KL} (q_{D, \phi }(x,z);p_{\theta }(x,z)) D K L ( q D , ϕ ( x , z ) ; p θ ( x , z )) ,根据数据处理不等式,它是实际感兴趣量 D K L ( q D ( x ) ; p θ ( x ) ) D_{KL} (q_{D}(x);p_{\theta}(x)) D K L ( q D ( x ) ; p θ ( x )) 的上限。也就是说,为了更有效地最小化 KL 散度,我们将一个隐空间附加到可观测空间,并付出了较弱的不等式代价 [3] 。
References
[1] Kingma, Diederik P.; Welling, Max (2014-05-01). "Auto-Encoding Variational Bayes". arXiv:1312.6114. [2] Burda, Yuri; Grosse, Roger; Salakhutdinov, Ruslan (2015-09-01). "Importance Weighted Autoencoders". [3] Kingma, Diederik P.; Welling, Max (2019-11-27). "An Introduction to Variational Autoencoders". Foundations and Trends in Machine Learning. 12 (4). Section 2.7. arXiv:1906.02691. doi:10.1561/2200000056. ISSN 1935-8237.