证据下界(ELBO)的概念解析
在变分贝叶斯方法中, 证据下界 (通常缩写为 ELBO ,有时也称为 变分下界 [1]或 负变分自由能 )是一个关于观测数据对数似然的常用下界。
1 术语和符号
设 XXX 和 ZZZ 为随机变量,其联合分布为 pθ(X,Z)p_\theta(X,Z)pθ(X,Z)(简写为 pθp_{\theta}pθ ),pθ(X)p_{\theta}(X)pθ(X) 是 XXX 的边缘分布,pθ(Z∣X)p_{\theta}(Z \mid X)pθ(Z∣X) 是给定 XXX 时 ZZZ 的条件分布。
对于 XXX 的任意样本实现 x∼pθx \sim p_{\theta}x∼pθ 和任何分布 qϕq_{\phi}qϕ ,有
lnpθ(x)≥Ez∼qϕ[lnpθ(x,z)qϕ(z)].\ln p_{\theta}(x) \geq \mathbb {E}_{z \sim q_{\phi }} \left[\ln{\frac{p_{\theta}(x,z)}{q_{\phi}(z)}}\right].
lnpθ(x)≥Ez∼qϕ[lnqϕ(z)pθ(x,z)].
...
🔥 深度核学习(DKL)
【摘 要】 我们引入了可扩展的深度核,它结合了深度学习架构的结构特性和核方法的非参数灵活性。具体来说,我们使用局部核插值、归纳点和结构利用(Kronecker 和 Toeplitz)代数来转换具有深度架构的谱混合基核的输入,以获得可扩展的核表示。这些封闭形式的核可以用作标准核的直接替代品,具有表达能力和可扩展性方面的优势。我们通过高斯过程的边缘似然共同学习这些核的属性。 nnn 个训练点的推断和学习成本为 O(n)\mathcal{O}(n)O(n),每个测试点的预测成本为 O(1)\mathcal{O}(1)O(1)。在大量多样的应用程序集合中,包括具有 200200200 万个样本的数据集,我们展示了具有灵活核学习模型和独立深度架构的可扩展高斯过程的改进性能。
【原 文】 Wilson, A.G. 等 (2015) ‘Deep Kernel Learning’. arXiv. Available at: http://arxiv.org/abs/1511.02222 (Accessed: 31 December 2022).
1 简介
MacKay (1998) [15 ...
重要性加权变分推断方法
【摘要】最近有工作使用重要性采样的思路,来确定更紧致的变分似然边界。本文阐明了该想法对纯概率推断的适用性,展示了重要性加权变分推断技术作为一种增强的变分推断方法,能够识别先前工作中的松散性。实验证实了重要性加权变分推断在概率推断方面的实用性。作为另一个成果,本文研究了使用椭圆分布的推断方法,该方法提高了低维准确性和高维收敛性。
【原文】 J Domke and D Sheldon (2018), Importance weighting and variational inference. In Advances in Neural Information Processing Systems. https://arxiv.org/abs/1808.09034
1 问题提出
概率建模通过为不可观测的变量 z\mathbf{z}z 和可观测变量 x\mathbf{x}x 制定联合模型 p(z,x)p(\mathbf{z}, \mathbf{x})p(z,x) 来推断世界,然后查询后验分布 p(z∣x)p(\mathbf{z} \mid \mathbf{x})p(z∣x) 以了 ...