暂空缺。
文章作者: 西山晴雪
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 西山晴雪的知识笔记!
相关推荐
2021-03-12
随机变分推断
【摘 要】 随机变分推断是一种用于近似后验分布的可扩展算法。我们为一般性的概率模型开发了该技术,并且用两个概率主题模型(潜狄利克雷分配和分层狄利克雷过程主题模型)来证明了它的可用性。我们使用随机变分推断分析了几个大型文档集合:来自 Nature 的 30 万篇文章、来自《纽约时报》的 180 万篇文章和来自维基百科的 380 万篇文章。结果表明:随机变分推断可以轻松处理如此大规模的数据集,并且优于只能处理较小数据集的传统变分推断。我们还表明贝叶斯非参数主题模型的表现要优于参数模型。 【原 文】 Hoffman, M., Blei, D. M., Wang, C., & Paisley, J. (2013). Stochastic Variational Inference. arXiv: http://arxiv.org/abs/1206.7051 1 问题提出现代数据分析需要使用海量数据进行计算。想象下如下案例: (1) 我们拥有 200...
2022-02-10
近似推断--平均场近似
〖摘要〗 〖原文〗 Standford cs228 notes 〖参考〗CMU 10-708 Slides / CMU 10-708 Lecture Notes / Jordan TextBook, Ch.2(section 2.2 - end) / Koller’s Textbook,Ch.4 / A. Fischer and C. Igel, An Introducton to Restricted Boltzmann Machines / B. A. Cipra, An Introduction to the Ising Model
2021-03-14
黑盒变分推断
【摘要】 变分推断已经成为一种广泛使用的方法,用于近似隐变量的复杂后验分布。 然而,传统方法推导出一个变分推断算法需要进行大量的特定模型分析。 这可能会阻碍我们快速开发和探索解决问题的模型。 本文中提出了一种黑盒变分推断算法,该算法可以快速应用于许多模型,几乎不需要额外的推导。我们采用的方法是基于变分目标做随机优化,其中噪声梯度由变分分布的蒙特卡洛样本计算得出,进而避免了对梯度解析形式的推导。考虑到随机优化存在方差变大的问题, 我们同时开发了一些减少梯度方差的方法,并始终保持了避免推导的简易性。 我们将本方法与相应的黑盒采样方法进行对比评估,发现本方法相比于采样方法,能更快达到较好的预测似然。 最后,通过快速构建和评估医疗数据中的几个模型,我们证明了黑盒变分推断法可以轻松探索更为广阔的模型空间。 【原文】Ranganath, R., Gerrish, S., and Blei, D. M. (2014). Black box variational inference. In Artificial Intelligence and Statistics, Vol...
2021-11-04
重要性加权变分推断方法
【摘要】最近有工作使用重要性采样的思路,来确定更紧致的变分似然边界。本文阐明了该想法对纯概率推断的适用性,展示了重要性加权变分推断技术作为一种增强的变分推断方法,能够识别先前工作中的松散性。实验证实了重要性加权变分推断在概率推断方面的实用性。作为另一个成果,本文研究了使用椭圆分布的推断方法,该方法提高了低维准确性和高维收敛性。 【原文】 J Domke and D Sheldon (2018), Importance weighting and variational inference. In Advances in Neural Information Processing Systems. https://arxiv.org/abs/1808.09034 1 问题提出概率建模通过为不可观测的变量 $\mathbf{z}$ 和可观测变量 $\mathbf{x}$ 制定联合模型 $p(\mathbf{z}, \mathbf{x})$ 来推断世界,然后查询后验分布 $p(\mathbf{z} \mid \mathbf{x})$ 以了解给定证据 $\mathbf{x}$...
2023-05-18
证据下界(ELBO)的概念解析
在变分贝叶斯方法中, 证据下界 (通常缩写为 ELBO ,有时也称为 变分下界 [1]或 **负变分自由能** )是一个关于观测数据对数似然的常用下界。 ## 1 术语和符号 设 $X$ 和 $Z$ 为随机变量,其联合分布为 $p_\theta(X,Z)$(简写为 $p_{\theta}$ ),$p_{\theta}(X)$ 是 $X$ 的边缘分布,$p_{\theta}(Z \mid X)$ 是给定 $X$ 时 $Z$ 的条件分布。 对于 $X$ 的任意样本实现 $x \sim p_{\theta}$ 和任何分布 $q_{\phi}$ ,有 $$ \ln p_{\theta}(x) \geq \mathbb {E}_{z \sim q_{\phi }} \left[\ln{\frac{p_{\theta}(x,z)}{q_{\phi}(z)}}\right]. $$ 在变分贝叶斯方法的术语中,**观测变量的分布 $p_{\theta}(X)$ 通常被称为 _证据_ ,其对数形式 $\ln p_{\theta}(X)$ 被称为...
2023-05-08
🔥 主要的贝叶斯推断方法
【摘 要】 统计推断是贝叶斯概率框架中最为重要的部分,也是概率机器学习的核心部分。几乎所有的概率机器学习模型,都会涉及根据观测量来获取隐变量或模型参数相关知识的问题,这就是统计推断。与频率主义不同,贝叶斯推断方法并不给出隐变量的确切值,而是保留了模型的不确定性,给出隐变量的概率分布。由于输出的不再是点,而是一个分布,导致贝叶斯统计推断的难度大大增加了。尤其是在复杂模型和大数据集中,问题更明显。本文对贝叶斯统计推断技术进行了综述,以便快速对相关领域知识有一个理解。 【原 文】 参考 Blei 的讲座自行整理。 1...