重要性加权变分推断方法
【摘要】最近有工作使用重要性采样的思路,来确定更紧致的变分似然边界。本文阐明了该想法对纯概率推断的适用性,展示了重要性加权变分推断技术作为一种增强的变分推断方法,能够识别先前工作中的松散性。实验证实了重要性加权变分推断在概率推断方面的实用性。作为另一个成果,本文研究了使用椭圆分布的推断方法,该方法提高了低维准确性和高维收敛性。
【原文】 J Domke and D Sheldon (2018), Importance weighting and variational inference. In Advances in Neural Information Processing Systems. https://arxiv.org/abs/1808.09034
1 问题提出
概率建模通过为不可观测的变量 z\mathbf{z}z 和可观测变量 x\mathbf{x}x 制定联合模型 p(z,x)p(\mathbf{z}, \mathbf{x})p(z,x) 来推断世界,然后查询后验分布 p(z∣x)p(\mathbf{z} \mid \mathbf{x})p(z∣x) 以了 ...
3️⃣ 概率图推断--精确推断
〖摘要〗
〖原文〗 Standford cs228 notes
〖参考〗CMU 10-708 Slides / CMU 10-708 Lecture Notes / Jordan TextBook, Ch.2(section 2.2 - end) / Koller’s Textbook,Ch.4 / A. Fischer and C. Igel, An Introducton to Restricted Boltzmann Machines / B. A. Cipra, An Introduction to the Ising Model
2️⃣ 概率图表示--马尔可夫随机场
〖摘要〗
〖原文〗 Standford cs228 notes
〖参考〗CMU 10-708 Slides / CMU 10-708 Lecture Notes / Jordan TextBook, Ch.2(section 2.2 - end) / Koller’s Textbook,Ch.4 / A. Fischer and C. Igel, An Introducton to Restricted Boltzmann Machines / B. A. Cipra, An Introduction to the Ising Model
1️⃣ 有向概率图模型概述
〖摘要〗 有向概率图模型又称贝叶斯网络,
〖原文〗ccs228-notes
〖参考〗CMU 10-708 Slides / CMU 10-708 Lecture Notes / Jordan TextBook, Ch.2(section 2.1) / Koller’s Textbook,Ch. 3
1 简介
我们从 “表示” 的主题开始:如何选择概率分布来模拟世界的某些有趣的方面?
想出一个好的模型并不总是那么容易:在前面已经看到,一个简单的垃圾邮件分类模型需要我们指定一些参数,这些参数与英语单词的数量成指数关系!
在本章中,我们将学习一种避免这些症状的方法。我们准备:
学习一种有效且通用的技术,仅使用几个参数来参数化概率分布。
了解如何通过有向无环图 (DAG) 优雅地描述生成模型。
研究 DAG 的结构与其所描述的分布以及建模假设之间的联系;这不仅会使这些建模假设更加明确,而且还将帮助我们设计更有效的推断算法。
本文中的各种模型都是有向图,也被称为『贝叶斯网络』。我们在后面还会看到另外一种方法:无向图,也称为马尔可夫随机场 (MRF)。 贝叶斯网络能够有效地展示因果 ...
自动微分变分推断【ADVI】
【摘要】概率建模是迭代进行的。一位科学家假设一个简单模型,将其拟合到数据中,根据分析对其进行改进,然后重复。然而,将复杂模型拟合到大数据是其中的一个瓶颈。为新模型推导算法在数学和计算上都具有挑战性,这造成很难有效地循环执行这些步骤。为此,我们开发了自动微分变分推断 (ADVI)。使用我们的方法,科学家只提供一个概率模型和一个数据集,没有别的要求。ADVI 会自动推导出一个有效的变分推断算法,让科学家有时间提炼和探索更多模型。ADVI 不需要共轭假设,能够支持更广泛的模型。我们研究了 101010 个不同模型的 ADVI ,并将其应用于具有数百万个观测值的数据集。ADVI 已经被集成到 Stan 概率编程系统中,可以立即使用。
【原文】Alp Kucukelbir, Dustin Tran, Rajesh Ranganath et al.(2016), Automatic Differentiation Variational Inference. ICLR, 2016. arXiv:1603.00788
1 问题提出
我们开发了一种能够为复杂概率模型自动推导出变分推断算法 ...
蒙特卡洛采样的加速方法
〖摘要〗马尔可夫链蒙特卡罗算法通过对分布的局部性探索来模拟复杂的统计分布。这种局部特征虽然不要求使用者了解目标分布性质,但也同时会导致对目标分布更长时间的探索,并且随着问题维度和数据复杂性的增加,对模拟样本数量的要求会也会增加。有几种技术可用于加速蒙特卡罗算法的收敛,无论是在探索层面(如回火、哈密顿蒙特卡罗和部分确定性方法)还是在开发层面(使用 Rao-Blackwellisation 和可扩展方法)。本文是对这些方法进行的一个综述。
〖原文〗 Robert, C.P. et al. (2018) ‘Accelerating MCMC algorithms’, Wiley Interdisciplinary Reviews: Computational Statistics, 10(5), p. e1435. Available at: https://doi.org/10.1002/wics.1435.
1 概述
马尔可夫链蒙特卡罗(MCMC)算法已经使用了近 60 年,在 1990 年代初成为分析贝叶斯复杂模型的参考方法(Gelfand 和 Smith,1990 [41 ...
序贯蒙特卡洛与粒子滤波
〖摘要〗设计一个高效的迭代式模拟采样算法可能很困难,但对其进行推断并且监控其收敛性相对容易。本文首先给出了我们推荐的推断策略(遵循 Gelman et al., 2003 的第 11.10 节),并解释了推荐原因;然后用我们最近研究的一个关于 “民意调查数据分层模型拟合” 的案例进行说明。
〖原文〗 Inference from Simulations and Monitoring Convergence, Handbook of Markov Chain Monte Carlo, 2011
1 背景
现实世界的数据分析通常需要在仅给出对某些相关可观测量的序列观测的情况下估计未知量。在贝叶斯框架中,人们通常掌握模型的一些先验知识:不可观测兴趣量的先验分布和似然函数(将可观测量与不可观测量关联)。不可观测值的后验分布可以使用贝叶斯定理计算,这允许人们对未观测到的量进行推断。
在某些情况下,按顺序处理观测结果是很自然的。这些案例是本文重点,例如,不断有新数据实时输入的雷达跟踪或金融估算工具等在线应用,尝试更新之前形成的后验分布,肯定比从头开始重新计算更容易。
如果上述观测数据可 ...
哈密顿蒙特卡洛(HMC)方法
哈密顿蒙特卡洛( HMC )采样方法
〖摘要〗快速给出下一个状态的提议值是 MCMC 方法的关键环节。对于状态有限的离散概率质量函数而言,可以采用随机游走的方式选择下一个状态的提议值,然后使用 Metropolis 更新步骤;但对于连续的概率密度函数而言, 随机游走方式显然不利于快速遍历状态空间。哈密顿蒙特卡洛方法利用 Hamilton 动力学的可逆性、能量守恒、体积保持等特性,为构造马氏链提供了一种快速生成提议状态的方法,该方法与 MCMC 中的 Metropolis 更新(或其他更新方法)步骤结合,可以快速生成给定概率分布的样本。
〖原文〗 Radford M. Neal (2011), MCMC Using Hamiltonian Dynamics, Handbook of Markov Chain Monte Carlo.
1 概述
马尔可夫链蒙特卡罗 (MCMC) 起源于 Metropolis 等人 的经典论文 (1953)。它被用于模拟理想化状态下分子系统的状态分布。不久之后,引入了另一种分子模拟方法( Alder 和 Wainwright,1959 年),其 ...
3️⃣ 变分自编码器原始论文
【摘 要】 如果存在具有棘手后验的连续型隐变量和大数据集,如何在有向概率图模型中进行有效的推断和学习? 本文引入了一种随机变分推断和学习算法。该算法能够在一些轻度差异化(甚至棘手)的情况下工作,并且能够扩展到大型数据集。本文的贡献有两个:首先,证明了重参数化技巧可以得到对变分下界的无偏估计,并且可用于随机梯度的优化。其次,对于有连续型隐变量的独立同分布数据集,我们利用重参数化的变分下界估计,成功地为棘手后验拟合了近似的推断模型(注:利用摊销推断思想,将传统棘手的局部隐变量推断问题转变成了神经网络预测问题)。理论优势最终反映在了实验结果中。
【原 文】 Kingma, D.P. and Welling, M. (2014) ‘Auto-Encoding Variational Bayes’. arXiv. Available at: http://arxiv.org/abs/1312.6114 (Accessed: 14 October 2022).
1 介绍
当模型中存在具有棘手后验的连续型隐变量和/或参数时,我们如何使用有向概率图模型进行近似推断和学习呢?
在实践中, ...
2️⃣ 概率视角看变分自编码器
〖摘要〗 本文从神经网络和概率机器学习两个视角,介绍了 VAE 背后的数学原理。严格意义上来说,变分自编码器( VAE)是一种面向连续型隐变量的黑盒变分推断方法。其建立在基于神经网络的函数逼近之上,并可用随机梯度下降进行训练。VAE 已在生成多种复杂数据方面显示出很好的前景,包括手写数字、人脸、门牌号、CIFAR 图像、场景物理模型、分割以及从静态图像预测未来。
〖原文〗 Jaan Altosaar;Understanding Variational Autoencoders (VAEs) from two perspectives: deep learning and graphical models.;2016
p{text-indent:2em}
1 问题的提出
为什么深度学习研究人员和概率机器学习人员在讨论变分自编码器时会感到困惑?什么是变分自编码器?为什么围绕这个术语存在不合理的混淆?
这是因为存在概念和语言上的代沟!!!
神经网络科学和概率模型之间缺少共同的语言。本文的目标之一是弥合这一差距,并允许它们之间进行更多的协作和讨论,并提供一致的实现(Github 链 ...