3️⃣ 概率图推断--精确推断
〖摘要〗 〖原文〗 Standford cs228 notes 〖参考〗CMU 10-708 Slides / CMU 10-708 Lecture Notes / Jordan TextBook, Ch.2(section 2.2 - end) / Koller’s Textbook,Ch.4 / A. Fischer and C. Igel, An Introducton to Restricted Boltzmann Machines / B. A. Cipra, An Introduction to the Ising Model
2️⃣ 概率图表示--马尔可夫随机场
〖摘要〗 〖原文〗 Standford cs228 notes 〖参考〗CMU 10-708 Slides / CMU 10-708 Lecture Notes / Jordan TextBook, Ch.2(section 2.2 - end) / Koller’s Textbook,Ch.4 / A. Fischer and C. Igel, An Introducton to Restricted Boltzmann Machines / B. A. Cipra, An Introduction to the Ising Model
1️⃣ 有向概率图模型概述
〖摘要〗 有向概率图模型又称贝叶斯网络, 〖原文〗ccs228-notes 〖参考〗CMU 10-708 Slides / CMU 10-708 Lecture Notes / Jordan TextBook, Ch.2(section 2.1) / Koller’s Textbook,Ch. 3 1 简介我们从 “表示” 的主题开始:如何选择概率分布来模拟世界的某些有趣的方面? 想出一个好的模型并不总是那么容易:在前面已经看到,一个简单的垃圾邮件分类模型需要我们指定一些参数,这些参数与英语单词的数量成指数关系! 在本章中,我们将学习一种避免这些症状的方法。我们准备: 学习一种有效且通用的技术,仅使用几个参数来参数化概率分布。 了解如何通过有向无环图 (DAG) 优雅地描述生成模型。 研究 DAG 的结构与其所描述的分布以及建模假设之间的联系;这不仅会使这些建模假设更加明确,而且还将帮助我们设计更有效的推断算法。 本文中的各种模型都是有向图,也被称为『贝叶斯网络』。我们在后面还会看到另外一种方法:无向图,也称为马尔可夫随机场 (MRF)。...
自动微分变分推断【ADVI】
【摘要】概率建模是迭代进行的。一位科学家假设一个简单模型,将其拟合到数据中,根据分析对其进行改进,然后重复。然而,将复杂模型拟合到大数据是其中的一个瓶颈。为新模型推导算法在数学和计算上都具有挑战性,这造成很难有效地循环执行这些步骤。为此,我们开发了自动微分变分推断 (ADVI)。使用我们的方法,科学家只提供一个概率模型和一个数据集,没有别的要求。ADVI 会自动推导出一个有效的变分推断算法,让科学家有时间提炼和探索更多模型。ADVI 不需要共轭假设,能够支持更广泛的模型。我们研究了 $10$ 个不同模型的 ADVI ,并将其应用于具有数百万个观测值的数据集。ADVI 已经被集成到 Stan 概率编程系统中,可以立即使用。 【原文】Alp Kucukelbir, Dustin Tran, Rajesh Ranganath et al.(2016), Automatic Differentiation Variational Inference. ICLR, 2016. arXiv:1603.00788 1...
蒙特卡洛采样的加速方法
〖摘要〗马尔可夫链蒙特卡罗算法通过对分布的局部性探索来模拟复杂的统计分布。这种局部特征虽然不要求使用者了解目标分布性质,但也同时会导致对目标分布更长时间的探索,并且随着问题维度和数据复杂性的增加,对模拟样本数量的要求会也会增加。有几种技术可用于加速蒙特卡罗算法的收敛,无论是在探索层面(如回火、哈密顿蒙特卡罗和部分确定性方法)还是在开发层面(使用 Rao-Blackwellisation 和可扩展方法)。本文是对这些方法进行的一个综述。 〖原文〗 Robert, C.P. et al. (2018) ‘Accelerating MCMC algorithms’, Wiley Interdisciplinary Reviews: Computational Statistics, 10(5), p. e1435. Available at: https://doi.org/10.1002/wics.1435. 1 概述马尔可夫链蒙特卡罗(MCMC)算法已经使用了近 60 年,在 1990 年代初成为分析贝叶斯复杂模型的参考方法(Gelfand 和 Smith,1990...
序贯蒙特卡洛与粒子滤波
〖摘要〗设计一个高效的迭代式模拟采样算法可能很困难,但对其进行推断并且监控其收敛性相对容易。本文首先给出了我们推荐的推断策略(遵循 Gelman et al., 2003 的第 11.10 节),并解释了推荐原因;然后用我们最近研究的一个关于 “民意调查数据分层模型拟合” 的案例进行说明。 〖原文〗 Inference from Simulations and Monitoring Convergence, Handbook of Markov Chain Monte Carlo, 2011 1...
哈密顿蒙特卡洛(HMC)方法
哈密顿蒙特卡洛( HMC )采样方法〖摘要〗快速给出下一个状态的提议值是 MCMC 方法的关键环节。对于状态有限的离散概率质量函数而言,可以采用随机游走的方式选择下一个状态的提议值,然后使用 Metropolis 更新步骤;但对于连续的概率密度函数而言, 随机游走方式显然不利于快速遍历状态空间。哈密顿蒙特卡洛方法利用 Hamilton 动力学的可逆性、能量守恒、体积保持等特性,为构造马氏链提供了一种快速生成提议状态的方法,该方法与 MCMC 中的 Metropolis 更新(或其他更新方法)步骤结合,可以快速生成给定概率分布的样本。 〖原文〗 Radford M. Neal (2011), MCMC Using Hamiltonian Dynamics, Handbook of Markov Chain Monte Carlo. 1 概述马尔可夫链蒙特卡罗 (MCMC) 起源于 Metropolis 等人 的经典论文 (1953)。它被用于模拟理想化状态下分子系统的状态分布。不久之后,引入了另一种分子模拟方法( Alder 和 Wainwright,1959...
3️⃣ 变分自编码器原始论文
【摘 要】 如果存在具有棘手后验的连续型隐变量和大数据集,如何在有向概率图模型中进行有效的推断和学习? 本文引入了一种随机变分推断和学习算法。该算法能够在一些轻度差异化(甚至棘手)的情况下工作,并且能够扩展到大型数据集。本文的贡献有两个:首先,证明了重参数化技巧可以得到对变分下界的无偏估计,并且可用于随机梯度的优化。其次,对于有连续型隐变量的独立同分布数据集,我们利用重参数化的变分下界估计,成功地为棘手后验拟合了近似的推断模型(注:利用摊销推断思想,将传统棘手的局部隐变量推断问题转变成了神经网络预测问题)。理论优势最终反映在了实验结果中。 【原 文】 Kingma, D.P. and Welling, M. (2014) ‘Auto-Encoding Variational Bayes’. arXiv. Available at: http://arxiv.org/abs/1312.6114 (Accessed: 14 October 2022). 1 ...
2️⃣ 概率视角看变分自编码器
〖摘要〗 本文从神经网络和概率机器学习两个视角,介绍了 VAE 背后的数学原理。严格意义上来说,变分自编码器( VAE)是一种面向连续型隐变量的黑盒变分推断方法。其建立在基于神经网络的函数逼近之上,并可用随机梯度下降进行训练。VAE 已在生成多种复杂数据方面显示出很好的前景,包括手写数字、人脸、门牌号、CIFAR 图像、场景物理模型、分割以及从静态图像预测未来。 〖原文〗 Jaan Altosaar;Understanding Variational Autoencoders (VAEs) from two perspectives: deep learning and graphical models.;2016 p{text-indent:2em} 1 问题的提出为什么深度学习研究人员和概率机器学习人员在讨论变分自编码器时会感到困惑?什么是变分自编码器?为什么围绕这个术语存在不合理的混淆? 这是因为存在概念和语言上的代沟!!! 神经网络科学和概率模型之间缺少共同的语言。本文的目标之一是弥合这一差距,并允许它们之间进行更多的协作和讨论,并提供一致的实现(Github...
1️⃣ 初始变分自编码器
【摘 要】本文从自编码器入手,讨论了自编码器与变分自编码器之间的本质区别,并简单介绍了变分自编码器的工作原理,适合于认识变分自编码器的第一篇入门读物。【原 文】Joseph Rocca & Baptiste Rocca,Understanding Variational Autoencoders VAEs 1. 简介在过去的几年中,由于一些惊人的进步,基于深度学习的生成模型越来越受到关注。依靠大量数据,精心设计的网络结构和训练技术,深度生成模型已经显示出了令人难以置信的能力,可以生成高度逼真的各种内容,例如图像,文本和声音。在这些深度生成模型中,有两个类别脱颖而出,值得特别关注:生成对抗网络(GAN)和 变分自编码器(VAE)。 图 1 VAE 生成的人脸图片 简而言之,VAE 是一种自编码器,在训练过程中其编码的概率分布是正则化的,以确保其在隐空间具有良好特性,进而允许我们生成一些新数据。术语 “变分” 源自统计中的 正则化 和 变分推断 方法。 虽然最后两句话很好地概括了 VAE...