🔥 变分推断方法索引帖
【摘 要】 本文为变分推断方法的索引贴,按照变分推断方法发展的几个里程碑结点列出了相关经典文献。
1 综述类
Zhang 2018 年的 Advances in Variational Inference: 变分推断是概率模型中实现近似推断的主要方法之一,基于随机采样的 MCMC 方法在时间复杂度、空间复杂度和收敛可信度方面均不太适用于大型模型(如神经网络)和大规模数据集,而变分推断方法由于将 “估计分布的问题” 转换成了 “寻求具有最优参数的近似分布问题”,进而使推断速度得到了极大提升,而且能够和随机梯度等大样本量结合,是神经网络中寻求不确定性解常用的一种方法。本文介绍了变分推断的核心思想,并概述了迄今为止最主要的变分推断方法。
2 历久弥新的变分推断 – 平均场变分推断
平均场(MeanField )变分推断:可参考 Blei 2017 年的 《Variational Inference: A Review for Statisticians》一文,更深入的论文参考 Wainwright 2008 年的 《Graphical models, exponential f ...
👍 变分推断方法综述
【摘要】变分推断是概率模型中实现近似推断的主要方法之一,基于随机采样的 MCMC 方法在时间复杂度、空间复杂度和收敛可信度方面均不太适用于大型模型(如神经网络)和大规模数据集,而变分推断方法由于将 “估计分布的问题” 转换成了 “寻求具有最优参数的近似分布问题”,进而使推断速度得到了极大提升,而且能够和随机梯度等大样本量结合,是神经网络中寻求不确定性解常用的一种方法。本文介绍了变分推断的核心思想,并概述了迄今为止最主要的变分推断方法。
【原 文】 C. Zhang, J. Bütepage, H. Kjellström and S. Mandt, “Advances in Variational Inference,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 41, no. 8, pp. 2008-2026, 1 Aug. 2019, doi: 10.1109/TPAMI.2018.2889774.
🔔 对隐变量的概率分布进行推断,是概率生成模型(如变分自编码器、G ...
🔥 贝叶斯方法索引帖
一、知识要点
1.1 贝叶斯思维与工作流
推荐的几本基础入门书籍:
Martin 2015 年的 《Bayesian Analysis with Python》
Martin 2022 年的 《Bayesian Modeling and Computation in Python》
Kruschke 2015 年的 《Doing Bayesian Data Analysis》
1.2 主要的贝叶斯推断方法
(1) 关于基础的推断方法
普渡大学机器人视觉实验室的自编教程: 普渡大学的一篇入门教程,清晰地从贝叶斯定理出发,阐明了最大似然估计、最大后验估计、贝叶斯估计三者之间的关系,值得仔细品读。
(2)关于似然函数
Reid 等 2010 年 《似然与基于似然的推断》 : 全面地对似然函数以及基于似然的推断方法进行了综述。由于似然函数时贝叶斯方法中的重要组成部分,因此掌握这方面的知识是必要的。文中提到了似然函数及其派生量、最大似然估计及其渐进性质、剖面最大似然估计、受限最大似然估计、贝叶斯估计等方法,并给出了偏似然、伪似然、组合似然、准似然、经验似然等似然函数的常用变体。 ...
🔥 主要的贝叶斯推断方法
【摘 要】 统计推断是贝叶斯概率框架中最为重要的部分,也是概率机器学习的核心部分。几乎所有的概率机器学习模型,都会涉及根据观测量来获取隐变量或模型参数相关知识的问题,这就是统计推断。与频率主义不同,贝叶斯推断方法并不给出隐变量的确切值,而是保留了模型的不确定性,给出隐变量的概率分布。由于输出的不再是点,而是一个分布,导致贝叶斯统计推断的难度大大增加了。尤其是在复杂模型和大数据集中,问题更明显。本文对贝叶斯统计推断技术进行了综述,以便快速对相关领域知识有一个理解。
【原 文】 参考 Blei 的讲座自行整理。
1 简介
贝叶斯推断是统计学中的一个基本问题,也是许多机器学习方法中遇到的问题。例如:用于分类的高斯混合模型、用于主题建模的潜狄利克雷分配模型等概率图模型,都在拟合数据时需要解决贝叶斯推断问题。
同时应注意到,根据模型设置(如:假设、维度等)不同,贝叶斯推断问题有时很难解决。尤其是遇到大型问题中,精确推断方法往往需要大量计算,且变得难以处理,实践中通常会使用一些近似技术来克服此问题,并建立快速和可扩展的系统。
本文简单介绍贝叶斯推断存在的现实性问题,并以主 ...
🔥 蒙特卡洛推断方法索引帖
1. 蒙特卡洛原理
《蒙特卡洛方法原理》
2. 基础的随机采样方法
《直接采样、拒绝采样与重要性采样》
3. 马尔可夫链门特卡罗(MCMC)方法
《一篇文章读懂蒙特卡罗采样》
MCMC 采样方法编程实战
4. MCMC 的加速采样
《主要的 MCMC 加速方法》
专题:
《哈密顿蒙特卡洛(HMC)方法》
《不调头采样(NUTS)方法》
《模拟退火》
5. 序贯蒙特卡洛(SMC)方法
《卡尔曼滤波》: 基于高斯似然假设和线性系统假设,后验概率分布具有封闭形式,本身不需要蒙特卡洛方法。在此主要用于和粒子滤波进行比较。
《序贯蒙特卡洛与粒子滤波》:非高斯似然、非线性等更为复杂的系统,后验概率分布没有封闭形式解,因此只能通过蒙特卡洛模拟的方式近似后验概率分布。序贯蒙特卡罗方法为复杂动态系统的粒子滤波奠定了基础。
6. 可扩展的蒙特卡洛方法
随机梯度 MCMC 推断( SGMCMC ): 当数据规模较大时,蒙特卡洛方法能否适用?在大数据分析场景中,这个问题困扰了很多人。
#refplus, #refplus li{
padding:0;
...
随机梯度 MCMC 推断
〖摘要〗本文提出了一个采用蒙特卡洛方法的新框架,用于从小批量迭代学习的大规模数据集学习。当我们对步长进行退火时,将适量噪声添加到标准随机梯度优化算法中,其结果表明迭代将收敛到来自真实后验分布的样本。优化和贝叶斯后验采样之间的这种无缝过渡提供了针对过拟合的内在保护。我们还提出了一种后验统计量的实用蒙特卡洛估计方法,该方法监视 “采样阈值” 并在超过阈值后收集样本。我们基于自然梯度将该方法应用于高斯、逻辑斯谛回归和独立组份分析的混合模型。
〖原文〗 Welling, M. and Teh, Y.W. (2011) ‘Bayesian learning via stochastic gradient Langevin dynamics’, in Proceedings of the 28th international conference on machine learning (ICML-11), pp. 681–688.
1 引言
近年来,越来越多的超大规模机器学习数据集,范围从互联网流量和网络数据、计算机视觉、自然语言处理到生物信息学。现在,这些大规模数据推动了机器学习的 ...
蒙特卡洛采样的加速方法
〖摘要〗马尔可夫链蒙特卡罗算法通过对分布的局部性探索来模拟复杂的统计分布。这种局部特征虽然不要求使用者了解目标分布性质,但也同时会导致对目标分布更长时间的探索,并且随着问题维度和数据复杂性的增加,对模拟样本数量的要求会也会增加。有几种技术可用于加速蒙特卡罗算法的收敛,无论是在探索层面(如回火、哈密顿蒙特卡罗和部分确定性方法)还是在开发层面(使用 Rao-Blackwellisation 和可扩展方法)。本文是对这些方法进行的一个综述。
〖原文〗 Robert, C.P. et al. (2018) ‘Accelerating MCMC algorithms’, Wiley Interdisciplinary Reviews: Computational Statistics, 10(5), p. e1435. Available at: https://doi.org/10.1002/wics.1435.
1 概述
马尔可夫链蒙特卡罗(MCMC)算法已经使用了近 60 年,在 1990 年代初成为分析贝叶斯复杂模型的参考方法(Gelfand 和 Smith,1990 [41 ...
序贯蒙特卡洛与粒子滤波
〖摘要〗设计一个高效的迭代式模拟采样算法可能很困难,但对其进行推断并且监控其收敛性相对容易。本文首先给出了我们推荐的推断策略(遵循 Gelman et al., 2003 的第 11.10 节),并解释了推荐原因;然后用我们最近研究的一个关于 “民意调查数据分层模型拟合” 的案例进行说明。
〖原文〗 Inference from Simulations and Monitoring Convergence, Handbook of Markov Chain Monte Carlo, 2011
1 背景
现实世界的数据分析通常需要在仅给出对某些相关可观测量的序列观测的情况下估计未知量。在贝叶斯框架中,人们通常掌握模型的一些先验知识:不可观测兴趣量的先验分布和似然函数(将可观测量与不可观测量关联)。不可观测值的后验分布可以使用贝叶斯定理计算,这允许人们对未观测到的量进行推断。
在某些情况下,按顺序处理观测结果是很自然的。这些案例是本文重点,例如,不断有新数据实时输入的雷达跟踪或金融估算工具等在线应用,尝试更新之前形成的后验分布,肯定比从头开始重新计算更容易。
如果上述观测数据可 ...
直接采样、拒绝采样与重要性采样
直接采样、拒绝采样与重要性采样
【摘要】蒙特卡洛(Monte Carlo method)是一种以概率统计理论为指导的重要数值计算方法。它使用随机数来解决随机变量(或随机函数)的期望值积分求解、仿真模拟等非常棘手的计算问题,特别适用于无解析形式的复杂概率分布。根据对蒙特卡洛方法的理解,会发现其中最为核心的部分是如何在给定一个复杂分布时,按照概率随机、高效地获得样本,即采样方法问题。本文将介绍其中最为基础和直觉的几种早期方法,分别是基于 CDF 的直接采样、拒绝采样和重要性采样。
1 直接采样
直接采样的思想是:计算机适合于随机的均匀采样,如果能够把任意概率分布的采样转化成对均匀分布的采样,就可以解决采样问题。
假设 yyy 服从某项分布 p(y)p(y)p(y),其累积分布函数( CDF )为 h(y)h(y)h(y),现有均匀分布的样本 z∼Uniform(0,1)z \sim \operatorname{Uniform}(0,1)z∼Uniform(0,1),令 z=h(y)z = h(y)z=h(y),即 y=h−1(z)y = h^{-1}(z)y=h−1(z),结 ...
蒙特卡洛方法原理
〖摘要〗贝叶斯统计需要在贝叶斯定理基础上,通过参数先验和数据似然对参数的后验概率分布作出推断。从推断精度上区分,贝叶斯推断方法大致包含精确推断和近似推断两大类,其中精确推断常见有变量消除法(Variable Elimination, VE)和信念传播法(Belief Propagation, BP);而近似推断方法主要是蒙特卡洛法(Mente Carlo, MC)和变分近似推断法(Variational Inference,VI)。蒙特卡洛方法是一种以概率统计理论为指导的重要数值计算方法。它使用随机数来解决随机变量(或随机函数)期望值积分求解、仿真模拟等非常棘手的计算问题,特别适用于没有明确解析形式的复杂概率分布。蒙特卡洛方法中最为核心的部分是如何在给定一个复杂分布时,按照概率随机地、高效地获得样本,即采样方法问题。
〖原文〗蒙特卡洛方法数学基础、蒙特卡洛方法实践
1 引子
蒙特卡洛方法是一类通过随机采样来求解问题的算法的统称,通常要求解的问题是某随机事件的概率或某随机变量的期望。通过随机采样方法,以随机事件出现的频率估计其概率,并将其作为问题的解。
蒙特卡洛的基本做法:做 ...