🔥 变分推断方法索引帖
【摘 要】 本文为变分推断方法的索引贴,按照变分推断方法发展的几个里程碑结点列出了相关经典文献。
1 综述类
Zhang 2018 年的 Advances in Variational Inference: 变分推断是概率模型中实现近似推断的主要方法之一,基于随机采样的 MCMC 方法在时间复杂度、空间复杂度和收敛可信度方面均不太适用于大型模型(如神经网络)和大规模数据集,而变分推断方法由于将 “估计分布的问题” 转换成了 “寻求具有最优参数的近似分布问题”,进而使推断速度得到了极大提升,而且能够和随机梯度等大样本量结合,是神经网络中寻求不确定性解常用的一种方法。本文介绍了变分推断的核心思想,并概述了迄今为止最主要的变分推断方法。
2 历久弥新的变分推断 – 平均场变分推断
平均场(MeanField )变分推断:可参考 Blei 2017 年的 《Variational Inference: A Review for Statisticians》一文,更深入的论文参考 Wainwright 2008 年的 《Graphical models, exponential f ...
👍 变分推断方法综述
【摘要】变分推断是概率模型中实现近似推断的主要方法之一,基于随机采样的 MCMC 方法在时间复杂度、空间复杂度和收敛可信度方面均不太适用于大型模型(如神经网络)和大规模数据集,而变分推断方法由于将 “估计分布的问题” 转换成了 “寻求具有最优参数的近似分布问题”,进而使推断速度得到了极大提升,而且能够和随机梯度等大样本量结合,是神经网络中寻求不确定性解常用的一种方法。本文介绍了变分推断的核心思想,并概述了迄今为止最主要的变分推断方法。
【原 文】 C. Zhang, J. Bütepage, H. Kjellström and S. Mandt, “Advances in Variational Inference,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 41, no. 8, pp. 2008-2026, 1 Aug. 2019, doi: 10.1109/TPAMI.2018.2889774.
🔔 对隐变量的概率分布进行推断,是概率生成模型(如变分自编码器、G ...
证据下界(ELBO)的概念解析
在变分贝叶斯方法中, 证据下界 (通常缩写为 ELBO ,有时也称为 变分下界 [1]或 负变分自由能 )是一个关于观测数据对数似然的常用下界。
1 术语和符号
设 XXX 和 ZZZ 为随机变量,其联合分布为 pθ(X,Z)p_\theta(X,Z)pθ(X,Z)(简写为 pθp_{\theta}pθ ),pθ(X)p_{\theta}(X)pθ(X) 是 XXX 的边缘分布,pθ(Z∣X)p_{\theta}(Z \mid X)pθ(Z∣X) 是给定 XXX 时 ZZZ 的条件分布。
对于 XXX 的任意样本实现 x∼pθx \sim p_{\theta}x∼pθ 和任何分布 qϕq_{\phi}qϕ ,有
lnpθ(x)≥Ez∼qϕ[lnpθ(x,z)qϕ(z)].\ln p_{\theta}(x) \geq \mathbb {E}_{z \sim q_{\phi }} \left[\ln{\frac{p_{\theta}(x,z)}{q_{\phi}(z)}}\right].
lnpθ(x)≥Ez∼qϕ[lnqϕ(z)pθ(x,z)].
...
👍 变分自编码器权威综述
【摘 要】 变分自编码器为学习深度隐变量模型和相应的推断模型提供了一个原理框架。在本文工作中,我们介绍了变分自编码器和一些重要的扩展。
【原 文】 Diederik P. Kingma and Max Welling (2019), “An Introduction to Variational Autoencoders”, Foundations and Trends® in Machine Learning: Vol. 12: No. 4, pp 307-392. http://dx.doi.org/10.1561/2200000056
1 概述
1.1 动机
(1)生成式建模与判别式建模
机器学习的一个主要部分是生成与判别式建模。判别式建模的目标是在给定观测的情况下学习如何预测变量,而生成式建模的目标是解决更普遍的问题,即学习所有变量的联合分布。
生成式模型模拟数据在现实世界中的生成方式。几乎每门科学都将 “建模” 理解为:作出理论假设,然后通过观测来检验这些理论以揭示这一生成过程。例如,当气象学家模拟天气时,他们使用高度复杂的偏微分式来表达天气的基本物理特性。或者当 ...
🔥 贝叶斯方法索引帖
一、知识要点
1.1 贝叶斯思维与工作流
推荐的几本基础入门书籍:
Martin 2015 年的 《Bayesian Analysis with Python》
Martin 2022 年的 《Bayesian Modeling and Computation in Python》
Kruschke 2015 年的 《Doing Bayesian Data Analysis》
1.2 主要的贝叶斯推断方法
(1) 关于基础的推断方法
普渡大学机器人视觉实验室的自编教程: 普渡大学的一篇入门教程,清晰地从贝叶斯定理出发,阐明了最大似然估计、最大后验估计、贝叶斯估计三者之间的关系,值得仔细品读。
(2)关于似然函数
Reid 等 2010 年 《似然与基于似然的推断》 : 全面地对似然函数以及基于似然的推断方法进行了综述。由于似然函数时贝叶斯方法中的重要组成部分,因此掌握这方面的知识是必要的。文中提到了似然函数及其派生量、最大似然估计及其渐进性质、剖面最大似然估计、受限最大似然估计、贝叶斯估计等方法,并给出了偏似然、伪似然、组合似然、准似然、经验似然等似然函数的常用变体。 ...
🔥 主要的贝叶斯推断方法
【摘 要】 统计推断是贝叶斯概率框架中最为重要的部分,也是概率机器学习的核心部分。几乎所有的概率机器学习模型,都会涉及根据观测量来获取隐变量或模型参数相关知识的问题,这就是统计推断。与频率主义不同,贝叶斯推断方法并不给出隐变量的确切值,而是保留了模型的不确定性,给出隐变量的概率分布。由于输出的不再是点,而是一个分布,导致贝叶斯统计推断的难度大大增加了。尤其是在复杂模型和大数据集中,问题更明显。本文对贝叶斯统计推断技术进行了综述,以便快速对相关领域知识有一个理解。
【原 文】 参考 Blei 的讲座自行整理。
1 简介
贝叶斯推断是统计学中的一个基本问题,也是许多机器学习方法中遇到的问题。例如:用于分类的高斯混合模型、用于主题建模的潜狄利克雷分配模型等概率图模型,都在拟合数据时需要解决贝叶斯推断问题。
同时应注意到,根据模型设置(如:假设、维度等)不同,贝叶斯推断问题有时很难解决。尤其是遇到大型问题中,精确推断方法往往需要大量计算,且变得难以处理,实践中通常会使用一些近似技术来克服此问题,并建立快速和可扩展的系统。
本文简单介绍贝叶斯推断存在的现实性问题,并以主 ...
贝叶斯优化概述(节选)
1 概述
优化是一种与生俱来的人类行为。在个人层面上,我们努力改善自己和周围的环境。在集体层面上,社会努力分配有限资源以改善其成员福利,自从 12000 多年前通过育种驯化农作物以来,优化一直是社会进步的引擎,这一努力一直持续到今天。
鉴于其普遍性,优化也很难这件事情也许就不足为奇了。当我们在寻找最优设计时,必须花费资源(有时相当大)来评估次优的备选方案。这迫使我们寻求(在必要时)“能够精心分配资源以尽可能有效地确定最佳参数的” 优化方法。这正是数学优化的目标。
自 1960 年代以来,统计和机器学习社区已经逐步完善了在本书中开发和探索的贝叶斯优化方法。贝叶斯优化程序依赖于目标函数的统计模型,其给出的信念将指导算法做出最有成效的决策。这些统计模型可能非常复杂,并且在优化过程中维护它们可能会产生巨大成本。不过,这种努力的回报是样本效率。出于此原因,在存在如下目标优化问题时,贝叶斯优化具有显著的需要:
优化目标的计算代价较高,无法进行详尽评估
优化目标缺乏有用的表达,使其成为 “黑匣子” 式的函数
优化目标无法进行精确评估,只能通过一些间接或含噪声的机制
优化目标没有提供有效 ...
随机变量的变换
【摘 要】概率论的主要研究对象是随机变量及其分布,当随机变量经过某些变换或若干随机变量进行某种组合后,产生的新随机变量会具有什么性质是一个迷人的话题,本文介绍了变量变化法、累积分布函数法、矩生成函数法三种基础推导方法,其中变量变化法(也称变量变换法)是归一化流方法的支撑理论,累积分布函数法根据其名称显然只适用于连续型随机变量,矩生成法适用于多个独立随机变量的线性组合。
【原 文】https://bookdown.org/pkaldunn/DistTheory/Transformations.html
完成本模块后,您应该能够:
在给定原始变量分布的情况下,使用分布函数法、变量变换法和矩生成函数法推导目标变量的分布。
找到双变量情况下两个目标变量的联合分布。
1 引言
在本章中,我们考虑在给定一个分布已知的随机变量 XXX 和一个函数 u(⋅)u(\cdot)u(⋅) 的情况下,某个随机变量 Y=u(X)Y = u(X)Y=u(X) 的概率分布。在几种可用的技术中,重点考虑三种:
变量变化法
分布函数法(仅适用于连续型随机变量)
矩生成函数法
在这种情况下,一个重要的 ...
近似贝叶斯计算索引帖
注: 近似贝叶斯计算(Approximate Bayesian Comnpution, ABC)主要面向似然函数无法解析给出的场景,即似然函数是 intractable 的。在传统的空间信息技术领域中,不管是点参考数据还是面元数据,一般都会给出高斯、泊松等似然假设,因此目前的应用较少,此部分内容暂时作为了解范畴。
1 概论
《近似贝叶斯计算简明教程》:节选自 Martin《Python 中的贝叶斯建模和计算》一书的第八章。
2 序列数据
当面临序列问题时,会涉及传统有显式似然的 序贯蒙特卡洛方法(SMC) 向无显式似然的 序贯蒙特卡洛近似贝叶斯计算(SMC-ABC) 的转变。
3
#refplus, #refplus li{
padding:0;
margin:0;
list-style:none;
};
document.querySelectorAll(".refplus-num").forEach((ref) => {
...
近似贝叶斯计算简明教程(节选)
【摘 要】似然是贝叶斯统计推断的基本要素之一,传统方法会通过对似然的参数化建模,来得到其参数的后验分布并进而得到后验预测分布。但在很多时候,似然的建模并不那么明确,甚至无法被参数化建模,使得贝叶斯分析方法陷入困难。近似贝叶斯计算(Approximate Bayesian Computation, ABC)正是解决此问题的基本方法,在最近 20 年左右时间里得到了快速发展。本文解释了一些近似贝叶斯计算的基本概念、原理和示例,帮助初学者快速掌握该方法。 本书节选自 Martin 的 《Bayesian modeling and computation in python》 一书第八章。
【原 文】 Martin, O.A., Kumar, R. and Lao, J. (2021) Bayesian modeling and computation in python. Boca Raton. https://github.com/BayesianModelingandComputationInPython/BookCode_Edition1/
在本章中,我们讨论 近似贝叶斯计 ...