🔥 变分推断方法索引帖
【摘 要】 本文为变分推断方法的索引贴,按照变分推断方法发展的几个里程碑结点列出了相关经典文献。
1 综述类
Zhang 2018 年的 Advances in Variational Inference: 变分推断是概率模型中实现近似推断的主要方法之一,基于随机采样的 MCMC 方法在时间复杂度、空间复杂度和收敛可信度方面均不太适用于大型模型(如神经网络)和大规模数据集,而变分推断方法由于将 “估计分布的问题” 转换成了 “寻求具有最优参数的近似分布问题”,进而使推断速度得到了极大提升,而且能够和随机梯度等大样本量结合,是神经网络中寻求不确定性解常用的一种方法。本文介绍了变分推断的核心思想,并概述了迄今为止最主要的变分推断方法。
2 历久弥新的变分推断 – 平均场变分推断
平均场(MeanField )变分推断:可参考 Blei 2017 年的 《Variational Inference: A Review for Statisticians》一文,更深入的论文参考 Wainwright 2008 年的 《Graphical models, exponential f ...
👍 变分推断方法综述
【摘要】变分推断是概率模型中实现近似推断的主要方法之一,基于随机采样的 MCMC 方法在时间复杂度、空间复杂度和收敛可信度方面均不太适用于大型模型(如神经网络)和大规模数据集,而变分推断方法由于将 “估计分布的问题” 转换成了 “寻求具有最优参数的近似分布问题”,进而使推断速度得到了极大提升,而且能够和随机梯度等大样本量结合,是神经网络中寻求不确定性解常用的一种方法。本文介绍了变分推断的核心思想,并概述了迄今为止最主要的变分推断方法。
【原 文】 C. Zhang, J. Bütepage, H. Kjellström and S. Mandt, “Advances in Variational Inference,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 41, no. 8, pp. 2008-2026, 1 Aug. 2019, doi: 10.1109/TPAMI.2018.2889774.
🔔 对隐变量的概率分布进行推断,是概率生成模型(如变分自编码器、G ...
证据下界(ELBO)的概念解析
在变分贝叶斯方法中, 证据下界 (通常缩写为 ELBO ,有时也称为 变分下界 [1]或 负变分自由能 )是一个关于观测数据对数似然的常用下界。
1 术语和符号
设 XXX 和 ZZZ 为随机变量,其联合分布为 pθ(X,Z)p_\theta(X,Z)pθ(X,Z)(简写为 pθp_{\theta}pθ ),pθ(X)p_{\theta}(X)pθ(X) 是 XXX 的边缘分布,pθ(Z∣X)p_{\theta}(Z \mid X)pθ(Z∣X) 是给定 XXX 时 ZZZ 的条件分布。
对于 XXX 的任意样本实现 x∼pθx \sim p_{\theta}x∼pθ 和任何分布 qϕq_{\phi}qϕ ,有
lnpθ(x)≥Ez∼qϕ[lnpθ(x,z)qϕ(z)].\ln p_{\theta}(x) \geq \mathbb {E}_{z \sim q_{\phi }} \left[\ln{\frac{p_{\theta}(x,z)}{q_{\phi}(z)}}\right].
lnpθ(x)≥Ez∼qϕ[lnqϕ(z)pθ(x,z)].
...
近似贝叶斯计算索引帖
注: 近似贝叶斯计算(Approximate Bayesian Comnpution, ABC)主要面向似然函数无法解析给出的场景,即似然函数是 intractable 的。在传统的空间信息技术领域中,不管是点参考数据还是面元数据,一般都会给出高斯、泊松等似然假设,因此目前的应用较少,此部分内容暂时作为了解范畴。
1 概论
《近似贝叶斯计算简明教程》:节选自 Martin《Python 中的贝叶斯建模和计算》一书的第八章。
2 序列数据
当面临序列问题时,会涉及传统有显式似然的 序贯蒙特卡洛方法(SMC) 向无显式似然的 序贯蒙特卡洛近似贝叶斯计算(SMC-ABC) 的转变。
3
#refplus, #refplus li{
padding:0;
margin:0;
list-style:none;
};
document.querySelectorAll(".refplus-num").forEach((ref) => {
...
近似贝叶斯计算简明教程(节选)
【摘 要】似然是贝叶斯统计推断的基本要素之一,传统方法会通过对似然的参数化建模,来得到其参数的后验分布并进而得到后验预测分布。但在很多时候,似然的建模并不那么明确,甚至无法被参数化建模,使得贝叶斯分析方法陷入困难。近似贝叶斯计算(Approximate Bayesian Computation, ABC)正是解决此问题的基本方法,在最近 20 年左右时间里得到了快速发展。本文解释了一些近似贝叶斯计算的基本概念、原理和示例,帮助初学者快速掌握该方法。 本书节选自 Martin 的 《Bayesian modeling and computation in python》 一书第八章。
【原 文】 Martin, O.A., Kumar, R. and Lao, J. (2021) Bayesian modeling and computation in python. Boca Raton. https://github.com/BayesianModelingandComputationInPython/BookCode_Edition1/
在本章中,我们讨论 近似贝叶斯计 ...
最大似然法与受限最大似然法的比较
【摘 要】 当混合效应模型中既包含固定效应又包含随机效应时,参数估计是否应该采用最大似然法呢? 如果不使用最大似然法,那应当使用什么方法呢?本文介绍了在此应用场景中最大似然法存在的问题,即低估随机效应(方差)分量并导致固定效应的一类错误膨胀,并简单介绍了响应的处置方法:受限最大似然法和 KR 校正法。作者参考了 McNeish Daniel 的一篇文章,用人类能看懂的非数学语言介绍了 MLE、REML、KR 三者的核心以及背后的统计思想。
【原 文】 Carnap, 最大似然估计和限制性极大似然估计
【参 考】Daniel McNeish (2017): Small Sample Methods for Multilevel Modeling: A Colloquial Elucidation of REML and the Kenward-Roger Correction, Multivariate Behavioral Research, DOI: 10.1080/00273171.2017.1344538
1 最大似然估计
当混合效应模型中同时包含固定效应和随机效应( ...
最大似然法与 EM 及变分推断的关系
【摘 要】 最大似然方法、期望最大化、变分推断三种方法,都可以用于对模型参数进行推断,但三者之间在应用场景上存在着显著区别,但也存在一定的关系。在知乎上看到一篇博文,内容貌似合理,但有更多概念是错误的,感觉有必要系统地梳理一下。
【参 考】 Reid, N. (2010) ‘Likelihood inference: Likelihood inference’, Wiley Interdisciplinary Reviews: Computational Statistics, 2(5), pp. 517–525. Available at: https://doi.org/10.1002/wics.110.
【原 文】 https://zhuanlan.zhihu.com/p/378988804
1 建模场景设置
当建模的场景中存在混合效应时,通常会分别对 固定效应 和 随机效应 进行建模。例如,在空间统计场景中,通常将观测建模为如下形式:
Y(s)=X(s)β+ηϕ(s)+ϵ(s)\mathbf{Y}(\mathbf{s}) = \mathbf{X}(\mathbf{s ...
🔥 蒙特卡洛推断方法索引帖
1. 蒙特卡洛原理
《蒙特卡洛方法原理》
2. 基础的随机采样方法
《直接采样、拒绝采样与重要性采样》
3. 马尔可夫链门特卡罗(MCMC)方法
《一篇文章读懂蒙特卡罗采样》
MCMC 采样方法编程实战
4. MCMC 的加速采样
《主要的 MCMC 加速方法》
专题:
《哈密顿蒙特卡洛(HMC)方法》
《不调头采样(NUTS)方法》
《模拟退火》
5. 序贯蒙特卡洛(SMC)方法
《卡尔曼滤波》: 基于高斯似然假设和线性系统假设,后验概率分布具有封闭形式,本身不需要蒙特卡洛方法。在此主要用于和粒子滤波进行比较。
《序贯蒙特卡洛与粒子滤波》:非高斯似然、非线性等更为复杂的系统,后验概率分布没有封闭形式解,因此只能通过蒙特卡洛模拟的方式近似后验概率分布。序贯蒙特卡罗方法为复杂动态系统的粒子滤波奠定了基础。
6. 可扩展的蒙特卡洛方法
随机梯度 MCMC 推断( SGMCMC ): 当数据规模较大时,蒙特卡洛方法能否适用?在大数据分析场景中,这个问题困扰了很多人。
#refplus, #refplus li{
padding:0;
...
似然函数与基于似然的推断
【摘 要】 描述了似然函数在贝叶斯和非贝叶斯推断中的重要作用。回顾了将基于似然的方法扩展到更复杂问题设置时相关的几个主题,包括几类比较著名的似然扩展:剖面似然、组合似然(伪似然)、准似然、半参数和非参数似然、经验似然等。
【原 文】 Reid, N. (2010) ‘Likelihood inference: Likelihood inference’, Wiley Interdisciplinary Reviews: Computational Statistics, 2(5), pp. 517–525. Available at: https://doi.org/10.1002/wics.110.
1 介绍
参数模型的似然(也称似然函数) L(θ;y)\mathcal{L}(\theta;y)L(θ;y) 正比于模型的概率密度函数 f(y;θ)f(y;\theta)f(y;θ)。在观测数据 yyy 不变的情况下,似然被视为模型参数的函数。在机器学习应用中(此类应用中,对新实例的预测通常比对模型参数推断更重要),似然的对数负值(即对数似然,log likelihood)常 ...
似然概念的扫盲帖
【摘 要】 参数估计和模型拟合是许多统计程序的基础。无论目标是检查数据集中的趋势还是回归线的斜率,都必须使用估计方法。似然是参数估计、确定多模型最佳拟合、显著性检验等的基础。在这篇综述中,解释了似然的概念并给出了应用计算示例。所提供的示例用于说明似然如何与最常用的检验统计(如:学生 t 检验,ANOVA 方差分析 )关联。其他示例说明了使用常见总体模型假设(例如,正态性)和数据非正则情况下的替代假设来计算似然。为了进一步描述似然和似然比与现代检验统计的相互联系,讨论了似然、最小二乘和贝叶斯推断之间的关系。最后,列出了似然法的优点和局限性,简要回顾了似然法的替代方法,并提供了用于计算文中每个示例的 R 代码
【原 文】 Cousineau, D. and Allan, T.A. (2016) ‘Likelihood and its use in Parameter Estimation and Model Comparison’, Mesure et évaluation en éducation, 37(3), pp. 63–98. Available at: https: ...