西山晴雪的知识笔记

发表于2023-01-02|贝叶斯统计统计推断MCMC

1. 蒙特卡洛原理《蒙特卡洛方法原理》 2. 基础的随机采样方法《直接采样、拒绝采样与重要性采样》 3. 马尔可夫链门特卡罗（MCMC）方法《一篇文章读懂蒙特卡罗采样》 MCMC 采样方法编程实战 4. MCMC 的加速采样《主要的 MCMC 加速方法》专题：《哈密顿蒙特卡洛(HMC)方法》《不调头采样（NUTS）方法》《模拟退火》 5. 序贯蒙特卡洛（SMC）方法《卡尔曼滤波》：基于高斯似然假设和线性系统假设，后验概率分布具有封闭形式，本身不需要蒙特卡洛方法。在此主要用于和粒子滤波进行比较。《序贯蒙特卡洛与粒子滤波》：非高斯似然、非线性等更为复杂的系统，后验概率分布没有封闭形式解，因此只能通过蒙特卡洛模拟的方式近似后验概率分布。序贯蒙特卡罗方法为复杂动态系统的粒子滤波奠定了基础。 6. 可扩展的蒙特卡洛方法随机梯度 MCMC 推断（ SGMCMC ）: 当数据规模较大时，蒙特卡洛方法能否适用？在大数据分析场景中，这个问题困扰了很多人。 #refplus, #refplus li{ padding:0; ...

随机梯度 MCMC 推断

发表于2022-09-16|贝叶斯统计统计推断MCMC

〖摘要〗本文提出了一个采用蒙特卡洛方法的新框架，用于从小批量迭代学习的大规模数据集学习。当我们对步长进行退火时，将适量噪声添加到标准随机梯度优化算法中，其结果表明迭代将收敛到来自真实后验分布的样本。优化和贝叶斯后验采样之间的这种无缝过渡提供了针对过拟合的内在保护。我们还提出了一种后验统计量的实用蒙特卡洛估计方法，该方法监视 “采样阈值” 并在超过阈值后收集样本。我们基于自然梯度将该方法应用于高斯、逻辑斯谛回归和独立组份分析的混合模型。〖原文〗 Welling, M. and Teh, Y.W. (2011) ‘Bayesian learning via stochastic gradient Langevin dynamics’, in Proceedings of the 28th international conference on machine learning (ICML-11), pp. 681–688. 1 引言近年来，越来越多的超大规模机器学习数据集，范围从互联网流量和网络数据、计算机视觉、自然语言处理到生物信息学。现在，这些大规模数据推动了机器学习的 ...

蒙特卡洛采样的加速方法

发表于2021-09-14|贝叶斯统计统计推断MCMC

〖摘要〗马尔可夫链蒙特卡罗算法通过对分布的局部性探索来模拟复杂的统计分布。这种局部特征虽然不要求使用者了解目标分布性质，但也同时会导致对目标分布更长时间的探索，并且随着问题维度和数据复杂性的增加，对模拟样本数量的要求会也会增加。有几种技术可用于加速蒙特卡罗算法的收敛，无论是在探索层面（如回火、哈密顿蒙特卡罗和部分确定性方法）还是在开发层面（使用 Rao-Blackwellisation 和可扩展方法）。本文是对这些方法进行的一个综述。〖原文〗 Robert, C.P. et al. (2018) ‘Accelerating MCMC algorithms’, Wiley Interdisciplinary Reviews: Computational Statistics, 10(5), p. e1435. Available at: https://doi.org/10.1002/wics.1435. 1 概述马尔可夫链蒙特卡罗（MCMC）算法已经使用了近 60 年，在 1990 年代初成为分析贝叶斯复杂模型的参考方法（Gelfand 和 Smith，1990 [41 ...

序贯蒙特卡洛与粒子滤波

发表于2021-09-13|贝叶斯统计统计推断MCMC

〖摘要〗设计一个高效的迭代式模拟采样算法可能很困难，但对其进行推断并且监控其收敛性相对容易。本文首先给出了我们推荐的推断策略（遵循 Gelman et al., 2003 的第 11.10 节），并解释了推荐原因；然后用我们最近研究的一个关于 “民意调查数据分层模型拟合” 的案例进行说明。〖原文〗 Inference from Simulations and Monitoring Convergence, Handbook of Markov Chain Monte Carlo， 2011 1 背景现实世界的数据分析通常需要在仅给出对某些相关可观测量的序列观测的情况下估计未知量。在贝叶斯框架中，人们通常掌握模型的一些先验知识：不可观测兴趣量的先验分布和似然函数（将可观测量与不可观测量关联）。不可观测值的后验分布可以使用贝叶斯定理计算，这允许人们对未观测到的量进行推断。在某些情况下，按顺序处理观测结果是很自然的。这些案例是本文重点，例如，不断有新数据实时输入的雷达跟踪或金融估算工具等在线应用，尝试更新之前形成的后验分布，肯定比从头开始重新计算更容易。如果上述观测数据可 ...

哈密顿蒙特卡洛(HMC)方法

发表于2021-09-08|贝叶斯统计统计推断MCMC

哈密顿蒙特卡洛（ HMC ）采样方法〖摘要〗快速给出下一个状态的提议值是 MCMC 方法的关键环节。对于状态有限的离散概率质量函数而言，可以采用随机游走的方式选择下一个状态的提议值，然后使用 Metropolis 更新步骤；但对于连续的概率密度函数而言，随机游走方式显然不利于快速遍历状态空间。哈密顿蒙特卡洛方法利用 Hamilton 动力学的可逆性、能量守恒、体积保持等特性，为构造马氏链提供了一种快速生成提议状态的方法，该方法与 MCMC 中的 Metropolis 更新（或其他更新方法）步骤结合，可以快速生成给定概率分布的样本。〖原文〗 Radford M. Neal (2011), MCMC Using Hamiltonian Dynamics, Handbook of Markov Chain Monte Carlo. 1 概述马尔可夫链蒙特卡罗 (MCMC) 起源于 Metropolis 等人的经典论文 (1953)。它被用于模拟理想化状态下分子系统的状态分布。不久之后，引入了另一种分子模拟方法( Alder 和 Wainwright，1959 年)，其 ...

MCMC 采样编程实战

发表于2021-03-07|贝叶斯统计统计推断MCMC

MCMC 采样方法编程应用实战【摘要】贝叶斯统计需要在贝叶斯定理基础上，通过参数先验和数据似然对参数的后验概率分布作出推断。从推断精度上区分，贝叶斯推断方法大致包含精确推断和近似推断两大类，其中精确推断常见有变量消除法（Variable Elimination， VE）和信念传播法（Belief Propagation, BP）；而近似推断方法主要是马尔科夫链蒙特卡洛法（Mente Carlo, MCMC）和变分近似推断法（Variational Inference,VI），从原理上来说，前者属于随机性近似推断，而后者属于确定性近似推断。本文从概率编程角度，引导读者了解 MCMC 方法的使用过程，以便形成整体印象。【原文】 MCMC sampling for dummies — While My MCMC Gently Samples (twiecki.io) p{text-indent:2em;2} 引子当谈论贝叶斯统计和概率编程时，通常会掩藏统计推断实际执行的细节，将其视为黑匣子。概率编程好处在于 “不必为构建模型而理解推断的工作原理”，但让使用者理解其原理肯定会 ...

一篇文章读懂 MCMC 方法

发表于2021-03-05|贝叶斯统计统计推断MCMC

马尔可夫链蒙特卡洛（ MCMC ）采样【摘要】传统的蒙特卡洛方法采用随机抽样的方式获得样本，其中大量随机抽取的样本要么被拒绝（拒绝采样）、要么被加权（重要性采样），样本效率不高。因此科学家在思考是否存在一种接受率为 100%100\%100% 的采样方法。马尔可夫链蒙特卡洛方法真是满足此要求的一种高效采样方法，它充分利用马尔可夫链的可逆性和平稳分布收敛特性，通过一段时间的老化后，所得到的样本能够实现 100%100\%100% 的接受率。【原文】 MCMC and Gibbs Sampling 1 问题的提出随机模拟(或者统计模拟)方法有一个很酷的别名是蒙特卡罗模拟(Monte Carlo Simulation)。这个方法始于20世纪40年代，和原子弹制造的曼哈顿计划密切相关，当时乌拉姆、冯.诺依曼、费米、费曼、Nicholas Metropolis 等，在美国洛斯阿拉莫斯国家实验室研究裂变物质的中子连锁反应的时候，开始使用统计模拟的方法，并在最早的计算机上进行编程实现。图 1: 随机模拟与计算机现代的统计模拟方法最早由数学家乌拉姆提出，被 M ...

直接采样、拒绝采样与重要性采样

发表于2021-03-03|贝叶斯统计统计推断MCMC

直接采样、拒绝采样与重要性采样【摘要】蒙特卡洛（Monte Carlo method）是一种以概率统计理论为指导的重要数值计算方法。它使用随机数来解决随机变量（或随机函数）的期望值积分求解、仿真模拟等非常棘手的计算问题，特别适用于无解析形式的复杂概率分布。根据对蒙特卡洛方法的理解，会发现其中最为核心的部分是如何在给定一个复杂分布时，按照概率随机、高效地获得样本，即采样方法问题。本文将介绍其中最为基础和直觉的几种早期方法，分别是基于 CDF 的直接采样、拒绝采样和重要性采样。 1 直接采样直接采样的思想是：计算机适合于随机的均匀采样，如果能够把任意概率分布的采样转化成对均匀分布的采样，就可以解决采样问题。假设 yyy 服从某项分布 p(y)p(y)p(y)，其累积分布函数（ CDF ）为 h(y)h(y)h(y)，现有均匀分布的样本 z∼Uniform⁡(0,1)z \sim \operatorname{Uniform}(0,1)z∼Uniform(0,1)，令 z=h(y)z = h(y)z=h(y)，即 y=h−1(z)y = h^{-1}(z)y=h−1(z)，结 ...

蒙特卡洛方法原理

发表于2021-03-02|贝叶斯统计统计推断MCMC

〖摘要〗贝叶斯统计需要在贝叶斯定理基础上，通过参数先验和数据似然对参数的后验概率分布作出推断。从推断精度上区分，贝叶斯推断方法大致包含精确推断和近似推断两大类，其中精确推断常见有变量消除法（Variable Elimination， VE）和信念传播法（Belief Propagation, BP）；而近似推断方法主要是蒙特卡洛法（Mente Carlo, MC）和变分近似推断法（Variational Inference,VI）。蒙特卡洛方法是一种以概率统计理论为指导的重要数值计算方法。它使用随机数来解决随机变量（或随机函数）期望值积分求解、仿真模拟等非常棘手的计算问题，特别适用于没有明确解析形式的复杂概率分布。蒙特卡洛方法中最为核心的部分是如何在给定一个复杂分布时，按照概率随机地、高效地获得样本，即采样方法问题。〖原文〗蒙特卡洛方法数学基础、蒙特卡洛方法实践 1 引子蒙特卡洛方法是一类通过随机采样来求解问题的算法的统称，通常要求解的问题是某随机事件的概率或某随机变量的期望。通过随机采样方法，以随机事件出现的频率估计其概率，并将其作为问题的解。蒙特卡洛的基本做法：做 ...