🔥 贝叶斯方法索引帖
一、知识要点
1.1 贝叶斯思维与工作流
推荐的几本基础入门书籍:
Martin 2015 年的 《Bayesian Analysis with Python》
Martin 2022 年的 《Bayesian Modeling and Computation in Python》
Kruschke 2015 年的 《Doing Bayesian Data Analysis》
1.2 主要的贝叶斯推断方法
(1) 关于基础的推断方法
普渡大学机器人视觉实验室的自编教程: 普渡大学的一篇入门教程,清晰地从贝叶斯定理出发,阐明了最大似然估计、最大后验估计、贝叶斯估计三者之间的关系,值得仔细品读。
(2)关于似然函数
Reid 等 2010 年 《似然与基于似然的推断》 : 全面地对似然函数以及基于似然的推断方法进行了综述。由于似然函数时贝叶斯方法中的重要组成部分,因此掌握这方面的知识是必要的。文中提到了似然函数及其派生量、最大似然估计及其渐进性质、剖面最大似然估计、受限最大似然估计、贝叶斯估计等方法,并给出了偏似然、伪似然、组合似然、准似然、经验似然等似然函数的常用变体。 ...
🔥 主要的贝叶斯推断方法
【摘 要】 统计推断是贝叶斯概率框架中最为重要的部分,也是概率机器学习的核心部分。几乎所有的概率机器学习模型,都会涉及根据观测量来获取隐变量或模型参数相关知识的问题,这就是统计推断。与频率主义不同,贝叶斯推断方法并不给出隐变量的确切值,而是保留了模型的不确定性,给出隐变量的概率分布。由于输出的不再是点,而是一个分布,导致贝叶斯统计推断的难度大大增加了。尤其是在复杂模型和大数据集中,问题更明显。本文对贝叶斯统计推断技术进行了综述,以便快速对相关领域知识有一个理解。
【原 文】 参考 Blei 的讲座自行整理。
1 简介
贝叶斯推断是统计学中的一个基本问题,也是许多机器学习方法中遇到的问题。例如:用于分类的高斯混合模型、用于主题建模的潜狄利克雷分配模型等概率图模型,都在拟合数据时需要解决贝叶斯推断问题。
同时应注意到,根据模型设置(如:假设、维度等)不同,贝叶斯推断问题有时很难解决。尤其是遇到大型问题中,精确推断方法往往需要大量计算,且变得难以处理,实践中通常会使用一些近似技术来克服此问题,并建立快速和可扩展的系统。
本文简单介绍贝叶斯推断存在的现实性问题,并以主 ...
贝叶斯神经网络技术浅析
〖摘 要〗神经网络已经为许多机器学习任务提供了最先进的结果,例如计算机视觉、语音识别和自然语言处理领域的检测、回归和分类任务等。尽管取得了成功,但它们通常是在频率学派框架内实施的,这意味着其无法对预测中的不确定性进行推断。本文介绍了贝叶斯神经网络及一些开创性研究,对不同近似推断方法进行了比较,并提出未来改进的一些方向。
〖原 文〗Goan, E., & Fookes, C. (2020). Bayesian Neural Networks: An Introduction and Survey. https://arxiv.org/abs/2006.12024
〖阅后感〗获得神经网络预测不确定性的方法有很多种(参见《深度神经网络中的不确定性调研报告》),而本文主要介绍其中的贝叶斯神经网络方法。内容涉及浅层神经网络中的贝叶斯方法尝试、深层神经网络中面临的问题即推断方法等。
1 引言
长期以来,仿生学一直是技术发展的基础。科学家和工程师反复使用物理世界的知识来模仿自然界对经过数十亿年演变而来的复杂问题的优雅解决方案。生物仿生学在统计学和机器学习中的重要应用是发展了感知机 ...
贝叶斯神经网络快速上手教程
【摘 要】 现代深度学习方法已经成为研究人员和工程师常用的强大工具,可以解决以前似乎不可能解决的问题。然而,深度学习是一种黑箱方法,与其预测相关的不确定性很难量化。而贝叶斯统计学提供了一种形式化方法来理解和量化与深度神经网络预测相关的不确定性。本文为正在使用机器学习(特别是深度学习)的研究人员和科学家,提供了一个相关文献和工具集的概述,以帮助大家设计、实现、训练、使用和评估贝叶斯神经网络。
【原 文】 Laurent Valentin Jospin, Wray Buntine, Farid Boussaid, Hamid Laga, and Mohammed Bennamoun. 2020.Hands-on Bayesian Neural Networks - a Tutorial for Deep Learning Users.ACM Comput. Surv.1, 1 ( July 2020),35 pages. arxiv.org/abs/2007.06823
【阅后感】 本文主要介绍其中贝叶斯神经网络方法,特别是其中深度贝叶斯神经网络方法。内容主要包括:传统贝叶斯神 ...
🔥 神经网络泛化的贝叶斯概率视角
【摘 要】在现代深度学习中,估计贝叶斯模型平均值的积分有很多挑战,包括高维的参数空间和复杂的后验形态。但是,将这一挑战切实地视为一个积分问题,而非试图为蒙特卡洛近似获得后验样本,会为未来的进展提供机会。贝叶斯深度学习已经取得了快速的实际进展,现在的方法能够比标准训练有更好的准确性和校准,而且开销最小。
【原 文】Wilson, A.G. and Izmailov, P. (2020) ‘Bayesian Deep Learning and a Probabilistic Perspective of Generalization’, in Advances in Neural Information Processing Systems. Curran Associates, Inc., pp. 4697–4708. Available at: https://proceedings.neurips.cc/paper/2020/hash/322f62469c5e3c7dc3e58f5a4d1ea399-Abstract.html.
〖论文贡献〗
论文表明: 深度集成为近似 ...
随机变量的变换
【摘 要】概率论的主要研究对象是随机变量及其分布,当随机变量经过某些变换或若干随机变量进行某种组合后,产生的新随机变量会具有什么性质是一个迷人的话题,本文介绍了变量变化法、累积分布函数法、矩生成函数法三种基础推导方法,其中变量变化法(也称变量变换法)是归一化流方法的支撑理论,累积分布函数法根据其名称显然只适用于连续型随机变量,矩生成法适用于多个独立随机变量的线性组合。
【原 文】https://bookdown.org/pkaldunn/DistTheory/Transformations.html
完成本模块后,您应该能够:
在给定原始变量分布的情况下,使用分布函数法、变量变换法和矩生成函数法推导目标变量的分布。
找到双变量情况下两个目标变量的联合分布。
1 引言
在本章中,我们考虑在给定一个分布已知的随机变量 XXX 和一个函数 u(⋅)u(\cdot)u(⋅) 的情况下,某个随机变量 Y=u(X)Y = u(X)Y=u(X) 的概率分布。在几种可用的技术中,重点考虑三种:
变量变化法
分布函数法(仅适用于连续型随机变量)
矩生成函数法
在这种情况下,一个重要的 ...
最大似然、最大后验与贝叶斯推断
【摘 要】在机器学习和统计学习领域,最大似然、最大后验和贝叶斯推断是参数估计和预测最为常见的三种方法,堪称三座圣杯。本文从掌握证据(观测数据)出发,分别讨论了三种方法的原理、特点以及区别,而且内容极为简明易懂,是了解上述三个概念不可多得的好教材。该文是普渡大学机器人视觉实验室的自编教程,值得收藏。
【原 文】
(1)Kak, A. (2014) ‘ML, MAP, and Bayesian—the holy trinity of parameter estimation and data prediction’, An RVL Tutorial Presentation at Purdue University.
(2)Kak, A. (2014) ‘Monte Carlo integration in bayesian estimation’.
最大似然法与受限最大似然法的比较
【摘 要】 当混合效应模型中既包含固定效应又包含随机效应时,参数估计是否应该采用最大似然法呢? 如果不使用最大似然法,那应当使用什么方法呢?本文介绍了在此应用场景中最大似然法存在的问题,即低估随机效应(方差)分量并导致固定效应的一类错误膨胀,并简单介绍了响应的处置方法:受限最大似然法和 KR 校正法。作者参考了 McNeish Daniel 的一篇文章,用人类能看懂的非数学语言介绍了 MLE、REML、KR 三者的核心以及背后的统计思想。
【原 文】 Carnap, 最大似然估计和限制性极大似然估计
【参 考】Daniel McNeish (2017): Small Sample Methods for Multilevel Modeling: A Colloquial Elucidation of REML and the Kenward-Roger Correction, Multivariate Behavioral Research, DOI: 10.1080/00273171.2017.1344538
1 最大似然估计
当混合效应模型中同时包含固定效应和随机效应( ...
最大似然法与 EM 及变分推断的关系
【摘 要】 最大似然方法、期望最大化、变分推断三种方法,都可以用于对模型参数进行推断,但三者之间在应用场景上存在着显著区别,但也存在一定的关系。在知乎上看到一篇博文,内容貌似合理,但有更多概念是错误的,感觉有必要系统地梳理一下。
【参 考】 Reid, N. (2010) ‘Likelihood inference: Likelihood inference’, Wiley Interdisciplinary Reviews: Computational Statistics, 2(5), pp. 517–525. Available at: https://doi.org/10.1002/wics.110.
【原 文】 https://zhuanlan.zhihu.com/p/378988804
1 建模场景设置
当建模的场景中存在混合效应时,通常会分别对 固定效应 和 随机效应 进行建模。例如,在空间统计场景中,通常将观测建模为如下形式:
Y(s)=X(s)β+ηϕ(s)+ϵ(s)\mathbf{Y}(\mathbf{s}) = \mathbf{X}(\mathbf{s ...
经验贝叶斯方法简介
1 概念理解
传统贝叶斯方法需要事先指定参数(或隐变量)的先验分布以及模型的似然,而后利用已知数据对先验进行更新,最终得到后验分布。当先验分布完全未知时,推断会受到一定的影响。如果在创建后验概率分布之前,先利用某些方法来估计先验概率分布的参数,将使推断得到优化,而这就是经验贝叶斯方法的主要思想。
经验贝叶斯方法是 “在构建后验概率分布之前,估计和更新先验概率分布参数(即超参数)的方法集合”。该技术仍然遵循贝叶斯统计模型,但增加了估计先验概率分布的过程。
经验贝叶斯方法是一种统计推断过程,该方法根据经验数据估计先验概率分布。 此方法与标准贝叶斯方法形成对比,标准贝叶斯方法在观察到任何数据之前,先验分布都是固定的。经验贝叶斯可被视为对分层模型(Hierarchical Model)的完全贝叶斯处理的一种近似,只是其中最高层次级别的参数被设置为其最可能的值,而不是像完全贝叶斯处理一样通过积分获得。
经验贝叶斯也称为 最大边缘似然法,到目前仍然是一种设置超参数的便捷方法,但自 2000 年代以来,随着性能良好的计算技术的可用性不断提高,它已逐步被完全贝叶斯分层分析方法所取代。
(1 ...