🔥 主要的贝叶斯推断方法
【摘 要】 统计推断是贝叶斯概率框架中最为重要的部分,也是概率机器学习的核心部分。几乎所有的概率机器学习模型,都会涉及根据观测量来获取隐变量或模型参数相关知识的问题,这就是统计推断。与频率主义不同,贝叶斯推断方法并不给出隐变量的确切值,而是保留了模型的不确定性,给出隐变量的概率分布。由于输出的不再是点,而是一个分布,导致贝叶斯统计推断的难度大大增加了。尤其是在复杂模型和大数据集中,问题更明显。本文对贝叶斯统计推断技术进行了综述,以便快速对相关领域知识有一个理解。
【原 文】 参考 Blei 的讲座自行整理。
1 简介
贝叶斯推断是统计学中的一个基本问题,也是许多机器学习方法中遇到的问题。例如:用于分类的高斯混合模型、用于主题建模的潜狄利克雷分配模型等概率图模型,都在拟合数据时需要解决贝叶斯推断问题。
同时应注意到,根据模型设置(如:假设、维度等)不同,贝叶斯推断问题有时很难解决。尤其是遇到大型问题中,精确推断方法往往需要大量计算,且变得难以处理,实践中通常会使用一些近似技术来克服此问题,并建立快速和可扩展的系统。
本文简单介绍贝叶斯推断存在的现实性问题,并以主 ...
随机变量的变换
【摘 要】概率论的主要研究对象是随机变量及其分布,当随机变量经过某些变换或若干随机变量进行某种组合后,产生的新随机变量会具有什么性质是一个迷人的话题,本文介绍了变量变化法、累积分布函数法、矩生成函数法三种基础推导方法,其中变量变化法(也称变量变换法)是归一化流方法的支撑理论,累积分布函数法根据其名称显然只适用于连续型随机变量,矩生成法适用于多个独立随机变量的线性组合。
【原 文】https://bookdown.org/pkaldunn/DistTheory/Transformations.html
完成本模块后,您应该能够:
在给定原始变量分布的情况下,使用分布函数法、变量变换法和矩生成函数法推导目标变量的分布。
找到双变量情况下两个目标变量的联合分布。
1 引言
在本章中,我们考虑在给定一个分布已知的随机变量 XXX 和一个函数 u(⋅)u(\cdot)u(⋅) 的情况下,某个随机变量 Y=u(X)Y = u(X)Y=u(X) 的概率分布。在几种可用的技术中,重点考虑三种:
变量变化法
分布函数法(仅适用于连续型随机变量)
矩生成函数法
在这种情况下,一个重要的 ...
最大似然、最大后验与贝叶斯推断
【摘 要】在机器学习和统计学习领域,最大似然、最大后验和贝叶斯推断是参数估计和预测最为常见的三种方法,堪称三座圣杯。本文从掌握证据(观测数据)出发,分别讨论了三种方法的原理、特点以及区别,而且内容极为简明易懂,是了解上述三个概念不可多得的好教材。该文是普渡大学机器人视觉实验室的自编教程,值得收藏。
【原 文】
(1)Kak, A. (2014) ‘ML, MAP, and Bayesian—the holy trinity of parameter estimation and data prediction’, An RVL Tutorial Presentation at Purdue University.
(2)Kak, A. (2014) ‘Monte Carlo integration in bayesian estimation’.
经验贝叶斯方法简介
1 概念理解
传统贝叶斯方法需要事先指定参数(或隐变量)的先验分布以及模型的似然,而后利用已知数据对先验进行更新,最终得到后验分布。当先验分布完全未知时,推断会受到一定的影响。如果在创建后验概率分布之前,先利用某些方法来估计先验概率分布的参数,将使推断得到优化,而这就是经验贝叶斯方法的主要思想。
经验贝叶斯方法是 “在构建后验概率分布之前,估计和更新先验概率分布参数(即超参数)的方法集合”。该技术仍然遵循贝叶斯统计模型,但增加了估计先验概率分布的过程。
经验贝叶斯方法是一种统计推断过程,该方法根据经验数据估计先验概率分布。 此方法与标准贝叶斯方法形成对比,标准贝叶斯方法在观察到任何数据之前,先验分布都是固定的。经验贝叶斯可被视为对分层模型(Hierarchical Model)的完全贝叶斯处理的一种近似,只是其中最高层次级别的参数被设置为其最可能的值,而不是像完全贝叶斯处理一样通过积分获得。
经验贝叶斯也称为 最大边缘似然法,到目前仍然是一种设置超参数的便捷方法,但自 2000 年代以来,随着性能良好的计算技术的可用性不断提高,它已逐步被完全贝叶斯分层分析方法所取代。
(1 ...