🔥 主要的贝叶斯推断方法
【摘 要】 统计推断是贝叶斯概率框架中最为重要的部分,也是概率机器学习的核心部分。几乎所有的概率机器学习模型,都会涉及根据观测量来获取隐变量或模型参数相关知识的问题,这就是统计推断。与频率主义不同,贝叶斯推断方法并不给出隐变量的确切值,而是保留了模型的不确定性,给出隐变量的概率分布。由于输出的不再是点,而是一个分布,导致贝叶斯统计推断的难度大大增加了。尤其是在复杂模型和大数据集中,问题更明显。本文对贝叶斯统计推断技术进行了综述,以便快速对相关领域知识有一个理解。 【原 文】 参考 Blei 的讲座自行整理。 1...
贝叶斯神经网络技术浅析
〖摘 要〗神经网络已经为许多机器学习任务提供了最先进的结果,例如计算机视觉、语音识别和自然语言处理领域的检测、回归和分类任务等。尽管取得了成功,但它们通常是在频率学派框架内实施的,这意味着其无法对预测中的不确定性进行推断。本文介绍了贝叶斯神经网络及一些开创性研究,对不同近似推断方法进行了比较,并提出未来改进的一些方向。 〖原 文〗Goan, E., & Fookes, C. (2020). Bayesian Neural Networks: An Introduction and Survey. https://arxiv.org/abs/2006.12024 〖阅后感〗获得神经网络预测不确定性的方法有很多种(参见《深度神经网络中的不确定性调研报告》),而本文主要介绍其中的贝叶斯神经网络方法。内容涉及浅层神经网络中的贝叶斯方法尝试、深层神经网络中面临的问题即推断方法等。 1 引言长期以来,仿生学一直是技术发展的基础。科学家和工程师反复使用物理世界的知识来模仿自然界对经过数十亿年演变而来的复杂问题的优雅解决方案。生物仿生学在统计学和机器学习中的重要应用是发展了感知机...
贝叶斯神经网络快速上手教程
【摘 要】 现代深度学习方法已经成为研究人员和工程师常用的强大工具,可以解决以前似乎不可能解决的问题。然而,深度学习是一种黑箱方法,与其预测相关的不确定性很难量化。而贝叶斯统计学提供了一种形式化方法来理解和量化与深度神经网络预测相关的不确定性。本文为正在使用机器学习(特别是深度学习)的研究人员和科学家,提供了一个相关文献和工具集的概述,以帮助大家设计、实现、训练、使用和评估贝叶斯神经网络。 【原 文】 Laurent Valentin Jospin, Wray Buntine, Farid Boussaid, Hamid Laga, and Mohammed Bennamoun. 2020.Hands-on Bayesian Neural Networks - a Tutorial for Deep Learning Users.ACM Comput. Surv.1, 1 ( July 2020),35 pages. arxiv.org/abs/2007.06823 【阅后感】...
🔥 神经网络泛化的贝叶斯概率视角
【摘 要】在现代深度学习中,估计贝叶斯模型平均值的积分有很多挑战,包括高维的参数空间和复杂的后验形态。但是,将这一挑战切实地视为一个积分问题,而非试图为蒙特卡洛近似获得后验样本,会为未来的进展提供机会。贝叶斯深度学习已经取得了快速的实际进展,现在的方法能够比标准训练有更好的准确性和校准,而且开销最小。 【原 文】Wilson, A.G. and Izmailov, P. (2020) ‘Bayesian Deep Learning and a Probabilistic Perspective of Generalization’, in Advances in Neural Information Processing Systems. Curran Associates, Inc., pp. 4697–4708. Available at: https://proceedings.neurips.cc/paper/2020/hash/322f62469c5e3c7dc3e58f5a4d1ea399-Abstract.html. 〖论文贡献〗 论文表明:...
随机变量的变换
【摘 要】概率论的主要研究对象是随机变量及其分布,当随机变量经过某些变换或若干随机变量进行某种组合后,产生的新随机变量会具有什么性质是一个迷人的话题,本文介绍了变量变化法、累积分布函数法、矩生成函数法三种基础推导方法,其中变量变化法(也称变量变换法)是归一化流方法的支撑理论,累积分布函数法根据其名称显然只适用于连续型随机变量,矩生成法适用于多个独立随机变量的线性组合。 【原 文】https://bookdown.org/pkaldunn/DistTheory/Transformations.html 完成本模块后,您应该能够: 在给定原始变量分布的情况下,使用分布函数法、变量变换法和矩生成函数法推导目标变量的分布。 找到双变量情况下两个目标变量的联合分布。 1 引言在本章中,我们考虑在给定一个分布已知的随机变量 $X$ 和一个函数 $u(\cdot)$ 的情况下,某个随机变量 $Y = u(X)$...
最大似然、最大后验与贝叶斯推断
【摘 要】在机器学习和统计学习领域,最大似然、最大后验和贝叶斯推断是参数估计和预测最为常见的三种方法,堪称三座圣杯。本文从掌握证据(观测数据)出发,分别讨论了三种方法的原理、特点以及区别,而且内容极为简明易懂,是了解上述三个概念不可多得的好教材。该文是普渡大学机器人视觉实验室的自编教程,值得收藏。 【原 文】 (1)Kak, A. (2014) ‘ML, MAP, and Bayesian—the holy trinity of parameter estimation and data prediction’, An RVL Tutorial Presentation at Purdue University. (2)Kak, A. (2014) ‘Monte Carlo integration in bayesian estimation’.
最大似然法与受限最大似然法的比较
【摘 要】 当混合效应模型中既包含固定效应又包含随机效应时,参数估计是否应该采用最大似然法呢? 如果不使用最大似然法,那应当使用什么方法呢?本文介绍了在此应用场景中最大似然法存在的问题,即低估随机效应(方差)分量并导致固定效应的一类错误膨胀,并简单介绍了响应的处置方法:受限最大似然法和 KR 校正法。作者参考了 McNeish Daniel 的一篇文章,用人类能看懂的非数学语言介绍了 MLE、REML、KR 三者的核心以及背后的统计思想。 【原 文】 Carnap, 最大似然估计和限制性极大似然估计 【参 考】Daniel McNeish (2017): Small Sample Methods for Multilevel Modeling: A Colloquial Elucidation of REML and the Kenward-Roger Correction, Multivariate Behavioral Research, DOI: 10.1080/00273171.2017.1344538 1...
最大似然法与 EM 及变分推断的关系
【摘 要】 最大似然方法、期望最大化、变分推断三种方法,都可以用于对模型参数进行推断,但三者之间在应用场景上存在着显著区别,但也存在一定的关系。在知乎上看到一篇博文,内容貌似合理,但有更多概念是错误的,感觉有必要系统地梳理一下。 【参 考】 Reid, N. (2010) ‘Likelihood inference: Likelihood inference’, Wiley Interdisciplinary Reviews: Computational Statistics, 2(5), pp. 517–525. Available at: https://doi.org/10.1002/wics.110. 【原 文】 https://zhuanlan.zhihu.com/p/378988804 1 建模场景设置当建模的场景中存在混合效应时,通常会分别对 固定效应 和 随机效应 进行建模。例如,在空间统计场景中,通常将观测建模为如下形式: $$\mathbf{Y}(\mathbf{s}) = \mathbf{X}(\mathbf{s})...
似然函数与基于似然的推断
【摘 要】 描述了似然函数在贝叶斯和非贝叶斯推断中的重要作用。回顾了将基于似然的方法扩展到更复杂问题设置时相关的几个主题,包括几类比较著名的似然扩展:剖面似然、组合似然(伪似然)、准似然、半参数和非参数似然、经验似然等。 【原 文】 Reid, N. (2010) ‘Likelihood inference: Likelihood inference’, Wiley Interdisciplinary Reviews: Computational Statistics, 2(5), pp. 517–525. Available at: https://doi.org/10.1002/wics.110. 1 介绍参数模型的似然(也称似然函数) $\mathcal{L}(\theta;y)$ 正比于模型的概率密度函数 $f(y;\theta)$。在观测数据 $y$ 不变的情况下,似然被视为模型参数的函数。在机器学习应用中(此类应用中,对新实例的预测通常比对模型参数推断更重要),似然的对数负值(即对数似然,log...
似然概念的扫盲帖
【摘 要】 参数估计和模型拟合是许多统计程序的基础。无论目标是检查数据集中的趋势还是回归线的斜率,都必须使用估计方法。似然是参数估计、确定多模型最佳拟合、显著性检验等的基础。在这篇综述中,解释了似然的概念并给出了应用计算示例。所提供的示例用于说明似然如何与最常用的检验统计(如:学生 t 检验,ANOVA 方差分析 )关联。其他示例说明了使用常见总体模型假设(例如,正态性)和数据非正则情况下的替代假设来计算似然。为了进一步描述似然和似然比与现代检验统计的相互联系,讨论了似然、最小二乘和贝叶斯推断之间的关系。最后,列出了似然法的优点和局限性,简要回顾了似然法的替代方法,并提供了用于计算文中每个示例的 R 代码 【原 文】 Cousineau, D. and Allan, T.A. (2016) ‘Likelihood and its use in Parameter Estimation and Model Comparison’, Mesure et évaluation en éducation, 37(3), pp. 63–98. Available at:...