随机变量的变换
【摘 要】概率论的主要研究对象是随机变量及其分布,当随机变量经过某些变换或若干随机变量进行某种组合后,产生的新随机变量会具有什么性质是一个迷人的话题,本文介绍了变量变化法、累积分布函数法、矩生成函数法三种基础推导方法,其中变量变化法(也称变量变换法)是归一化流方法的支撑理论,累积分布函数法根据其名称显然只适用于连续型随机变量,矩生成法适用于多个独立随机变量的线性组合。
【原 文】https://bookdown.org/pkaldunn/DistTheory/Transformations.html
完成本模块后,您应该能够:
在给定原始变量分布的情况下,使用分布函数法、变量变换法和矩生成函数法推导目标变量的分布。
找到双变量情况下两个目标变量的联合分布。
1 引言
在本章中,我们考虑在给定一个分布已知的随机变量 XXX 和一个函数 u(⋅)u(\cdot)u(⋅) 的情况下,某个随机变量 Y=u(X)Y = u(X)Y=u(X) 的概率分布。在几种可用的技术中,重点考虑三种:
变量变化法
分布函数法(仅适用于连续型随机变量)
矩生成函数法
在这种情况下,一个重要的 ...
最大似然、最大后验与贝叶斯推断
【摘 要】在机器学习和统计学习领域,最大似然、最大后验和贝叶斯推断是参数估计和预测最为常见的三种方法,堪称三座圣杯。本文从掌握证据(观测数据)出发,分别讨论了三种方法的原理、特点以及区别,而且内容极为简明易懂,是了解上述三个概念不可多得的好教材。该文是普渡大学机器人视觉实验室的自编教程,值得收藏。
【原 文】
(1)Kak, A. (2014) ‘ML, MAP, and Bayesian—the holy trinity of parameter estimation and data prediction’, An RVL Tutorial Presentation at Purdue University.
(2)Kak, A. (2014) ‘Monte Carlo integration in bayesian estimation’.
最大似然法与受限最大似然法的比较
【摘 要】 当混合效应模型中既包含固定效应又包含随机效应时,参数估计是否应该采用最大似然法呢? 如果不使用最大似然法,那应当使用什么方法呢?本文介绍了在此应用场景中最大似然法存在的问题,即低估随机效应(方差)分量并导致固定效应的一类错误膨胀,并简单介绍了响应的处置方法:受限最大似然法和 KR 校正法。作者参考了 McNeish Daniel 的一篇文章,用人类能看懂的非数学语言介绍了 MLE、REML、KR 三者的核心以及背后的统计思想。
【原 文】 Carnap, 最大似然估计和限制性极大似然估计
【参 考】Daniel McNeish (2017): Small Sample Methods for Multilevel Modeling: A Colloquial Elucidation of REML and the Kenward-Roger Correction, Multivariate Behavioral Research, DOI: 10.1080/00273171.2017.1344538
1 最大似然估计
当混合效应模型中同时包含固定效应和随机效应( ...
最大似然法与 EM 及变分推断的关系
【摘 要】 最大似然方法、期望最大化、变分推断三种方法,都可以用于对模型参数进行推断,但三者之间在应用场景上存在着显著区别,但也存在一定的关系。在知乎上看到一篇博文,内容貌似合理,但有更多概念是错误的,感觉有必要系统地梳理一下。
【参 考】 Reid, N. (2010) ‘Likelihood inference: Likelihood inference’, Wiley Interdisciplinary Reviews: Computational Statistics, 2(5), pp. 517–525. Available at: https://doi.org/10.1002/wics.110.
【原 文】 https://zhuanlan.zhihu.com/p/378988804
1 建模场景设置
当建模的场景中存在混合效应时,通常会分别对 固定效应 和 随机效应 进行建模。例如,在空间统计场景中,通常将观测建模为如下形式:
Y(s)=X(s)β+ηϕ(s)+ϵ(s)\mathbf{Y}(\mathbf{s}) = \mathbf{X}(\mathbf{s ...
经验贝叶斯方法简介
1 概念理解
传统贝叶斯方法需要事先指定参数(或隐变量)的先验分布以及模型的似然,而后利用已知数据对先验进行更新,最终得到后验分布。当先验分布完全未知时,推断会受到一定的影响。如果在创建后验概率分布之前,先利用某些方法来估计先验概率分布的参数,将使推断得到优化,而这就是经验贝叶斯方法的主要思想。
经验贝叶斯方法是 “在构建后验概率分布之前,估计和更新先验概率分布参数(即超参数)的方法集合”。该技术仍然遵循贝叶斯统计模型,但增加了估计先验概率分布的过程。
经验贝叶斯方法是一种统计推断过程,该方法根据经验数据估计先验概率分布。 此方法与标准贝叶斯方法形成对比,标准贝叶斯方法在观察到任何数据之前,先验分布都是固定的。经验贝叶斯可被视为对分层模型(Hierarchical Model)的完全贝叶斯处理的一种近似,只是其中最高层次级别的参数被设置为其最可能的值,而不是像完全贝叶斯处理一样通过积分获得。
经验贝叶斯也称为 最大边缘似然法,到目前仍然是一种设置超参数的便捷方法,但自 2000 年代以来,随着性能良好的计算技术的可用性不断提高,它已逐步被完全贝叶斯分层分析方法所取代。
(1 ...
似然函数与基于似然的推断
【摘 要】 描述了似然函数在贝叶斯和非贝叶斯推断中的重要作用。回顾了将基于似然的方法扩展到更复杂问题设置时相关的几个主题,包括几类比较著名的似然扩展:剖面似然、组合似然(伪似然)、准似然、半参数和非参数似然、经验似然等。
【原 文】 Reid, N. (2010) ‘Likelihood inference: Likelihood inference’, Wiley Interdisciplinary Reviews: Computational Statistics, 2(5), pp. 517–525. Available at: https://doi.org/10.1002/wics.110.
1 介绍
参数模型的似然(也称似然函数) L(θ;y)\mathcal{L}(\theta;y)L(θ;y) 正比于模型的概率密度函数 f(y;θ)f(y;\theta)f(y;θ)。在观测数据 yyy 不变的情况下,似然被视为模型参数的函数。在机器学习应用中(此类应用中,对新实例的预测通常比对模型参数推断更重要),似然的对数负值(即对数似然,log likelihood)常 ...
似然概念的扫盲帖
【摘 要】 参数估计和模型拟合是许多统计程序的基础。无论目标是检查数据集中的趋势还是回归线的斜率,都必须使用估计方法。似然是参数估计、确定多模型最佳拟合、显著性检验等的基础。在这篇综述中,解释了似然的概念并给出了应用计算示例。所提供的示例用于说明似然如何与最常用的检验统计(如:学生 t 检验,ANOVA 方差分析 )关联。其他示例说明了使用常见总体模型假设(例如,正态性)和数据非正则情况下的替代假设来计算似然。为了进一步描述似然和似然比与现代检验统计的相互联系,讨论了似然、最小二乘和贝叶斯推断之间的关系。最后,列出了似然法的优点和局限性,简要回顾了似然法的替代方法,并提供了用于计算文中每个示例的 R 代码
【原 文】 Cousineau, D. and Allan, T.A. (2016) ‘Likelihood and its use in Parameter Estimation and Model Comparison’, Mesure et évaluation en éducation, 37(3), pp. 63–98. Available at: https: ...
可扩展性--分布式机器学习系统
〖摘要〗
〖原文〗 Standford cs228 notes
〖参考〗CMU 10-708 Slides / CMU 10-708 Lecture Notes / Jordan TextBook, Ch.2(section 2.2 - end) / Koller’s Textbook,Ch.4 / A. Fischer and C. Igel, An Introducton to Restricted Boltzmann Machines / B. A. Cipra, An Introduction to the Ising Model
可扩展性--分布式机器学习算法
〖摘要〗
〖原文〗 Standford cs228 notes
〖参考〗CMU 10-708 Slides / CMU 10-708 Lecture Notes / Jordan TextBook, Ch.2(section 2.2 - end) / Koller’s Textbook,Ch.4 / A. Fischer and C. Igel, An Introducton to Restricted Boltzmann Machines / B. A. Cipra, An Introduction to the Ising Model
机器学习的五大流派
机器学习的五大流派
一、五大流派
二、发展历程
(1)1980 年代
主导流派:符号主义
架构:服务器或大型机
主导理论:知识工程
基本决策逻辑:决策支持系统,实用性有限
(2)1990 年代到 2000 年
主导流派:贝叶斯
架构:小型服务器集群
主导理论:概率论
分类:可扩展的比较或对比,对许多任务都足够好了
(3)2010 年代早期到中期
主导流派:联结主义
架构:大型服务器农场
主导理论:神经科学和概率
识别:更加精准的图像和声音识别、翻译、情绪分析等
(4)2010 年代末期
主导流派:联结主义+符号主义
架构:许多云
主导理论:记忆神经网络、大规模集成、基于知识的推理
简单的问答:范围狭窄的、领域特定的知识共享
(5)2020 年代+
主导流派:联结主义+符号主义+贝叶斯+……
架构:云计算和雾计算
主导理论:感知的时候有网络,推理和工作的时候有规则
简单感知、推理和行动:有限制的自动化或人机交互
(6)2040 年代+
主导流派:算法融合
架构:无处不在的服务器
主导理论:最佳组合的元学习
感知和响应:基于通过多种学习方式获得的知识或 ...