随机变量的变换
【摘 要】概率论的主要研究对象是随机变量及其分布,当随机变量经过某些变换或若干随机变量进行某种组合后,产生的新随机变量会具有什么性质是一个迷人的话题,本文介绍了变量变化法、累积分布函数法、矩生成函数法三种基础推导方法,其中变量变化法(也称变量变换法)是归一化流方法的支撑理论,累积分布函数法根据其名称显然只适用于连续型随机变量,矩生成法适用于多个独立随机变量的线性组合。 【原 文】https://bookdown.org/pkaldunn/DistTheory/Transformations.html 完成本模块后,您应该能够: 在给定原始变量分布的情况下,使用分布函数法、变量变换法和矩生成函数法推导目标变量的分布。 找到双变量情况下两个目标变量的联合分布。 1 引言在本章中,我们考虑在给定一个分布已知的随机变量 $X$ 和一个函数 $u(\cdot)$ 的情况下,某个随机变量 $Y = u(X)$...
最大似然、最大后验与贝叶斯推断
【摘 要】在机器学习和统计学习领域,最大似然、最大后验和贝叶斯推断是参数估计和预测最为常见的三种方法,堪称三座圣杯。本文从掌握证据(观测数据)出发,分别讨论了三种方法的原理、特点以及区别,而且内容极为简明易懂,是了解上述三个概念不可多得的好教材。该文是普渡大学机器人视觉实验室的自编教程,值得收藏。 【原 文】 (1)Kak, A. (2014) ‘ML, MAP, and Bayesian—the holy trinity of parameter estimation and data prediction’, An RVL Tutorial Presentation at Purdue University. (2)Kak, A. (2014) ‘Monte Carlo integration in bayesian estimation’.
最大似然法与受限最大似然法的比较
【摘 要】 当混合效应模型中既包含固定效应又包含随机效应时,参数估计是否应该采用最大似然法呢? 如果不使用最大似然法,那应当使用什么方法呢?本文介绍了在此应用场景中最大似然法存在的问题,即低估随机效应(方差)分量并导致固定效应的一类错误膨胀,并简单介绍了响应的处置方法:受限最大似然法和 KR 校正法。作者参考了 McNeish Daniel 的一篇文章,用人类能看懂的非数学语言介绍了 MLE、REML、KR 三者的核心以及背后的统计思想。 【原 文】 Carnap, 最大似然估计和限制性极大似然估计 【参 考】Daniel McNeish (2017): Small Sample Methods for Multilevel Modeling: A Colloquial Elucidation of REML and the Kenward-Roger Correction, Multivariate Behavioral Research, DOI: 10.1080/00273171.2017.1344538 1...
最大似然法与 EM 及变分推断的关系
【摘 要】 最大似然方法、期望最大化、变分推断三种方法,都可以用于对模型参数进行推断,但三者之间在应用场景上存在着显著区别,但也存在一定的关系。在知乎上看到一篇博文,内容貌似合理,但有更多概念是错误的,感觉有必要系统地梳理一下。 【参 考】 Reid, N. (2010) ‘Likelihood inference: Likelihood inference’, Wiley Interdisciplinary Reviews: Computational Statistics, 2(5), pp. 517–525. Available at: https://doi.org/10.1002/wics.110. 【原 文】 https://zhuanlan.zhihu.com/p/378988804 1 建模场景设置当建模的场景中存在混合效应时,通常会分别对 固定效应 和 随机效应 进行建模。例如,在空间统计场景中,通常将观测建模为如下形式: $$\mathbf{Y}(\mathbf{s}) = \mathbf{X}(\mathbf{s})...
似然函数与基于似然的推断
【摘 要】 描述了似然函数在贝叶斯和非贝叶斯推断中的重要作用。回顾了将基于似然的方法扩展到更复杂问题设置时相关的几个主题,包括几类比较著名的似然扩展:剖面似然、组合似然(伪似然)、准似然、半参数和非参数似然、经验似然等。 【原 文】 Reid, N. (2010) ‘Likelihood inference: Likelihood inference’, Wiley Interdisciplinary Reviews: Computational Statistics, 2(5), pp. 517–525. Available at: https://doi.org/10.1002/wics.110. 1 介绍参数模型的似然(也称似然函数) $\mathcal{L}(\theta;y)$ 正比于模型的概率密度函数 $f(y;\theta)$。在观测数据 $y$ 不变的情况下,似然被视为模型参数的函数。在机器学习应用中(此类应用中,对新实例的预测通常比对模型参数推断更重要),似然的对数负值(即对数似然,log...
似然概念的扫盲帖
【摘 要】 参数估计和模型拟合是许多统计程序的基础。无论目标是检查数据集中的趋势还是回归线的斜率,都必须使用估计方法。似然是参数估计、确定多模型最佳拟合、显著性检验等的基础。在这篇综述中,解释了似然的概念并给出了应用计算示例。所提供的示例用于说明似然如何与最常用的检验统计(如:学生 t 检验,ANOVA 方差分析 )关联。其他示例说明了使用常见总体模型假设(例如,正态性)和数据非正则情况下的替代假设来计算似然。为了进一步描述似然和似然比与现代检验统计的相互联系,讨论了似然、最小二乘和贝叶斯推断之间的关系。最后,列出了似然法的优点和局限性,简要回顾了似然法的替代方法,并提供了用于计算文中每个示例的 R 代码 【原 文】 Cousineau, D. and Allan, T.A. (2016) ‘Likelihood and its use in Parameter Estimation and Model Comparison’, Mesure et évaluation en éducation, 37(3), pp. 63–98. Available at:...
可扩展性--分布式机器学习系统
〖摘要〗 〖原文〗 Standford cs228 notes 〖参考〗CMU 10-708 Slides / CMU 10-708 Lecture Notes / Jordan TextBook, Ch.2(section 2.2 - end) / Koller’s Textbook,Ch.4 / A. Fischer and C. Igel, An Introducton to Restricted Boltzmann Machines / B. A. Cipra, An Introduction to the Ising Model
可扩展性--分布式机器学习算法
〖摘要〗 〖原文〗 Standford cs228 notes 〖参考〗CMU 10-708 Slides / CMU 10-708 Lecture Notes / Jordan TextBook, Ch.2(section 2.2 - end) / Koller’s Textbook,Ch.4 / A. Fischer and C. Igel, An Introducton to Restricted Boltzmann Machines / B. A. Cipra, An Introduction to the Ising Model
机器学习的五大流派
机器学习的五大流派一、五大流派 二、发展历程(1)1980 年代 主导流派:符号主义 架构:服务器或大型机 主导理论:知识工程 基本决策逻辑:决策支持系统,实用性有限 (2)1990 年代到 2000 年 主导流派:贝叶斯 架构:小型服务器集群 主导理论:概率论 分类:可扩展的比较或对比,对许多任务都足够好了 (3)2010 年代早期到中期 主导流派:联结主义 架构:大型服务器农场 主导理论:神经科学和概率 识别:更加精准的图像和声音识别、翻译、情绪分析等 (4)2010 年代末期 主导流派:联结主义+符号主义 架构:许多云 主导理论:记忆神经网络、大规模集成、基于知识的推理 简单的问答:范围狭窄的、领域特定的知识共享 (5)2020 年代+ 主导流派:联结主义+符号主义+贝叶斯+…… 架构:云计算和雾计算 主导理论:感知的时候有网络,推理和工作的时候有规则 简单感知、推理和行动:有限制的自动化或人机交互 (6)2040...
机器学习方法分类
机器学习方法分类〖摘要〗 〖原文〗改编自Lori 1 总览 在机器学习领域,学习任务根据数据样本情况,可大致划分为三类:有监督学习、无监督学习、弱监督学习和强化学习。 2 有监督学习和无监督学习两者都需要从包含大量训练样本的训练数据集中学习预测模型,每个训练样本对应于事件/对象。如下图所示。 (1)有监督学习监督学习的训练数据由两部分组成: 描述事件/对象的特征向量(x),以及 groud-truth 的标签(y)。 监督学习典型面向两类任务(见下图)。 分类任务:标签对应于训练样本属于哪一类(离散值)。 对于分类问题来说,x 是一些西瓜,y 是属于的类别,好的西瓜或者坏的西瓜。现在我们已经知道每一个西瓜是好的或坏的,如果我们有一个新的西瓜,我们需要根据之前的经验判断它是好的或者坏的。 分类需要先找到数据样本点中的分界线,再根据分界线对新数据进行分类,分类数据是离散的值,比如图片识别、情感分析等领域会经常用到分类任务。 回归任务:标签对应于该示例的真实值响应(连续纸)。 对于回归问题来说,x 是西瓜,y...