似然与概率的区别
【摘要】“概率” 和 “似然” 这两个术语,在各种文献中使用非常混乱,大多数人可能会觉得它们就是一回事,很难发现/理解它们之间的区别。本文旨在理清 “概率” 和 “似然” 之间的区别,以便更好地理解贝叶斯方法。 “概率” 和 “似然” 之间的区别!最重要的区别:概率依附于可能的结果;而似然依附于假设。 可能的结果是相互排斥且穷举的。假设我们要求受试者预测 $10$ 次掷硬币的每一次结果,则只有 $11$ 个可能的结果( $0$ 到 $10$ 个可能正确的预测),而实际结果将始终是可能的结果中的一个且只有一个。因此,附加到可能结果的概率总和必须为 $1$。 假设与结果不同,既不相互排斥,也不穷举。假设我们测试的对象正确地预测了 $10$ 个结果中的 $7$...
雅可比矩阵与海森矩阵
p{text-indent:2em} 1 泰勒展开式先回顾一下泰勒展开式,因为雅可比矩阵和海森矩阵,都和泰勒展开式有关系。 泰勒公式是将一个在 $x=x_{0}$ 处具有 $n$ 阶导数的函数 $f(x)$ 利用关于 $(x-x_{0})$ 的 $n$ 次多项式来逼近函数的方法。 若函数 $f(x)$ 在包含 $x_{0}$ 的某个闭区间 $[a,b]$ 上具有 $n$ 阶导数,且在开区间 $(a,b)$ 上具有 $(n+1)$ 阶导数,则对闭区间 $[a,b]$ 上任意一点 $x$ ,下式成立: $$f(x)=\frac{f\left(x_{0}\right)}{0 !}+\frac{f^{\prime}\left(x_{0}\right)}{1 !}\left(x-x_{0}\right)+\frac{f^{\prime \prime}\left(x_{0}\right)}{2 !}\left(x-x_{0}\right)^{2}+\ldots+\frac{f^{(n)}\left(x_{0}\right)}{n...
中心差分近似
p{text-indent:2em} 什么是中心差分近似?对于具有多阶导数的连续函数 $f(x)$, 根据泰勒展开公式有: $$f(t)=f(t_0) + f^\prime(t_0)(t-t_0)+\frac{1}{2!}f^{\prime\prime}(t_0)(t-t_0)^2 + \frac{1}{3!}f^{\prime\prime\prime}(t_0)(t-t_0)^3 + \ldots$$ 示意图如下: 令 $h=t-t_0$, $t_0=x$,则有: $$f(x+h)=f(x) + hf^\prime(x)+\frac{h^2}{2!}f^{\prime\prime}(x) + \frac{h^3}{3!}f^{\prime\prime\prime}(x) + \ldots\f(x-h)=f(x) - hf^\prime(x)+\frac{h^2}{2!}f^{\prime\prime}(x) - \frac{h^3}{3!}f^{\prime\prime\prime}(x) +...
常见概率分布
机器学习和深度学习中常用的概率统计知识In Bayesian influence, probability distributions are heavily used to make intractable problems solvable. After discussing the normal distribution, we will cover other basic distributions and more advanced ones including Beta distribution, Dirichlet distribution, Poisson Distribution, and Gamma distribution. We will also discuss topics including the Conjugate prior, Exponential family of distribution, and Method of Moments. 1 离散型分布伯努利分布 The Bernoulli distribution is a...
显著性检验
【通俗理解】显著性检验,T-test,P-value源:https://www.cnblogs.com/hdu-zsk/p/6293721.html 1 前言显著性检验:用于判定实验结果是否由随机误差导致,即用量化方法来判断实验结果能否被接受。 举例:赵先生开了一家日用百货公司,该公司分別在郑州和杭州开设了分公司。现在存在下列数据作为两个分公司的销售额,集合中的每一个数代表着一年中某个月的公司销售: 郑州分公司 Z={23,25,26,27,23,24,22,23,25,29,30}$ 杭州分公司...
统计学中的假设检验和两类错误
我来尝试给你讲清统计学中的假设检验和两类错误学习过统计的同学一定对“两类错误”不会陌生,但是否已经完全理清了其中的逻辑,想必要打一个问号了。希望我今天能“不辱使命”,用你听得懂的语言给你讲清楚这整套内容。 1 ...
知识图谱数据管理综述:模型、方法和系统
知识图谱数据管理综述:模型、方法和系统【摘要】随着人工智能的兴起,知识图谱被广泛认为是人工智能的基石。近年来,学术界和工业界构建并发布了越来越多的大规模知识图。知识图本质上是一个由实体、实体属性、实体间语义关系以及本体组成的大型网络。这种基于图的知识数据对传统数据管理理论和技术提出了巨大的挑战。本文介绍了知识图谱数据管理的研究现状,包括知识图谱数据模型、查询语言、存储方案、查询处理和推理。本文还将介绍各种知识图数据库管理系统的最新发展趋势。 【原文】Wang, X. and W. Chen (2020). Knowledge Graph Data Management: Models, Methods, and Systems. Web Information Systems Engineering (WISE 2020): 3-12. 【DOI】https://doi.org/10.1007/978-981-15-3281-8_1 1 概况知识图作为符号主义的最新发展,近年来被学术界和产业界广泛认为是人工智能的重要基石。目前,具有数百万个顶点( $10^6$...
数值优化算法【4】-- Adam 方法
数值优化算法【4】– Adam 方法 RMSProp 和 AdaDelta 均采用加权移动平均的方法,对二阶动量做了窗口限制,使得学习效率得到明显提升; AdaDelta 方法进一步对学习率的分子项做了自动累积计算,无需人工指定全局学习率超参数(实际情况表明, AdaDelta 容易陷入局部最优解的陷阱)。 Adam 算法则采用了另外一种思路,其没有将思路放在自动计算学习率上,而是考虑将一阶动量引入学习率的更新,使学习过程更优。 1、 算法介绍 Adam 算法使用了一阶动量变量 $\boldsymbol{v}_t$ 和 RMSProp 算法中的二阶动量变量 $\boldsymbol{G}_t$ ,并在时间步0将其初值置为0。 给定超参数 $0 \leq \beta_1 < 1$ (算法作者建议设为 $0.9$ ),时间步 $t$ 的一阶动量变量 $\boldsymbol{v}_t$ 为梯度 $\boldsymbol{g}t$ 与 $v{t-1}$ 加权移动平均:$$\boldsymbol{v}t \leftarrow \beta_1...
数值优化算法【3】-- 动量法及其变种
数值优化算法【3】– 动量法及其变种一、问题的提出上节提到的批量梯度下降(BGD)、随机梯度下降(SGD)和小批量梯度下降法(MBGD),基础完全一致,区别仅在于批大小(batch size)的不同。虽然由于批大小不同带来了很多不同的特性,但它们均避免不了一个问题,即模型参数的更新方向依赖于当前batch计算出的梯度,这可能会带来一些问题。 让我们考虑一个输入为二维向量 $\boldsymbol{x} = [x_1, x_2]^\top$ 、输出为标量的目标函数$f(\boldsymbol{x})=0.1x_1^2+2x_2^2$。 下图为基于该目标函数的梯度下降,学习率为 $0.4$...
数值优化算法【2】-- 梯度下降算法
数值优化算法【2】– 梯度下降算法本节介绍梯度下降(gradient descent)的工作原理。虽然梯度下降在深度学习中很少被直接使用,但理解梯度的意义,以及沿着梯度反方向更新模型参数以降低目标函数值的原理,是后面各种优化方法的基础。 梯度下降法又被称为最速下降法,是获得数值解的一种常用算法,主要分为批量梯度下降(Batch Gradient Descent)、随机梯度下降(Stochastic Gradient Descent)以及小批量梯度下降(Mini-Batch Gradient Descent)三种不同的形式。 一、理解梯度下降(1)一维梯度下降先以简单的一维梯度下降为例,解释梯度下降算法可能降低目标函数值的原因。 假设连续可导的函数 $ J: \mathbb{R} \rightarrow \mathbb{R} $ 的输入和输出都是标量。给定绝对值足够小的数 $ \epsilon $ ,根据泰勒展开公式,得到以下的近似:$$J(x + \epsilon) \approx J(x) + \epsilon J’(x)...