西山晴雪的知识笔记

发表于2022-10-17|基础理论知识概率与统计

【摘要】“概率” 和 “似然” 这两个术语，在各种文献中使用非常混乱，大多数人可能会觉得它们就是一回事，很难发现/理解它们之间的区别。本文旨在理清 “概率” 和 “似然” 之间的区别，以便更好地理解贝叶斯方法。 “概率” 和 “似然” 之间的区别！最重要的区别：概率依附于可能的结果；而似然依附于假设。可能的结果是相互排斥且穷举的。假设我们要求受试者预测 101010 次掷硬币的每一次结果，则只有 111111 个可能的结果（ 000 到 101010 个可能正确的预测），而实际结果将始终是可能的结果中的一个且只有一个。因此，附加到可能结果的概率总和必须为 111。假设与结果不同，既不相互排斥，也不穷举。假设我们测试的对象正确地预测了 101010 个结果中的 777 个。我也许会假设受试者只是在猜测，但你也许会假设受试者会以略高于机会率的方式正确预测结果。这些假设虽然不同，但它们之间并不相互排斥。因此，你允许你的假设中包括我的假设。在技术术语中表达为：我的假设嵌套在你的假设中。当然，其他人也许会假设测试对象具有超出常人的预测能力，而观察到的结果低估了该测试对象下一次预 ...

雅可比矩阵与海森矩阵

发表于2022-04-13|基础理论知识线性代数与矩阵论

p{text-indent:2em} 1 泰勒展开式先回顾一下泰勒展开式，因为雅可比矩阵和海森矩阵，都和泰勒展开式有关系。泰勒公式是将一个在 x=x0x=x_{0}x=x0 处具有 nnn 阶导数的函数 f(x)f(x)f(x) 利用关于 (x−x0)(x-x_{0})(x−x0) 的 nnn 次多项式来逼近函数的方法。若函数 f(x)f(x)f(x) 在包含 x0x_{0}x0 的某个闭区间 [a，b][a，b][a，b] 上具有 nnn 阶导数，且在开区间 (a，b)(a，b)(a，b) 上具有 (n+1)(n+1)(n+1) 阶导数，则对闭区间 [a，b][a，b][a，b] 上任意一点 xxx ，下式成立： f(x)=f(x0)0!+f′(x0)1!(x−x0)+f′′(x0)2!(x−x0)2+…+f(n)(x0)n!(x−x0)n+Rn(x)(5)f(x)=\frac{f\left(x_{0}\right)}{0 !}+\frac{f^{\prime}\left(x_{0}\right)}{1 !}\left(x-x_{0}\right)+\ ...

中心差分近似

发表于2022-04-13|基础理论知识机器学习

p{text-indent:2em} 什么是中心差分近似？对于具有多阶导数的连续函数 f(x)f(x)f(x)，根据泰勒展开公式有： f(t)=f(t0)+f′(t0)(t−t0)+12!f′′(t0)(t−t0)2+13!f′′′(t0)(t−t0)3+…f(t)=f(t_0) + f^\prime(t_0)(t-t_0)+\frac{1}{2!}f^{\prime\prime}(t_0)(t-t_0)^2 + \frac{1}{3!}f^{\prime\prime\prime}(t_0)(t-t_0)^3 + \ldots f(t)=f(t0)+f′(t0)(t−t0)+2!1f′′(t0)(t−t0)2+3!1f′′′(t0)(t−t0)3+… 示意图如下：令 h=t−t0h=t-t_0h=t−t0, t0=xt_0=xt0=x，则有： f(x+h)=f(x)+hf′(x)+h22!f′′(x)+h33!f′′′(x)+…f(x−h)=f(x)−hf′(x)+h22!f′′(x)−h33!f′′′(x)+…f(x+h)=f(x) + hf ...

常见概率分布

发表于2022-03-20|基础理论知识概率与统计

机器学习和深度学习中常用的概率统计知识 In Bayesian influence, probability distributions are heavily used to make intractable problems solvable. After discussing the normal distribution, we will cover other basic distributions and more advanced ones including Beta distribution, Dirichlet distribution, Poisson Distribution, and Gamma distribution. We will also discuss topics including the Conjugate prior, Exponential family of distribution, and Method of Moments. 1 离散型分布伯努利分布 The Bernoulli distribution is a ...

显著性检验

发表于2021-04-20|基础理论知识概率与统计

【通俗理解】显著性检验，T-test，P-value 源：https://www.cnblogs.com/hdu-zsk/p/6293721.html 1 前言显著性检验：用于判定实验结果是否由随机误差导致，即用量化方法来判断实验结果能否被接受。举例: 赵先生开了一家日用百货公司，该公司分別在郑州和杭州开设了分公司。现在存在下列数据作为两个分公司的销售额，集合中的每一个数代表着一年中某个月的公司销售: 郑州分公司 Z={23,25,26,27,23,24,22,23,25,29,30}$ 杭州分公司 H={24,25,23,26,27,25,25,28,30,31,29}H=\{24,25,23,26,27,25,25,28,30,31,29\}H={24,25,23,26,27,25,25,28,30,31,29} 现在，赵先生想要知道两个公司的销售额是否有存在明显差异（郑州分公司销售额>杭州分公司销售额，抑成反之），以便对接下来公司的战略业务调整做出规划。下属们知知道赵老板的难处，纷纷建议“只需要求平均值就知道哪个分公司的销售额更大了"。但是作为 ...

统计学中的假设检验和两类错误

发表于2021-04-19|基础理论知识概率与统计

我来尝试给你讲清统计学中的假设检验和两类错误学习过统计的同学一定对“两类错误”不会陌生，但是否已经完全理清了其中的逻辑，想必要打一个问号了。希望我今天能“不辱使命”，用你听得懂的语言给你讲清楚这整套内容。 1 从玩色子看假设检验到底在干嘛首先，两类错误是出现在假设检验过程中的，所以我们得先弄明白假设检验到底在做什么。简单举一个赌桌上的例子。看完周润发的《赌神》之后，朋友小金也来到赌场赌色子，一个色子，买单双号：1、3、5为单，2、4、6为双。小金玩了100把，但是就只有4次买中，气的小金直跺脚，直呼运气太背…… 难道小金的运气就这么差吗？咱们回头看看，是否哪里有猫腻。你肯定已经想到，每一把小金就算瞎猜，也会有50%的可能性猜对，这样重复玩100把，平均而言有50把的机会能买中，现在他只买中4把，这怎么可能呢？那原因在哪？很简单，问题出在色子上，我们说平均会有50把买中是建立在一个假设上的：色子是均匀的，没有人动手脚。但现在的情况是，他确实只买中了4把，而如果色子是均匀的，那么这种情况发生的概率及其微小，接近0，概率接近0的事情一般在一次试验（这100把游戏）下是不可能 ...

知识图谱数据管理综述：模型、方法和系统

发表于2021-04-10|基础理论知识知识图谱

知识图谱数据管理综述：模型、方法和系统【摘要】随着人工智能的兴起，知识图谱被广泛认为是人工智能的基石。近年来，学术界和工业界构建并发布了越来越多的大规模知识图。知识图本质上是一个由实体、实体属性、实体间语义关系以及本体组成的大型网络。这种基于图的知识数据对传统数据管理理论和技术提出了巨大的挑战。本文介绍了知识图谱数据管理的研究现状，包括知识图谱数据模型、查询语言、存储方案、查询处理和推理。本文还将介绍各种知识图数据库管理系统的最新发展趋势。【原文】Wang, X. and W. Chen (2020). Knowledge Graph Data Management: Models, Methods, and Systems. Web Information Systems Engineering （WISE 2020）: 3-12. 【DOI】https://doi.org/10.1007/978-981-15-3281-8_1 1 概况知识图作为符号主义的最新发展，近年来被学术界和产业界广泛认为是人工智能的重要基石。目前，具有数百万个顶点( 10610^6106 ...

数值优化算法【4】-- Adam 方法

发表于2021-04-08|基础理论知识最优化理论

数值优化算法【4】-- Adam 方法 RMSProp 和 AdaDelta 均采用加权移动平均的方法，对二阶动量做了窗口限制，使得学习效率得到明显提升； AdaDelta 方法进一步对学习率的分子项做了自动累积计算，无需人工指定全局学习率超参数（实际情况表明， AdaDelta 容易陷入局部最优解的陷阱）。 Adam 算法则采用了另外一种思路，其没有将思路放在自动计算学习率上，而是考虑将一阶动量引入学习率的更新，使学习过程更优。 1、算法介绍 Adam 算法使用了一阶动量变量 vt\boldsymbol{v}_tvt 和 RMSProp 算法中的二阶动量变量 Gt\boldsymbol{G}_tGt ，并在时间步0将其初值置为0。给定超参数 0≤β1<10 \leq \beta_1 < 10≤β1<1 （算法作者建议设为 0.90.90.9 ），时间步 ttt 的一阶动量变量 vt\boldsymbol{v}_tvt 为梯度 gt\boldsymbol{g}_tgt 与 vt−1v_{t-1}vt−1 加权移动平均： vt←β ...

数值优化算法【3】-- 动量法及其变种

发表于2021-04-04|基础理论知识最优化理论

数值优化算法【3】-- 动量法及其变种一、问题的提出上节提到的批量梯度下降(BGD)、随机梯度下降(SGD)和小批量梯度下降法(MBGD)，基础完全一致，区别仅在于批大小（batch size）的不同。虽然由于批大小不同带来了很多不同的特性，但它们均避免不了一个问题，即模型参数的更新方向依赖于当前batch计算出的梯度，这可能会带来一些问题。让我们考虑一个输入为二维向量 x=[x1,x2]⊤\boldsymbol{x} = [x_1, x_2]^\topx=[x1,x2]⊤ 、输出为标量的目标函数f(x)=0.1x12+2x22f(\boldsymbol{x})=0.1x_1^2+2x_2^2f(x)=0.1x12+2x22。下图为基于该目标函数的梯度下降，学习率为 0.40.40.4 时的自变量迭代轨迹。可以看到，同一位置上，目标函数在竖直方向（x2x_2x2轴方向）比在水平方向（x1x_1x1轴方向）的斜率的绝对值更大。因此，给定学习率，梯度下降迭代自变量时会使自变量在竖直方向比在水平方向移动幅度更大。那么，我们需要一个较小的学习率从而避免自变量在竖 ...

数值优化算法【2】-- 梯度下降算法

发表于2021-04-04|基础理论知识最优化理论

数值优化算法【2】-- 梯度下降算法本节介绍梯度下降（gradient descent）的工作原理。虽然梯度下降在深度学习中很少被直接使用，但理解梯度的意义，以及沿着梯度反方向更新模型参数以降低目标函数值的原理，是后面各种优化方法的基础。梯度下降法又被称为最速下降法，是获得数值解的一种常用算法，主要分为批量梯度下降（Batch Gradient Descent）、随机梯度下降（Stochastic Gradient Descent）以及小批量梯度下降（Mini-Batch Gradient Descent）三种不同的形式。一、理解梯度下降（1）一维梯度下降先以简单的一维梯度下降为例，解释梯度下降算法可能降低目标函数值的原因。假设连续可导的函数 $ J: \mathbb{R} \rightarrow \mathbb{R} $ 的输入和输出都是标量。给定绝对值足够小的数 $ \epsilon $ ，根据泰勒展开公式，得到以下的近似： J(x+ϵ)≈J(x)+ϵJ′(x).J(x + \epsilon) \approx J(x ...