似然函数与基于似然的推断
【摘 要】 描述了似然函数在贝叶斯和非贝叶斯推断中的重要作用。回顾了将基于似然的方法扩展到更复杂问题设置时相关的几个主题,包括几类比较著名的似然扩展:剖面似然、组合似然(伪似然)、准似然、半参数和非参数似然、经验似然等。
【原 文】 Reid, N. (2010) ‘Likelihood inference: Likelihood inference’, Wiley Interdisciplinary Reviews: Computational Statistics, 2(5), pp. 517–525. Available at: https://doi.org/10.1002/wics.110.
1 介绍
参数模型的似然(也称似然函数) L(θ;y)\mathcal{L}(\theta;y)L(θ;y) 正比于模型的概率密度函数 f(y;θ)f(y;\theta)f(y;θ)。在观测数据 yyy 不变的情况下,似然被视为模型参数的函数。在机器学习应用中(此类应用中,对新实例的预测通常比对模型参数推断更重要),似然的对数负值(即对数似然,log likelihood)常 ...
似然概念的扫盲帖
【摘 要】 参数估计和模型拟合是许多统计程序的基础。无论目标是检查数据集中的趋势还是回归线的斜率,都必须使用估计方法。似然是参数估计、确定多模型最佳拟合、显著性检验等的基础。在这篇综述中,解释了似然的概念并给出了应用计算示例。所提供的示例用于说明似然如何与最常用的检验统计(如:学生 t 检验,ANOVA 方差分析 )关联。其他示例说明了使用常见总体模型假设(例如,正态性)和数据非正则情况下的替代假设来计算似然。为了进一步描述似然和似然比与现代检验统计的相互联系,讨论了似然、最小二乘和贝叶斯推断之间的关系。最后,列出了似然法的优点和局限性,简要回顾了似然法的替代方法,并提供了用于计算文中每个示例的 R 代码
【原 文】 Cousineau, D. and Allan, T.A. (2016) ‘Likelihood and its use in Parameter Estimation and Model Comparison’, Mesure et évaluation en éducation, 37(3), pp. 63–98. Available at: https: ...
机器学习的五大流派
机器学习的五大流派
一、五大流派
二、发展历程
(1)1980 年代
主导流派:符号主义
架构:服务器或大型机
主导理论:知识工程
基本决策逻辑:决策支持系统,实用性有限
(2)1990 年代到 2000 年
主导流派:贝叶斯
架构:小型服务器集群
主导理论:概率论
分类:可扩展的比较或对比,对许多任务都足够好了
(3)2010 年代早期到中期
主导流派:联结主义
架构:大型服务器农场
主导理论:神经科学和概率
识别:更加精准的图像和声音识别、翻译、情绪分析等
(4)2010 年代末期
主导流派:联结主义+符号主义
架构:许多云
主导理论:记忆神经网络、大规模集成、基于知识的推理
简单的问答:范围狭窄的、领域特定的知识共享
(5)2020 年代+
主导流派:联结主义+符号主义+贝叶斯+……
架构:云计算和雾计算
主导理论:感知的时候有网络,推理和工作的时候有规则
简单感知、推理和行动:有限制的自动化或人机交互
(6)2040 年代+
主导流派:算法融合
架构:无处不在的服务器
主导理论:最佳组合的元学习
感知和响应:基于通过多种学习方式获得的知识或 ...
机器学习方法分类
机器学习方法分类
〖摘要〗
〖原文〗改编自Lori
1 总览
在机器学习领域,学习任务根据数据样本情况,可大致划分为三类:有监督学习、无监督学习、弱监督学习和强化学习。
2 有监督学习和无监督学习
两者都需要从包含大量训练样本的训练数据集中学习预测模型,每个训练样本对应于事件/对象。如下图所示。
(1)有监督学习
监督学习的训练数据由两部分组成:
描述事件/对象的特征向量(x),以及 groud-truth 的标签(y)。
监督学习典型面向两类任务(见下图)。
**分类任务:**标签对应于训练样本属于哪一类(离散值)。
对于分类问题来说,x 是一些西瓜,y 是属于的类别,好的西瓜或者坏的西瓜。现在我们已经知道每一个西瓜是好的或坏的,如果我们有一个新的西瓜,我们需要根据之前的经验判断它是好的或者坏的。
分类需要先找到数据样本点中的分界线,再根据分界线对新数据进行分类,分类数据是离散的值,比如图片识别、情感分析等领域会经常用到分类任务。
**回归任务:**标签对应于该示例的真实值响应(连续纸)。
对于回归问题来说,x 是西瓜,y 是真实值响应。 ...
损失函数、代价函数、目标函数的区别
以下叙述并不严格,但比较好理解:
(1)损失函数(Loss Function)
损失函数通常是定义在单一数据点、预测和标签上的函数,用于为衡量惩罚。例如:
平方损失 l(f(xi∣θ),yi)=(f(xi∣θ)−yi)2l(f(x_i|\theta),y_i) = \left (f(x_i|\theta)-y_i \right )^2l(f(xi∣θ),yi)=(f(xi∣θ)−yi)2l(f(x_i|\theta),y_i) = \ left (f(x_i|\theta)-y_i \right )^2,用于线性回归
铰链损失 l(f(xi∣θ),yi)=max(0,1−f(xi∣θ)yi)l(f(x_i|\theta), y_i) = \max(0, 1-f(x_i|\theta)y_i)l(f(xi∣θ),yi)=max(0,1−f(xi∣θ)yi)l(f(xi∣θ),yi)=max(0,1−f(xi∣θ)yi)l(f(x_i|\theta), y_i) = \max (0, 1-f(x_i|\theta)y_i)l(f(xi∣θ),yi)=m ...
CAR 和 SAR 模型及其隐含的空间结构
【摘 要】 对空间参考数据中出现的空间相互作用进行建模通常是通过自回归模型将空间依赖性显式或隐式地纳入协方差结构来完成的。对于面元数据,两种常见的自回归模型是 条件自回归模型 (CAR) 和 同步自回归模型 (SAR)。这两种模型都会在协方差结构中通过邻居矩阵 W\mathbf{W}W 的函数产生空间依赖性,并且通常是 一个固定但未知的空间相关参数。本文详细研究了这些模型应用于不规则面元数据时隐含的关联结构,尝试证明它们的许多违反直觉或不切实际的结果。数据示例用于说明,其中使用不同的空间模型对美国全州平均 SAT 语言分数进行建模和检查空间结构。
【原 文】 Wall, M.M. (2004) ‘A close look at the spatial structure implied by the CAR and SAR models’, Journal of Statistical Planning and Inference, 121(2), pp. 311–324. Available at: https://doi.org/10/d2pjx8.
1 简介
在许多设 ...
非参数模型索引帖
【摘要】非参数模型并不是指模型没有参数,而是指模型中没有固定数量的参数,所以称之为无固定数量参数模型更为准确一些。传统的非参数模型主要包括以下三种类型:基于样本实例的模型(如 KNN 等)、基于核函数的模型(如:高斯过程、支持向量机)、基于决策树的模型(如:分类树、回归树、随机森林等),本文讲对它们进行概览。关于各种模型的细节,参加下面的相关链接。
【相关链接】
基于实例的方法:
KNN 算法
距离度量方法
KDE 算法
基于核函数的方法:
高斯过程
支持向量机
基于决策树的方法:
分类树
回归树
随机森林
p{text-indent:2em;2}
1 非参数模型概述
#refplus, #refplus li{
padding:0;
margin:0;
list-style:none;
};
document.querySelectorAll(".refplus-num").forEach((ref) => {
let ...
🔥 广义线性模型索引帖
待补充
#refplus, #refplus li{
padding:0;
margin:0;
list-style:none;
};
document.querySelectorAll(".refplus-num").forEach((ref) => {
let refid = ref.firstChild.href.replace(location.origin+location.pathname,'');
let refel = document.querySelector(refid);
let refnum = refel.dataset.num;
let ref_content = refel.innerText.replace(`[${refnum}]`,'');
tippy(ref, {
content: ref_content,
...
高斯过程精简版教程
【摘要】 高斯过程 Gaussian Processes 是概率论和数理统计中随机过程的一种,是多元高斯分布的扩展,被应用于机器学习、信号处理等领域。本文对高斯过程进行公式推导、原理阐述、可视化以及代码实现,介绍了以高斯过程为基础的高斯过程回归 基本原理、超参优化、高维输入等问题。
1 一元高斯分布
我们从最简单最常见的一元高斯分布开始,其概率密度函数为
p(x)=1σ2πexp(−(x−μ)22σ2)(1)p(x) = \frac{1}{\sigma\sqrt{2\pi}}\exp (-\frac{(x-\mu)^2}{2\sigma^2}) \tag{1}
p(x)=σ2π1exp(−2σ2(x−μ)2)(1)
其中 μ\muμ 和 σ\sigmaσ 分别表示均值和方差,这个概率密度函数曲线画出来就是我们熟悉的钟形曲线,均值和方差唯一地决定了曲线的形状。
2 多元高斯分布
从一元高斯分布推广到多元高斯分布,假设各维度之间相互独立,则有联合分布:
p(x)=p(x1,x2,...,xn)=∏i=1np(xi)=1(2π)n2σ1σ2...σnexp(−12[( ...
🔥 高斯过程回归初步教程
【摘 要】本教程旨在提供对高斯过程回归(Gaussian processes regression,GPR)的直观理解。高斯过程回归模型因其表达方式的灵活性和内涵的不确定性预测能力而广泛用于机器学习应用中。本文首先解释了构建高斯过程的基本概念,包括多元正态分布、核、非参数模型、联合和条件概率等。然后,简明描述了高斯过程回归以及标准高斯过程回归算法的实现。除了标准高斯过程回归,本文还回顾了目前最先进的高斯过程算法软件包。
【原 文】Jie Wang (2020). An Intuitive Tutorial to Gaussian Processes Regression. https://arxiv.org/abs/2009.10862
1 引言
高斯过程模型是一种概率监督机器学习框架,已广泛用于回归和分类任务。高斯过程回归(Guassian Process Regression, GPR)模型可以结合先验知识(核)进行预测,并提供预测的不确定性度量 [1]。高斯过程模型是由计算机科学和统计学界开发的一种监督学习方法。具有工程背景的研究人员经常发现很难清楚地了解它。要理解高 ...