机器学习的五大流派
机器学习的五大流派一、五大流派 二、发展历程(1)1980 年代 主导流派:符号主义 架构:服务器或大型机 主导理论:知识工程 基本决策逻辑:决策支持系统,实用性有限 (2)1990 年代到 2000 年 主导流派:贝叶斯 架构:小型服务器集群 主导理论:概率论 分类:可扩展的比较或对比,对许多任务都足够好了 (3)2010 年代早期到中期 主导流派:联结主义 架构:大型服务器农场 主导理论:神经科学和概率 识别:更加精准的图像和声音识别、翻译、情绪分析等 (4)2010 年代末期 主导流派:联结主义+符号主义 架构:许多云 主导理论:记忆神经网络、大规模集成、基于知识的推理 简单的问答:范围狭窄的、领域特定的知识共享 (5)2020 年代+ 主导流派:联结主义+符号主义+贝叶斯+…… 架构:云计算和雾计算 主导理论:感知的时候有网络,推理和工作的时候有规则 简单感知、推理和行动:有限制的自动化或人机交互 (6)2040...
机器学习方法分类
机器学习方法分类〖摘要〗 〖原文〗改编自Lori 1 总览 在机器学习领域,学习任务根据数据样本情况,可大致划分为三类:有监督学习、无监督学习、弱监督学习和强化学习。 2 有监督学习和无监督学习两者都需要从包含大量训练样本的训练数据集中学习预测模型,每个训练样本对应于事件/对象。如下图所示。 (1)有监督学习监督学习的训练数据由两部分组成: 描述事件/对象的特征向量(x),以及 groud-truth 的标签(y)。 监督学习典型面向两类任务(见下图)。 分类任务:标签对应于训练样本属于哪一类(离散值)。 对于分类问题来说,x 是一些西瓜,y 是属于的类别,好的西瓜或者坏的西瓜。现在我们已经知道每一个西瓜是好的或坏的,如果我们有一个新的西瓜,我们需要根据之前的经验判断它是好的或者坏的。 分类需要先找到数据样本点中的分界线,再根据分界线对新数据进行分类,分类数据是离散的值,比如图片识别、情感分析等领域会经常用到分类任务。 回归任务:标签对应于该示例的真实值响应(连续纸)。 对于回归问题来说,x 是西瓜,y...
损失函数、代价函数、目标函数的区别
以下叙述并不严格,但比较好理解: (1)损失函数(Loss Function) 损失函数通常是定义在单一数据点、预测和标签上的函数,用于为衡量惩罚。例如: 平方损失 $l(f(x_i|\theta),y_i) = \left (f(x_i|\theta)-y_i \right )^2$$l(f(x_i|\theta),y_i) = \ left (f(x_i|\theta)-y_i \right )^2$,用于线性回归 铰链损失 $l(f(x_i|\theta), y_i) = \max(0, 1-f(x_i|\theta)y_i)$$l(f(x_i|\theta), y_i) = \max (0, 1-f(x_i|\theta)y_i)$,用于SVM 0/1 损失 $l(f(x_i|\theta), y_i) = 1 \iff f(x_i|\theta) \neq y_i$$l(f(x_i|\theta), y_i) = 1 \iff f(x_i|\theta) \neq...
CAR 和 SAR 模型及其隐含的空间结构
【摘 要】 对空间参考数据中出现的空间相互作用进行建模通常是通过自回归模型将空间依赖性显式或隐式地纳入协方差结构来完成的。对于面元数据,两种常见的自回归模型是 条件自回归模型 (CAR) 和 **同步自回归模型 (SAR)**。这两种模型都会在协方差结构中通过邻居矩阵 $\mathbf{W}$ 的函数产生空间依赖性,并且通常是 一个固定但未知的空间相关参数。本文详细研究了这些模型应用于不规则面元数据时隐含的关联结构,尝试证明它们的许多违反直觉或不切实际的结果。数据示例用于说明,其中使用不同的空间模型对美国全州平均 SAT 语言分数进行建模和检查空间结构。 【原 文】 Wall, M.M. (2004) ‘A close look at the spatial structure implied by the CAR and SAR models’, Journal of Statistical Planning and Inference, 121(2), pp. 311–324. Available at: https://doi.org/10/d2pjx8. 1...
🔥 广义线性模型索引帖
待补充 #refplus, #refplus li{ padding:0; margin:0; list-style:none; }; document.querySelectorAll(".refplus-num").forEach((ref) => { let refid = ref.firstChild.href.replace(location.origin+location.pathname,''); let refel = document.querySelector(refid); let refnum = refel.dataset.num; let ref_content = refel.innerText.replace(`[${refnum}]`,''); tippy(ref, { content:...
非参数模型索引帖
【摘要】非参数模型并不是指模型没有参数,而是指模型中没有固定数量的参数,所以称之为无固定数量参数模型更为准确一些。传统的非参数模型主要包括以下三种类型:基于样本实例的模型(如 KNN 等)、基于核函数的模型(如:高斯过程、支持向量机)、基于决策树的模型(如:分类树、回归树、随机森林等),本文讲对它们进行概览。关于各种模型的细节,参加下面的相关链接。 【相关链接】 基于实例的方法: KNN 算法 距离度量方法 KDE 算法 基于核函数的方法: 高斯过程 支持向量机 基于决策树的方法: 分类树 回归树 随机森林 p{text-indent:2em;2} 1 非参数模型概述 #refplus, #refplus li{ padding:0; margin:0; list-style:none; }; document.querySelectorAll(".refplus-num").forEach((ref) => { ...
高斯过程精简版教程
【摘要】 高斯过程 Gaussian Processes 是概率论和数理统计中随机过程的一种,是多元高斯分布的扩展,被应用于机器学习、信号处理等领域。本文对高斯过程进行公式推导、原理阐述、可视化以及代码实现,介绍了以高斯过程为基础的高斯过程回归 基本原理、超参优化、高维输入等问题。 1 一元高斯分布我们从最简单最常见的一元高斯分布开始,其概率密度函数为 $$p(x) = \frac{1}{\sigma\sqrt{2\pi}}\exp (-\frac{(x-\mu)^2}{2\sigma^2}) \tag{1}$$ 其中 $\mu$ 和 $\sigma$ 分别表示均值和方差,这个概率密度函数曲线画出来就是我们熟悉的钟形曲线,均值和方差唯一地决定了曲线的形状。 2 多元高斯分布从一元高斯分布推广到多元高斯分布,假设各维度之间相互独立,则有联合分布: $$p(\mathbf{x})=p(x_1, x_2, …, x_n) =...
🔥 高斯过程回归初步教程
【摘 要】本教程旨在提供对高斯过程回归(Gaussian processes regression,GPR)的直观理解。高斯过程回归模型因其表达方式的灵活性和内涵的不确定性预测能力而广泛用于机器学习应用中。本文首先解释了构建高斯过程的基本概念,包括多元正态分布、核、非参数模型、联合和条件概率等。然后,简明描述了高斯过程回归以及标准高斯过程回归算法的实现。除了标准高斯过程回归,本文还回顾了目前最先进的高斯过程算法软件包。 【原 文】Jie Wang (2020). An Intuitive Tutorial to Gaussian Processes Regression. https://arxiv.org/abs/2009.10862 1 引言高斯过程模型是一种概率监督机器学习框架,已广泛用于回归和分类任务。高斯过程回归(Guassian Process Regression, GPR)模型可以结合先验知识(核)进行预测,并提供预测的不确定性度量...
➁ 核方法:支持向量机
〖摘要〗 高斯过程 Gaussian Processes 是概率论和数理统计中随机过程的一种,是多元高斯分布的扩展,被应用于机器学习、信号处理等领域。本文对高斯过程进行公式推导、原理阐述、可视化以及代码实现,介绍了以高斯过程为基础的高斯过程回归 基本原理、超参优化、高维输入等问题。 〖参见〗 《高斯过程的可视化探索》; 《稀疏高斯过程及其推断》; 《深度高斯过程》 p{text-indent:2em;} 1 支持向量机 #refplus, #refplus li{ padding:0; margin:0; list-style:none; }; document.querySelectorAll(".refplus-num").forEach((ref) => { let refid = ref.firstChild.href.replace(location.origin+location.pathname,''); ...
🔥 稀疏高斯过程及其变分推断
〖摘 要〗 高斯过程 (Gaussian Processes,高斯过程) 为贝叶斯推断提供了一个数学上优雅的框架,可以为大量问题提供原则性的不确定性估计。例如,对于某些具有高斯似然的回归问题,高斯过程模型具有封闭形式的后验。然而,后验高斯过程(高斯过程的后验依然是一个高斯过程分布,此处将之简称为后验高斯过程)的计算复杂度与训练样本数量成立方关系,并且所有训练样本均需要在内存中存储。为克服这些问题,已经提出了使用伪训练样本(也称为或)来获取近似后验高斯过程的方法 – 稀疏高斯过程(Sparse Gaussian Processes)。用户可以自己定义伪训练样本的数量,进而控制计算和内存复杂度。在一般情况下,稀疏高斯过程无法得到封闭解,必须求助于近似推断。在此情况下,变分推断是近似推断的一种选择。变分方法将贝叶斯推断问题转化为优化问题,通过最大化对数边缘似然下界( $\mathbb{ELBO}$...