弱监督之不完全学习任务 -- 半监督学习概述
Semi-supervised Learning
Semi-supervised Learning 是 半监督学习 的意思。他是指用于训练的数据有一部分是有标签的,一部分数据是无标签的,同时使用这两部分数据进行学习。你可能会有一些疑问,为什么要使用没有标签的数据?没有标签的数据怎么能用来训练?对于第一个问题,是因为现在的机器学习方法大多都是数据驱动的方法,数据的量很大程度上会决定我们训练出的模型的好坏,但是提升数据量又是件不容易的事情,但是需要注意的是获取大量数据其实不难,难的是获取大量有标签的数据。比如图片分类的问题,我们现在有大量的摄像头安装在各种设备上,让他们不停的拍就能得到大量的图片,这是件很容易的事。所以如果这些无标签的数据也能对训练模型产生帮助,那么将是很好的,所以这就是半监督学习存在的意义。但是并不是所有问题都是能够通过使用一些无标签数据来提升有标签数据训练出的模型的,这就来到了第二个问题,没有标签的数据对训练模型有啥用?让我们来看下图这个例子,蓝色的点是标签为猫的数据,橙色是标签为狗的,如果只用有便签数据我们可能训练出的决策边界是竖着的那条红线。但是如果考虑 ...
➂ 连续型隐变量:混合模型
混合模型 (Mixed Model)
Sources:
Notebook
Repository
p{text-indent:2em;2}
第 1 部分 本系列文章介绍了具有离散隐变量的隐变量模型、高斯混合模型 (GMM) 和拟合算法这个模型要数据,EM 算法。第 2 部分介绍了具有连续隐变量的隐变量模型,用于对更复杂的数据(例如自然图像)进行建模,以及可与随机优化算法结合使用的贝叶斯推理技术。
Consider a natural image of size 100×100100 \times 100100×100 with a single channel. This image is a point in 10.00010.00010.000-dimensional space. Natural images are usually not uniformly distributed in this space but reside on a much lower-dimensional manifold within this high-dimensional ...
➁ 离散型隐变量:EM 算法
源代码:
Notebook
Repository
本文是关于隐变量模型的第 1 篇,介绍了期望最大化 (EM) 算法及其在高斯混合模型中的应用。
p{text-indent:2em;2}
1. 概述
给定概率模型 p(x∣θ)p(\mathbf{x} \lvert \boldsymbol{\theta})p(x∣θ) 和 NNN 个观测值值 X={x1,…,xN}\mathbf{X} = \{ \mathbf{x}_1, \ldots, \mathbf{ x}_N \}X={x1,…,xN} 。 我们希望找到一个能够使似然 p(X∣θ)p(\mathbf{X} \lvert \boldsymbol{\theta})p(X∣θ) 最大化的参数 θ\boldsymbol{\theta}θ 。这也被称为 最大似然估计 (MLE)。
θMLE=argmaxθp(X∣θ)(1)\boldsymbol{\theta}_{MLE} = \underset{\boldsymbol{\theta}}{\mathrm{argmax}} \quad p(\mathbf{X} \lver ...
➁ 离散型隐变量:EM 算法
源代码:
Notebook
Repository
本文是关于隐变量模型的第 1 篇,介绍了期望最大化 (EM) 算法及其在高斯混合模型中的应用。
p{text-indent:2em;2}
1. 概述
给定概率模型 p(x∣θ)p(\mathbf{x} \lvert \boldsymbol{\theta})p(x∣θ) 和 NNN 个观测值值 X={x1,…,xN}\mathbf{X} = \{ \mathbf{x}_1, \ldots, \mathbf{ x}_N \}X={x1,…,xN} 。 我们希望找到一个能够使似然 p(X∣θ)p(\mathbf{X} \lvert \boldsymbol{\theta})p(X∣θ) 最大化的参数 θ\boldsymbol{\theta}θ 。这也被称为 最大似然估计 (MLE)。
θMLE=argmaxθp(X∣θ)(1)\boldsymbol{\theta}_{MLE} = \underset{\boldsymbol{\theta}}{\mathrm{argmax}} \quad p(\mathbf{X} \lver ...
➀ 隐变量模型概览
隐变量模型初探
【摘要】隐变量模型常用于揭示计量或统计数据中的一些无法被直接观测到的规律或现象。例如:揭示不同原因导致的异质性、解释可观测变量中的误差构成等。
【作者】Francesco Bartolucci,意大利佩鲁贾大学
【原文】http://www.econ.upf.edu/~michael/latentvariables/
p{text-indent:2em;2}
0 引言
在本部分中,我们专注于能够创建高维数据的可解释表示的模型:隐变量模型。
问题提出
隐变量模型假设观测到的数据 x\boldsymbol{x}x 是由某些底层的潜在因素 z\boldsymbol{z}z (通常是低维的)导致,并且通常 z\boldsymbol{z}z 代表了世界的某种 “真实” 状态。至关重要的是,这些潜在因素被认为对模型的最终用户有意义 (也就是说,评估此类模型需要领域专业知识)。我们的目的是通过对可观测数据 x\boldsymbol{x}x 的处理,得到潜在因素 z\boldsymbol{z}z 的底层作用机理, 进而能够给可观测数据的生成作出一个合理的解释。这种反向建模方 ...
无监督之聚类与降维任务--线性模型(Clusting、PCA、NMF)
无监督学习之线性模型(clustering、PCA、MF)
1 无监督学习总览
我们都知道,有监督数据是十分宝贵的。一般来说我们获取data很容易,但获取label却比较困难。因此,无监督学习在机器学习中十分关键。如何利用好大量的无监督数据,对于业务冷启动和持续迭代运行,都至关重要。
无监督学习大致分为
化繁为简。又包括
聚类,将无监督数据合并为一个个cluster。cluster内数据相似,cluster间数据不相似。
降维,特征提取。对无监督数据,比如图像、文本,提取特征。比如PCA、Auto-Encoder、MF
无中生有,主要就是各种生成模型。
本文主要讲无监督中的线性模型。包括clustering、PCA、MF等
2 聚类 Clustering
2.1 聚类种类
聚类在实际业务中十分重要,特别是业务冷启动的时候。可以用来做意图类别挖掘、知识库生产、话题挖掘等。还可以结合打标数据,实现标注数据噪声发现。聚类算法很多,如下
划分聚类 k-means、k-medoids、k-modes、k-medians、kernel k-means
层次聚类 Agglo ...
无监督之聚类与降维任务--近邻嵌入方法(从LLE到t-SNE)
无监督学习Neighbor Embedding近邻嵌入–从LLE 到 T-SNE
2019-09-28
参考资料:李宏毅机器学习(2016);
Neighbor Embedding近邻嵌入不同于PCA,实际上是一种非线性的降维方法,本文对三种常用的近邻嵌入算法做简单的介绍。
概念:流形学习(Manifold Learning)
流形学习的目的抽象的来说就是寻找高维空间的低维规律,即样本点的分布其实可能是在低维的一个空间里,只是被扭曲被塞到高维空间里面。最常用的举例就是地球,地球的表面就是一个manifold(一个二维的平面,被塞到一个三维的空间里面)。在manifold里面只有很近距离的点,(欧式距离)Euclidean distance才会成立,如果距离很远的时候,欧式距离不一定成立。如在图中,a点计算离d,e两点的欧式距离都很近,这符合我们的直觉,但是同样根据欧式距离,a点距离b点比距离c点更近,但事实上如果我们把“S”形的数据点分布摊平展开,可能直觉上a点距离b点比a点距离点更加远。
所以流形计算要做的事情是把类似于图中“S”型的高维分布在低维度空间进行展开。展开的好 ...