无监督之聚类与降维任务--线性模型(Clusting、PCA、NMF)
无监督学习之线性模型(clustering、PCA、MF)1 无监督学习总览我们都知道,有监督数据是十分宝贵的。一般来说我们获取data很容易,但获取label却比较困难。因此,无监督学习在机器学习中十分关键。如何利用好大量的无监督数据,对于业务冷启动和持续迭代运行,都至关重要。 无监督学习大致分为 化繁为简。又包括 聚类,将无监督数据合并为一个个cluster。cluster内数据相似,cluster间数据不相似。 降维,特征提取。对无监督数据,比如图像、文本,提取特征。比如PCA、Auto-Encoder、MF 无中生有,主要就是各种生成模型。 本文主要讲无监督中的线性模型。包括clustering、PCA、MF等 2 聚类 Clustering2.1 聚类种类聚类在实际业务中十分重要,特别是业务冷启动的时候。可以用来做意图类别挖掘、知识库生产、话题挖掘等。还可以结合打标数据,实现标注数据噪声发现。聚类算法很多,如下 划分聚类 k-means、k-medoids、k-modes、k-medians、kernel k-means 层次聚类 ...
无监督之聚类与降维任务--近邻嵌入方法(从LLE到t-SNE)
无监督学习Neighbor Embedding近邻嵌入–从LLE 到 T-SNE2019-09-28 参考资料:李宏毅机器学习(2016); Neighbor Embedding近邻嵌入不同于PCA,实际上是一种非线性的降维方法,本文对三种常用的近邻嵌入算法做简单的介绍。 概念:流形学习(Manifold Learning) 流形学习的目的抽象的来说就是寻找高维空间的低维规律,即样本点的分布其实可能是在低维的一个空间里,只是被扭曲被塞到高维空间里面。最常用的举例就是地球,地球的表面就是一个manifold(一个二维的平面,被塞到一个三维的空间里面)。在manifold里面只有很近距离的点,(欧式距离)Euclidean...