西山晴雪的知识笔记

发表于2023-01-03|发现任务聚类

#refplus, #refplus li{ padding:0; margin:0; list-style:none; }； document.querySelectorAll(".refplus-num").forEach((ref) => { let refid = ref.firstChild.href.replace(location.origin+location.pathname,''); let refel = document.querySelector(refid); let refnum = refel.dataset.num; let ref_content = refel.innerText.replace(`[${refnum}]`,''); tippy(ref, { content: ref_content, ...

降维模型索引帖

发表于2023-01-03|发现任务降维

#refplus, #refplus li{ padding:0; margin:0; list-style:none; }； document.querySelectorAll(".refplus-num").forEach((ref) => { let refid = ref.firstChild.href.replace(location.origin+location.pathname,''); let refel = document.querySelector(refid); let refnum = refel.dataset.num; let ref_content = refel.innerText.replace(`[${refnum}]`,''); tippy(ref, { content: ref_content, ...

无监督之聚类与降维任务--线性模型（Clusting、PCA、NMF）

发表于2021-04-11|发现任务降维

无监督学习之线性模型（clustering、PCA、MF） 1 无监督学习总览我们都知道，有监督数据是十分宝贵的。一般来说我们获取data很容易，但获取label却比较困难。因此，无监督学习在机器学习中十分关键。如何利用好大量的无监督数据，对于业务冷启动和持续迭代运行，都至关重要。无监督学习大致分为化繁为简。又包括聚类，将无监督数据合并为一个个cluster。cluster内数据相似，cluster间数据不相似。降维，特征提取。对无监督数据，比如图像、文本，提取特征。比如PCA、Auto-Encoder、MF 无中生有，主要就是各种生成模型。本文主要讲无监督中的线性模型。包括clustering、PCA、MF等 2 聚类 Clustering 2.1 聚类种类聚类在实际业务中十分重要，特别是业务冷启动的时候。可以用来做意图类别挖掘、知识库生产、话题挖掘等。还可以结合打标数据，实现标注数据噪声发现。聚类算法很多，如下划分聚类 k-means、k-medoids、k-modes、k-medians、kernel k-means 层次聚类 Agglo ...

无监督之聚类与降维任务--近邻嵌入方法（从LLE到t-SNE）

发表于2021-04-11|发现任务无监督学习

无监督学习Neighbor Embedding近邻嵌入–从LLE 到 T-SNE 2019-09-28 参考资料:李宏毅机器学习(2016)； Neighbor Embedding近邻嵌入不同于PCA，实际上是一种非线性的降维方法，本文对三种常用的近邻嵌入算法做简单的介绍。概念：流形学习(Manifold Learning) 流形学习的目的抽象的来说就是寻找高维空间的低维规律，即样本点的分布其实可能是在低维的一个空间里，只是被扭曲被塞到高维空间里面。最常用的举例就是地球，地球的表面就是一个manifold(一个二维的平面，被塞到一个三维的空间里面)。在manifold里面只有很近距离的点，（欧式距离）Euclidean distance才会成立，如果距离很远的时候，欧式距离不一定成立。如在图中，a点计算离d,e两点的欧式距离都很近，这符合我们的直觉，但是同样根据欧式距离，a点距离b点比距离c点更近，但事实上如果我们把“S”形的数据点分布摊平展开，可能直觉上a点距离b点比a点距离点更加远。所以流形计算要做的事情是把类似于图中“S”型的高维分布在低维度空间进行展开。展开的好 ...