无监督之聚类与降维任务--线性模型(Clusting、PCA、NMF)
无监督学习之线性模型(clustering、PCA、MF)
1 无监督学习总览
我们都知道,有监督数据是十分宝贵的。一般来说我们获取data很容易,但获取label却比较困难。因此,无监督学习在机器学习中十分关键。如何利用好大量的无监督数据,对于业务冷启动和持续迭代运行,都至关重要。
无监督学习大致分为
化繁为简。又包括
聚类,将无监督数据合并为一个个cluster。cluster内数据相似,cluster间数据不相似。
降维,特征提取。对无监督数据,比如图像、文本,提取特征。比如PCA、Auto-Encoder、MF
无中生有,主要就是各种生成模型。
本文主要讲无监督中的线性模型。包括clustering、PCA、MF等
2 聚类 Clustering
2.1 聚类种类
聚类在实际业务中十分重要,特别是业务冷启动的时候。可以用来做意图类别挖掘、知识库生产、话题挖掘等。还可以结合打标数据,实现标注数据噪声发现。聚类算法很多,如下
划分聚类 k-means、k-medoids、k-modes、k-medians、kernel k-means
层次聚类 Agglo ...
无监督之聚类与降维任务--近邻嵌入方法(从LLE到t-SNE)
无监督学习Neighbor Embedding近邻嵌入–从LLE 到 T-SNE
2019-09-28
参考资料:李宏毅机器学习(2016);
Neighbor Embedding近邻嵌入不同于PCA,实际上是一种非线性的降维方法,本文对三种常用的近邻嵌入算法做简单的介绍。
概念:流形学习(Manifold Learning)
流形学习的目的抽象的来说就是寻找高维空间的低维规律,即样本点的分布其实可能是在低维的一个空间里,只是被扭曲被塞到高维空间里面。最常用的举例就是地球,地球的表面就是一个manifold(一个二维的平面,被塞到一个三维的空间里面)。在manifold里面只有很近距离的点,(欧式距离)Euclidean distance才会成立,如果距离很远的时候,欧式距离不一定成立。如在图中,a点计算离d,e两点的欧式距离都很近,这符合我们的直觉,但是同样根据欧式距离,a点距离b点比距离c点更近,但事实上如果我们把“S”形的数据点分布摊平展开,可能直觉上a点距离b点比a点距离点更加远。
所以流形计算要做的事情是把类似于图中“S”型的高维分布在低维度空间进行展开。展开的好 ...
空间表征学习之Place2Vec
p{text-indent:2em}
空间表征学习之Place2Vec
【摘要】理解、表示和推理POI点的类型是地理信息检索、推荐系统、地理知识图谱以及研究一般城市空间的重要方面(例如:从用户生成内容中提取功能性或模糊性认知区域的任务)。这些任务的先决条件之一是能够捕捉POI点类型之间的相似性或相关性。直觉上,当人们搜索汽车维修点时,即使没有精确的匹配结果,返回汽车美容店甚至加油站仍然可能满足一些用户需求,但返回天文馆则不会。也就是说,POI点类型的层次结构常用于扩展或者联想查询。但大多数现有POI点类型的层次结构较浅,并且往往结构是人为设计确定的,造成在某些特征方面可能密切相关的POI点类型被分开了,进而影响了扩展或联想查询的效果。这就引出了如何从数据中学习POI点类型表示的问题。近年,自然语言处理领域的词嵌入(如Word2Vec)对于词相似性表征发挥了重要作用,为POI点类型的表征提供了思路。但地理空间结构(如POI点类型间的相互作用)与语言学有很大不同,不能直接套用。本文提出了一种新方法来增强POI点类型的空间上下文,使用距离分割和信息论方法来生成嵌入。我们证明,该工 ...
➄ 线性回归模型:MLE、MAP和贝叶斯推断
【摘要】 MLE、MAP和贝叶斯推断
【原文】
【see also】 《高斯过程的可视化探索》; 《稀疏高斯过程及其推断》; 《深度高斯过程》
p{text-indent:2em;2}
1 MLE、MAP和贝叶斯推断
#refplus, #refplus li{
padding:0;
margin:0;
list-style:none;
};
document.querySelectorAll(".refplus-num").forEach((ref) => {
let refid = ref.firstChild.href.replace(location.origin+location.pathname,'');
let refel = document.querySelector(refid);
let refnum = refel.dataset.num;
let ref_co ...
知识图谱数据管理综述:模型、方法和系统
知识图谱数据管理综述:模型、方法和系统
【摘要】随着人工智能的兴起,知识图谱被广泛认为是人工智能的基石。近年来,学术界和工业界构建并发布了越来越多的大规模知识图。知识图本质上是一个由实体、实体属性、实体间语义关系以及本体组成的大型网络。这种基于图的知识数据对传统数据管理理论和技术提出了巨大的挑战。本文介绍了知识图谱数据管理的研究现状,包括知识图谱数据模型、查询语言、存储方案、查询处理和推理。本文还将介绍各种知识图数据库管理系统的最新发展趋势。
【原文】Wang, X. and W. Chen (2020). Knowledge Graph Data Management: Models, Methods, and Systems. Web Information Systems Engineering (WISE 2020): 3-12.
【DOI】https://doi.org/10.1007/978-981-15-3281-8_1
1 概况
知识图作为符号主义的最新发展,近年来被学术界和产业界广泛认为是人工智能的重要基石。目前,具有数百万个顶点( 10610^6106 ...
深度神经网络的优化技巧
深度神经网络的优化技巧
引起:剑启郁兰 2019-08-05 21:36:30
1、 深度神经网络主要要素结构
2、神经网络优化技巧框图
3、数据预处理部分
4、权重初始化部分
5、批量归一化部分
6、优化方法部分
7、激活函数部分
8、正则化和超参设置部分
#refplus, #refplus li{
padding:0;
margin:0;
list-style:none;
};
document.querySelectorAll(".refplus-num").forEach((ref) => {
let refid = ref.firstChild.href.replace(location.origin+location.pathname,'');
let refel = document.querySelector(refid);
let refnum = refel.dat ...
➃ 线性回归模型:样条回归
【摘要】 样条回归
【原文】
【see also】 《高斯过程的可视化探索》; 《稀疏高斯过程及其推断》; 《深度高斯过程》
p{text-indent:2em;2}
1 样条回归
#refplus, #refplus li{
padding:0;
margin:0;
list-style:none;
};
document.querySelectorAll(".refplus-num").forEach((ref) => {
let refid = ref.firstChild.href.replace(location.origin+location.pathname,'');
let refel = document.querySelector(refid);
let refnum = refel.dataset.num;
let ref_content = refel.inne ...
地理知识发现中的空间显式人工智能技术
GeoAI:地理知识发现中的空间显式人工智能技术
【摘要】 近年随着深度学习技术的突飞猛进,相关技术在地理信息科学领域也得到大量研究和应用。但随着大家对问题的深入理解,逐步意识到这些机器学习方法在解决地学问题上有些捉襟见肘,特别是很多机器学习模型几乎不考虑地理位置的作用,把很多地学问题转变成了计算机科学问题,引起了业内很多专家的质疑。本文为加州大学 Krzysztof Janowicz 教授 2017 年在地理信息科学杂志 GeoAI 专刊上发表的一篇评论文章,明确提出在地理空间人工智能领域中,空间显示模型需要得到重视和发展。
【原文摘要】无。
【原文】Janowicz, K., et al. (2019). “GeoAI: spatially explicit artificial intelligence techniques for geographic knowledge discovery and beyond.” International Journal of Geographical Information Science 34(4): 625-636.
【 ...
GeoAI:社交媒体数据用于灾害管理的研究综述
p{text-indent:2em}
社交媒体数据用于灾害管理的研究综述
【摘要】 近期看到不少论文在探讨社交媒体数据如何用于灾害管理,正想自己整理一篇综述,意外被推送过来一篇纽卡斯尔大学学者发表的调查报告。
【原文摘要】社交媒体在灾害管理中发挥了重要作用,因为它使公众可以通过报告与灾难事件有关的事件来促进灾害的监测。然而,庞大而多样的社交媒体数据,严重制约了其在灾害管理中的可用性,因此,本文提出了社会媒体数据用于灾害管理面临的挑战。我们也提供了对社交媒体数据如何促进灾害管理,以及社交媒体数据管理方法和灾害管理分析方法的调查。该调查包括社交媒体数据分类、事件检测方法以及空间和时间信息抽取。此外,还提出了社交媒体数据管理研究、灾害管理分析等分类方法,并讨论各种方法的核心优势和缺点。
【原文】Phengsuwan, J.; Shah, T.;Thekkummal, N.B.; Wen, Z.; Sun, R.;Pullarkatt, D.; Thirugnanam, H.;Ramesh, M.V .; Morgan, G.; James, P .;Ranjan, R. Use ...
Apache Spark简明教程
Apache Spark简明教程
1 Spark集群物理结构
注:Spark的运行不一定依赖于Spark集群,还支持本地、YARN、MESOS。Spark集群只是Apache Spark提供的一种分布式计算环境。
(1)Master
(1)监听Worker,看Worker是否正常工作
(2)接收worker的注册并管理所有的worker
(3)接收和调度client提交的application,并向worker分派任务
(2)Worker
(1)通过RegisterWorker注册到Master
(2)定时发送心跳给Master
(3)根据master分派的application配置进程环境,并启动执行Task所需的进程(StandaloneExecutorBackend)
2 系统运行时结构
(1)Client角色
提交任务者
(2)Driver角色
Driver是执行开发程序中main方法的进程
功能
(1)把application转为task
(2)跟踪Executor的运行状况
(3)为Executor节点分派任务
(4)UI展示应用运行状况
...