0️⃣ 概率图模型简介
〖摘要〗概率图模型是机器学习的一个分支,它研究如何使用概率分布来描述世界并对其做出有用的预测。
〖原文〗Stanford’s CS228
〖参考〗
CMU 10-708 Slides
CMU 10-708 Notes
Jordan’s Textbook
Airoldi’s Tutorial
p{text-indent:2em}
1 简介
概率图模型是机器学习的一个分支,它研究如何使用概率分布来描述世界并对其做出有用的预测。
学习概率建模的原因有很多。
一方面,这是一个引人入胜的科学领域,有一个美丽的理论,它以惊人的方式连接了两个非常不同的数学分支:概率论和图论。概率建模也与哲学有着有趣的联系,尤其是因果关系问题。
同时,概率建模在机器学习和许多实际应用中得到广泛应用。这些技术可用于解决医学、语言处理、视觉和许多其他领域的问题。
这种优雅的理论与应用相结合,使概率图模型成为现代人工智能和计算机科学中最引人入胜的话题之一。2011 年图灵奖(被认为是计算机科学”“诺贝尔奖”)最近被授予 Judea Pearl 以表彰其在概率图建模领域的创立。
2 概念
但 ...
非结构化文本的地理定位
非结构化文本的地理定位
【摘要】根据前文介绍,地理信息抽取是构建地理知识图谱的核心,而对非结构文本的地理定位是地理信息抽取技术的核心。本文对非结构文本的地理定位研究现状进行了梳理。鉴于国内地理信息科学和计算机信息科学为两个学科,而地理定位属于跨学科、研究难度偏大的命题,国内比较深度或成体系的研究较少,因此本文主要针对国际相关研究情况。
【原文】
【DOI】
1. 文本中的地理引用
地理引用(Geoeferences)
文本中对位置的指称(形式上为文本片段)被称为地理引用,也称位置引用、位置标识、地理标签。
**地理引用的案例:**地理引用的形式多样,例如,以下形式都可以定位北京大学:
北京市海淀区颐和园路5号 – 北京大学的通信地址
北京大学 – 北京大学的地名
100871 – 北京大学的中国邮政编码
X8P4+Q8 – 北京大学的谷歌开放位置码
39.986913,116.3036799 – 北京大学的经纬度
此外,还有很多在专业领域编制的具有空间位置含义的编码,如:北京大学的不动产单元登记码、北京大学的城市管理网格码等,均 ...
地理知识图谱「 2 」-- 地理信息抽取技术
地理信息抽取–未来地理信息科学中的皇冠
摘要:
根据前文,地理知识图谱主要分为两个大的研究领域或流派,其中地理知识图谱以领域地理知识库建设为重点,其中利用地理信息抽取技术完善、丰化知识库内容是较为核心的技术点。本文是对地理信息抽取技术的概览,希望有助于对该技术方向的了解和把握。
1. 位置搜索对地理信息抽取的现实性需求
互联网领域中大部分信息搜索查询中明确包含地理搜索词
例如:以地名的形式(Gan等人,2008年;Aloteibi和Sanderson,2014年)
80%的互联网用户会利用位置搜索引擎获取本地商业服务、产品或其他领域知识
在移动应用蓬勃发展的当下,基于位置的知识服务成为核心功能
以用户当前或预测位置为基础提供实时地理知识图谱上下文信息(Reichenbacher等人,2016)。
2. 地理信息抽取的必要性
信息和知识服务的现状
搜索引擎领域:尽管在位置搜索上投入了大量资金,但大部分检索结果局限于商业目录中的信息
知识服务领域:大量领域知识有待于数字化、信息化,并最终转换为知识内容提供服务
机遇:
随着Web2.0/3 ...
地理知识图谱与地理空间语义网
地理知识图谱与地理空间语义网
地理知识图谱的确切概念很难完整定义,从目前技术发展脉络来看,国内外主要存在两个技术领域或流派:地理空间语义网和地理知识图谱。
1. 地理空间语义网
(1)参与研究的主要群体
地理空间信息科学领域的专家和团体
(2)研究重点
沿用语义网的理念,在开放世界假设基础上,面向地理空间数据的可共享、可交换、互操作性、人机共同认知和理解等问题展开研究
(3)主要研究内容
地理空间本体的设计和模式
地理空间数据服务向地理空间本体知识服务转换的方法
不同地理空间知识库之间的本体对齐和实体对齐方法
社会感知/传感器网络等新型地理空间感知器知识库的建立
地理空间本体库的推理
…
(4)代表性研究机构
暂略…
2. 地理知识图谱
(1)参与研究的主要群体
计算机信息科学领域的专家和团体
(2)研究重点
其沿用知识图谱的理念,面向地理空间知识图谱的构建、存储、丰化、推理和服务问题
(3)主要研究内容
领域地理空间图谱本体建模方法
*领域地理空间数据库存储和优化
非结构化文本领域知识的地理信息抽取
非结构化文本领域知识的自动地理编码
领域 ...
地理知识图谱awesome list
地理知识图谱相关研究领域总结
综述性文章和书籍
文章
(1)地理空间语义网
Janowicz, K. and Scheider, S., Pehle, T., and Hart, G. (2012): Geospatial Semantics and Linked Spatiotemporal Data - Past, Present, and Future (editorial). Semantic Web 3(4), pp. 321-332.
Janowicz, K. and Hitzler, P. (2012): The Digital Earth as Knowledge Engine (editorial). Semantic Web Journal, 3(3), pp. 213-221.
Janowicz, K. and Hitzler, P. (2015): Geospatial Semantic Web. The International Encyclopedia of Geography: People, the Earth, Environ ...
地理空间语义的六个主要研究领域
地理空间语义的六个主要研究领域
【摘要】
【原文】
【DOI】
一、地理空间语义的概念
1.1 基本概念
“understanding GIS contents, and capturing this understanding in formal theories.”
1.2 核心任务:理解地理信息系统的内容
(1)地理空间语义谁来理解地理空间语义?
(2)机器还是人?如果是人的话,地理空间语义的重点是人类对地理概念和空间关系的认知;
(3)如果是机器的话,则重点在分布式系统之间的语义互操作。
1.3 实现方式:采用形式化理论来捕获对地理信息系统内容的理解
(1)采用本体作为形式化声明来描述概念和关系
(2)用一阶逻辑/描述逻辑等形式化逻辑来定义本体内的概念和公理
1.4 地理空间语义的两个发展方向
趋势1:传统地理空间数据以结构化链接数据的形式组织、发布、抽取和重用
地理空间语义网
趋势2:半结构化、非结构化数据的地理语义抽取、时空模式分析
地理信息抽取、地理知识图谱、GeoAI
1.5 六个地理空间语义的研究领域
语义互操作性与本体
数字地名词典
2. ...
Ontology、Taxonomy、Folksonomy和Thesauri的不同
Difference of Ontology, Taxonomy, Folksonomy and Thesauri
The purpose of this article is to provide a little more information about taxonomies, folksonomies, ontologies and thesauri and their roles in information retrieval.
1. Background
Two indexing languages are generally used when indexing or searching for information in retrieval systems such as databases and the Internet. These are natural language and controlled vocabularies.
Controlled vocabularies are restricted lists of words ...
基于图的知识表示方法
基于图的知识表示方法
摘要:
在知识表示方法的演进过程中,图模型因为其结构性、联想性、自然性、易于人类理解等优点,已经成为知识表示的基础模型。从框架表示法、语义网络表示法、逻辑程序标识法、语义网络表示法、语义网和知识图谱中,能够看到图模型在知识表示方法中的逐步演化历史。目前,基于图的知识表示方法主要聚焦在RDF数据模型和图属性数据模型两种类型。其中:
(1)RDF数据模型由从互联网领域发起,W3C制定了丰富的语义网技术栈作为知识表示的一个阶段性成果,并已经成为知识表示的事实标准;相关知识点在第1、2、3、4节中。
(2)图属性数据模型由工业界和学术界组成的关联数据基准委员会(LDBC)提出,并正在以属性图为基础对图数据模型、图查询语言进行标准化;相关知识点在第5节中。
一、 基于图的知识表示技术框架
1.1 语义网技术栈的发展过程
1.2 语义网技术栈的主要内容
二、RDF模型—RDF资源描述框架
2.1 RDF概述
RDF:资源描述框架(Resource Description Framework, RDF)是一种用于在Web中表示信息的通 ...
概念解释
为什么要进行图嵌入?
**【摘要】**图模型存在于真实世界的广泛场景中。例如:社交网络中的人及其联系、生物蛋白质及其作用、通信网络IP地址及其通信等。此外,常见的图片、句子也可抽象为图模型。因此,图模型可以说是无处不在。 基于图模型可以解决很多应用中的实际问题,例如:社交网络中新关系的预测、生物分子中蛋白质功能和相互作用的预测、通信网络中异常事件的预测等。传统图模型采用“One-hot变量+邻接矩阵”的方式来表示图结构,数据纬度高、计算复杂度高,对于下游任务的效率和实现影响非常大。图嵌入正是对图模型进行表达的一种新方法,而且在实际研究和应用中被证明为一种非常有效的技术。
1. 什么是图嵌入(graph embedding)?
图嵌入是一种将图数据(通常为高维稀疏的矩阵)映射为低纬度稠密向量的过程,如图。图嵌入需要捕捉到图的拓扑结构,顶点与顶点的关系,以及其他的信息(如子图,连边等)。如果有更多的信息被表示出来,那么下游的任务将会获得更好的表现。在嵌入的过程中存在着一种共识:向量空间中保持连接的节点彼此靠近。基于此,研究者提出了拉普拉斯特征映射(Laplacian ...
知识表示与知识图谱
知识表示与知识图谱
摘要:
与⼈类⾃然语⾔、绘画、⾳乐、数学语⾔、物理模型、化学公式等类似,人类需要有一种表示和传承形式,来获取、表示和处理知识,这也是⼈类⼼智区别于其它物种⼼智的重要特征。当与计算机系统结合后,就出现了在计算机中如何表达知识的问题,即人类知识的表达方法问题。本文概述了知识表示的主要理论和技术方法,并扩大到采用什么方式来实现知识表示的问题,即知识图谱建模。
一、 知识表示问题
开放性问题:
人类可以用语言、文字、绘画、音乐等形式表达某个方面的思想,但如何表达人类的知识呢?
知识到底是什么?知识的特点是什么?知识与上述其他方式又有什么本质区别呢?
如何在概念层面、逻辑层面和物理层面表示知识呢?
知识表示:
⽤易于计算机处理的⽅式来描述⼈脑的知识
知识表示与其他形式的最大不同不在于数据格式、数据结构或编程语⾔
知识表示与其他表达方式之间最大的区别在于:知识表示⽀持推理
从当前的研究现状来看,基于图的知识表示方法成为被广泛采纳的方法
知识表⽰⽅法为知识图谱的概念建模提供了理论基础
知识图谱:
旨在建模、识别、发现和推断事物、概念之间的复 ...