基于图的知识表示方法
基于图的知识表示方法
摘要:
在知识表示方法的演进过程中,图模型因为其结构性、联想性、自然性、易于人类理解等优点,已经成为知识表示的基础模型。从框架表示法、语义网络表示法、逻辑程序标识法、语义网络表示法、语义网和知识图谱中,能够看到图模型在知识表示方法中的逐步演化历史。目前,基于图的知识表示方法主要聚焦在RDF数据模型和图属性数据模型两种类型。其中:
(1)RDF数据模型由从互联网领域发起,W3C制定了丰富的语义网技术栈作为知识表示的一个阶段性成果,并已经成为知识表示的事实标准;相关知识点在第1、2、3、4节中。
(2)图属性数据模型由工业界和学术界组成的关联数据基准委员会(LDBC)提出,并正在以属性图为基础对图数据模型、图查询语言进行标准化;相关知识点在第5节中。
一、 基于图的知识表示技术框架
1.1 语义网技术栈的发展过程
1.2 语义网技术栈的主要内容
二、RDF模型—RDF资源描述框架
2.1 RDF概述
RDF:资源描述框架(Resource Description Framework, RDF)是一种用于在Web中表示信息的通 ...
Ontology、Taxonomy、Folksonomy和Thesauri的不同
Difference of Ontology, Taxonomy, Folksonomy and Thesauri
The purpose of this article is to provide a little more information about taxonomies, folksonomies, ontologies and thesauri and their roles in information retrieval.
1. Background
Two indexing languages are generally used when indexing or searching for information in retrieval systems such as databases and the Internet. These are natural language and controlled vocabularies.
Controlled vocabularies are restricted lists of words ...
概念解释
为什么要进行图嵌入?
**【摘要】**图模型存在于真实世界的广泛场景中。例如:社交网络中的人及其联系、生物蛋白质及其作用、通信网络IP地址及其通信等。此外,常见的图片、句子也可抽象为图模型。因此,图模型可以说是无处不在。 基于图模型可以解决很多应用中的实际问题,例如:社交网络中新关系的预测、生物分子中蛋白质功能和相互作用的预测、通信网络中异常事件的预测等。传统图模型采用“One-hot变量+邻接矩阵”的方式来表示图结构,数据纬度高、计算复杂度高,对于下游任务的效率和实现影响非常大。图嵌入正是对图模型进行表达的一种新方法,而且在实际研究和应用中被证明为一种非常有效的技术。
1. 什么是图嵌入(graph embedding)?
图嵌入是一种将图数据(通常为高维稀疏的矩阵)映射为低纬度稠密向量的过程,如图。图嵌入需要捕捉到图的拓扑结构,顶点与顶点的关系,以及其他的信息(如子图,连边等)。如果有更多的信息被表示出来,那么下游的任务将会获得更好的表现。在嵌入的过程中存在着一种共识:向量空间中保持连接的节点彼此靠近。基于此,研究者提出了拉普拉斯特征映射(Laplacian ...
知识表示与知识图谱
知识表示与知识图谱
摘要:
与⼈类⾃然语⾔、绘画、⾳乐、数学语⾔、物理模型、化学公式等类似,人类需要有一种表示和传承形式,来获取、表示和处理知识,这也是⼈类⼼智区别于其它物种⼼智的重要特征。当与计算机系统结合后,就出现了在计算机中如何表达知识的问题,即人类知识的表达方法问题。本文概述了知识表示的主要理论和技术方法,并扩大到采用什么方式来实现知识表示的问题,即知识图谱建模。
一、 知识表示问题
开放性问题:
人类可以用语言、文字、绘画、音乐等形式表达某个方面的思想,但如何表达人类的知识呢?
知识到底是什么?知识的特点是什么?知识与上述其他方式又有什么本质区别呢?
如何在概念层面、逻辑层面和物理层面表示知识呢?
知识表示:
⽤易于计算机处理的⽅式来描述⼈脑的知识
知识表示与其他形式的最大不同不在于数据格式、数据结构或编程语⾔
知识表示与其他表达方式之间最大的区别在于:知识表示⽀持推理
从当前的研究现状来看,基于图的知识表示方法成为被广泛采纳的方法
知识表⽰⽅法为知识图谱的概念建模提供了理论基础
知识图谱:
旨在建模、识别、发现和推断事物、概念之间的复 ...
领域知识图谱技术概览
领域知识图谱技术概览
一、 领域知识图谱的特点
与搜索引擎、百科等通用领域知识图谱不同,在垂直应用领域的知识图谱基于行业或领域数据构建,通常:
具有更丰富、严格的数据模式(通常具备一定基础,具有多样的结构化、半结构化和结构化数据基础)
具有更好的领域知识深度要求(知识内容要求更丰富、更专业、质量更高)
具有更高的准确性要求(知识推理的准确性需求更高)
二、领域知识图谱的构建流程
与通用知识图谱的构建过程相似,大致包括以下几个阶段:
2.1 领域知识建模阶段
前提条件:需要具备知识图谱模型的基础知识(掌握关系模型,虽然现在缺少统一的模型)
主要目的:确定知识体系的结构(根据需求定义概念、实体、属性、关系、事件等基本要素)
输入:业务应用需求
输出:知识图谱的Schema(借助关系型数据库的概念)
建模方法:与关系型数据库相似,存在自顶向下和自底向上两种设计思路,对于习惯关系型数据库的人肯能在思维方式上需要做转换;
主要内容:知识图谱的语义描述框架、Schema与本体、知识交换语法、实体命名及ID体系等
类比:类似于关系型数据库的早期概念设计和表结构设计
2.2 领域知 ...
非零范围空间对象的索引方法--XZ序曲线索引
XZ-Ordering Method
1 背景
空间数据库系统的索引结构,主体采用R树索引及其各种变体。这些方法采用树状结构,树中每个节点均对应物理存储中的一页(Page)。该方法的问题在于,当在传统关系型数据库中实现R树时,无法直接和属性数据组合在一起统一管理,必须额外地增加一个索引文件或者索引表单独实现地理空间对象的空间索引,这种方式也被称为混合索引方案。这种混合索引方案存在以下几个方面问题:
非常难以维护,因为要保持两种结构的同步更新。如果一方更新失败,都会导致另一方被迫停止。为实现这一目的,必须要实现一种面向同质数据库系统的分布式提交协议,这需要对数据库内部技术细节非常了解,实现起来也非常耗时。采取混合索引方案会带来其他问题,例如:文件系统和数据库系统采用的是完全不同的数据安全策略、备份策略和并发访问策略,维护起来非常复杂。
面向对象数据库系统(另外一种NoSQL数据库)可能是解决上述问题的一种方案,因为面向对象数据库可以扩展面向应用的数据类型。但是在对象数据库中,如果要实现多维索引结构,也需要使用数据管理系统在块层级的存储管理访问接口,而大部分数据库管理系统并不 ...
分布式空间数据库「 6 」-- 空间填充曲线的聚簇性分析
空间填充曲线的聚簇性分析
一、 概述
先说结论,作者将曲线分为连续型(Hillbert、Peano等)、近连续型、非连续型(Z序、Morton等)分开讨论。
1.1 关于矩形查询的通用结论
(1)对于固定尺寸的“矩形查询 rrr ”,存在一个平均簇值的最优解(下限)。
(2)上述最优解(下限)受限于 rrr 的体积(用r中的单元数做量化)和形状(用 rrr中各维度上的边数来量化)。
(3)通常连续性曲线较非连续型曲线更接近最优解(下限)。
(4)对于固定尺寸的“矩形查询 rrr “ ,仅考虑部分旋转集时,总是构造一种连续型曲线,使其平均簇值达到最优值(下限)。
(5)对于固定尺寸的“矩形查询 rrr”,考虑其全旋转集时,所有连续型曲线的平均簇值都是最优解。
1.2 关于连续型曲线的结论
(1)对于连续型填充曲线,通过将某个查询 ggg 在各维度上做所有可能的平移后,得出统计结论:
该情况下,查询 ggg 的平均簇值仅和 ggg 的体积(用 ggg 内的单元数做量化)、形状(用 ggg 在各维度上边的数量来量化),以及填充曲线中各维度的边占比有关(用填充曲线中各维度上 ...
基于空间填充曲线的降维方法
#refplus, #refplus li{
padding:0;
margin:0;
list-style:none;
};
document.querySelectorAll(".refplus-num").forEach((ref) => {
let refid = ref.firstChild.href.replace(location.origin+location.pathname,'');
let refel = document.querySelector(refid);
let refnum = refel.dataset.num;
let ref_content = refel.innerText.replace(`[${refnum}]`,'');
tippy(ref, {
content: ref_content,
...
基于列族数据库构建分布式空间数据库
基于列族数据库构建分布式空间数据库
摘要:
在海量空间数据的分布式存储管理方案中,在已有成熟的分布式数据库之上实现空间数据组织和索引,是一种比较便利的方法。本文以GeoMesa为例,探讨其中的主要实现技术机理。主要技术点来自于Anthony Fox等人2013年发表的论文Spatio-temporal Indexing in Non-relational Distributed Databases,James N. Hughes等人2015年发表的“GeoMesa: a distributed architecture for spatio-temporal fusion”论文,以及GeoMesa的官方文档。
1 背景知识
移动传感器、微博等提供了大量带有地理标记的数据,在数量、速度和多样性方面呈现出典型大数据的4V特征。 这使人们不得不考虑使用诸如Accumulo和HBase之类的分布式数据库来管理这些海量数据。 不幸的是,现有的分布式数据库并没有专门的、符合标准的功能来管理时空数据,因此,出现了大量相关方面的软件系统,其中GeoMesa是最为典型,也最为成熟 ...