概念解释
为什么要进行图嵌入? 【摘要】图模型存在于真实世界的广泛场景中。例如:社交网络中的人及其联系、生物蛋白质及其作用、通信网络IP地址及其通信等。此外,常见的图片、句子也可抽象为图模型。因此,图模型可以说是无处不在。 基于图模型可以解决很多应用中的实际问题,例如:社交网络中新关系的预测、生物分子中蛋白质功能和相互作用的预测、通信网络中异常事件的预测等。传统图模型采用“One-hot变量+邻接矩阵”的方式来表示图结构,数据纬度高、计算复杂度高,对于下游任务的效率和实现影响非常大。图嵌入正是对图模型进行表达的一种新方法,而且在实际研究和应用中被证明为一种非常有效的技术。 1. 什么是图嵌入(graph embedding)? 图嵌入是一种将图数据(通常为高维稀疏的矩阵)映射为低纬度稠密向量的过程,如图。图嵌入需要捕捉到图的拓扑结构,顶点与顶点的关系,以及其他的信息(如子图,连边等)。如果有更多的信息被表示出来,那么下游的任务将会获得更好的表现。在嵌入的过程中存在着一种共识:向量空间中保持连接的节点彼此靠近。基于此,研究者提出了拉普拉斯特征映射(Laplacian...
知识表示与知识图谱
知识表示与知识图谱摘要: 与⼈类⾃然语⾔、绘画、⾳乐、数学语⾔、物理模型、化学公式等类似,人类需要有一种表示和传承形式,来获取、表示和处理知识,这也是⼈类⼼智区别于其它物种⼼智的重要特征。当与计算机系统结合后,就出现了在计算机中如何表达知识的问题,即人类知识的表达方法问题。本文概述了知识表示的主要理论和技术方法,并扩大到采用什么方式来实现知识表示的问题,即知识图谱建模。 一、...
领域知识图谱技术概览
领域知识图谱技术概览一、 领域知识图谱的特点 与搜索引擎、百科等通用领域知识图谱不同,在垂直应用领域的知识图谱基于行业或领域数据构建,通常: 具有更丰富、严格的数据模式(通常具备一定基础,具有多样的结构化、半结构化和结构化数据基础) 具有更好的领域知识深度要求(知识内容要求更丰富、更专业、质量更高) 具有更高的准确性要求(知识推理的准确性需求更高) 二、领域知识图谱的构建流程与通用知识图谱的构建过程相似,大致包括以下几个阶段: 2.1 领域知识建模阶段 前提条件:需要具备知识图谱模型的基础知识(掌握关系模型,虽然现在缺少统一的模型) 主要目的:确定知识体系的结构(根据需求定义概念、实体、属性、关系、事件等基本要素) 输入:业务应用需求 输出:知识图谱的Schema(借助关系型数据库的概念) 建模方法:与关系型数据库相似,存在自顶向下和自底向上两种设计思路,对于习惯关系型数据库的人肯能在思维方式上需要做转换; 主要内容:知识图谱的语义描述框架、Schema与本体、知识交换语法、实体命名及ID体系等 类比:类似于关系型数据库的早期概念设计和表结构设计 2.2...
非零范围空间对象的索引方法--XZ序曲线索引
XZ-Ordering Method 1 背景 ...
分布式空间数据库「 6 」-- 空间填充曲线的聚簇性分析
空间填充曲线的聚簇性分析一、 概述先说结论,作者将曲线分为连续型(Hillbert、Peano等)、近连续型、非连续型(Z序、Morton等)分开讨论。 1.1 关于矩形查询的通用结论(1)对于固定尺寸的“矩形查询 $r$ ”,存在一个平均簇值的最优解(下限)。 (2)上述最优解(下限)受限于 $r$ 的体积(用r中的单元数做量化)和形状(用 $r$中各维度上的边数来量化)。 (3)通常连续性曲线较非连续型曲线更接近最优解(下限)。 (4)对于固定尺寸的“矩形查询 $r$ “ ,仅考虑部分旋转集时,总是构造一种连续型曲线,使其平均簇值达到最优值(下限)。 (5)对于固定尺寸的“矩形查询 $r$”,考虑其全旋转集时,所有连续型曲线的平均簇值都是最优解。 1.2 关于连续型曲线的结论(1)对于连续型填充曲线,通过将某个查询 $g$ 在各维度上做所有可能的平移后,得出统计结论: 该情况下,查询 $g$ 的平均簇值仅和 $g$ 的体积(用 $g$ 内的单元数做量化)、形状(用 $g$...
基于空间填充曲线的降维方法
#refplus, #refplus li{ padding:0; margin:0; list-style:none; }; document.querySelectorAll(".refplus-num").forEach((ref) => { let refid = ref.firstChild.href.replace(location.origin+location.pathname,''); let refel = document.querySelector(refid); let refnum = refel.dataset.num; let ref_content = refel.innerText.replace(`[${refnum}]`,''); tippy(ref, { content: ref_content, ...
基于列族数据库构建分布式空间数据库
基于列族数据库构建分布式空间数据库 摘要: 在海量空间数据的分布式存储管理方案中,在已有成熟的分布式数据库之上实现空间数据组织和索引,是一种比较便利的方法。本文以GeoMesa为例,探讨其中的主要实现技术机理。主要技术点来自于Anthony Fox等人2013年发表的论文Spatio-temporal Indexing in Non-relational Distributed Databases,James N. Hughes等人2015年发表的“GeoMesa: a distributed architecture for spatio-temporal fusion”论文,以及GeoMesa的官方文档。 1 背景知识 移动传感器、微博等提供了大量带有地理标记的数据,在数量、速度和多样性方面呈现出典型大数据的4V特征。 这使人们不得不考虑使用诸如Accumulo和HBase之类的分布式数据库来管理这些海量数据。...
空间大数据引擎综述文章:大数据时代的空间数据引擎
大数据时代的空间数据引擎【摘要】本文是有关分布式空间数据库相关空间大数据库技术的综述性文章,主要包括几个方面:(1)目前三种主要的分布式空间数据库类型;(2)目前三种重要的分布式空间数据库的实现途径;(3)六个分布式数据库重点考虑的技术点,其中核心是空间索引模型、查询方法和查询语言;(4)三类主要的空间索引模型;(5)空间运算及空间查询方法,有关具体查询算法和空间索引模型密切相关,本文不做过多细节展开;(6)空间查询语言,由于目前不是本人关注重点,暂略,待后面补充。希望通过本文的介绍,让同学们能够对当前分布式空间数据库的技术现状有所了解,更多技术细节请参考文中列出的链接或参考文献,自信深入阅读。 一、分布式空间数据库的三种类型 根据目前空间大数据存储、组织和计算的现状,初步梳理如下: 3.1 以专业应用为重点,基于并行数据库的系统 以Parallel...