西山晴雪的知识笔记

发表于2021-04-10|基础理论知识知识图谱

知识图谱数据管理综述：模型、方法和系统【摘要】随着人工智能的兴起，知识图谱被广泛认为是人工智能的基石。近年来，学术界和工业界构建并发布了越来越多的大规模知识图。知识图本质上是一个由实体、实体属性、实体间语义关系以及本体组成的大型网络。这种基于图的知识数据对传统数据管理理论和技术提出了巨大的挑战。本文介绍了知识图谱数据管理的研究现状，包括知识图谱数据模型、查询语言、存储方案、查询处理和推理。本文还将介绍各种知识图数据库管理系统的最新发展趋势。【原文】Wang, X. and W. Chen (2020). Knowledge Graph Data Management: Models, Methods, and Systems. Web Information Systems Engineering （WISE 2020）: 3-12. 【DOI】https://doi.org/10.1007/978-981-15-3281-8_1 1 概况知识图作为符号主义的最新发展，近年来被学术界和产业界广泛认为是人工智能的重要基石。目前，具有数百万个顶点( 10610^6106 ...

信息抽取技术进展【4】 -- 新的挑战

发表于2021-03-25|基础理论知识知识图谱

信息抽取技术进展【4】-- 新的挑战【摘要】行业知识图谱是行业认知智能化应用的基石。目前在大部分细分垂直领域中，行业知识图谱的schema构建依赖领域专家的重度参与，该模式人力投入成本高，建设周期长，同时在缺乏大规模有监督数据的情形下的信息抽取效果欠佳，这限制了行业知识图谱的落地且降低了图谱的接受度。本文对与上述schema构建和低资源抽取困难相关的最新技术进展进行了整理和分析，其中包含我们在半自动schema构建方面的实践，同时给出了Document AI和长结构化语言模型在文档级信息抽取上的前沿技术分析和讨论，期望能给同行的研究工作带来一定的启发和帮助。【引自】万字综述：行业知识图谱构建最新进展作者：李晶阳[1]，牛广林[2]，唐呈光[1]，余海洋[1]，李杨[1]，付彬[1]，孙健[1] 单位：阿里巴巴-达摩院-小蜜Conversational AI团队[1]，北京航空航天大学计算机学院[2] 新的挑战 1 文档级信息抽取难题在实际项目中，除了从句子和段落中进行实体和关系抽取之外，我们还面临从文档中进行信息抽取的新挑战。下面两图是保险合同相关的pdf文档 ...

信息抽取技术进展【3】 -- 关系抽取技术

发表于2021-03-25|基础理论知识知识图谱

信息抽取技术进展【3】-- 关系抽取技术【摘要】行业知识图谱是行业认知智能化应用的基石。目前在大部分细分垂直领域中，行业知识图谱的schema构建依赖领域专家的重度参与，该模式人力投入成本高，建设周期长，同时在缺乏大规模有监督数据的情形下的信息抽取效果欠佳，这限制了行业知识图谱的落地且降低了图谱的接受度。本文对与上述schema构建和低资源抽取困难相关的最新技术进展进行了整理和分析，其中包含我们在半自动schema构建方面的实践，同时给出了Document AI和长结构化语言模型在文档级信息抽取上的前沿技术分析和讨论，期望能给同行的研究工作带来一定的启发和帮助。【引自】万字综述：行业知识图谱构建最新进展作者：李晶阳[1]，牛广林[2]，唐呈光[1]，余海洋[1]，李杨[1]，付彬[1]，孙健[1] 单位：阿里巴巴-达摩院-小蜜Conversational AI团队[1]，北京航空航天大学计算机学院[2] 1. 简介关系抽取指的是对给定的实体对之间的关系类型进行分类。相较于OpenIE中的不固定类型的关系抽取，本部分所讲的关系抽取统指固定关系类别集合的关系抽取。 ...

信息抽取技术进展【2】 --命名实体识别技术

发表于2021-03-25|基础理论知识知识图谱

信息抽取技术进展【2】-- 命名实体识别【摘要】领域知识图谱是行业认知智能化应用的基石。目前在大部分细分垂直领域中，领域知识图谱的schema构建依赖领域专家的重度参与，该模式人力投入成本高，建设周期长，同时在缺乏大规模有监督数据的情形下的信息抽取效果欠佳，这限制了领域知识图谱的落地且降低了图谱的接受度。本文对与上述schema构建和低资源抽取困难相关的最新技术进展进行了整理和分析，其中包含我们在半自动schema构建方面的实践，同时给出了Document AI和长结构化语言模型在文档级信息抽取上的前沿技术分析和讨论，期望能给同行的研究工作带来一定的启发和帮助。【引自】万字综述：领域知识图谱构建最新进展作者：李晶阳[1]，牛广林[2]，唐呈光[1]，余海洋[1]，李杨[1]，付彬[1]，孙健[1] 单位：阿里巴巴-达摩院-小蜜Conversational AI团队[1]，北京航空航天大学计算机学院[2] 1. 简介命名实体识别（Named Entity Recognition，简称NER），是指识别文本中具有特定含义的实体及类型。常用NER数据集中的实体类型主 ...

信息抽取技术进展【2】 --命名实体识别及关系抽取

发表于2021-03-25|基础理论知识知识图谱

信息抽取技术进展【1】-- 概述【摘要】从非结构化文本中提取对人类有意义的信息，是自由文本在DIKW金字塔中从数据层提升至知识层的关键性步骤，而其主要实现手段就是信息抽取，即将自由文本转换为结构化文本。本文对信息抽取技术做一简单介绍。【引自】李晶阳、牛广林等的**《万字综述：行业知识图谱构建最新进展》**等文章 1. 引言从计算到感知再到认知的人工智能技术发展路径已经成为大多人工智能研究和应用专家的共识。机器具备认知智能，进而实现推理、归纳、决策甚至创作，在一定程度上需要一个充满知识的大脑。知识图谱 [4, 18, 19]，作为互联网时代越来越普及的语义知识形式化描述框架，已成为推动人工智能从感知能力向认知能力发展的重要途径。知识图谱的应用现在非常广泛：在通用领域 Google、百度等搜索公司利用其提供智能搜索服务，IBM Waston问答机器人、苹果的Siri语音助手和Wolfram Alpha都利用图谱来进行问题理解、推理和问答；在各垂直领域行业数据也在从大规模数据到图谱化知识快速演变，且基于图谱形式的行业知识，对智能客服、智能决策、智 ...

数据、信息、知识与智慧----知识金字塔

发表于2021-03-25|基础理论知识知识图谱

数据、信息、知识与智慧----知识金字塔模型 1 知识金字塔正确地理解知识，需要从知识金字塔开始说起，通过多层次的概念梳理，有助于理解知识的内涵。知识金字塔是指“数据-信息-知识-智慧”层次结构（DIKW）模型，也被称为“知识层次结构”、“信息层次结构”等，是被广泛认可的信息和知识模型。 DIKW层次结构用于关联数据、信息、知识和智慧的上下文关系，并标识和描述层次结构中较低级别的实体（如数据）向高级别实体（如信息）转换所涉及的过程。需要注意的是，知识金字塔模型中通常隐含着如下假设：数据可用于创建信息，信息可以用于创造知识，知识可用于创造智慧。而Ackoff [1]认为：该层次结构模型中，每个较高类型“都包括低于它的类型”。 2 相关概念的讨论多年来，相当多的注意力主要集中在信息和知识的定义和区别上。（1）信息的本质因为信息是我们生存的基础，因此已被许多学科所考虑，包括传播理论、图书馆与信息科学、信息系统、认知科学和组织科学等。这对信息的性质产生了多种观点。弗洛里迪（Floridi）建议，“在我们一般的技术概念中，信息是目前最重要、应用最广泛、但了解最少的信息 ...

地理知识图谱「 2 」-- 地理信息抽取技术

发表于2020-05-27|地理知识图谱知识获取与融合地理文本与社交媒体

地理信息抽取–未来地理信息科学中的皇冠摘要：根据前文，地理知识图谱主要分为两个大的研究领域或流派，其中地理知识图谱以领域地理知识库建设为重点，其中利用地理信息抽取技术完善、丰化知识库内容是较为核心的技术点。本文是对地理信息抽取技术的概览，希望有助于对该技术方向的了解和把握。 1. 位置搜索对地理信息抽取的现实性需求互联网领域中大部分信息搜索查询中明确包含地理搜索词例如：以地名的形式（Gan等人，2008年；Aloteibi和Sanderson，2014年） 80%的互联网用户会利用位置搜索引擎获取本地商业服务、产品或其他领域知识在移动应用蓬勃发展的当下，基于位置的知识服务成为核心功能以用户当前或预测位置为基础提供实时地理知识图谱上下文信息（Reichenbacher等人，2016）。 2. 地理信息抽取的必要性信息和知识服务的现状搜索引擎领域：尽管在位置搜索上投入了大量资金，但大部分检索结果局限于商业目录中的信息知识服务领域：大量领域知识有待于数字化、信息化，并最终转换为知识内容提供服务机遇：随着Web2.0/3 ...

Ontology、Taxonomy、Folksonomy和Thesauri的不同

发表于2020-05-15|基础理论知识知识图谱

Difference of Ontology, Taxonomy, Folksonomy and Thesauri The purpose of this article is to provide a little more information about taxonomies, folksonomies, ontologies and thesauri and their roles in information retrieval. 1. Background Two indexing languages are generally used when indexing or searching for information in retrieval systems such as databases and the Internet. These are natural language and controlled vocabularies. Controlled vocabularies are restricted lists of words ...

基于图的知识表示方法

发表于2020-05-15|基础理论知识知识图谱

基于图的知识表示方法摘要：在知识表示方法的演进过程中，图模型因为其结构性、联想性、自然性、易于人类理解等优点，已经成为知识表示的基础模型。从框架表示法、语义网络表示法、逻辑程序标识法、语义网络表示法、语义网和知识图谱中，能够看到图模型在知识表示方法中的逐步演化历史。目前，基于图的知识表示方法主要聚焦在RDF数据模型和图属性数据模型两种类型。其中：（1）RDF数据模型由从互联网领域发起，W3C制定了丰富的语义网技术栈作为知识表示的一个阶段性成果，并已经成为知识表示的事实标准；相关知识点在第1、2、3、4节中。（2）图属性数据模型由工业界和学术界组成的关联数据基准委员会(LDBC)提出，并正在以属性图为基础对图数据模型、图查询语言进行标准化；相关知识点在第5节中。一、基于图的知识表示技术框架 1.1 语义网技术栈的发展过程 1.2 语义网技术栈的主要内容二、RDF模型—RDF资源描述框架 2.1 RDF概述 RDF：资源描述框架（Resource Description Framework, RDF）是一种用于在Web中表示信息的通 ...

概念解释

发表于2020-05-15|基础理论知识知识图谱

为什么要进行图嵌入？ **【摘要】**图模型存在于真实世界的广泛场景中。例如：社交网络中的人及其联系、生物蛋白质及其作用、通信网络IP地址及其通信等。此外，常见的图片、句子也可抽象为图模型。因此，图模型可以说是无处不在。基于图模型可以解决很多应用中的实际问题，例如：社交网络中新关系的预测、生物分子中蛋白质功能和相互作用的预测、通信网络中异常事件的预测等。传统图模型采用“One-hot变量+邻接矩阵”的方式来表示图结构，数据纬度高、计算复杂度高，对于下游任务的效率和实现影响非常大。图嵌入正是对图模型进行表达的一种新方法，而且在实际研究和应用中被证明为一种非常有效的技术。 1. 什么是图嵌入（graph embedding）？图嵌入是一种将图数据（通常为高维稀疏的矩阵）映射为低纬度稠密向量的过程,如图。图嵌入需要捕捉到图的拓扑结构，顶点与顶点的关系，以及其他的信息（如子图，连边等）。如果有更多的信息被表示出来，那么下游的任务将会获得更好的表现。在嵌入的过程中存在着一种共识：向量空间中保持连接的节点彼此靠近。基于此，研究者提出了拉普拉斯特征映射（Laplacian ...