信息抽取技术进展【2】 --命名实体识别技术
信息抽取技术进展【2】-- 命名实体识别
【摘要 】领域知识图谱是行业认知智能化应用的基石。目前在大部分细分垂直领域中,领域知识图谱的schema构建依赖领域专家的重度参与,该模式人力投入成本高,建设周期长,同时在缺乏大规模有监督数据的情形下的信息抽取效果欠佳,这限制了领域知识图谱的落地且降低了图谱的接受度。本文对与上述schema构建和低资源抽取困难相关的最新技术进展进行了整理和分析,其中包含我们在半自动schema构建方面的实践,同时给出了Document AI和长结构化语言模型在文档级信息抽取上的前沿技术分析和讨论,期望能给同行的研究工作带来一定的启发和帮助。
【引自】万字综述:领域知识图谱构建最新进展
作者:李晶阳[1],牛广林[2],唐呈光[1],余海洋[1],李杨[1],付彬[1],孙健[1]
单位:阿里巴巴-达摩院-小蜜Conversational AI团队[1],北京航空航天大学计算机学院[2]
1. 简介
命名实体识别(Named Entity Recognition,简称NER),是指识别文本中具有特定含义的实体及类型。常用NER数据集中的实体类型主 ...
信息抽取技术进展【2】 --命名实体识别及关系抽取
信息抽取技术进展【1】-- 概述
【摘要 】从非结构化文本中提取对人类有意义的信息,是自由文本在DIKW金字塔中从数据层提升至知识层的关键性步骤,而其主要实现手段就是信息抽取,即将自由文本转换为结构化文本。本文对信息抽取技术做一简单介绍。
【引自】李晶阳、牛广林等的**《万字综述:行业知识图谱构建最新进展》**等文章
1. 引言
从计算到感知再到认知的人工智能技术发展路径已经成为大多人工智能研究和应用专家的共识。机器具备认知智能,进而实现推理、归纳、决策甚至创作,在一定程度上需要一个充满知识的大脑。知识图谱 [4, 18, 19],作为互联网时代越来越普及的语义知识形式化描述框架,已成为推动人工智能从感知能力向认知能力发展的重要途径。
知识图谱的应用现在非常广泛:
在通用领域
Google、百度等搜索公司利用其提供智能搜索服务,IBM Waston问答机器人、苹果的Siri语音助手和Wolfram Alpha都利用图谱来进行问题理解、推理和问答;
在各垂直领域
行业数据也在从大规模数据到图谱化知识快速演变,且基于图谱形式的行业知识,对智能客服、智能决策、智 ...
数据、信息、知识与智慧----知识金字塔
数据、信息、知识与智慧----知识金字塔模型
1 知识金字塔
正确地理解知识,需要从知识金字塔开始说起,通过多层次的概念梳理,有助于理解知识的内涵。知识金字塔是指“数据-信息-知识-智慧”层次结构(DIKW)模型,也被称为“知识层次结构”、“信息层次结构”等,是被广泛认可的信息和知识模型。
DIKW层次结构用于关联数据、信息、知识和智慧的上下文关系,并标识和描述层次结构中较低级别的实体(如数据)向高级别实体(如信息)转换所涉及的过程。 需要注意的是,知识金字塔模型中通常隐含着如下假设:数据可用于创建信息,信息可以用于创造知识,知识可用于创造智慧。 而Ackoff [1]认为:该层次结构模型中,每个较高类型“都包括低于它的类型”。
2 相关概念的讨论
多年来,相当多的注意力主要集中在信息和知识的定义和区别上。
(1)信息的本质
因为信息是我们生存的基础,因此已被许多学科所考虑,包括传播理论、图书馆与信息科学、信息系统、认知科学和组织科学等。这对信息的性质产生了多种观点。
弗洛里迪(Floridi)建议,“在我们一般的技术概念中,信息是目前最重要、应用最广泛、但了解最少的信息 ...
基于图的知识表示方法
基于图的知识表示方法
摘要:
在知识表示方法的演进过程中,图模型因为其结构性、联想性、自然性、易于人类理解等优点,已经成为知识表示的基础模型。从框架表示法、语义网络表示法、逻辑程序标识法、语义网络表示法、语义网和知识图谱中,能够看到图模型在知识表示方法中的逐步演化历史。目前,基于图的知识表示方法主要聚焦在RDF数据模型和图属性数据模型两种类型。其中:
(1)RDF数据模型由从互联网领域发起,W3C制定了丰富的语义网技术栈作为知识表示的一个阶段性成果,并已经成为知识表示的事实标准;相关知识点在第1、2、3、4节中。
(2)图属性数据模型由工业界和学术界组成的关联数据基准委员会(LDBC)提出,并正在以属性图为基础对图数据模型、图查询语言进行标准化;相关知识点在第5节中。
一、 基于图的知识表示技术框架
1.1 语义网技术栈的发展过程
1.2 语义网技术栈的主要内容
二、RDF模型—RDF资源描述框架
2.1 RDF概述
RDF:资源描述框架(Resource Description Framework, RDF)是一种用于在Web中表示信息的通 ...
Ontology、Taxonomy、Folksonomy和Thesauri的不同
Difference of Ontology, Taxonomy, Folksonomy and Thesauri
The purpose of this article is to provide a little more information about taxonomies, folksonomies, ontologies and thesauri and their roles in information retrieval.
1. Background
Two indexing languages are generally used when indexing or searching for information in retrieval systems such as databases and the Internet. These are natural language and controlled vocabularies.
Controlled vocabularies are restricted lists of words ...
概念解释
为什么要进行图嵌入?
**【摘要】**图模型存在于真实世界的广泛场景中。例如:社交网络中的人及其联系、生物蛋白质及其作用、通信网络IP地址及其通信等。此外,常见的图片、句子也可抽象为图模型。因此,图模型可以说是无处不在。 基于图模型可以解决很多应用中的实际问题,例如:社交网络中新关系的预测、生物分子中蛋白质功能和相互作用的预测、通信网络中异常事件的预测等。传统图模型采用“One-hot变量+邻接矩阵”的方式来表示图结构,数据纬度高、计算复杂度高,对于下游任务的效率和实现影响非常大。图嵌入正是对图模型进行表达的一种新方法,而且在实际研究和应用中被证明为一种非常有效的技术。
1. 什么是图嵌入(graph embedding)?
图嵌入是一种将图数据(通常为高维稀疏的矩阵)映射为低纬度稠密向量的过程,如图。图嵌入需要捕捉到图的拓扑结构,顶点与顶点的关系,以及其他的信息(如子图,连边等)。如果有更多的信息被表示出来,那么下游的任务将会获得更好的表现。在嵌入的过程中存在着一种共识:向量空间中保持连接的节点彼此靠近。基于此,研究者提出了拉普拉斯特征映射(Laplacian ...
知识表示与知识图谱
知识表示与知识图谱
摘要:
与⼈类⾃然语⾔、绘画、⾳乐、数学语⾔、物理模型、化学公式等类似,人类需要有一种表示和传承形式,来获取、表示和处理知识,这也是⼈类⼼智区别于其它物种⼼智的重要特征。当与计算机系统结合后,就出现了在计算机中如何表达知识的问题,即人类知识的表达方法问题。本文概述了知识表示的主要理论和技术方法,并扩大到采用什么方式来实现知识表示的问题,即知识图谱建模。
一、 知识表示问题
开放性问题:
人类可以用语言、文字、绘画、音乐等形式表达某个方面的思想,但如何表达人类的知识呢?
知识到底是什么?知识的特点是什么?知识与上述其他方式又有什么本质区别呢?
如何在概念层面、逻辑层面和物理层面表示知识呢?
知识表示:
⽤易于计算机处理的⽅式来描述⼈脑的知识
知识表示与其他形式的最大不同不在于数据格式、数据结构或编程语⾔
知识表示与其他表达方式之间最大的区别在于:知识表示⽀持推理
从当前的研究现状来看,基于图的知识表示方法成为被广泛采纳的方法
知识表⽰⽅法为知识图谱的概念建模提供了理论基础
知识图谱:
旨在建模、识别、发现和推断事物、概念之间的复 ...
领域知识图谱技术概览
领域知识图谱技术概览
一、 领域知识图谱的特点
与搜索引擎、百科等通用领域知识图谱不同,在垂直应用领域的知识图谱基于行业或领域数据构建,通常:
具有更丰富、严格的数据模式(通常具备一定基础,具有多样的结构化、半结构化和结构化数据基础)
具有更好的领域知识深度要求(知识内容要求更丰富、更专业、质量更高)
具有更高的准确性要求(知识推理的准确性需求更高)
二、领域知识图谱的构建流程
与通用知识图谱的构建过程相似,大致包括以下几个阶段:
2.1 领域知识建模阶段
前提条件:需要具备知识图谱模型的基础知识(掌握关系模型,虽然现在缺少统一的模型)
主要目的:确定知识体系的结构(根据需求定义概念、实体、属性、关系、事件等基本要素)
输入:业务应用需求
输出:知识图谱的Schema(借助关系型数据库的概念)
建模方法:与关系型数据库相似,存在自顶向下和自底向上两种设计思路,对于习惯关系型数据库的人肯能在思维方式上需要做转换;
主要内容:知识图谱的语义描述框架、Schema与本体、知识交换语法、实体命名及ID体系等
类比:类似于关系型数据库的早期概念设计和表结构设计
2.2 领域知 ...