信息抽取技术进展【4】 -- 新的挑战
信息抽取技术进展【4】-- 新的挑战
【摘要 】行业知识图谱是行业认知智能化应用的基石。目前在大部分细分垂直领域中,行业知识图谱的schema构建依赖领域专家的重度参与,该模式人力投入成本高,建设周期长,同时在缺乏大规模有监督数据的情形下的信息抽取效果欠佳,这限制了行业知识图谱的落地且降低了图谱的接受度。本文对与上述schema构建和低资源抽取困难相关的最新技术进展进行了整理和分析,其中包含我们在半自动schema构建方面的实践,同时给出了Document AI和长结构化语言模型在文档级信息抽取上的前沿技术分析和讨论,期望能给同行的研究工作带来一定的启发和帮助。
【引自】万字综述:行业知识图谱构建最新进展
作者:李晶阳[1],牛广林[2],唐呈光[1],余海洋[1],李杨[1],付彬[1],孙健[1]
单位:阿里巴巴-达摩院-小蜜Conversational AI团队[1],北京航空航天大学计算机学院[2]
新的挑战
1 文档级信息抽取难题
在实际项目中,除了从句子和段落中进行实体和关系抽取之外,我们还面临从文档中进行信息抽取的新挑战。下面两图是保险合同相关的pdf文档 ...
信息抽取技术进展【2】 --命名实体识别技术
信息抽取技术进展【2】-- 命名实体识别
【摘要 】领域知识图谱是行业认知智能化应用的基石。目前在大部分细分垂直领域中,领域知识图谱的schema构建依赖领域专家的重度参与,该模式人力投入成本高,建设周期长,同时在缺乏大规模有监督数据的情形下的信息抽取效果欠佳,这限制了领域知识图谱的落地且降低了图谱的接受度。本文对与上述schema构建和低资源抽取困难相关的最新技术进展进行了整理和分析,其中包含我们在半自动schema构建方面的实践,同时给出了Document AI和长结构化语言模型在文档级信息抽取上的前沿技术分析和讨论,期望能给同行的研究工作带来一定的启发和帮助。
【引自】万字综述:领域知识图谱构建最新进展
作者:李晶阳[1],牛广林[2],唐呈光[1],余海洋[1],李杨[1],付彬[1],孙健[1]
单位:阿里巴巴-达摩院-小蜜Conversational AI团队[1],北京航空航天大学计算机学院[2]
1. 简介
命名实体识别(Named Entity Recognition,简称NER),是指识别文本中具有特定含义的实体及类型。常用NER数据集中的实体类型主 ...
信息抽取技术进展【2】 --命名实体识别及关系抽取
信息抽取技术进展【1】-- 概述
【摘要 】从非结构化文本中提取对人类有意义的信息,是自由文本在DIKW金字塔中从数据层提升至知识层的关键性步骤,而其主要实现手段就是信息抽取,即将自由文本转换为结构化文本。本文对信息抽取技术做一简单介绍。
【引自】李晶阳、牛广林等的**《万字综述:行业知识图谱构建最新进展》**等文章
1. 引言
从计算到感知再到认知的人工智能技术发展路径已经成为大多人工智能研究和应用专家的共识。机器具备认知智能,进而实现推理、归纳、决策甚至创作,在一定程度上需要一个充满知识的大脑。知识图谱 [4, 18, 19],作为互联网时代越来越普及的语义知识形式化描述框架,已成为推动人工智能从感知能力向认知能力发展的重要途径。
知识图谱的应用现在非常广泛:
在通用领域
Google、百度等搜索公司利用其提供智能搜索服务,IBM Waston问答机器人、苹果的Siri语音助手和Wolfram Alpha都利用图谱来进行问题理解、推理和问答;
在各垂直领域
行业数据也在从大规模数据到图谱化知识快速演变,且基于图谱形式的行业知识,对智能客服、智能决策、智 ...