信息抽取技术进展【1】– 概述

【摘要 】从非结构化文本中提取对人类有意义的信息,是自由文本在DIKW金字塔中从数据层提升至知识层的关键性步骤,而其主要实现手段就是信息抽取,即将自由文本转换为结构化文本。本文对信息抽取技术做一简单介绍。

【引自】李晶阳、牛广林等的《万字综述:行业知识图谱构建最新进展》等文章

1. 引言

​ 从计算到感知再到认知的人工智能技术发展路径已经成为大多人工智能研究和应用专家的共识。机器具备认知智能,进而实现推理、归纳、决策甚至创作,在一定程度上需要一个充满知识的大脑。知识图谱 [4, 18, 19],作为互联网时代越来越普及的语义知识形式化描述框架,已成为推动人工智能从感知能力向认知能力发展的重要途径。

​ 知识图谱的应用现在非常广泛:

  • 在通用领域
    • Google、百度等搜索公司利用其提供智能搜索服务,IBM Waston问答机器人、苹果的Siri语音助手和Wolfram Alpha都利用图谱来进行问题理解、推理和问答;
  • 在各垂直领域
    • 行业数据也在从大规模数据到图谱化知识快速演变,且基于图谱形式的行业知识,对智能客服、智能决策、智能营销等各类智能化服务进行赋能。

2. 信息抽取的需求– 知识图谱构建

​ 随着Web2.0的出现,互联网中的文本数据不断增长,如何从这些数据中提取有用的信息非常重要。有效利用非结构化文本数据的一种可能方法是将其转换为结构化文本,这个过程被称为信息抽取(Information Extract,信息抽取)。信息抽取任务可以追溯到1970年,当时提出了一个名为JASPER的系统,该方法通过模板驱动方法和启发式方法来提取某些信息块[2]。信息抽取概念后来在1987年的消息理解会议(MUC)中得到了扩展,通常由不同的子问题组成,如:命名实体识别、关系提取等。

​ 信息抽取技术是构建知识图谱的基础支撑技术,可用于知识图谱的本体(or Schema)构建、知识库丰化、知识问答等多种应用场景。在实践中,知识图谱构建过程面临着很多挑战,而这些挑战都有赖于更为先进的信息抽取技术来解决。

需求与挑战1: 本体构建需求 – 如何自动或半自动地构建本体(schema)?

  • 知识图谱schema构建往往由对业务更加熟悉的业务专家来承担。尽管业务专家对业务更加擅长,但其对图谱及schema概念的理解和使用却有不小的启动成本,这直接导致业务专家无法快速从自身业务知识中抽象组织归纳出满足应用需求的图谱schema;

需求与挑战2:知识库丰化需求 – 低资源条件下如何有效获取知识?

  • 区别于通用领域所积累的大规模有监督数据资源,大部分细分垂直领域所能提供用以进行信息抽取的有监督资源是有限的。如何在有监督资源有限的情况下,如何从模型和行业数据的角度来提升三元组抽取的效率和性能,是行业信息抽取的核心挑战。

需求与挑战3:多元异构需求 – 如何面对文档结构多样性难题?

  • 越来越多的垂直领域图谱应用场景是以文档为直接源数据来进行,如何有效的解析各种类型的文档数据,以及设计合理的文档级信息抽取模型,也在行业图谱构建的诸多挑战中占据越来越核心的的位置。

3. 直观理解信息抽取需求

​ 知识图谱schema构建是构建知识图谱的首要步骤,但同时也是非常影响项目快速推进的环节之一。在基于知识图谱的应用在各类行业中落地的进程中,大部分行业没有接触过知识图谱,因而没有沉淀行业内的知识schema用以构建行业图谱。同时由于知识图谱的概念较新,行业业务专家需要一个从理解到熟练构建schema的过程,而此过程往往还需要算法人员的频繁介入。如此在一个新的行业中落地图谱相关的应用时,按照我们的项目经验,完整的schema构建往往需要消耗周级甚至月级的时间单位。

​ 在新的行业落地图谱应用时,为了节省图谱schema构建的时间和人力成本,需要一套半自动schema构建的方案,从而将schema构建的时间复杂度降到天级的时间单位。从信息抽取技术上来讲,面对一个新的行业,其业务知识的特点在于其开放性以及与过往领域知识的独立性,因此既需要开放信息抽取方法,也需要专门的技术方法支持。本文重点讨论开放信息抽取技术的。

4. 有关开放信息抽取的综述文献

由于信息抽取包含多个子任务,因此存在一些仅针对信息抽取自身的调查和综述,其中:

4.1 综述文献1【2018年】

参考文献[74]中的调研工作聚焦于基于模式的信息抽取技术:

  • 主要利用语义、句法和定界符信息实现信息抽取
  • 研究整理了从自由文本和在线文本中抽取信息的各种系统
    • 自由文本:
      • 指普通的语法英语文本
      • 工具:LIEP,AutoSlog,PALKA,CRYSTAL,WebFoot、HASTEN等
    • 在线文本:
      • 包含语法、电文和非语法文本的混合文本
      • 工具:WHISK,RAP信息抽取R、SRV等

4.2 综述文献2【2019年】

参考文献[75]中的调研工作将信息抽取的总体任务分解为五个主要任务:

(1)分词

  • 分词中的主要问题包括针对连字符、撇号、空格和句号的各种用法。这些问题通常通过采用规则库来解决。

  • 诸如中文之类的东方语言也带来了额外的挑战,这些挑战通常可以通过使用基于N-gram的模型和Viterbi算法来解决。

(2)命名实体识别

  • NER任务,除了基于简单规则的技术外,在这方面采用的主要机器学习技术包括支持向量机(SVM),条件随机字段(CRF),最大熵马尔可夫模型(MEMM),HiddenMarkov模型(HMM)和决策树分类器(DTC)。

(3)关系抽取

  • RE任务处理实体集之间关系的提取。执行RE的广泛使用的学习方法包括Markov模型(例如MEMM和CRF)以及上下文无关的语法。 HMM不用于此任务,因为此模型不适合捕获长期依赖关系。基于规则的方法也可以用于执行RE,其中语法信息的合并往往会提供更通用的规则。

(4)归一化

  • 通用性较低,需要领域相关信息支持,通常使用领域专家精心设计的转换规则和正则表达式来执行

(5)共指解析

  • 通用性较低,需要领域相关信息支持,通过基于规则的方法、DTC和聚类技术等各种方法来完成的。

上述调研工作主要集中在基于统计和基于规则的方法上,特别是在词向量(及其封装语义和句法信息的能力)出现之后,深度学习方法被广泛用于文本问题 。

4.3 综述文献3【2020年】

参考文献[76]中的调研工作将信息抽取的

5. 开放信息抽取技术概览

开放信息抽取(OpenIE)是指机器通过阅读、整合和梳理没有固定实体和关系类型的开放自由文本,自动从中抽取出结构化知识。

​ 一般来讲,OpenIE包含开放实体识别和开放实体关系抽取。由于schema构建涉及实体和关系,因此,这里的OpenIE特指开放实体关系抽取。

​ 举例来说,OpenIE从句子”阿里巴巴是总部设立在中国杭州的一家科技公司”中抽取出(”阿里巴巴”,”总部设立在”,”中国杭州”)和(”阿里巴巴”,”是”,”科技公司”)两个三元组。通常,OpenIE所抽取出的一般称SPO三元组,分别指Subject, Predicate, Object。

​ 此方向上的常用数据集包括FewRel [1,2],NYT-FB [6],OIE2016 [3] 等,评价指标是以预测的准确率,召回率和F1值为评价指标。

5.1 经典抽取方法

​ 较为经典OpenIE系统基本都是基于句法和语法规则加以相应的三元组判别器进行SPO抽取。以 TextRunner[5] 为例,其主要分为三个步骤:

  • 分类器训练

    • 基于语法解析得到名词性短语,以短语间的词语为关系并进行规则筛选构建三元组正样本,以随机替换等方式构建负样本,人工构建特征训练贝叶斯分类器;
  • 初步抽取

    • 如上对句子中的名词性短语和关系进行抽取,根据分类器判别所抽取的三元组是否可信;
  • 三元组筛选

    • 对所抽取出的关系进行基于规则的归一化,并统计三元组的频次。

    随着深度学习的发展和相关数据集的不断丰富,近年来,OpenIE方向也出现了一些基于深度学习的有监督和无监督的方法。

5.2 无监督抽取方法

DRWE模型

DRWE[7] 模型(见下图)采用无监督的方法进行开放关系识别。具体来说,其利用一些已有的工具识别出句子中的关键实体与实体对以及最短依存路径,之后结合预训练的词向量、实体对之间的最短依存路径和实体类型构建特征向量并进行PCA降维,进而通过层次聚类得到最终的关系聚类结果。

image-20210325123926075

RSN 模型

RSN模型[8](见下图)在已有的关系标注数据上,基于CNN模型训练了句子之间的语义匹配模型,并将此模型用于计算测试数据中句子之间的相似度矩阵,进而利用基于图的聚类算法Louvain进行不固定聚类类别的聚类。RSN模型在半监督、远程监督的关系识别任务上都取得了很好的效果。此类模型受限于已有实体识别和句法分析工具或者需要先验的标注数据进行更加精准的聚类,且其仅对关系进行聚类但没有进行显式的抽取。

image-20210325124002849

5.3 有监督抽取方法

RnnOIE模型

RnnOIE模型[9](见下图)采用有监督的方法,将OpenIE的SPO抽取建模为序列标注问题。具体来说,其将词的词向量和词性向量进行concat,输入到BiLSTM中,最终以softmax输出进行标签分类。近几年随着BERT的提出,大规模预训练模型带来了更好的泛化能力,Span Select的方法,因为其可以利用更多语义信息,渐渐开始超越了传统OpenIE上基于CRF的相关方法。

image-20210325134533951

RnnOIE-SupervisedRL模型

​ 由于大规模标注数据很难获取,**RnnOIE-SupervisedRL[73]**模型(见下图)首先基于句法和语义规则自动进行大规模抽取,在此数据上训练RnnOIE模型,得到初步的抽取模型。为了增强模型的准确性,RnnOIE-SupervisedRL对前述初步抽取模型,采用强化学习的训练机制进行了进一步训练,其reward是由抽取结果的基于head match的句法满足度和基于Bert的预训练模型给出的语义匹配度的乘积得到。

​ 实验证实,上述模型在OIE2016数据集上的F1值由20.4% 提升到了32.5%,两个子模型分别贡献了约4% 和8% 的提升。上述模型目前所考虑的SPO形式还较为简单,对于复杂情形(如包含一个SP,多个O的句子)的处理还需进行深入研究。

5.4 生成式模型方法

Neural OpenIE模型

Neural OpenIE[11] 将Encoder-Decoder架构引入到OpenIE任务中来,从而将信息的抽取模式转化为信息的生成模式。此模式可以有效解决隐式Predicate抽取问题,比如从句子”张三,90后,喜爱二次元”中抽取出(张三,出生年代,90后),其中”出生年代”是隐式的Predicate。此类方法面临和前述有监督方法相同的复杂信息抽取和信息归一的困难。

6. 开放信息抽取的常用数据集

3信息抽取常用的数据集

​ 数据集是信息抽取任务的主要组成部分,因为它们用于训练和测试各种技术。 本节介绍主要基准数据集,这些数据广泛用于评估各种新技术。

For detailed log of available datasets for NER in English and various other languages, visit Github.

6.1 MUC预料库

​ MUC(Message Understanding Conference Corpus)专注于模板提取的任务,以识别命名实体(NE)、实体之间关系以及事件检测为主。 在后者中,此任务分为基于场景的模板提取,其中在某些事件的上下文中提取实体及其关系信息。 基于模板的提取,主要处理实体之间的RE任务。 在从MUC-2到此系列的一系列任务中,已经提供了模板,需要用算法填充。 而在MUC-1中,没有预定义模板,因此任务相当开放。 MUC-6和MUC-7通过分别添加NER和共指分辨率的任务来扩展了以前的版本。 MUC-3和MUC-4数据集是公开可用的,而MUC-6和MUC-7是专有的[3]。

6.2 ACE语料库

​ ACE(Automatic Content Extraction corpus)由来自广播成绩单,新闻通讯社和报纸的数据构成,这些数据以英语,中文和阿拉伯语显示。 它是RE中使用最广泛的数据集。 该数据集分别包含训练和测试数据。 ACE词汇表由代表对象的实体,提及和关系,对对象的引用以及对象之间的关系组成。 在ACE中,提及具有三个级别:名称,名义表达和代词,ACE任务进一步分类为实体检测和跟踪(EDT),关系检测和表征(RDC),事件检测和特征化(EDC),实体链接(LNK)和时间戳记。 表2简要概述了随着时间的推移在ACE语料库上正在执行的各种ACE任务,以及所涉及的语言。 紧随其后的是文本分析会议中的知识库人口跟踪。

6.3 CoNLL语料库

​ 计算自然语言学习会议(CoNLL,Conference on Computational Natural Language Learning Corpus)主要关注自然语言理解。 在NER任务的上下文中,它处理四种主要类型的NE,包括位置名称,人员名称,组织名称和其他名称。 所有这些实体均从新闻专线进行注释。 表3列出了有关CoNLL数据集的详细信息。

6.4 OntoNotes语料库

​ OntoNotes数据集是在美国各地不同机构之间的共同努力下开发的。其目的是构建一个大型的带有人类注释的语料库,包含各种文本数据类型,包括不同语言的电话语音,广播,新闻,脱口秀等。 它已被广泛用于评估NER问题。 表4中提供了有关OntoNotes数据集的详细信息。每个新发行版均包含以前发行版中的数据。 因此,下表中的“源类型”列仅突出显示不属于先前发行版的新数据源。 由于数据源种类繁多,OntoNotes是NER的最大,最具挑战性的基准数据集之一,总共包含大约2,945,000个令牌。

6.5 Sem-Eval语料库

​ Semantic Evaluation (Sem-Eval) Corpus是一年一度的研讨会,致力于解决面向语义的问题。 它的存储库包含广泛用于执行不同信息抽取任务的各种数据集。 广泛使用的任务包括2010年Sem-Eval的RE任务。2017年Sem-Eval的任务还包括着重于从科学文章中提取实体和关系。

6.6 其他语料库

​ 存在各种医疗仓库。 广泛使用的存储库包括MEDLINE,PubMed和PubMed Central(PMC)等。

  • MEDLINE是国家医学图书馆的期刊引文数据库,其中载有约24M的生物学和生命科学期刊参考文献。

  • PubMed包含来自各种生物医学文献资料库的超过2700万篇引文,其中包括在线书籍,生命科学期刊和MEDLINE。

  • PMC载有针对生物医学和生命科学期刊文章的全文科学文章。

  • GENIA数据集是面向信息抽取的任务中广泛使用的医学资源之一。 它包含手动标记的命名实体,包括各种化合物以及与蛋白质反应有关的各种生物学方向信息。 GENIA数据集基于GENIA本体,目前包含MEDLINE的2,000个摘要。除了医学数据集外,还组织了一些研讨会或任务来解决资源匮乏的语言的信息抽取问题。

  • 此外,表5列出了一些非英语资源以及简要说明。

7. 实践 – 半自动 schema 构建**

​ 在基于知识图谱的问答(KBQA)中,我们实现了基于问句的半自动schema构建(从问题出发构建本体)。以公积金场景为例,下图展示了公积金图谱schema的一部分,算法做的是从用户的大量问句中抽取”公积金”为subject,”缴存”、”提取”、”启封”为predicate。同时由于实际中涉及一些复合类型属性(compound value type),比如”提取”属性是复合类属性,因其含有限制属性”提取地点”和”公积金用途”。如后面基于GNN的抽取图所示,算法是从问句集中抽取(公积金,抽取,租赁住房),再由业务方校验和进一步抽象为(公积金,抽取,公积金用途)。因此,算法最终要从问句中抽取出subject, predicate和constaint三部分,分别对应前述例子中的 “公积金”,”抽取”和 “租赁住房”。

(1)基于句法的 pipeline 式抽取

​ 我们采用subject-predicate-constraint的pipeline抽取模型,方案逻辑大致为:首先对问句文本进行聚类(不固定聚类数目),然后从每个聚类簇中抽取一个三元组(实体,主属性,限制条件/子属性值),其中实体,主属性,限制条件/子属性值为词汇或者短语,例如三元组(公积金,提取,租赁住房)。我们首先实现了以依存句法分析为核心的Deductive抽取流程(如下图所示),其中主要包括层次聚类,关键词/短语抽取与对齐,词性分布归纳,Subject、Predicate、Constraint抽取等模块。

▲ 基于句法的pipeline式抽取图

(2)基于 GNN 的抽取

​ 我们发现上述方案没有很好的考虑各类依存句法逻辑之间的综合关系,且泛化性能有限。因此,在上述方案基础上,设计并实现了将聚类簇图结构化,并借鉴知识图谱上图卷积神经网络方法进行建模的方案。为了达到领域无关的效果,图结构中节点的embedding表示是基于词汇在簇词汇集中的位置onehot表示生成得到。从实际效果来看,基于GNN的模型相较于第一个版本的模型具有更好的泛化性和准召率。下图给出和(公积金,提取,租赁住房)相关的聚类簇图结构化的展示例子。

▲ 基于GNN的抽取图

8. 小结**

​ 从行业知识图谱的schema构建出发,本节介绍了开放信息抽取(OpenIE)与schema构建的之间的关系,并对OpenIE中的基于规则、基于监督数据以及基于生成式的模型进行了介绍。同时,本节还介绍了在KBQA场景下,由OpenIE启发,基于用户问句的半自动schema构建算法的简要介绍。虽然我们实现了基于问句的半自动schema构建的初步版本,但在真实落地中还存在很多挑战和困难,后续我们可能在如下方向进行深入探索:

  • 复杂样本,如一个聚类簇包含一个SP,多个O的情形;

  • 将行业预训练语言模型引入来提升模型的泛化性;

  • 借助OpenIE中的生成式模型来抽取问句中隐含的属性或者条件信息,如”我今年56了,能购买康宁保险吗?”中”我今年56”的隐含条件信息是”年龄”。

​ 知识图谱schema的构建完成类似于关系型数据库中的表名和表中的栏位名确定了,之后就需要向表中填充真实的数据。由于知识图谱由(实体,关系,实体)三元组构成,因此后续构建的关键在于实体识别和关系抽取。

参考文献

1. Han, Hao Zhu, Pengfei Yu, ZiyunWang, Yuan Yao, Zhiyuan Liu, and Maosong Sun. 2018d. Fewrel: A largescale supervised few-shot relation classification dataset with state-of-the-art evaluation. In Proceedings of EMNLP, pages 4803--4809.
2. Tianyu Gao, Xu Han, Hao Zhu, Zhiyuan Liu, Peng Li, Maosong Sun, and Jie Zhou. 2019. FewRel 2.0: Towards more challenging few-shot relation classification. In Proceedings of EMNLP-IJCNLP, pages 6251--6256.
3.
[https://github.com/gabrielStanovsky/oie-benchmark](https://link.zhihu.com/?target=https%3A//github.com/gabrielStanovsky/oie-benchmark)
4. 《知识图谱: 方法,实践与应用》,王昊奋 / 漆桂林 / 陈华钧 主编,电子工业出版社, 2019.
5. Yates, A.; Banko, M.; Broadhead, M.; Cafarella, M.; Etzioni,O.; and Soderland, S. 2007. Textrunner: Open information extraction on the web. In Proceedings of Human Language Technologies: The Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL-HLT), 25--26..
6. Diego Marcheggiani and Ivan Titov. 2016. Discretestate variational autoencoders for joint discovery and factorization of relations. Transactions of ACL..
7. Elsahar, H., Demidova, E., Gottschalk, S., Gravier, C., & Laforest, F. (2017, May). Unsupervised open relation extraction. In European Semantic Web Conference (pp. 12-16). Springer, Cham..
8. Wu, R., Yao, Y., Han, X., Xie, R., Liu, Z., Lin, F., \... & Sun, M. (2019, November). Open relation extraction: Relational knowledge transfer from supervised data to unsupervised data. In EMNLP-IJCNLP (pp.219-228)..
9. Stanovsky, G., Michael, J., Zettlemoyer, L., & Dagan, I. (2018, June). Supervised open information extraction. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers) (pp. 885-895)..
10. Zhan, J., & Zhao, H. (2020, April). Span model for open information extraction on accurate corpus. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 34, No. 05, pp. 9523-9530).
[11. Cui, L., Wei, F., & Zhou, M. (2018). Neural open information extraction. arXiv preprint arXiv:1805.04270.
12. Sameer Pradhan, Mitchell P. Marcus, Martha Palmer, Lance A. Ramshaw, Ralph M. Weischedel, and Nianwen Xue, editors. 2011. Proceedings of the Fifteenth Conference on Computational Natural Language Learning:Shared Task, CoNLL 2011, Portland, Oregon, USA, June 23-24, 2011. ACL.
13. Gina-Anne Levow. 2006. The third international Chinese language processing bakeoff: Word segmentation and named entity recognition. In Proceedings of the Fifth SIGHANWorkshop on Chinese Language Processing, pages 108--117, Sydney, Australia. Association for Computational Linguistics.
14. Nanyun Peng and Mark Dredze. 2015. Named entity recognition for Chinese social media with jointly trained embeddings. In EMNLP. pages 548--554.
15. Erik F. Tjong Kim Sang and Fien De Meulder. 2003. Introduction to the conll-2003 shared task: Languageindependent named entity recognition. In Proceedings of the Seventh Conference on Natural Language Learning, CoNLL 2003, Held in cooperation with HLT-NAACL 2003, Edmonton, Canada, May 31 - June 1, 2003, pages 142--147\.
16. George R Doddington, Alexis Mitchell, Mark A Przybocki, Stephanie M Strassel Lance A Ramshaw, and Ralph M Weischedel. 2005. The automatic content extraction (ace) program-tasks, data, and evaluation. In LREC, 2:1.
17. Sameer Pradhan, Alessandro Moschitti, Nianwen Xue, Hwee Tou Ng, Anders Bj¨orkelund, Olga Uryupina, Yuchen Zhang, and Zhi Zhong. 2013. Towards robust linguistic analysis using OntoNotes. In Proceedings of the Seventeenth Conference on Computational Natural Language Learning, pages 143--152, Sofia, Bulgaria.Association for Computational Linguistics.
18. 阮彤, 王梦婕, 王昊奋, & 胡芳槐. (2016). 垂直知识图谱的构建与应用研究. 知识管理论坛(3).
19. Wu, T.; Qi, G.; Li, C.; Wang, M. A Survey of Techniques for Constructing Chinese Knowledge Graphs and Their Applications. Sustainability 2018, 10, 3245.
20. Collobert, R., Weston, J., Bottou, L., Karlen, M., Kavukcuoglu, K., & Kuksa, P. (2011). Natural language processing (almost) from scratch. Journal of machine learning research, 12(ARTICLE), 2493-2537.
\[21\] Huang, Z., Xu, W., & Yu, K. (2015). Bidirectional LSTM-CRF models for sequence tagging. arXiv preprint arXiv:1508.01991.
22. Strubell, E., Verga, P., Belanger, D., & McCallum, A. (2017). Fast and accurate entity recognition with iterated dilated convolutions. arXiv preprint arXiv:1702.02098.
23. Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
24. Zhang, Y., & Yang, J. (2018). Chinese ner using lattice lstm. arXiv preprint arXiv:1805.02023.
25. Gui, T., Ma, R., Zhang, Q., Zhao, L., Jiang, Y. G., & Huang, X. (2019, August). CNN-Based Chinese NER with Lexicon Rethinking. In IJCAI (pp. 4982-4988).
26. Li, X., Yan, H., Qiu, X., & Huang, X. (2020). FLAT: Chinese NER Using Flat-Lattice Transformer. arXiv preprint arXiv:2004.11795.
27. Li, X., Feng, J., Meng, Y., Han, Q., Wu, F., & Li, J. (2019). A unified mrc framework for named entity recognition. arXiv preprint arXiv:1910.11476.
28. Yuchen Lin, B., Lee, D. H., Shen, M., Moreno, R., Huang, X., Shiralkar, P., & Ren, X. (2020). TriggerNER: Learning with Entity Triggers as Explanations for Named Entity Recognition. arXiv, arXiv-2004.
\[29\] Zhang, X., Jiang, Y., Peng, H., Tu, K., & Goldwasser, D. (2017). Semi-supervised structured prediction with neural crf autoencoder. Association for Computational Linguistics (ACL).
30. Chen, M., Tang, Q., Livescu, K., & Gimpel, K. (2019). Variational sequential labelers for semisupervised learning. arXiv preprint arXiv:1906.09535.
31. Chen, J., Wang, Z., Tian, R., Yang, Z., & Yang, D. (2020). Local Additivity Based Data Augmentation for Semi-supervised NER. arXiv preprint arXiv:2010.01677.
32. Lakshmi Narayan, P. (2019). Exploration of Noise Strategies in Semi-supervised Named Entity Classification.
33. Alejandro Metke-Jimenez and Sarvnaz Karimi. 2015. Concept extraction to identify adverse drug reactions in medical forums: A comparison of algorithms. CoRR abs/1504.06936.
34. Xiang Dai, Sarvnaz Karimi, Ben Hachey, Cécile Paris. An Effective Transition-based Model for Discontinuous NER. ACL 2020: 5860-5870
35. Wei Lu and Dan Roth. 2015. Joint mention extraction and classification with mention hypergraphs. In Conference on Empirical Methods in Natural Language Processing, pages 857--867, Lisbon, Portugal.
36. Walker, C., Strassel, S., Medero, J., and Maeda, K. 2005. ACE 2005 multilingual training corpuslinguistic data consortium.
37. Szpakowicz, S. 2009. Semeval-2010 task 8: Multi-way classification of semantic relations between pairs of nominals. In Proceedings of the Workshop on Semantic Evaluations: Recent Achievements and Future Directions, pages 94--99. Association for Computational Linguistics.
38. Zhang, Yuhao and Zhong, Victor and Chen, Danqi and Angeli, Gabor and Manning, Christopher D. 2017. Position-aware Attention and Supervised Data Improve Slot Filling. In Proceedings of EMNLP. Pages 35-45.
39. Riedel, S., Yao, L., and McCallum, A. 2010. Modeling relations and their mentions without labeled text. In Joint European Conference on Machine Learning and Knowledge Discovery in Databases, pages 148-163. Springer.
40. Yuan Yao, Deming Ye, Peng Li, Xu Han, Yankai Lin, Zhenghao Liu, Zhiyuan Liu, Lixin Huang, Jie Zhou, and Maosong Sun. 2019. DocRED: A large-scale document-level relation extraction dataset. In Proceedings of ACL, pages 764--777.
41. Daojian Zeng, Kang Liu, Siwei Lai, Guangyou Zhou, and Jun Zhao. 2014. Relation classification via convolutional deep neural network. In Proceedings of COLING, pages 2335--2344.
42. Linlin Wang, Zhu Cao, Gerard De Melo, and Zhiyuan Liu. 2016. Relation classification via multi-level attention cnns. In Proceedings of ACL, pages 1298--1307.
43. Dongxu Zhang and Dong Wang. 2015. Relation classification via recurrent neural network. arXiv preprint arXiv:1508.01006.
44. Xu, Y., Mou, L., Li, G., Chen, Y., Peng, H., and Jin, Z. 2015. Classifying relations via long short term memory networks along shortest dependency paths. In proceedings of EMNLP, pages 1785--1794.
45. Shanchan Wu and Yifan He. 2019. Enriching pre-trained language model with entity information for relation classification.
46. Zhao, Y., Wan, H., Gao, J., and Lin, Y. 2019. Improving relation classification by entity pair graph. In Asian Conference on Machine Learning, pages 1156--1171.
47. Mike Mintz, Steven Bills, Rion Snow, and Dan Jurafsky. 2009. Distant supervision for relation extraction without labeled data. In Proceedings of ACL-IJCNLP, pages 1003--1011.
48. Mihai Surdeanu, Julie Tibshirani, Ramesh Nallapati, and Christopher D Manning. 2012. Multi-instance multi-label learning for relation extraction. In Proceedings of EMNLP, pages 455--465.
49. Daojian Zeng, Kang Liu, Yubo Chen, and Jun Zhao. 2015. Distant supervision for relation extraction via piecewise convolutional neural networks. In Proceedings of EMNLP, pages 1753--1762.
50. Yankai Lin, Shiqi Shen, Zhiyuan Liu, Huanbo Luan, and Maosong Sun. 2016. Neural relation extraction with selective attention over instances. In Proceedings of ACL, pages 2124--2133.
51. Yuhao Zhang, Peng Qi, and Christopher D. Manning. 2018. Graph convolution over pruned dependency trees improves relation extraction. In Proceedings of EMNLP, pages 2205--2215.
52. Guoliang Ji, Kang Liu, Shizhu He, Jun Zhao, et al. 2017. Distant supervision for relation extraction with sentence-level attention and entity descriptions. In AAAI, pages 3060--3066.
53. Bordes A, Usunier N, Garcia-Duran A, et al. 2013. Translating embeddings for modeling multi-relational data. Advances in neural information processing systems. pages 2787-2795.
54. Xu Han, Pengfei Yu, Zhiyuan Liu, Maosong Sun, and Peng Li. 2018. Hierarchical relation extraction with coarse-to-fine grained attention. In Proceedings of EMNLP, pages 2236--2245.
55. Ningyu Zhang, Shumin Deng, Zhanlin Sun, Guanying Wang, Xi Chen, Wei Zhang, and Huajun Chen. 2019. Longtail relation extraction via knowledge graph embeddings and graph convolution networks. In Proceedings of NAACL-HLT, pages 3016--3025.
56. Qin, P., Xu, W., and Wang, W. Y. 2018b. Robust distant supervision relation extraction via deep reinforcement learning. arXiv preprint arXiv:1805.09927.
57. Xiangrong Zeng, Shizhu He, Kang Liu, and Jun Zhao. 2018. Large scaled relation extraction with reinforcement learning. In Proceedings of AAAI, pages 5658--5665.
58. Jun Feng, Minlie Huang, Li Zhao, Yang Yang, and Xiaoyan Zhu. 2018. Reinforcement learning for relation classification from noisy data. In Proceedings of AAAI, pages 5779--5786.
59. Yi Wu, David Bamman, and Stuart Russell. 2017. Adversarial training for relation extraction. In Proceeding of EMNLP, pages 1778--1783.
60. Pengda Qin, Weiran Xu, William Yang Wang. 2018. DSGAN: Generative Adversarial Training for Distant Supervision Relation Extraction. In Proceeding of ACL, pages 496--505.
61. Livio Baldini Soares, Nicholas FitzGerald, Jeffrey Ling, and Tom Kwiatkowski. 2019. Matching the blanks: Distributional similarity for relation learning. In Proceedings of ACL, pages 2895--2905.
62. Meng Qu, Tianyu Gao, Louis-Pascal Xhonneux, Jian Tang. 2020. Few-shot Relation Extraction via Bayesian Meta-learning on Task Graphs. In Proceedings of ICML.
63. Suncong Zheng, Feng Wang, Hongyun Bao, Yuexing Hao,Peng Zhou, Bo Xu. 2017. Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, pages 1227--1236.
64. Wei, Zhepei and Su, Jianlin and Wang, Yue and Tian, Yuan and Chang, Yi. 2020 A Novel Cascade Binary Tagging Framework for Relational Triple Extraction}. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics}, pages 1476---1488.
65. Luan, Y., Wadden, D., He, L., Shah, A., Ostendorf, M., & Hajishirzi, H. (2019). A general framework for information extraction using dynamic span graphs. arXiv preprint arXiv:1904.03296.
66. Wadden, D., Wennberg, U., Luan, Y., & Hajishirzi, H. (2019). Entity, relation, and event extraction with contextualized span representations. arXiv preprint arXiv:1909.03546.
67. Sahu, S. K., et al. 2019. Inter-sentence Relation Extraction with Document-level Graph Convolutional Neural Network. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics:4309--4316.
68. mLiu, B., Gao, H., Qi, G., Duan, S., Wu, T., & Wang, M. (2019, April). Adversarial Discriminative Denoising for Distant Supervision Relation Extraction. In International Conference on Database Systems for Advanced Applications (pp. 282-286). Springer, Cham.
69. Namboodiri, A. M., & Jain, A. K. (2007). Document structure and layout analysis. In Digital Document Processing (pp. 29-48). Springer, London.
70. Xu, Y., Li, M., Cui, L., Huang, S., Wei, F., & Zhou, M. (2020, August). Layoutlm: Pre-training of text and layout for document image understanding. In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (pp. 1192-1200).
71. Li, M., Xu, Y., Cui, L., Huang, S., Wei, F., Li, Z., & Zhou, M. (2020). DocBank: A Benchmark Dataset for Document Layout Analysis. arXiv preprint arXiv:2006.01038.
72. Ainslie, J., Ontanon, S., Alberti, C., Cvicek, V., Fisher, Z., Pham, P., \... & Yang, L. (2020, November). ETC: Encoding Long and Structured Inputs in Transformers. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP) (pp. 268-284).
73. Tang, J., Lu, Y., Lin, H., Han, X., Sun, L., Xiao, X., & Wu, H. (2020, November). Syntactic and Semantic-driven Learning for Open Information Extraction. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings (pp. 782-792).
74. Han, Hao Zhu, Pengfei Yu, ZiyunWang, Yuan Yao, Zhiyuan Liu, and Maosong Sun. 2018d. Fewrel: A largescale supervised few-shot relation classification dataset with state-of-the-art evaluation. In Proceedings of EMNLP, pages 4803--4809.
75. Tianyu Gao, Xu Han, Hao Zhu, Zhiyuan Liu, Peng Li, Maosong Sun, and Jie Zhou. 2019. FewRel 2.0: Towards more challenging few-shot relation classification. In Proceedings of EMNLP-IJCNLP, pages 6251--6256.
76. Zara Nasar, Syed Waqar Jaffry, and Muhammad Kamran Malik. 2021. Named Entity Recognition and Relation Extraction: State-of-the-Art. ACM Comput. Surv. 54, 1, Article 20 (February 2021), 39 pages. https://doi.org/10.1145/3445965.