信息抽取技术进展【3】-- 关系抽取技术

【摘要 】行业知识图谱是行业认知智能化应用的基石。目前在大部分细分垂直领域中,行业知识图谱的schema构建依赖领域专家的重度参与,该模式人力投入成本高,建设周期长,同时在缺乏大规模有监督数据的情形下的信息抽取效果欠佳,这限制了行业知识图谱的落地且降低了图谱的接受度。本文对与上述schema构建和低资源抽取困难相关的最新技术进展进行了整理和分析,其中包含我们在半自动schema构建方面的实践,同时给出了Document AI和长结构化语言模型在文档级信息抽取上的前沿技术分析和讨论,期望能给同行的研究工作带来一定的启发和帮助。

【引自】万字综述:行业知识图谱构建最新进展

作者:李晶阳[1],牛广林[2],唐呈光[1],余海洋[1],李杨[1],付彬[1],孙健[1]

单位:阿里巴巴-达摩院-小蜜Conversational AI团队[1],北京航空航天大学计算机学院[2]

1. 简介

​ 关系抽取指的是对给定的实体对之间的关系类型进行分类。相较于OpenIE中的不固定类型的关系抽取,本部分所讲的关系抽取统指固定关系类别集合的关系抽取

2. 常用数据集和评测指标

​ 目前,关系抽取的benchmark数据集主要包括:

  • 句子级关系抽取数据集:ACE-2005[36],SemEval 2010 Task-8数据集[37], TACRED[38]

  • 远程监督关系抽取数据集:NYT数据集(NYT10)[39]

  • 小样本关系抽取数据集:FewRel[1],FewlRel 2.0[2]

  • 文档级关系抽取数据集:DocRED数据集[40]

​ 在评测指标上,对于有监督的关系抽取任务,使用标准精度,召回率和F量度进行评估。对于远程监督的关系抽取模型,将进行保留和/或手动评估。具有知识库的对齐文本的标签不是golden的。因此,在持续评估中,只有来自知识库的关系事实才被认为对测试集是正确的,而新预测的关系则被认为是错误的。由于此假设不能表达现实,因此有时需要人工进行评估。在小样本关系抽取中,以N-way K-shot的形式进行配置,N表示关系(类)的数量,K表示每个关系的带标注的实例数量。根据不同的数据配置对模型进行测试,并说明测试集上模型的准确性结果。

3. 面临的挑战

目前,关系抽取是知识图谱自动化构建中最重要也是难度最大的任务之一,在实际应用和算法研究方面主要面临如下挑战:

  • 数据标注成本高:
    • 因为从文本中抽取关系需要考虑上下文信息,对人来说本来也是较难的任务,得到高质量的标注数据需要耗时较长,因此人工标注数据的成本很高。
  • 长尾关系效果不佳:
    • 在现实场景中,不可避免存在很多的长尾分布关系,这些关系只有很少量的训练数据,一般的关系抽取方法尤其是基于深度学习的关系抽取方法难以训练。
  • 复杂场景关系抽取困难:
    • 段落级关系抽取:实体间的关系无法从单一句子直接得到,需要阅读整个段落中的多个句子以机器阅读理解的方式才能抽取关系
    • 文本中包含多个关系:对于文本中包含多个关系的情况,当前的方法是借助图神经网络捕捉整个文本的拓扑结构信息,同时,有时也需要从句子中的多个关系推理出实体间隐式的关系
  • 实体识别到关系抽取的误差传播:
    • 采用先实体识别再关系抽取的这种Pipeline的方式容易造成对关系抽取的误差传播。采用实体关系联合抽取的方法可以有效避免这种误差传播,其中一类有效的方法是可以将实体识别和关系抽取看成一个序列标注任务来实现对整体三元组的建模。

4. 主流关系抽取模型

​ 我们调研了近期和以上挑战相关的科研进展,本节后续部分主要包括对这些进展的汇报和我们自己的一些思考,整体上以下图来概括后续主要内容。

​ 此外,我们在2020年发表出来的论文中,通过dblp搜索关系抽取的论文,按照题目中的关键词进行统计,得到下图所示数据,从中可以看出相关研究的热度分布。

4.1 经典深度学习模型

​ 在关系抽取中,提取句子中关系的全局特征是非常关键的。**卷积神经网络(CNN)**能够组合局部特征来取得能够表示全局的特征。

(1)CNN

[41] 最早将CNN结合max pooling和word embedding对整个句子进行编码,并将句子编码表示用于关系分类,性能超过了传统的关系抽取方法。

(2)多层注意力CNN

较新的,[42] 提出了多层注意力卷积神经网络(Multi-level Attention CNN),将注意力机制引入到CNN中,对反映关系更重要的词语赋予更大的权重,以此来提高关系抽取的效果。

(3)RNN

​ 由于CNN只能提取局部特征,无法很好的应用于一句话中两个实体之间的距离较远的情况。**循环神经网络(RNN)尤其是长短期记忆网络(LSTM)**能够学习实体之间的长距离依赖关系,[43] 采用RNN进行关系抽取并取得了比基于CNN的关系抽取更好的效果。

(4)LSTM

[44] 发现实体之间的最短依赖路径最能体现实体间的关系特征(在句法依存树中,两实体到公共祖先节点的最短路径),并将其用LSTM编码实现了关系抽取。

(5)BERT

​ 2018年,预训练语言模型 BERT[23] 在多项NLP任务中显示出强大的性能,一个很自然的想法就是用BERT模型代替CNN或RNN对句子进行编码来实现关系抽取。2019年,[45] 最早将BERT应用在关系抽取中,提出了基于BERT的关系抽取R-BERT模型,通过将一个句子输入到BERT,并将BERT得到的结果输入到全连接层进行多分类,完成关系抽取任务,这个方法在当时取得了超过所有基于深度学习的关系抽取的效果。

(6)BERT + 图神经网络

[46] 提出 EPGNN模型(下图),其结合用BERT模型提取的句子特征与用图神经网络提取的实体对在知识图谱中的子图的拓扑特征,以进行关系抽取。

4.2 远程监督模型

​ 基于深度学习的关系抽取需要大量的训练数据,但是人工标注这些训练数据非常费时昂贵。为了解决这一问题,[47] 在2009年最早使用远程监督技术将输入文本中的句子与Freebase知识图谱中的三元组对齐,这时三元组提供了监督信息。然而,使用远程监督的关系抽取方法面临两个主要问题:

  • 无法建模重叠关系:
    • 两个实体之间可能存在多个不同的关系,例如(马云,建立,阿里巴巴)和(马云, CEO,阿里巴巴),因此无法确定知识图谱中实体间的哪个关系应该是当前句子需要抽取的关系。
  • 噪声(错误)标签:
    • 知识图谱中的三元组对有的句子中的实体对提供的关系标签是错误的,这给模型的训练带来了混淆和错误。

为了解决上述问题,目前主要是从多实例多标签学习引入更多有效知识去噪这三个角度实现远程监督的关系抽取。

4.2.1 多实例多标签学习

​ 为了解决重叠关系的问题,可以将多实例多标签学习应用于关系抽取任务中。单实例学习模型是从一个句子中预测一个关系类别,而多实例多标签学习方法放宽了这一条件,其从一个句子袋中预测其包含的多个关系类别。下图是一个多实例多标签的典型例子。可以看出,上图中(奥巴马,美国)这对实体对应多个实例(句子),同时知识图谱中(DB)为这对实体提供2个标签。

(1)MIML-RE

[48]最早提出基于多实例多标签学习的关系抽取方法MIML-RE,通过使用概率图模型来表示实体对的"多个实例"和"多个标签"。多实例多标签方法已经能够较好地解决重叠关系的问题,因此,更多的远程监督的方法主要用来解决噪声标签的问题。在多实例学习任务中,如何从一个句子袋中找到与当前关系最相关的句子显得尤为重要。

(2)PCNN

PCNN[49]在抽取句子特征向量表示时考虑了实体的位置,采用分段池化操作编码每个句子,并选择在一个句子袋中正确预测出关系标签概率最大的一个句子进行参数更新。

(3)引入注意力机制

​ 考虑到一个句子袋中不同句子表达关系的不同重要性,[50]引入了句子级别的Attention机制,权重更大的句子对参数的更新贡献就大,反之,权重更小的句子对参数更新贡献小,这样能够充分利用所有训练数据。由于关系抽取需要考虑一个句子中实体对的上下文信息,因此依存结构信息对于关系抽取非常重要。

(4)C-GCN

C-GCN[51]利用GCN编码句子的依存树,从而实现关系抽取,其中设计了一个以路径为中心的剪枝方法,移除一个句子的依存树中与关系无关的路径。

4.2.2 引入外部知识的方法

(1)APCNN

​ 为了能改善实体表示并为关系抽取提供更多语义信息,从而降低噪声信息对关系抽取的影响,APCNN[52]PCNN[49] 中引入了外部实体描述,实体描述为改善实体表示和进一步预测关系能够提供更多语义信息。同时,从知识图谱表示学习的 TransE 模型[53] 中得到启发,使得关系表示满足:关系表示=头实体表示-尾实体表示的三元组约束,进一步将关系表示用于关系抽取的句子级注意力机制中。

(2)注意力机制

​ 以往的研究将不同的关系之间是独立的,但其实关系集自带结构化的高层语义信息,例如在Freebase知识图谱中,关系是用层次结构来表示的,每个关系的最高层表示一般性的关系类型。因此可以从关系层次来捕捉不同关系之间的语义相关性。基于这一特性,[54] 利用关系的层次结构知识,设计了层次注意力机制,在每个句子袋中关注关系之间的相关性信息,实现从粗到细的实例选择,提升远程监督的关系抽取效果。[55] 将GCN用于知识图谱嵌入中得到关系的嵌入表示,并提出了一种由粗到细的知识感知注意力机制,将关联的知识集成到关系抽取模型中。

4.2.3 去除噪声标签的方法

​ 另一个解决远程监督中噪声标注的更为直接的解决方法是去除噪声标签,目前主要有强化学习和对抗训练两类方法。

(1)强化学习去噪

  • 对于远程监督关系抽取,对于错误标记的候选句子最理想的方式是用一个确定性的决策来对待,而不是使用以往的研究中靠注意力权重去处理。
  • 为此,[56] 提出了一个根本的解决方案,通过训练深度强化学习策略来生成假阳性指标,能够动态识别每种关系类型的假阳性样本,并将假阳性样本重新分布到真正负样本中,以减轻噪声数据的影响。
  • 类似的,[57,58] 都采用基于强化学习的关系抽取,其将关系抽取问题分解为两个任务:实例选择和关系分类。实例选择器是一种强化学习智能体,它使用关系分类器的弱监督来选择实例。基于强化学习的关系抽取的优点是关系抽取模型与基于强化学习的实例选择模型解耦,因此可以很容易地将这类方法适应于任何基于神经网络的关系抽取模型。

(2)对抗训练去噪

  • [59] 最早提出采用对抗训练的方法将对抗噪声添加到词嵌入中,以在多实例多标签学习(MIML)的框架下基于CNN和RNN的方法进行关系抽取。
  • DSGAN[60] 通过学习句子级真实正样本的生成器和判别器来消除远程监督关系抽取中的噪声数据。
  • [68] 针对当下噪声数据消除模型的两个不足:一是缺乏将显式监督引入去噪过程的有效方法;二是采样操作对去噪结果造成的优化困难评价,提出了一个对抗性的去噪框架,该框架提供了一种有效的方式来引入人工监督,并在统一的框架中利用该监督以及嘈杂数据背后潜在的有用信息(模型见下图)。

4.3 小样本关系抽取

​ 在大多数据集中,关系的分布具有长尾性,对于这些长尾关系可用的训练数据往往数量较少。清华大学刘知远老师团队最早提出小样本关系抽取任务并构建了第一个大型小样本关系抽取数据集 FewRel[1],并且在2019年发布了考虑领域迁移和"以上都不是"检测任务的 FewRel 2.0 版本[2]。绝大多数小样本关系抽取的研究都会在这两个数据集上进行测试。通常,实现小样本学习的方法分为度量学习和元学习这两个方法,因此,目前的小样本关系抽取也是基于这两类方法。

(1)度量学习模型

​ 最新的基于度量学习的方法是谷歌提出的 MTB 模型[61],其采用对比学习的思想,引入matching the blanks目标:如果两个句子中包含相同的实体对,那么它们关系表示的相似度尽可能高,反之相似度应尽可能低。同时其将句子中的实体以一定的概率(论文中是p=0.7)进行mask,从而提升模型在实体缺失的情形对句子中关系语义的表示能力。在过去的一年半时间里,此模型在 FewRel[1] 数据集的全部评测指标上依然处于SOTA状态,且在其中两项指标上超越人类的表现。但值得商榷的是,MTB模型依赖其基于Wikipedia自行构建的包含6亿句子对的数据集,且其在低资源有监督关系抽取任务如 SemEval 2010 Task-8[37]TACRED[38] 上的表现还比不上其Based模型在全量数据训练得到的效果。

(2)元学习模型

[62] 通过采用一种贝叶斯元学习方法来有效地学习关系原型向量的后验分布,其中关系原型向量的初始参数是通过对全局关系图上用图神经网络学习得到的,然后采用与无模型的元学习算法MAML相关的SGLD方法对关系原型向量进行优化,接着用优化后的关系原型向量预测关系。

image-20210325144930441

4.4 实体与关系联合抽取

​ 以上介绍的关系抽取方法都需要"首先利用命名实体识别技术确定实体提及及其实体类型,再接着便应用关系抽取技术"。**这种Pipeline的方法容易造成误差传播,也就是如果命名实体识别出现误差,在关系抽取阶段会将这一误差放大进而影响关系抽取的效果。采用实体关系联合抽取的方法可以有效避免这种误差传播。**同时,实体识别和关系抽取的目的都是需要自动构建三元组知识,因此这两个任务本来就应是一体的。

(1)基于序列标注的模型

[63] 提出了一个新颖的标注方案(见下图),其将实体关系联合抽取任务当作一个序列标注任务来处理,简化了任务的复杂性,且其模型性能优于之前的Pipeline和联合抽取方法,这项工作也取得了2017年ACL的杰出论文奖。然而,这种方法无法解决重叠关系的问题。

​ 为了解决实体关系联合抽取中的关系重叠的问题,Wei等人提出了一个新颖的级联二进制标记框架 CasRel[64],不同于传统的关系抽取模型都是为实体预测关系标签,CasRel的核心思想是把关系建模为从头实体映射到尾实体的函数,也就是在给定关系和头实体的条件下识别出所有可能的尾实体。CasRel巧妙解决了关系重叠的问题,并在公开数据集上取得了显著的性能提升。

(2)基于文本 span 的动态图模型

DyGIE[65](见下图)提出将实体识别和关系抽取问题建模为句子中span图构建和图节点分类问题,其中图的节点是句子中的span。此模型跳出了前述序列标注式的一维标注和预测体系,而在二维的图结构上进行标注和预测。

DyGIE++[66]在DyGIE模型的基础上添加了事件元素识别的任务,并将多个图信息传递之后的节点表示整合后进行最终的预测,更重要的是,此模型用Bert替换了原有的BiLSTM进行底层的表示。

​ 此类模型可以有效的解决实体识别中的实体嵌套问题,但是对于不连续实体、重叠关系的问题尚未进行充分研究。

4.5 段落级和文档级关系抽取

​ 现有的大多数关系抽取方法主要面向句子级的关系抽取,然而,在实际场景中,很多实体间的关系需要通过一段文本中的多个句子才能表达。例如这样的一段文本:"阿里巴巴达摩院成立于2017年10月11日,是一家致力于探索科技未知,以人类愿景为驱动力的研究院,院长是张剑锋。"这段文本包含多个实体,尤其是"阿里巴巴达摩院"和"张剑锋"这一对实体间的关系"院长"需要由多个句子才能得到。针对这类实体间跨多个句子的关系抽取,需要依据类似于机器阅读理解的方式对整个文档中的多个句子联合抽取关系。

[67] 考虑到文档的句子之间存在不同的关联方式,例如共指关系,语义依存树等,提出GCNN模型为5种不同的关联方式建立不同的图单独进行图卷积操作,然后将各图的结果相加,将文档内句子间多种关联特征组合进行关系抽取。

​ 为了增强段落级关系抽取的通用性,清华刘知远老师团队姚远等人在2019年提出了 DocRED 数据集[40],其是基于维基百科正文和WikiData知识图谱构建的,是一个大规模的人工标注的段落级关系抽取数据集。其中,DocRED中超过40% 的关系事实只能从多个句子中抽取,因此需要模型具备较强的综合理解文章中信息的能力,尤其是跨句抽取关系的能力。论文中在DocRED数据集上使用当前最新的关系抽取方法,并对这些方法进行评测,当前方法均难以取得较好的效果,说明段落级关系抽取是一个值得深入研究的方向。

5 小结

​ 本节从关系抽取的几个主要挑战出发(小样本、远程监督数据质量难保证,实体关系联合抽取、文档级关系抽取),进行了相关技术方法的介绍。可以看出,相对来说,远程监督和实体关系联合抽取的研究方向吸引了更多的研究,两者在落地上也的确得到了很好的效果。但在小样本和文档级关系抽取问题在实际应用中也越来越凸显其重要性。特别的,越来越多的实际抽取任务是以整篇文档作为任务的输入,而这方面的研究却鲜有出现

参考文献

1. Han, Hao Zhu, Pengfei Yu, ZiyunWang, Yuan Yao, Zhiyuan Liu, and Maosong Sun. 2018d. Fewrel: A largescale supervised few-shot relation classification dataset with state-of-the-art evaluation. In Proceedings of EMNLP, pages 4803--4809.
2. Tianyu Gao, Xu Han, Hao Zhu, Zhiyuan Liu, Peng Li, Maosong Sun, and Jie Zhou. 2019. FewRel 2.0: Towards more challenging few-shot relation classification. In Proceedings of EMNLP-IJCNLP, pages 6251--6256.
3.
[https://github.com/gabrielStanovsky/oie-benchmark](https://link.zhihu.com/?target=https%3A//github.com/gabrielStanovsky/oie-benchmark)
4. 《知识图谱: 方法,实践与应用》,王昊奋 / 漆桂林 / 陈华钧 主编,电子工业出版社, 2019.
5. Yates, A.; Banko, M.; Broadhead, M.; Cafarella, M.; Etzioni,O.; and Soderland, S. 2007. Textrunner: Open information extraction on the web. In Proceedings of Human Language Technologies: The Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL-HLT), 25--26..
6. Diego Marcheggiani and Ivan Titov. 2016. Discretestate variational autoencoders for joint discovery and factorization of relations. Transactions of ACL..
7. Elsahar, H., Demidova, E., Gottschalk, S., Gravier, C., & Laforest, F. (2017, May). Unsupervised open relation extraction. In European Semantic Web Conference (pp. 12-16). Springer, Cham..
8. Wu, R., Yao, Y., Han, X., Xie, R., Liu, Z., Lin, F., \... & Sun, M. (2019, November). Open relation extraction: Relational knowledge transfer from supervised data to unsupervised data. In EMNLP-IJCNLP (pp.219-228)..
9. Stanovsky, G., Michael, J., Zettlemoyer, L., & Dagan, I. (2018, June). Supervised open information extraction. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers) (pp. 885-895)..
10. Zhan, J., & Zhao, H. (2020, April). Span model for open information extraction on accurate corpus. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 34, No. 05, pp. 9523-9530).
[11. Cui, L., Wei, F., & Zhou, M. (2018). Neural open information extraction. arXiv preprint arXiv:1805.04270.
12. Sameer Pradhan, Mitchell P. Marcus, Martha Palmer, Lance A. Ramshaw, Ralph M. Weischedel, and Nianwen Xue, editors. 2011. Proceedings of the Fifteenth Conference on Computational Natural Language Learning:Shared Task, CoNLL 2011, Portland, Oregon, USA, June 23-24, 2011. ACL.
13. Gina-Anne Levow. 2006. The third international Chinese language processing bakeoff: Word segmentation and named entity recognition. In Proceedings of the Fifth SIGHANWorkshop on Chinese Language Processing, pages 108--117, Sydney, Australia. Association for Computational Linguistics.
14. Nanyun Peng and Mark Dredze. 2015. Named entity recognition for Chinese social media with jointly trained embeddings. In EMNLP. pages 548--554.
15. Erik F. Tjong Kim Sang and Fien De Meulder. 2003. Introduction to the conll-2003 shared task: Languageindependent named entity recognition. In Proceedings of the Seventh Conference on Natural Language Learning, CoNLL 2003, Held in cooperation with HLT-NAACL 2003, Edmonton, Canada, May 31 - June 1, 2003, pages 142--147\.
16. George R Doddington, Alexis Mitchell, Mark A Przybocki, Stephanie M Strassel Lance A Ramshaw, and Ralph M Weischedel. 2005. The automatic content extraction (ace) program-tasks, data, and evaluation. In LREC, 2:1.
17. Sameer Pradhan, Alessandro Moschitti, Nianwen Xue, Hwee Tou Ng, Anders Bj¨orkelund, Olga Uryupina, Yuchen Zhang, and Zhi Zhong. 2013. Towards robust linguistic analysis using OntoNotes. In Proceedings of the Seventeenth Conference on Computational Natural Language Learning, pages 143--152, Sofia, Bulgaria.Association for Computational Linguistics.
18. 阮彤, 王梦婕, 王昊奋, & 胡芳槐. (2016). 垂直知识图谱的构建与应用研究. 知识管理论坛(3).
19. Wu, T.; Qi, G.; Li, C.; Wang, M. A Survey of Techniques for Constructing Chinese Knowledge Graphs and Their Applications. Sustainability 2018, 10, 3245.
20. Collobert, R., Weston, J., Bottou, L., Karlen, M., Kavukcuoglu, K., & Kuksa, P. (2011). Natural language processing (almost) from scratch. Journal of machine learning research, 12(ARTICLE), 2493-2537.
[21] Huang, Z., Xu, W., & Yu, K. (2015). Bidirectional LSTM-CRF models for sequence tagging. arXiv preprint arXiv:1508.01991.
22. Strubell, E., Verga, P., Belanger, D., & McCallum, A. (2017). Fast and accurate entity recognition with iterated dilated convolutions. arXiv preprint arXiv:1702.02098.
23. Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
24. Zhang, Y., & Yang, J. (2018). Chinese ner using lattice lstm. arXiv preprint arXiv:1805.02023.
25. Gui, T., Ma, R., Zhang, Q., Zhao, L., Jiang, Y. G., & Huang, X. (2019, August). CNN-Based Chinese NER with Lexicon Rethinking. In IJCAI (pp. 4982-4988).
26. Li, X., Yan, H., Qiu, X., & Huang, X. (2020). FLAT: Chinese NER Using Flat-Lattice Transformer. arXiv preprint arXiv:2004.11795.
27. Li, X., Feng, J., Meng, Y., Han, Q., Wu, F., & Li, J. (2019). A unified mrc framework for named entity recognition. arXiv preprint arXiv:1910.11476.
28. Yuchen Lin, B., Lee, D. H., Shen, M., Moreno, R., Huang, X., Shiralkar, P., & Ren, X. (2020). TriggerNER: Learning with Entity Triggers as Explanations for Named Entity Recognition. arXiv, arXiv-2004.
[29] Zhang, X., Jiang, Y., Peng, H., Tu, K., & Goldwasser, D. (2017). Semi-supervised structured prediction with neural crf autoencoder. Association for Computational Linguistics (ACL).
30. Chen, M., Tang, Q., Livescu, K., & Gimpel, K. (2019). Variational sequential labelers for semisupervised learning. arXiv preprint arXiv:1906.09535.
31. Chen, J., Wang, Z., Tian, R., Yang, Z., & Yang, D. (2020). Local Additivity Based Data Augmentation for Semi-supervised NER. arXiv preprint arXiv:2010.01677.
32. Lakshmi Narayan, P. (2019). Exploration of Noise Strategies in Semi-supervised Named Entity Classification.
33. Alejandro Metke-Jimenez and Sarvnaz Karimi. 2015. Concept extraction to identify adverse drug reactions in medical forums: A comparison of algorithms. CoRR abs/1504.06936.
34. Xiang Dai, Sarvnaz Karimi, Ben Hachey, Cécile Paris. An Effective Transition-based Model for Discontinuous NER. ACL 2020: 5860-5870
35. Wei Lu and Dan Roth. 2015. Joint mention extraction and classification with mention hypergraphs. In Conference on Empirical Methods in Natural Language Processing, pages 857--867, Lisbon, Portugal.
36. Walker, C., Strassel, S., Medero, J., and Maeda, K. 2005. ACE 2005 multilingual training corpuslinguistic data consortium.
37. Szpakowicz, S. 2009. Semeval-2010 task 8: Multi-way classification of semantic relations between pairs of nominals. In Proceedings of the Workshop on Semantic Evaluations: Recent Achievements and Future Directions, pages 94--99. Association for Computational Linguistics.
38. Zhang, Yuhao and Zhong, Victor and Chen, Danqi and Angeli, Gabor and Manning, Christopher D. 2017. Position-aware Attention and Supervised Data Improve Slot Filling. In Proceedings of EMNLP. Pages 35-45.
39. Riedel, S., Yao, L., and McCallum, A. 2010. Modeling relations and their mentions without labeled text. In Joint European Conference on Machine Learning and Knowledge Discovery in Databases, pages 148-163. Springer.
40. Yuan Yao, Deming Ye, Peng Li, Xu Han, Yankai Lin, Zhenghao Liu, Zhiyuan Liu, Lixin Huang, Jie Zhou, and Maosong Sun. 2019. DocRED: A large-scale document-level relation extraction dataset. In Proceedings of ACL, pages 764--777.
41. Daojian Zeng, Kang Liu, Siwei Lai, Guangyou Zhou, and Jun Zhao. 2014. Relation classification via convolutional deep neural network. In Proceedings of COLING, pages 2335--2344.
42. Linlin Wang, Zhu Cao, Gerard De Melo, and Zhiyuan Liu. 2016. Relation classification via multi-level attention cnns. In Proceedings of ACL, pages 1298--1307.
43. Dongxu Zhang and Dong Wang. 2015. Relation classification via recurrent neural network. arXiv preprint arXiv:1508.01006.
44. Xu, Y., Mou, L., Li, G., Chen, Y., Peng, H., and Jin, Z. 2015. Classifying relations via long short term memory networks along shortest dependency paths. In proceedings of EMNLP, pages 1785--1794.
45. Shanchan Wu and Yifan He. 2019. Enriching pre-trained language model with entity information for relation classification.
46. Zhao, Y., Wan, H., Gao, J., and Lin, Y. 2019. Improving relation classification by entity pair graph. In Asian Conference on Machine Learning, pages 1156--1171.
47. Mike Mintz, Steven Bills, Rion Snow, and Dan Jurafsky. 2009. Distant supervision for relation extraction without labeled data. In Proceedings of ACL-IJCNLP, pages 1003--1011.
48. Mihai Surdeanu, Julie Tibshirani, Ramesh Nallapati, and Christopher D Manning. 2012. Multi-instance multi-label learning for relation extraction. In Proceedings of EMNLP, pages 455--465.
49. Daojian Zeng, Kang Liu, Yubo Chen, and Jun Zhao. 2015. Distant supervision for relation extraction via piecewise convolutional neural networks. In Proceedings of EMNLP, pages 1753--1762.
50. Yankai Lin, Shiqi Shen, Zhiyuan Liu, Huanbo Luan, and Maosong Sun. 2016. Neural relation extraction with selective attention over instances. In Proceedings of ACL, pages 2124--2133.
51. Yuhao Zhang, Peng Qi, and Christopher D. Manning. 2018. Graph convolution over pruned dependency trees improves relation extraction. In Proceedings of EMNLP, pages 2205--2215.
52. Guoliang Ji, Kang Liu, Shizhu He, Jun Zhao, et al. 2017. Distant supervision for relation extraction with sentence-level attention and entity descriptions. In AAAI, pages 3060--3066.
53. Bordes A, Usunier N, Garcia-Duran A, et al. 2013. Translating embeddings for modeling multi-relational data. Advances in neural information processing systems. pages 2787-2795.
54. Xu Han, Pengfei Yu, Zhiyuan Liu, Maosong Sun, and Peng Li. 2018. Hierarchical relation extraction with coarse-to-fine grained attention. In Proceedings of EMNLP, pages 2236--2245.
55. Ningyu Zhang, Shumin Deng, Zhanlin Sun, Guanying Wang, Xi Chen, Wei Zhang, and Huajun Chen. 2019. Longtail relation extraction via knowledge graph embeddings and graph convolution networks. In Proceedings of NAACL-HLT, pages 3016--3025.
56. Qin, P., Xu, W., and Wang, W. Y. 2018b. Robust distant supervision relation extraction via deep reinforcement learning. arXiv preprint arXiv:1805.09927.
57. Xiangrong Zeng, Shizhu He, Kang Liu, and Jun Zhao. 2018. Large scaled relation extraction with reinforcement learning. In Proceedings of AAAI, pages 5658--5665.
58. Jun Feng, Minlie Huang, Li Zhao, Yang Yang, and Xiaoyan Zhu. 2018. Reinforcement learning for relation classification from noisy data. In Proceedings of AAAI, pages 5779--5786.
59. Yi Wu, David Bamman, and Stuart Russell. 2017. Adversarial training for relation extraction. In Proceeding of EMNLP, pages 1778--1783.
60. Pengda Qin, Weiran Xu, William Yang Wang. 2018. DSGAN: Generative Adversarial Training for Distant Supervision Relation Extraction. In Proceeding of ACL, pages 496--505.
61. Livio Baldini Soares, Nicholas FitzGerald, Jeffrey Ling, and Tom Kwiatkowski. 2019. Matching the blanks: Distributional similarity for relation learning. In Proceedings of ACL, pages 2895--2905.
62. Meng Qu, Tianyu Gao, Louis-Pascal Xhonneux, Jian Tang. 2020. Few-shot Relation Extraction via Bayesian Meta-learning on Task Graphs. In Proceedings of ICML.
63. Suncong Zheng, Feng Wang, Hongyun Bao, Yuexing Hao,Peng Zhou, Bo Xu. 2017. Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, pages 1227--1236.
64. Wei, Zhepei and Su, Jianlin and Wang, Yue and Tian, Yuan and Chang, Yi. 2020 A Novel Cascade Binary Tagging Framework for Relational Triple Extraction}. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics}, pages 1476---1488.
65. Luan, Y., Wadden, D., He, L., Shah, A., Ostendorf, M., & Hajishirzi, H. (2019). A general framework for information extraction using dynamic span graphs. arXiv preprint arXiv:1904.03296.
66. Wadden, D., Wennberg, U., Luan, Y., & Hajishirzi, H. (2019). Entity, relation, and event extraction with contextualized span representations. arXiv preprint arXiv:1909.03546.
67. Sahu, S. K., et al. 2019. Inter-sentence Relation Extraction with Document-level Graph Convolutional Neural Network. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics:4309--4316.
68. mLiu, B., Gao, H., Qi, G., Duan, S., Wu, T., & Wang, M. (2019, April). Adversarial Discriminative Denoising for Distant Supervision Relation Extraction. In International Conference on Database Systems for Advanced Applications (pp. 282-286). Springer, Cham.
69. Namboodiri, A. M., & Jain, A. K. (2007). Document structure and layout analysis. In Digital Document Processing (pp. 29-48). Springer, London.
70. Xu, Y., Li, M., Cui, L., Huang, S., Wei, F., & Zhou, M. (2020, August). Layoutlm: Pre-training of text and layout for document image understanding. In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (pp. 1192-1200).
71. Li, M., Xu, Y., Cui, L., Huang, S., Wei, F., Li, Z., & Zhou, M. (2020). DocBank: A Benchmark Dataset for Document Layout Analysis. arXiv preprint arXiv:2006.01038.
72. Ainslie, J., Ontanon, S., Alberti, C., Cvicek, V., Fisher, Z., Pham, P., \... & Yang, L. (2020, November). ETC: Encoding Long and Structured Inputs in Transformers. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP) (pp. 268-284).
73. Tang, J., Lu, Y., Lin, H., Han, X., Sun, L., Xiao, X., & Wu, H. (2020, November). Syntactic and Semantic-driven Learning for Open Information Extraction. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings (pp. 782-792).