西山晴雪的知识笔记

发表于2021-03-27|基础理论知识自然语言处理

p{text-indent:2em} NLP预训练模型【5】 – TransformerTransformerTransformer 1. 什么是 TransformerTransformerTransformer 《 AttentionAttentionAttention Is All You Need》是一篇Google提出的将 AttentionAttentionAttention 思想发挥到极致的论文。这篇论文中提出一个全新的模型，叫 TransformerTransformerTransformer ，抛弃了以往深度学习任务里面使用到的CNN和RNN。目前大热的BERT就是基于 TransformerTransformerTransformer 构建的，这个模型广泛应用于NLP领域，例如机器翻译，问答系统，文本摘要和语音识别等等方向。 2. TransformerTransformerTransformer 结构 2.1 总体结构 TransformerTransformerTransformer 的结构和 AttentionAttentionAttenti ...

NLP预训练模型【4】 -- 注意力机制

发表于2021-03-27|基础理论知识自然语言处理

p{text-indent:2em} NLP预训练模型【4】 – 注意力机制 1. 什么是 $ Attention $ 机制在” $ seq2seq $ ”一节⾥，解码器在各个时间步依赖相同的背景变量来获取输⼊序列信息。当编码器为循环神经网络时，背景变量来自它最终时间步的隐藏状态。现在，让我们再次思考那一节提到的翻译例⼦：输⼊为英语序列“They”“are”“watching”“.”，输出为法语序列“Ils”“regardent”“.”。不难想到，解码器在⽣成输出序列中的每一个词时可能只需利用输⼊序列某一部分的信息。例如，在输出序列的时间步1，解码器可以主要依赖“They”“are”的信息来⽣成“Ils”，在时间步2则主要使用来自“watching”的编码信息⽣成“regardent”，最后在时间步3则直接映射句号“.”。这看上去就像是在解码器的每一时间步对输⼊序列中不同时间步的表征或编码信息分配不同的注意力一样。这也是注意力机制的由来。仍然以循环神经网络为例，注意力机制通过对编码器所有时间步的隐藏状态做加权平均来得到背景变量。解码器在每一时间步调整这些权重， ...

NLP预训练模型【3】 -- seq2seq与LSTM等基础编解码器

发表于2021-03-27|基础理论知识自然语言处理

NLP预训练模型【3】 – seq2seq模型与RNN、LSTM等基础编解码器引自：@mantchs GitHub：https://github.com/NLP-LOVE/ML-NLP 1. 什么是seq2seq? 在⾃然语⾔处理的很多应⽤中，输⼊和输出都可以是不定⻓序列。以机器翻译为例，输⼊可以是⼀段不定⻓的英语⽂本序列，输出可以是⼀段不定⻓的法语⽂本序列，例如：英语输⼊：“They”、“are”、“watching”、“.” 法语输出：“Ils”、“regardent”、“.” 当输⼊和输出都是不定⻓序列时，可以使⽤编码器—解码器（encoder-decoder）或者seq2seq模型(seq2seq属于encoder-decoder结构的一种)。encoder-decoder结构的基本思想就是利用两个RNN，一个RNN作为encoder，另一个RNN作为decoder。encoder负责将输入序列压缩成指定长度的向量，这个向量就可以看成是输入序列的定长表征（通常被成为背景向量），这个过程称为编码。如下图，获取语义向量最简单的方式就是直接将最后一个输入的隐状态作为语 ...

NLP预训练模型【2】 -- 离散表示与分布式表示

发表于2021-03-27|基础理论知识自然语言处理

NLP预训练模型【2】-- 离散表示与分布式表示【摘要】在了解深度学习的预训练模型之前，本文首先介绍一下分布式表示的起源，以及一些前期的语言模型。主要包括：One-hot、词袋、词频等离散表示模型；和NNLM、word2vec等浅层分布式表示模型。本文引自CSDN 「kesisour」 1. 什么是词嵌入(Word Embedding) ⾃然语⾔是⼀套⽤来表达含义的复杂系统。在这套系统中，词是表义的基本单元。顾名思义，词向量是⽤来表⽰词的向量，也可被认为是词的特征向量或表征。把词映射为实数域向量的技术也叫词嵌⼊（word embedding）。近年来，词嵌⼊已逐渐成为⾃然语⾔处理的基础知识。在NLP(自然语言处理)领域，文本表示是第一步，也是很重要的一步，通俗来说就是把人类的语言符号转化为机器能够进行计算的数字，因为普通的文本语言机器是看不懂的，必须通过转化来表征对应文本。早期是基于规则的方法进行转化，而现代的方法是基于统计机器学习的方法。数据决定了机器学习的上限,而算法只是尽可能逼近这个上限，在本文中数据指的就是文本表示，所以，弄懂文本表示的发展历程，对于NLP ...

NLP预训练模型【1】 -- 总览

发表于2021-03-27|基础理论知识自然语言处理

NLP预训练模型【1】 – 总览【摘要】预训练模型( Pre-trained Models )的出现将NLP带入了一个全新时代。2020年3月，邱锡鹏老师发表了关于NLP预训练模型的综述《Pre-trained Models for Natural Language Processing: A Survey》1，系统地对预训练模型进行了归纳分类。本文引自公众号「高能AI」〇. 全文脑图一、为什么要进行预训练？深度学习时代，为充分训练深层模型参数并防止过拟合，通常需要更多标注数据喂养。在NLP领域，标注数据是一个昂贵资源。预训练模型从大量无标注数据中进行预训练使许多NLP任务获得显著的性能提升。总的来看，预训练模型的优势包括：在庞大的无标注数据上进行预训练可以获取更通用的语言表示，并有利于下游任务；为模型提供了一个更好的初始化参数，在目标任务上具备更好的泛化性能、并加速收敛；是一种有效的正则化手段，避免在小数据集上过拟合（一个随机初始化的深层模型容易对小数据集过拟合）。二、什么是词嵌入和分布式表示？预训练模型与分布式表示的关系？（1）词嵌入 ...

信息抽取技术进展【4】 -- 新的挑战

发表于2021-03-25|基础理论知识知识图谱

信息抽取技术进展【4】-- 新的挑战【摘要】行业知识图谱是行业认知智能化应用的基石。目前在大部分细分垂直领域中，行业知识图谱的schema构建依赖领域专家的重度参与，该模式人力投入成本高，建设周期长，同时在缺乏大规模有监督数据的情形下的信息抽取效果欠佳，这限制了行业知识图谱的落地且降低了图谱的接受度。本文对与上述schema构建和低资源抽取困难相关的最新技术进展进行了整理和分析，其中包含我们在半自动schema构建方面的实践，同时给出了Document AI和长结构化语言模型在文档级信息抽取上的前沿技术分析和讨论，期望能给同行的研究工作带来一定的启发和帮助。【引自】万字综述：行业知识图谱构建最新进展作者：李晶阳[1]，牛广林[2]，唐呈光[1]，余海洋[1]，李杨[1]，付彬[1]，孙健[1] 单位：阿里巴巴-达摩院-小蜜Conversational AI团队[1]，北京航空航天大学计算机学院[2] 新的挑战 1 文档级信息抽取难题在实际项目中，除了从句子和段落中进行实体和关系抽取之外，我们还面临从文档中进行信息抽取的新挑战。下面两图是保险合同相关的pdf文档 ...

信息抽取技术进展【3】 -- 关系抽取技术

发表于2021-03-25|基础理论知识知识图谱

信息抽取技术进展【3】-- 关系抽取技术【摘要】行业知识图谱是行业认知智能化应用的基石。目前在大部分细分垂直领域中，行业知识图谱的schema构建依赖领域专家的重度参与，该模式人力投入成本高，建设周期长，同时在缺乏大规模有监督数据的情形下的信息抽取效果欠佳，这限制了行业知识图谱的落地且降低了图谱的接受度。本文对与上述schema构建和低资源抽取困难相关的最新技术进展进行了整理和分析，其中包含我们在半自动schema构建方面的实践，同时给出了Document AI和长结构化语言模型在文档级信息抽取上的前沿技术分析和讨论，期望能给同行的研究工作带来一定的启发和帮助。【引自】万字综述：行业知识图谱构建最新进展作者：李晶阳[1]，牛广林[2]，唐呈光[1]，余海洋[1]，李杨[1]，付彬[1]，孙健[1] 单位：阿里巴巴-达摩院-小蜜Conversational AI团队[1]，北京航空航天大学计算机学院[2] 1. 简介关系抽取指的是对给定的实体对之间的关系类型进行分类。相较于OpenIE中的不固定类型的关系抽取，本部分所讲的关系抽取统指固定关系类别集合的关系抽取。 ...

信息抽取技术进展【2】 --命名实体识别技术

发表于2021-03-25|基础理论知识知识图谱

信息抽取技术进展【2】-- 命名实体识别【摘要】领域知识图谱是行业认知智能化应用的基石。目前在大部分细分垂直领域中，领域知识图谱的schema构建依赖领域专家的重度参与，该模式人力投入成本高，建设周期长，同时在缺乏大规模有监督数据的情形下的信息抽取效果欠佳，这限制了领域知识图谱的落地且降低了图谱的接受度。本文对与上述schema构建和低资源抽取困难相关的最新技术进展进行了整理和分析，其中包含我们在半自动schema构建方面的实践，同时给出了Document AI和长结构化语言模型在文档级信息抽取上的前沿技术分析和讨论，期望能给同行的研究工作带来一定的启发和帮助。【引自】万字综述：领域知识图谱构建最新进展作者：李晶阳[1]，牛广林[2]，唐呈光[1]，余海洋[1]，李杨[1]，付彬[1]，孙健[1] 单位：阿里巴巴-达摩院-小蜜Conversational AI团队[1]，北京航空航天大学计算机学院[2] 1. 简介命名实体识别（Named Entity Recognition，简称NER），是指识别文本中具有特定含义的实体及类型。常用NER数据集中的实体类型主 ...

信息抽取技术进展【2】 --命名实体识别及关系抽取

发表于2021-03-25|基础理论知识知识图谱

信息抽取技术进展【1】-- 概述【摘要】从非结构化文本中提取对人类有意义的信息，是自由文本在DIKW金字塔中从数据层提升至知识层的关键性步骤，而其主要实现手段就是信息抽取，即将自由文本转换为结构化文本。本文对信息抽取技术做一简单介绍。【引自】李晶阳、牛广林等的**《万字综述：行业知识图谱构建最新进展》**等文章 1. 引言从计算到感知再到认知的人工智能技术发展路径已经成为大多人工智能研究和应用专家的共识。机器具备认知智能，进而实现推理、归纳、决策甚至创作，在一定程度上需要一个充满知识的大脑。知识图谱 [4, 18, 19]，作为互联网时代越来越普及的语义知识形式化描述框架，已成为推动人工智能从感知能力向认知能力发展的重要途径。知识图谱的应用现在非常广泛：在通用领域 Google、百度等搜索公司利用其提供智能搜索服务，IBM Waston问答机器人、苹果的Siri语音助手和Wolfram Alpha都利用图谱来进行问题理解、推理和问答；在各垂直领域行业数据也在从大规模数据到图谱化知识快速演变，且基于图谱形式的行业知识，对智能客服、智能决策、智 ...

数据、信息、知识与智慧----知识金字塔

发表于2021-03-25|基础理论知识知识图谱

数据、信息、知识与智慧----知识金字塔模型 1 知识金字塔正确地理解知识，需要从知识金字塔开始说起，通过多层次的概念梳理，有助于理解知识的内涵。知识金字塔是指“数据-信息-知识-智慧”层次结构（DIKW）模型，也被称为“知识层次结构”、“信息层次结构”等，是被广泛认可的信息和知识模型。 DIKW层次结构用于关联数据、信息、知识和智慧的上下文关系，并标识和描述层次结构中较低级别的实体（如数据）向高级别实体（如信息）转换所涉及的过程。需要注意的是，知识金字塔模型中通常隐含着如下假设：数据可用于创建信息，信息可以用于创造知识，知识可用于创造智慧。而Ackoff [1]认为：该层次结构模型中，每个较高类型“都包括低于它的类型”。 2 相关概念的讨论多年来，相当多的注意力主要集中在信息和知识的定义和区别上。（1）信息的本质因为信息是我们生存的基础，因此已被许多学科所考虑，包括传播理论、图书馆与信息科学、信息系统、认知科学和组织科学等。这对信息的性质产生了多种观点。弗洛里迪（Floridi）建议，“在我们一般的技术概念中，信息是目前最重要、应用最广泛、但了解最少的信息 ...