NLP预训练模型【7】 -- XLNet
目录 目录 1. 什么是XLNet 2. 自回归语言模型(Autoregressive LM) 3. 自编码语言模型(Autoencoder LM) 4. XLNet模型 4.1 排列语言建模(Permutation Language Modeling) 4.2 Transformer XL 4.2.1 vanilla Transformer 4.2.2 Transformer XL 5. XLNet与BERT比较 6. 代码实现 7. 参考文献 1. 什么是XLNetXLNet是一个类似BERT的模型,而不是完全不同的模型。总之,XLNet是一种通用的自回归预训练方法。它是CMU和Google...
NLP预训练模型【6】 -- BERT
目录 目录 1. 什么是BERT 2. 从Word Embedding到Bert模型的发展 2.1 图像的预训练 2.2 Word Embedding 2.3 ELMO 2.4 GPT 2.5 BERT 2.5.1 Embedding 2.5.2 Masked LM 2.5.3 Next Sentence Prediction 3. BERT的评价 4. 代码实现 5. 参考文献 1. 什么是BERTBERT的全称是Bidirectional Encoder Representation from Transformers,是Google2018年提出的预训练模型,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上,即用了Masked LM和Next Sentence...
NLP预训练模型【5】 -- Transformer
p{text-indent:2em} NLP预训练模型【5】 – $Transformer$1. 什么是 $Transformer$《 $Attention$ Is All You Need》是一篇Google提出的将 $Attention$ 思想发挥到极致的论文。这篇论文中提出一个全新的模型,叫 $Transformer$ ,抛弃了以往深度学习任务里面使用到的CNN和RNN。目前大热的BERT就是基于 $Transformer$ 构建的,这个模型广泛应用于NLP领域,例如机器翻译,问答系统,文本摘要和语音识别等等方向。 2. $Transformer$ 结构2.1 总体结构 $Transformer$ 的结构和 $Attention$ 模型一样, $Transformer$ 模型中也采用了 $Encoer- Decoder$ 架构。但其结构相比于 $Attention$ 更加复杂,论文中 $Encoder$ 层由6个 $Encoder$ 堆叠在一起, $Decoder$ 层也一样。 不了解 $Attention$ 模型的,可以回顾之前的文章。 每一个...
NLP预训练模型【4】 -- 注意力机制
p{text-indent:2em} NLP预训练模型【4】 – 注意力机制1. 什么是 $ Attention $ 机制在” $ seq2seq $ ...