NLP预训练模型【7】 -- XLNet
目录 目录 1. 什么是XLNet 2. 自回归语言模型(Autoregressive LM) 3. 自编码语言模型(Autoencoder LM) 4. XLNet模型 4.1 排列语言建模(Permutation Language Modeling) 4.2 Transformer XL 4.2.1 vanilla Transformer 4.2.2 Transformer XL 5. XLNet与BERT比较 6. 代码实现 7. 参考文献 1. 什么是XLNetXLNet是一个类似BERT的模型,而不是完全不同的模型。总之,XLNet是一种通用的自回归预训练方法。它是CMU和Google...
NLP预训练模型【6】 -- BERT
目录 目录 1. 什么是BERT 2. 从Word Embedding到Bert模型的发展 2.1 图像的预训练 2.2 Word Embedding 2.3 ELMO 2.4 GPT 2.5 BERT 2.5.1 Embedding 2.5.2 Masked LM 2.5.3 Next Sentence Prediction 3. BERT的评价 4. 代码实现 5. 参考文献 1. 什么是BERTBERT的全称是Bidirectional Encoder Representation from Transformers,是Google2018年提出的预训练模型,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上,即用了Masked LM和Next Sentence...
NLP预训练模型【4】 -- 注意力机制
p{text-indent:2em} NLP预训练模型【4】 – 注意力机制1. 什么是 $ Attention $ 机制在” $ seq2seq $ ...
NLP预训练模型【3】 -- seq2seq与LSTM等基础编解码器
NLP预训练模型【3】 – seq2seq模型与RNN、LSTM等基础编解码器 引自:@mantchs GitHub:https://github.com/NLP-LOVE/ML-NLP 1. 什么是seq2seq? 在⾃然语⾔处理的很多应⽤中,输⼊和输出都可以是不定⻓序列。以机器翻译为例,输⼊可以是⼀段不定⻓的英语⽂本序列,输出可以是⼀段不定⻓的法语⽂本序列,例如: 英语输⼊:“They”、“are”、“watching”、“.” 法语输出:“Ils”、“regardent”、“.” ...
NLP预训练模型【2】 -- 离散表示与分布式表示
NLP预训练模型【2】– 离散表示与分布式表示【摘要】 在了解深度学习的预训练模型之前,本文首先介绍一下分布式表示的起源,以及一些前期的语言模型。主要包括:One-hot、词袋、词频等离散表示模型;和NNLM、word2vec等浅层分布式表示模型。 本文引自CSDN 「kesisour」 1. 什么是词嵌入(Word Embedding)⾃然语⾔是⼀套⽤来表达含义的复杂系统。在这套系统中,词是表义的基本单元。顾名思义,词向量是⽤来表⽰词的向量,也可被认为是词的特征向量或表征。把词映射为实数域向量的技术也叫词嵌⼊(word...
NLP预训练模型【1】 -- 总览
NLP预训练模型【1】 – 总览【摘要】预训练模型( Pre-trained Models )的出现将NLP带入了一个全新时代。2020年3月,邱锡鹏老师发表了关于NLP预训练模型的综述《Pre-trained Models for Natural Language Processing: A Survey》1,系统地对预训练模型进行了归纳分类。 本文引自公众号「高能AI」 〇....