NLP预训练模型【7】 -- XLNet
目录
目录
1. 什么是XLNet
2. 自回归语言模型(Autoregressive LM)
3. 自编码语言模型(Autoencoder LM)
4. XLNet模型
4.1 排列语言建模(Permutation Language Modeling)
4.2 Transformer XL
4.2.1 vanilla Transformer
4.2.2 Transformer XL
5. XLNet与BERT比较
6. 代码实现
7. 参考文献
1. 什么是XLNet
XLNet是一个类似BERT的模型,而不是完全不同的模型。总之,XLNet是一种通用的自回归预训练方法。它是CMU和Google Brain团队在2019年6月份发布的模型,最终,XLNet在20个任务上超过了BERT的表现,并在18个任务上取得了当前最佳效果(state-of-the-art),包括机器问答、自然语言推断、情感分析和文档排序。
作者表示,BERT这样基于去噪自编码器的预训练模型可以很好地建模双向语境信息,性能优于基于自回归语言模型的预训练方法。然而,由于需要mask一部分输 ...
NLP预训练模型【6】 -- BERT
目录
目录
1. 什么是BERT
2. 从Word Embedding到Bert模型的发展
2.1 图像的预训练
2.2 Word Embedding
2.3 ELMO
2.4 GPT
2.5 BERT
2.5.1 Embedding
2.5.2 Masked LM
2.5.3 Next Sentence Prediction
3. BERT的评价
4. 代码实现
5. 参考文献
1. 什么是BERT
BERT的全称是Bidirectional Encoder Representation from Transformers,是Google2018年提出的预训练模型,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上,即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。
Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得。那为什么会有这 ...
NLP预训练模型【5】 -- Transformer
p{text-indent:2em}
NLP预训练模型【5】 – TransformerTransformerTransformer
1. 什么是 TransformerTransformerTransformer
《 AttentionAttentionAttention Is All You Need》是一篇Google提出的将 AttentionAttentionAttention 思想发挥到极致的论文。这篇论文中提出一个全新的模型,叫 TransformerTransformerTransformer ,抛弃了以往深度学习任务里面使用到的CNN和RNN。目前大热的BERT就是基于 TransformerTransformerTransformer 构建的,这个模型广泛应用于NLP领域,例如机器翻译,问答系统,文本摘要和语音识别等等方向。
2. TransformerTransformerTransformer 结构
2.1 总体结构
TransformerTransformerTransformer 的结构和 AttentionAttentionAttenti ...
NLP预训练模型【4】 -- 注意力机制
p{text-indent:2em}
NLP预训练模型【4】 – 注意力机制
1. 什么是 $ Attention $ 机制
在” $ seq2seq $ ”一节⾥,解码器在各个时间步依赖相同的背景变量来获取输⼊序列信息。当编码器为循环神经网络时,背景变量来自它最终时间步的隐藏状态。
现在,让我们再次思考那一节提到的翻译例⼦:输⼊为英语序列“They”“are”“watching”“.”,输出为法语序列“Ils”“regardent”“.”。不难想到,解码器在⽣成输出序列中的每一个词时可能只需利用输⼊序列某一部分的信息。例如,在输出序列的时间步1,解码器可以主要依赖“They”“are”的信息来⽣成“Ils”,在时间步2则主要使用来自“watching”的编码信息⽣成“regardent”,最后在时间步3则直接映射句号“.”。这看上去就像是在解码器的每一时间步对输⼊序列中不同时间步的表征或编码信息分配不同的注意力一样。这也是注意力机制的由来。
仍然以循环神经网络为例,注意力机制通过对编码器所有时间步的隐藏状态做加权平均来得到背景变量。解码器在每一时间步调整这些权重, ...