NLP预训练模型【6】 -- BERT
目录
目录
1. 什么是BERT
2. 从Word Embedding到Bert模型的发展
2.1 图像的预训练
2.2 Word Embedding
2.3 ELMO
2.4 GPT
2.5 BERT
2.5.1 Embedding
2.5.2 Masked LM
2.5.3 Next Sentence Prediction
3. BERT的评价
4. 代码实现
5. 参考文献
1. 什么是BERT
BERT的全称是Bidirectional Encoder Representation from Transformers,是Google2018年提出的预训练模型,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上,即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。
Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得。那为什么会有这 ...