NLP预训练模型【5】 -- Transformer
p{text-indent:2em} NLP预训练模型【5】 – $Transformer$1. 什么是 $Transformer$《 $Attention$ Is All You Need》是一篇Google提出的将 $Attention$ 思想发挥到极致的论文。这篇论文中提出一个全新的模型,叫 $Transformer$ ,抛弃了以往深度学习任务里面使用到的CNN和RNN。目前大热的BERT就是基于 $Transformer$ 构建的,这个模型广泛应用于NLP领域,例如机器翻译,问答系统,文本摘要和语音识别等等方向。 2. $Transformer$ 结构2.1 总体结构 $Transformer$ 的结构和 $Attention$ 模型一样, $Transformer$ 模型中也采用了 $Encoer- Decoder$ 架构。但其结构相比于 $Attention$ 更加复杂,论文中 $Encoder$ 层由6个 $Encoder$ 堆叠在一起, $Decoder$ 层也一样。 不了解 $Attention$ 模型的,可以回顾之前的文章。 每一个...