标签: Transformer | 西山晴雪的知识笔记

发表于2021-03-27|基础理论知识自然语言处理

p{text-indent:2em} NLP预训练模型【5】 – $Transformer$1. 什么是 $Transformer$《 $Attention$ Is All You Need》是一篇Google提出的将 $Attention$ 思想发挥到极致的论文。这篇论文中提出一个全新的模型，叫 $Transformer$ ，抛弃了以往深度学习任务里面使用到的CNN和RNN。目前大热的BERT就是基于 $Transformer$ 构建的，这个模型广泛应用于NLP领域，例如机器翻译，问答系统，文本摘要和语音识别等等方向。 2. $Transformer$ 结构2.1 总体结构 $Transformer$ 的结构和 $Attention$ 模型一样， $Transformer$ 模型中也采用了 $Encoer- Decoder$ 架构。但其结构相比于 $Attention$ 更加复杂，论文中 $Encoder$ 层由6个 $Encoder$ 堆叠在一起， $Decoder$ 层也一样。不了解 $Attention$ 模型的，可以回顾之前的文章。每一个...