西山晴雪的知识笔记

发表于2021-03-27|基础理论知识自然语言处理

NLP预训练模型【2】-- 离散表示与分布式表示【摘要】在了解深度学习的预训练模型之前，本文首先介绍一下分布式表示的起源，以及一些前期的语言模型。主要包括：One-hot、词袋、词频等离散表示模型；和NNLM、word2vec等浅层分布式表示模型。本文引自CSDN 「kesisour」 1. 什么是词嵌入(Word Embedding) ⾃然语⾔是⼀套⽤来表达含义的复杂系统。在这套系统中，词是表义的基本单元。顾名思义，词向量是⽤来表⽰词的向量，也可被认为是词的特征向量或表征。把词映射为实数域向量的技术也叫词嵌⼊（word embedding）。近年来，词嵌⼊已逐渐成为⾃然语⾔处理的基础知识。在NLP(自然语言处理)领域，文本表示是第一步，也是很重要的一步，通俗来说就是把人类的语言符号转化为机器能够进行计算的数字，因为普通的文本语言机器是看不懂的，必须通过转化来表征对应文本。早期是基于规则的方法进行转化，而现代的方法是基于统计机器学习的方法。数据决定了机器学习的上限,而算法只是尽可能逼近这个上限，在本文中数据指的就是文本表示，所以，弄懂文本表示的发展历程，对于NLP ...