概率 PCA 模型
【摘 要】概率 PCA 模型(pPCA)。
1️⃣ 初始变分自编码器
【摘 要】本文从自编码器入手,讨论了自编码器与变分自编码器之间的本质区别,并简单介绍了变分自编码器的工作原理,适合于认识变分自编码器的第一篇入门读物。
【原 文】Joseph Rocca & Baptiste Rocca,Understanding Variational Autoencoders VAEs
1. 简介
在过去的几年中,由于一些惊人的进步,基于深度学习的生成模型越来越受到关注。依靠大量数据,精心设计的网络结构和训练技术,深度生成模型已经显示出了令人难以置信的能力,可以生成高度逼真的各种内容,例如图像,文本和声音。在这些深度生成模型中,有两个类别脱颖而出,值得特别关注:生成对抗网络(GAN)和 变分自编码器(VAE)。
图 1 VAE 生成的人脸图片
简而言之,VAE 是一种自编码器,在训练过程中其编码的概率分布是正则化的,以确保其在隐空间具有良好特性,进而允许我们生成一些新数据。术语 “变分” 源自统计中的 正则化 和 变分推断 方法。
虽然最后两句话很好地概括了 VAE 的概念,但是它们也会引出很多问题。什么是自编码器?什么是隐空间?为什么要 ...
受限玻尔兹曼机与深度置信网络
1 梯度消失问题与受限玻尔兹曼机
梯度下降法及其派生方法 在使用随机初始化权重的深度网络上效果并不好,其技术原因是:梯度会变得非常小。具体而言,当使用 反向传播方法 计算导数时,随着网络深度的增加,反向传播的梯度幅度值(从输出层到网络的最初几层)会急剧地减小。结果造成整体损失函数相对于最初几层权重的导数非常小。这样,当使用梯度下降法时,最初几层的权重变化非常缓慢,以至于不能从样本中进行有效学习。这种问题通常被称为 梯度的消失。
与梯度消失问题紧密相关的问题是:当神经网络中最后几层含有足够数量神经元时,可能单独这几层就足以对有标签数据进行建模,而不用最初几层的帮助。因此,对所有层都使用随机初始化方法进行训练所得到的网络,其性能将会与浅层网络(仅由深度网络的最后几层组成)性能相似,进而无法体现深度的优势。
梯度消失一直困扰着深度神经网络发展,那么如何解决梯度消失问题呢?合理的初始权重是其中一种解决方案(见下面注释框)。多伦多大学的Geoff Hinton 教授提出的 受限玻尔兹曼机(Restricted Boltzmann Machines, RBM)[1] ,以及在其基础上 ...