隐马尔可夫模型
【摘 要】 如果存在具有棘手后验的连续型隐变量和大数据集,我们如何在有向概率图模型中进行有效的推断和学习? 本文引入了一种随机变分推断和学习算法。该算法能够在一些轻度差异化(甚至棘手)的情况下工作,并且能够扩展到大型数据集。本文的贡献有两个:首先,证明了重参数化方法可以产生一个对变分下界的无偏估计,并且该估计方法能够使用随机梯度方法做优化。其次,对于有连续型隐变量的独立同分布数据集,我们利用重参数化的变分下界估计,成功地为棘手后验拟合了近似的推断模型。理论优势最终反映在了实验结果中。
1 介绍
当模型中存在具有棘手后验的连续型隐变量和/或参数时,我们如何使用有向概率图模型进行近似推断和学习呢?
在实践中,变分推断方法可以采用优化方法对棘手后验做近似推断。目前常用的平均场变分推断方法,利用指数族分布来构建一个近似的变分下界,但该方法中需要期望(相对于近似后验)的解析解,这在一般情况下很难适用。
关于变分推断的知识参阅 初始变分推断
贝叶斯方法需要对分布作出推断,由于精确推断通常非常棘手,因此近似推断方法得到了广泛应用。变分推断方法作为其中一种近似推断方法,其核心理念是:
...
3️⃣ 变分自编码器原始论文
【摘 要】 如果存在具有棘手后验的连续型隐变量和大数据集,如何在有向概率图模型中进行有效的推断和学习? 本文引入了一种随机变分推断和学习算法。该算法能够在一些轻度差异化(甚至棘手)的情况下工作,并且能够扩展到大型数据集。本文的贡献有两个:首先,证明了重参数化技巧可以得到对变分下界的无偏估计,并且可用于随机梯度的优化。其次,对于有连续型隐变量的独立同分布数据集,我们利用重参数化的变分下界估计,成功地为棘手后验拟合了近似的推断模型(注:利用摊销推断思想,将传统棘手的局部隐变量推断问题转变成了神经网络预测问题)。理论优势最终反映在了实验结果中。
【原 文】 Kingma, D.P. and Welling, M. (2014) ‘Auto-Encoding Variational Bayes’. arXiv. Available at: http://arxiv.org/abs/1312.6114 (Accessed: 14 October 2022).
1 介绍
当模型中存在具有棘手后验的连续型隐变量和/或参数时,我们如何使用有向概率图模型进行近似推断和学习呢?
在实践中, ...
(高斯)混合模型
【摘 要】 高斯混合模型(GMM)用多个高斯概率密度函数(正态分布曲线)精确地量化变量分布,是将变量分布分解为若干基于高斯概率密度函数(正态分布曲线)分布的统计模型。GMM是一种常用的聚类算法,一般使用期望最大算法(Expectation Maximization,EM)进行估计。
1 问题的提出
高斯混合模型(Gaussian Mixed Model)指的是多个高斯分布函数的线性组合,理论上 GMM 可以拟合出任意类型的分布,通常用于解决同一集合下的数据包含多个不同分布的情况(或者是同一类分布但参数不一样,或者是不同类型的分布,比如正态分布和伯努利分布)。
如图1,图中的点在我们看来明显分成两个聚类。这两个聚类中的点分别通过两个不同的正态分布随机生成而来。但是如果没有GMM,那么只能用一个的二维高斯分布来描述图1中的数据。图1中的椭圆即为二倍标准差的正态分布椭圆。这显然不太合理,毕竟肉眼一看就觉得应该把它们分成两类。
这时候就可以使用GMM了!如图2,数据在平面上的空间分布和图1一样,这时使用两个二维高斯分布来描述图2中的数据,分别记为 和 。 图中的两个椭圆分别是这 ...
初识生成对抗网络 (GAN)
【摘要】
【原文】
【参考】
2️⃣ 概率视角看变分自编码器
〖摘要〗 本文从神经网络和概率机器学习两个视角,介绍了 VAE 背后的数学原理。严格意义上来说,变分自编码器( VAE)是一种面向连续型隐变量的黑盒变分推断方法。其建立在基于神经网络的函数逼近之上,并可用随机梯度下降进行训练。VAE 已在生成多种复杂数据方面显示出很好的前景,包括手写数字、人脸、门牌号、CIFAR 图像、场景物理模型、分割以及从静态图像预测未来。
〖原文〗 Jaan Altosaar;Understanding Variational Autoencoders (VAEs) from two perspectives: deep learning and graphical models.;2016
p{text-indent:2em}
1 问题的提出
为什么深度学习研究人员和概率机器学习人员在讨论变分自编码器时会感到困惑?什么是变分自编码器?为什么围绕这个术语存在不合理的混淆?
这是因为存在概念和语言上的代沟!!!
神经网络科学和概率模型之间缺少共同的语言。本文的目标之一是弥合这一差距,并允许它们之间进行更多的协作和讨论,并提供一致的实现(Github 链 ...
贝叶斯深度学习研究综述
【摘 要】 一个全面的人工智能系统不仅需要感知环境,还需要推断关系(甚至因果)及其不确定性。过去十年中,深度学习在感知任务中取得了重大进展,例如:用于视觉对象识别和语音识别。但对更高级的推断任务而言,具有贝叶斯性质的概率图模型(Probabilistic Graphical Model, PGM )则更强大和灵活。近年,贝叶斯深度学习作为统一的概率框架出现,将深度学习和贝叶斯模型紧密结合在一起,用深度学习对文本、图像的感知能力来提高进一步推断的性能,反过来,通过推断过程的反馈来增强文本或图像的感知能力。本文对贝叶斯深度学习进行了较为全面的介绍,综述了贝叶斯深度学习在推荐系统、主题模型、控制等方面的应用,并讨论了贝叶斯深度学习与神经网络的贝叶斯处理等相关课题的联系与区别。
【原 文】 Wang H, Yeung D Y. A survey on Bayesian deep learning[J]. ACM Computing Surveys (CSUR), 2020, 53(5): 1-37.
【作者博客】 wanghao.in/BDL.html
【阅后感】 贝叶斯深度学习的 ...
概率 PCA 模型
【摘 要】概率 PCA 模型(pPCA)。
1️⃣ 初始变分自编码器
【摘 要】本文从自编码器入手,讨论了自编码器与变分自编码器之间的本质区别,并简单介绍了变分自编码器的工作原理,适合于认识变分自编码器的第一篇入门读物。
【原 文】Joseph Rocca & Baptiste Rocca,Understanding Variational Autoencoders VAEs
1. 简介
在过去的几年中,由于一些惊人的进步,基于深度学习的生成模型越来越受到关注。依靠大量数据,精心设计的网络结构和训练技术,深度生成模型已经显示出了令人难以置信的能力,可以生成高度逼真的各种内容,例如图像,文本和声音。在这些深度生成模型中,有两个类别脱颖而出,值得特别关注:生成对抗网络(GAN)和 变分自编码器(VAE)。
图 1 VAE 生成的人脸图片
简而言之,VAE 是一种自编码器,在训练过程中其编码的概率分布是正则化的,以确保其在隐空间具有良好特性,进而允许我们生成一些新数据。术语 “变分” 源自统计中的 正则化 和 变分推断 方法。
虽然最后两句话很好地概括了 VAE 的概念,但是它们也会引出很多问题。什么是自编码器?什么是隐空间?为什么要 ...
受限玻尔兹曼机与深度置信网络
1 梯度消失问题与受限玻尔兹曼机
梯度下降法及其派生方法 在使用随机初始化权重的深度网络上效果并不好,其技术原因是:梯度会变得非常小。具体而言,当使用 反向传播方法 计算导数时,随着网络深度的增加,反向传播的梯度幅度值(从输出层到网络的最初几层)会急剧地减小。结果造成整体损失函数相对于最初几层权重的导数非常小。这样,当使用梯度下降法时,最初几层的权重变化非常缓慢,以至于不能从样本中进行有效学习。这种问题通常被称为 梯度的消失。
与梯度消失问题紧密相关的问题是:当神经网络中最后几层含有足够数量神经元时,可能单独这几层就足以对有标签数据进行建模,而不用最初几层的帮助。因此,对所有层都使用随机初始化方法进行训练所得到的网络,其性能将会与浅层网络(仅由深度网络的最后几层组成)性能相似,进而无法体现深度的优势。
梯度消失一直困扰着深度神经网络发展,那么如何解决梯度消失问题呢?合理的初始权重是其中一种解决方案(见下面注释框)。多伦多大学的Geoff Hinton 教授提出的 受限玻尔兹曼机(Restricted Boltzmann Machines, RBM)[1] ,以及在其基础上 ...
模型平均(Model Averaging)
模型比较(Model Comparison)
#refplus, #refplus li{
padding:0;
margin:0;
list-style:none;
};
document.querySelectorAll(".refplus-num").forEach((ref) => {
let refid = ref.firstChild.href.replace(location.origin+location.pathname,'');
let refel = document.querySelector(refid);
let refnum = refel.dataset.num;
let ref_content = refel.innerText.replace(`[${refnum}]`,'');
tippy(ref, {
con ...