1️⃣ 初始变分自编码器
【摘 要】本文从自编码器入手,讨论了自编码器与变分自编码器之间的本质区别,并简单介绍了变分自编码器的工作原理,适合于认识变分自编码器的第一篇入门读物。
【原 文】Joseph Rocca & Baptiste Rocca,Understanding Variational Autoencoders VAEs
1. 简介
在过去的几年中,由于一些惊人的进步,基于深度学习的生成模型越来越受到关注。依靠大量数据,精心设计的网络结构和训练技术,深度生成模型已经显示出了令人难以置信的能力,可以生成高度逼真的各种内容,例如图像,文本和声音。在这些深度生成模型中,有两个类别脱颖而出,值得特别关注:生成对抗网络(GAN)和 变分自编码器(VAE)。
图 1 VAE 生成的人脸图片
简而言之,VAE 是一种自编码器,在训练过程中其编码的概率分布是正则化的,以确保其在隐空间具有良好特性,进而允许我们生成一些新数据。术语 “变分” 源自统计中的 正则化 和 变分推断 方法。
虽然最后两句话很好地概括了 VAE 的概念,但是它们也会引出很多问题。什么是自编码器?什么是隐空间?为什么要 ...
黑盒变分推断
【摘要】 变分推断已经成为一种广泛使用的方法,用于近似隐变量的复杂后验分布。 然而,传统方法推导出一个变分推断算法需要进行大量的特定模型分析。 这可能会阻碍我们快速开发和探索解决问题的模型。 本文中提出了一种黑盒变分推断算法,该算法可以快速应用于许多模型,几乎不需要额外的推导。我们采用的方法是基于变分目标做随机优化,其中噪声梯度由变分分布的蒙特卡洛样本计算得出,进而避免了对梯度解析形式的推导。考虑到随机优化存在方差变大的问题, 我们同时开发了一些减少梯度方差的方法,并始终保持了避免推导的简易性。 我们将本方法与相应的黑盒采样方法进行对比评估,发现本方法相比于采样方法,能更快达到较好的预测似然。 最后,通过快速构建和评估医疗数据中的几个模型,我们证明了黑盒变分推断法可以轻松探索更为广阔的模型空间。
【原文】Ranganath, R., Gerrish, S., and Blei, D. M. (2014). Black box variational inference. In Artificial Intelligence and Statistics, Vol 37 ...
使用预测方差削减加速随机梯度下降
【摘要】
【原文】R. Johnson and T. Zhang. Accelerating stochastic gradient descent using predictive variance reduction. In NIPS, 2013
#refplus, #refplus li{
padding:0;
margin:0;
list-style:none;
};
document.querySelectorAll(".refplus-num").forEach((ref) => {
let refid = ref.firstChild.href.replace(location.origin+location.pathname,'');
let refel = document.querySelector(refid);
let refnum = refel.dataset.num;
...
随机变分推断
【摘 要】 随机变分推断是一种用于近似后验分布的可扩展算法。我们为一般性的概率模型开发了该技术,并且用两个概率主题模型(潜狄利克雷分配和分层狄利克雷过程主题模型)来证明了它的可用性。我们使用随机变分推断分析了几个大型文档集合:来自 Nature 的 30 万篇文章、来自《纽约时报》的 180 万篇文章和来自维基百科的 380 万篇文章。结果表明:随机变分推断可以轻松处理如此大规模的数据集,并且优于只能处理较小数据集的传统变分推断。我们还表明贝叶斯非参数主题模型的表现要优于参数模型。
【原 文】 Hoffman, M., Blei, D. M., Wang, C., & Paisley, J. (2013). Stochastic Variational Inference. arXiv: http://arxiv.org/abs/1206.7051
1 问题提出
现代数据分析需要使用海量数据进行计算。想象下如下案例:
(1) 我们拥有 200 万本书的原始文本档案,经过扫描并在线存储。我们想发现文本中的主题,并按主题来组织书籍,最终为用户提供一个可以来探索收藏的浏览 ...
平均场(MeanField )变分推断
暂空缺。
#refplus, #refplus li{
padding:0;
margin:0;
list-style:none;
};
document.querySelectorAll(".refplus-num").forEach((ref) => {
let refid = ref.firstChild.href.replace(location.origin+location.pathname,'');
let refel = document.querySelector(refid);
let refnum = refel.dataset.num;
let ref_content = refel.innerText.replace(`[${refnum}]`,'');
tippy(ref, {
content: ref_content, ...
MCMC 采样编程实战
MCMC 采样方法编程应用实战
【摘要】贝叶斯统计需要在贝叶斯定理基础上,通过参数先验和数据似然对参数的后验概率分布作出推断。从推断精度上区分,贝叶斯推断方法大致包含精确推断和近似推断两大类,其中精确推断常见有变量消除法(Variable Elimination, VE)和信念传播法(Belief Propagation, BP);而近似推断方法主要是马尔科夫链蒙特卡洛法(Mente Carlo, MCMC)和变分近似推断法(Variational Inference,VI),从原理上来说,前者属于随机性近似推断,而后者属于确定性近似推断。本文从概率编程角度,引导读者了解 MCMC 方法的使用过程,以便形成整体印象。
【原文】 MCMC sampling for dummies — While My MCMC Gently Samples (twiecki.io)
p{text-indent:2em;2}
引子
当谈论贝叶斯统计和概率编程时,通常会掩藏统计推断实际执行的细节,将其视为黑匣子。概率编程好处在于 “不必为构建模型而理解推断的工作原理”,但让使用者理解其原理肯定会 ...
一篇文章读懂 MCMC 方法
马尔可夫链蒙特卡洛( MCMC )采样
【摘要】传统的蒙特卡洛方法采用随机抽样的方式获得样本,其中大量随机抽取的样本要么被拒绝(拒绝采样)、要么被加权(重要性采样),样本效率不高。因此科学家在思考是否存在一种接受率为 100%100\%100% 的采样方法。马尔可夫链蒙特卡洛方法真是满足此要求的一种高效采样方法,它充分利用马尔可夫链的可逆性和平稳分布收敛特性,通过一段时间的老化后,所得到的样本能够实现 100%100\%100% 的接受率。
【原文】 MCMC and Gibbs Sampling
1 问题的提出
随机模拟(或者统计模拟)方法有一个很酷的别名是蒙特卡罗模拟(Monte Carlo Simulation)。这个方法始于20世纪40年代,和原子弹制造的曼哈顿计划密切相关,当时乌拉姆、冯.诺依曼、费米、费曼、Nicholas Metropolis 等, 在美国洛斯阿拉莫斯国家实验室研究裂变物质的中子连锁反应的时候,开始使用统计模拟的方法,并在最早的计算机上进行编程实现。
图 1: 随机模拟与计算机
现代的统计模拟方法最早由数学家乌拉姆提出,被 M ...
直接采样、拒绝采样与重要性采样
直接采样、拒绝采样与重要性采样
【摘要】蒙特卡洛(Monte Carlo method)是一种以概率统计理论为指导的重要数值计算方法。它使用随机数来解决随机变量(或随机函数)的期望值积分求解、仿真模拟等非常棘手的计算问题,特别适用于无解析形式的复杂概率分布。根据对蒙特卡洛方法的理解,会发现其中最为核心的部分是如何在给定一个复杂分布时,按照概率随机、高效地获得样本,即采样方法问题。本文将介绍其中最为基础和直觉的几种早期方法,分别是基于 CDF 的直接采样、拒绝采样和重要性采样。
1 直接采样
直接采样的思想是:计算机适合于随机的均匀采样,如果能够把任意概率分布的采样转化成对均匀分布的采样,就可以解决采样问题。
假设 yyy 服从某项分布 p(y)p(y)p(y),其累积分布函数( CDF )为 h(y)h(y)h(y),现有均匀分布的样本 z∼Uniform(0,1)z \sim \operatorname{Uniform}(0,1)z∼Uniform(0,1),令 z=h(y)z = h(y)z=h(y),即 y=h−1(z)y = h^{-1}(z)y=h−1(z),结 ...
蒙特卡洛方法原理
〖摘要〗贝叶斯统计需要在贝叶斯定理基础上,通过参数先验和数据似然对参数的后验概率分布作出推断。从推断精度上区分,贝叶斯推断方法大致包含精确推断和近似推断两大类,其中精确推断常见有变量消除法(Variable Elimination, VE)和信念传播法(Belief Propagation, BP);而近似推断方法主要是蒙特卡洛法(Mente Carlo, MC)和变分近似推断法(Variational Inference,VI)。蒙特卡洛方法是一种以概率统计理论为指导的重要数值计算方法。它使用随机数来解决随机变量(或随机函数)期望值积分求解、仿真模拟等非常棘手的计算问题,特别适用于没有明确解析形式的复杂概率分布。蒙特卡洛方法中最为核心的部分是如何在给定一个复杂分布时,按照概率随机地、高效地获得样本,即采样方法问题。
〖原文〗蒙特卡洛方法数学基础、蒙特卡洛方法实践
1 引子
蒙特卡洛方法是一类通过随机采样来求解问题的算法的统称,通常要求解的问题是某随机事件的概率或某随机变量的期望。通过随机采样方法,以随机事件出现的频率估计其概率,并将其作为问题的解。
蒙特卡洛的基本做法:做 ...
0️⃣ 概率图模型简介
〖摘要〗概率图模型是机器学习的一个分支,它研究如何使用概率分布来描述世界并对其做出有用的预测。
〖原文〗Stanford’s CS228
〖参考〗
CMU 10-708 Slides
CMU 10-708 Notes
Jordan’s Textbook
Airoldi’s Tutorial
p{text-indent:2em}
1 简介
概率图模型是机器学习的一个分支,它研究如何使用概率分布来描述世界并对其做出有用的预测。
学习概率建模的原因有很多。
一方面,这是一个引人入胜的科学领域,有一个美丽的理论,它以惊人的方式连接了两个非常不同的数学分支:概率论和图论。概率建模也与哲学有着有趣的联系,尤其是因果关系问题。
同时,概率建模在机器学习和许多实际应用中得到广泛应用。这些技术可用于解决医学、语言处理、视觉和许多其他领域的问题。
这种优雅的理论与应用相结合,使概率图模型成为现代人工智能和计算机科学中最引人入胜的话题之一。2011 年图灵奖(被认为是计算机科学”“诺贝尔奖”)最近被授予 Judea Pearl 以表彰其在概率图建模领域的创立。
2 概念
但 ...