扩散模型-北大综述
〖摘要〗扩散模型是一类具有丰富理论基础的深度生成模型,在各种任务中都取得了令人印象深刻的结果。尽管扩散模型比其他先进模型取得了更令人印象深刻的质量和样本多样性,但它们仍然存在昂贵的采样过程和次优的似然估计。近年来,研究人员对扩散模型性能的改进表现出极大的热情。在本文中,我们提出了对扩散模型现有变体的第一个全面综述。具体地说,我们提供了扩散模型的第一种分类法,将其变体分为三种类型:采样加速增强类、似然最大化增强类和数据泛化增强类。我们还介绍了其他五种生成模型(即变分自编码器、生成对抗网络、归一化流、自回归模型和基于能量的模型),并阐明了扩散模型和这些生成模型之间的联系。文末对扩散模型的应用进行了深入探讨,包括计算机视觉、自然语言处理、波形信号处理、多模态建模、分子图生成、时间序列建模和对抗性纯化等。
〖原文〗Yang, L., Zhang, Z., Hong, S., Xu, R., Zhao, Y., Shao, Y., Zhang, W., Yang, M.-H., & Cui, B. (2022). Diffusion Models: A Comprehensi ...
能量模型概览
【摘要】
【原文】 Murphy, Kevin P. Chapter 24 of Probabilistic Machine Learning: Advanced Topics. MIT Press, 2023. probml.ai.
【参考】
https://github.com/yataobian/awesome-ebm
1 概述
变分自编码器、自回归模型和归一化流等深度生成模型,都可以用有向图模型来表述,在这些模型中,使用局部归一化的分布一步一步生成数据。但在某些情况下,根据有效样本必须满足的一组约束来指定分布,可能比定义数据生成过程更容易。这可以使用无向图形模型来完成。
基于能量的模型( Eneragy-based Models, EBM )可以被写成 Gibbs 分布,如下所示:
pθ(x)=exp(−Eθ(x))Zθp_{\boldsymbol{\theta}}(\mathbf{x}) = \frac{\exp(- \mathcal{E}_{\boldsymbol{\theta}}(\mathbf{x}))}{Z_{\boldsymbol{\theta}} ...
归一化流概览
【摘要】 归一化流是一种用于定义可表示性概率分布的通用机制,它只需要指定一个基分布和一系列双射变换,就能够得到更具有表达能力的概率分布。近年来,从提高表达能力到扩展其应用方案法,出现了大量关于归一化流的工作。我们认为该领域现在已经成熟了,需要一个公共的统一视角。本文试图通过概率建模和推断视角来描述流。本文特别强调流设计的基本原则,并将讨论模型表达能力与计算代价权衡等基本主题。本文还通过将流与更一般的概率转换相关联,来拓宽流的概念框架。最后,总结了流在生成模型、近似推断和监督学习等任务中的应用。
【原文】Papamakarios, G., Nalisnick, E., Rezende, D. J., Mohamed, S., & Lakshminarayanan, B. (2021). Normalizing Flows for Probabilistic Modeling and Inference (593 citation(s); arXiv:1912.02762). arXiv. http://arxiv.org/abs/1912.02762
【参考】
I. ...
隐狄利克雷分配模型
【摘 要】
自回归模型概览
【摘要】
【原文】 Murphy, Kevin P. Chapter 22 of Probabilistic Machine Learning: Advanced Topics. MIT Press, 2023. probml.ai.
【参考】
PixelCNN++: Improving the PixelCNN with Discretized Logistic Mi\boldsymbol{x}_{t}ure Likelihood and Other Modifications
https://github.com/openai/pixel-cnn
1 概述
根据概率链式法则,我们可以写出 T 个变量上的任意联合分布如下:
p(x1:T)=p(x1)p(x2∣x1)p(x3∣x2,x1)p(x4∣x3,x2,x1)…=∏t=1Tp(xt∣x1:t−1)p\left(\boldsymbol{x}_{1: T}\right)=p\left(\boldsymbol{x}_1\right) p\left(\boldsymbol{x}_2 \mid \boldsymbo ...
隐马尔可夫模型
【摘 要】 如果存在具有棘手后验的连续型隐变量和大数据集,我们如何在有向概率图模型中进行有效的推断和学习? 本文引入了一种随机变分推断和学习算法。该算法能够在一些轻度差异化(甚至棘手)的情况下工作,并且能够扩展到大型数据集。本文的贡献有两个:首先,证明了重参数化方法可以产生一个对变分下界的无偏估计,并且该估计方法能够使用随机梯度方法做优化。其次,对于有连续型隐变量的独立同分布数据集,我们利用重参数化的变分下界估计,成功地为棘手后验拟合了近似的推断模型。理论优势最终反映在了实验结果中。
1 介绍
当模型中存在具有棘手后验的连续型隐变量和/或参数时,我们如何使用有向概率图模型进行近似推断和学习呢?
在实践中,变分推断方法可以采用优化方法对棘手后验做近似推断。目前常用的平均场变分推断方法,利用指数族分布来构建一个近似的变分下界,但该方法中需要期望(相对于近似后验)的解析解,这在一般情况下很难适用。
关于变分推断的知识参阅 初始变分推断
贝叶斯方法需要对分布作出推断,由于精确推断通常非常棘手,因此近似推断方法得到了广泛应用。变分推断方法作为其中一种近似推断方法,其核心理念是:
...
3️⃣ 变分自编码器原始论文
【摘 要】 如果存在具有棘手后验的连续型隐变量和大数据集,如何在有向概率图模型中进行有效的推断和学习? 本文引入了一种随机变分推断和学习算法。该算法能够在一些轻度差异化(甚至棘手)的情况下工作,并且能够扩展到大型数据集。本文的贡献有两个:首先,证明了重参数化技巧可以得到对变分下界的无偏估计,并且可用于随机梯度的优化。其次,对于有连续型隐变量的独立同分布数据集,我们利用重参数化的变分下界估计,成功地为棘手后验拟合了近似的推断模型(注:利用摊销推断思想,将传统棘手的局部隐变量推断问题转变成了神经网络预测问题)。理论优势最终反映在了实验结果中。
【原 文】 Kingma, D.P. and Welling, M. (2014) ‘Auto-Encoding Variational Bayes’. arXiv. Available at: http://arxiv.org/abs/1312.6114 (Accessed: 14 October 2022).
1 介绍
当模型中存在具有棘手后验的连续型隐变量和/或参数时,我们如何使用有向概率图模型进行近似推断和学习呢?
在实践中, ...
(高斯)混合模型
【摘 要】 高斯混合模型(GMM)用多个高斯概率密度函数(正态分布曲线)精确地量化变量分布,是将变量分布分解为若干基于高斯概率密度函数(正态分布曲线)分布的统计模型。GMM是一种常用的聚类算法,一般使用期望最大算法(Expectation Maximization,EM)进行估计。
1 问题的提出
高斯混合模型(Gaussian Mixed Model)指的是多个高斯分布函数的线性组合,理论上 GMM 可以拟合出任意类型的分布,通常用于解决同一集合下的数据包含多个不同分布的情况(或者是同一类分布但参数不一样,或者是不同类型的分布,比如正态分布和伯努利分布)。
如图1,图中的点在我们看来明显分成两个聚类。这两个聚类中的点分别通过两个不同的正态分布随机生成而来。但是如果没有GMM,那么只能用一个的二维高斯分布来描述图1中的数据。图1中的椭圆即为二倍标准差的正态分布椭圆。这显然不太合理,毕竟肉眼一看就觉得应该把它们分成两类。
这时候就可以使用GMM了!如图2,数据在平面上的空间分布和图1一样,这时使用两个二维高斯分布来描述图2中的数据,分别记为 和 。 图中的两个椭圆分别是这 ...
初识生成对抗网络 (GAN)
【摘要】
【原文】
【参考】
2️⃣ 概率视角看变分自编码器
〖摘要〗 本文从神经网络和概率机器学习两个视角,介绍了 VAE 背后的数学原理。严格意义上来说,变分自编码器( VAE)是一种面向连续型隐变量的黑盒变分推断方法。其建立在基于神经网络的函数逼近之上,并可用随机梯度下降进行训练。VAE 已在生成多种复杂数据方面显示出很好的前景,包括手写数字、人脸、门牌号、CIFAR 图像、场景物理模型、分割以及从静态图像预测未来。
〖原文〗 Jaan Altosaar;Understanding Variational Autoencoders (VAEs) from two perspectives: deep learning and graphical models.;2016
p{text-indent:2em}
1 问题的提出
为什么深度学习研究人员和概率机器学习人员在讨论变分自编码器时会感到困惑?什么是变分自编码器?为什么围绕这个术语存在不合理的混淆?
这是因为存在概念和语言上的代沟!!!
神经网络科学和概率模型之间缺少共同的语言。本文的目标之一是弥合这一差距,并允许它们之间进行更多的协作和讨论,并提供一致的实现(Github 链 ...