神经网络--卷积与循环神经网络
〖摘要〗
〖原文〗 Standford cs228 notes
〖参考〗CMU 10-708 Slides / CMU 10-708 Lecture Notes / Jordan TextBook, Ch.2(section 2.2 - end) / Koller’s Textbook,Ch.4 / A. Fischer and C. Igel, An Introducton to Restricted Boltzmann Machines / B. A. Cipra, An Introduction to the Ising Model
神经网络--变分自编码器与 GAN
〖摘要〗
〖原文〗 Standford cs228 notes
〖参考〗CMU 10-708 Slides / CMU 10-708 Lecture Notes / Jordan TextBook, Ch.2(section 2.2 - end) / Koller’s Textbook,Ch.4 / A. Fischer and C. Igel, An Introducton to Restricted Boltzmann Machines / B. A. Cipra, An Introduction to the Ising Model
神经网络与概率图模型
〖摘要〗
〖原文〗 Standford cs228 notes
〖参考〗CMU 10-708 Slides / CMU 10-708 Lecture Notes / Jordan TextBook, Ch.2(section 2.2 - end) / Koller’s Textbook,Ch.4 / A. Fischer and C. Igel, An Introducton to Restricted Boltzmann Machines / B. A. Cipra, An Introduction to the Ising Model
能量模型概览
【摘要】
【原文】 Murphy, Kevin P. Chapter 24 of Probabilistic Machine Learning: Advanced Topics. MIT Press, 2023. probml.ai.
【参考】
https://github.com/yataobian/awesome-ebm
1 概述
变分自编码器、自回归模型和归一化流等深度生成模型,都可以用有向图模型来表述,在这些模型中,使用局部归一化的分布一步一步生成数据。但在某些情况下,根据有效样本必须满足的一组约束来指定分布,可能比定义数据生成过程更容易。这可以使用无向图形模型来完成。
基于能量的模型( Eneragy-based Models, EBM )可以被写成 Gibbs 分布,如下所示:
pθ(x)=exp(−Eθ(x))Zθp_{\boldsymbol{\theta}}(\mathbf{x}) = \frac{\exp(- \mathcal{E}_{\boldsymbol{\theta}}(\mathbf{x}))}{Z_{\boldsymbol{\theta}} ...
归一化流概览
【摘要】 归一化流是一种用于定义可表示性概率分布的通用机制,它只需要指定一个基分布和一系列双射变换,就能够得到更具有表达能力的概率分布。近年来,从提高表达能力到扩展其应用方案法,出现了大量关于归一化流的工作。我们认为该领域现在已经成熟了,需要一个公共的统一视角。本文试图通过概率建模和推断视角来描述流。本文特别强调流设计的基本原则,并将讨论模型表达能力与计算代价权衡等基本主题。本文还通过将流与更一般的概率转换相关联,来拓宽流的概念框架。最后,总结了流在生成模型、近似推断和监督学习等任务中的应用。
【原文】Papamakarios, G., Nalisnick, E., Rezende, D. J., Mohamed, S., & Lakshminarayanan, B. (2021). Normalizing Flows for Probabilistic Modeling and Inference (593 citation(s); arXiv:1912.02762). arXiv. http://arxiv.org/abs/1912.02762
【参考】
I. ...
自回归模型概览
【摘要】
【原文】 Murphy, Kevin P. Chapter 22 of Probabilistic Machine Learning: Advanced Topics. MIT Press, 2023. probml.ai.
【参考】
PixelCNN++: Improving the PixelCNN with Discretized Logistic Mi\boldsymbol{x}_{t}ure Likelihood and Other Modifications
https://github.com/openai/pixel-cnn
1 概述
根据概率链式法则,我们可以写出 T 个变量上的任意联合分布如下:
p(x1:T)=p(x1)p(x2∣x1)p(x3∣x2,x1)p(x4∣x3,x2,x1)…=∏t=1Tp(xt∣x1:t−1)p\left(\boldsymbol{x}_{1: T}\right)=p\left(\boldsymbol{x}_1\right) p\left(\boldsymbol{x}_2 \mid \boldsymbo ...
3️⃣ 变分自编码器原始论文
【摘 要】 如果存在具有棘手后验的连续型隐变量和大数据集,如何在有向概率图模型中进行有效的推断和学习? 本文引入了一种随机变分推断和学习算法。该算法能够在一些轻度差异化(甚至棘手)的情况下工作,并且能够扩展到大型数据集。本文的贡献有两个:首先,证明了重参数化技巧可以得到对变分下界的无偏估计,并且可用于随机梯度的优化。其次,对于有连续型隐变量的独立同分布数据集,我们利用重参数化的变分下界估计,成功地为棘手后验拟合了近似的推断模型(注:利用摊销推断思想,将传统棘手的局部隐变量推断问题转变成了神经网络预测问题)。理论优势最终反映在了实验结果中。
【原 文】 Kingma, D.P. and Welling, M. (2014) ‘Auto-Encoding Variational Bayes’. arXiv. Available at: http://arxiv.org/abs/1312.6114 (Accessed: 14 October 2022).
1 介绍
当模型中存在具有棘手后验的连续型隐变量和/或参数时,我们如何使用有向概率图模型进行近似推断和学习呢?
在实践中, ...
初识生成对抗网络 (GAN)
【摘要】
【原文】
【参考】
2️⃣ 概率视角看变分自编码器
〖摘要〗 本文从神经网络和概率机器学习两个视角,介绍了 VAE 背后的数学原理。严格意义上来说,变分自编码器( VAE)是一种面向连续型隐变量的黑盒变分推断方法。其建立在基于神经网络的函数逼近之上,并可用随机梯度下降进行训练。VAE 已在生成多种复杂数据方面显示出很好的前景,包括手写数字、人脸、门牌号、CIFAR 图像、场景物理模型、分割以及从静态图像预测未来。
〖原文〗 Jaan Altosaar;Understanding Variational Autoencoders (VAEs) from two perspectives: deep learning and graphical models.;2016
p{text-indent:2em}
1 问题的提出
为什么深度学习研究人员和概率机器学习人员在讨论变分自编码器时会感到困惑?什么是变分自编码器?为什么围绕这个术语存在不合理的混淆?
这是因为存在概念和语言上的代沟!!!
神经网络科学和概率模型之间缺少共同的语言。本文的目标之一是弥合这一差距,并允许它们之间进行更多的协作和讨论,并提供一致的实现(Github 链 ...
1️⃣ 初始变分自编码器
【摘 要】本文从自编码器入手,讨论了自编码器与变分自编码器之间的本质区别,并简单介绍了变分自编码器的工作原理,适合于认识变分自编码器的第一篇入门读物。
【原 文】Joseph Rocca & Baptiste Rocca,Understanding Variational Autoencoders VAEs
1. 简介
在过去的几年中,由于一些惊人的进步,基于深度学习的生成模型越来越受到关注。依靠大量数据,精心设计的网络结构和训练技术,深度生成模型已经显示出了令人难以置信的能力,可以生成高度逼真的各种内容,例如图像,文本和声音。在这些深度生成模型中,有两个类别脱颖而出,值得特别关注:生成对抗网络(GAN)和 变分自编码器(VAE)。
图 1 VAE 生成的人脸图片
简而言之,VAE 是一种自编码器,在训练过程中其编码的概率分布是正则化的,以确保其在隐空间具有良好特性,进而允许我们生成一些新数据。术语 “变分” 源自统计中的 正则化 和 变分推断 方法。
虽然最后两句话很好地概括了 VAE 的概念,但是它们也会引出很多问题。什么是自编码器?什么是隐空间?为什么要 ...