初识生成对抗网络 (GAN)
【摘要】
【原文】
【参考】
2️⃣ 概率视角看变分自编码器
〖摘要〗 本文从神经网络和概率机器学习两个视角,介绍了 VAE 背后的数学原理。严格意义上来说,变分自编码器( VAE)是一种面向连续型隐变量的黑盒变分推断方法。其建立在基于神经网络的函数逼近之上,并可用随机梯度下降进行训练。VAE 已在生成多种复杂数据方面显示出很好的前景,包括手写数字、人脸、门牌号、CIFAR 图像、场景物理模型、分割以及从静态图像预测未来。
〖原文〗 Jaan Altosaar;Understanding Variational Autoencoders (VAEs) from two perspectives: deep learning and graphical models.;2016
p{text-indent:2em}
1 问题的提出
为什么深度学习研究人员和概率机器学习人员在讨论变分自编码器时会感到困惑?什么是变分自编码器?为什么围绕这个术语存在不合理的混淆?
这是因为存在概念和语言上的代沟!!!
神经网络科学和概率模型之间缺少共同的语言。本文的目标之一是弥合这一差距,并允许它们之间进行更多的协作和讨论,并提供一致的实现(Github 链 ...
贝叶斯深度学习研究综述
【摘 要】 一个全面的人工智能系统不仅需要感知环境,还需要推断关系(甚至因果)及其不确定性。过去十年中,深度学习在感知任务中取得了重大进展,例如:用于视觉对象识别和语音识别。但对更高级的推断任务而言,具有贝叶斯性质的概率图模型(Probabilistic Graphical Model, PGM )则更强大和灵活。近年,贝叶斯深度学习作为统一的概率框架出现,将深度学习和贝叶斯模型紧密结合在一起,用深度学习对文本、图像的感知能力来提高进一步推断的性能,反过来,通过推断过程的反馈来增强文本或图像的感知能力。本文对贝叶斯深度学习进行了较为全面的介绍,综述了贝叶斯深度学习在推荐系统、主题模型、控制等方面的应用,并讨论了贝叶斯深度学习与神经网络的贝叶斯处理等相关课题的联系与区别。
【原 文】 Wang H, Yeung D Y. A survey on Bayesian deep learning[J]. ACM Computing Surveys (CSUR), 2020, 53(5): 1-37.
【作者博客】 wanghao.in/BDL.html
【阅后感】 贝叶斯深度学习的 ...
概率 PCA 模型
【摘 要】概率 PCA 模型(pPCA)。
1️⃣ 初始变分自编码器
【摘 要】本文从自编码器入手,讨论了自编码器与变分自编码器之间的本质区别,并简单介绍了变分自编码器的工作原理,适合于认识变分自编码器的第一篇入门读物。
【原 文】Joseph Rocca & Baptiste Rocca,Understanding Variational Autoencoders VAEs
1. 简介
在过去的几年中,由于一些惊人的进步,基于深度学习的生成模型越来越受到关注。依靠大量数据,精心设计的网络结构和训练技术,深度生成模型已经显示出了令人难以置信的能力,可以生成高度逼真的各种内容,例如图像,文本和声音。在这些深度生成模型中,有两个类别脱颖而出,值得特别关注:生成对抗网络(GAN)和 变分自编码器(VAE)。
图 1 VAE 生成的人脸图片
简而言之,VAE 是一种自编码器,在训练过程中其编码的概率分布是正则化的,以确保其在隐空间具有良好特性,进而允许我们生成一些新数据。术语 “变分” 源自统计中的 正则化 和 变分推断 方法。
虽然最后两句话很好地概括了 VAE 的概念,但是它们也会引出很多问题。什么是自编码器?什么是隐空间?为什么要 ...
受限玻尔兹曼机与深度置信网络
1 梯度消失问题与受限玻尔兹曼机
梯度下降法及其派生方法 在使用随机初始化权重的深度网络上效果并不好,其技术原因是:梯度会变得非常小。具体而言,当使用 反向传播方法 计算导数时,随着网络深度的增加,反向传播的梯度幅度值(从输出层到网络的最初几层)会急剧地减小。结果造成整体损失函数相对于最初几层权重的导数非常小。这样,当使用梯度下降法时,最初几层的权重变化非常缓慢,以至于不能从样本中进行有效学习。这种问题通常被称为 梯度的消失。
与梯度消失问题紧密相关的问题是:当神经网络中最后几层含有足够数量神经元时,可能单独这几层就足以对有标签数据进行建模,而不用最初几层的帮助。因此,对所有层都使用随机初始化方法进行训练所得到的网络,其性能将会与浅层网络(仅由深度网络的最后几层组成)性能相似,进而无法体现深度的优势。
梯度消失一直困扰着深度神经网络发展,那么如何解决梯度消失问题呢?合理的初始权重是其中一种解决方案(见下面注释框)。多伦多大学的Geoff Hinton 教授提出的 受限玻尔兹曼机(Restricted Boltzmann Machines, RBM)[1] ,以及在其基础上 ...
模型平均(Model Averaging)
模型比较(Model Comparison)
#refplus, #refplus li{
padding:0;
margin:0;
list-style:none;
};
document.querySelectorAll(".refplus-num").forEach((ref) => {
let refid = ref.firstChild.href.replace(location.origin+location.pathname,'');
let refel = document.querySelector(refid);
let refnum = refel.dataset.num;
let ref_content = refel.innerText.replace(`[${refnum}]`,'');
tippy(ref, {
con ...
模型比较(Model Comparison)
【摘 要】正确使用模型评估、模型选择和算法选择技术在学术机器学习研究以及许多工业环境中至关重要。本文回顾了可用于这三个子任务中的每一个的不同技术,并讨论了每种技术的主要优点和缺点,并参考了理论和实证研究。此外,还提出了一些建议,以鼓励在机器学习的研究和应用中采用最佳但可行的做法。涵盖了模型评估和选择的常用方法,例如保持方法,在处理小数据集时不推荐使用。引入了不同风格的归纳技术来估计性能估计的不确定性,如果归纳在计算上是可行的,则作为通过正态近似的置信区间的替代方法。回顾了留一法交叉验证和k-fold交叉验证等常见的交叉验证技术,讨论了选择k的偏差-方差权衡,并给出了k的最佳选择的实用技巧。关于经验证据。介绍了算法比较的不同统计检验,并讨论了处理多重比较的策略,例如综合检验和多重比较校正。最后,推荐算法选择的替代方法,例如组合 F-test 5x2 交叉验证和嵌套交叉验证,用于在数据集较小时比较机器学习算法。
【原 文】 在大数据时代,分析师通常会针对观察到的数据探索各种统计模型或机器学习方法,以促进科学发现或获得预测能力。无论采用何种数据和拟合程序,关键步骤是从一组候选者中 ...
➆ 分层模型
p{text-indent:2em;2}
分层模型
#refplus, #refplus li{
padding:0;
margin:0;
list-style:none;
};
document.querySelectorAll(".refplus-num").forEach((ref) => {
let refid = ref.firstChild.href.replace(location.origin+location.pathname,'');
let refel = document.querySelector(refid);
let refnum = refel.dataset.num;
let ref_content = refel.innerText.replace(`[${refnum}]`,'');
tippy(ref, {
...
显著性检验
【通俗理解】显著性检验,T-test,P-value
源:https://www.cnblogs.com/hdu-zsk/p/6293721.html
1 前言
显著性检验:用于判定实验结果是否由随机误差导致,即用量化方法来判断实验结果能否被接受。
举例:
赵先生开了一家日用百货公司,该公司分別在郑州和杭州开设了分公司。现在存在下列数据作为两个分公司的销售额,集合中的每一个数代表着一年中某个月的公司销售:
郑州分公司 Z={23,25,26,27,23,24,22,23,25,29,30}$
杭州分公司 H={24,25,23,26,27,25,25,28,30,31,29}H=\{24,25,23,26,27,25,25,28,30,31,29\}H={24,25,23,26,27,25,25,28,30,31,29}
现在,赵先生想要知道两个公司的销售额是否有存在明显差异(郑州分公司销售额>杭州分公司销售额,抑成反之),以便对接下来公司的战略业务调整做出规划。
下属们知知道赵老板的难处,纷纷建议“只需要求平均值就知道哪个分公司的销售额更大了"。但是作为 ...