➀ 隐变量模型综述
〖摘要〗隐变量模型是将一组可观察变量与一组隐变量建立关联的统计模型。本文对隐变量模型进行了概述:首先介绍了通用模型并讨论了各种推断方法;之后,介绍了几种比较常用的情况,包括:『隐类别模型 Latent Class Model 』 (也称『混合物模型 Mixture Model 』)、『混合模型(Mixed Model)』等;我们将这些模型应用于具有简单结构的相同数据集,并进行了结果比较和优缺点讨论;此外,本文还说明了包括『潜在结构模型』在内的若干问题;最后,我们讨论了模型扩展和应用,强调了在应用隐变量模型时经常被忽视的几个问题。
〖原文〗Modeling Through Latent Variables, Annual Review of Statistics and Its Application
〖作者〗Geert Verbeke, Geert Molenberghs,比利时鲁汶天主教大学,
〖时间〗2017
〖DOI〗10.1146/annurev-statistics-060116-054017
p{text-indent:2em}
1. 概述
目前在统计实践中使用 ...
➂ 连续型隐变量:变分自编码器
连续型隐变量模型与变分自编码器
Sources:
Notebook
Repository
p{text-indent:2em;2}
第 1 部分 本系列文章介绍了具有离散隐变量的隐变量模型、高斯混合模型 (GMM) 和拟合算法这个模型要数据,EM 算法。第 2 部分介绍了具有连续隐变量的隐变量模型,用于对更复杂的数据(例如自然图像)进行建模,以及可与随机优化算法结合使用的贝叶斯推理技术。
Consider a natural image of size 100×100100 \times 100100×100 with a single channel. This image is a point in 10.00010.00010.000-dimensional space. Natural images are usually not uniformly distributed in this space but reside on a much lower-dimensional manifold within this high-dimensional spa ...
重要性加权变分推断方法
【摘要】最近有工作使用重要性采样的思路,来确定更紧致的变分似然边界。本文阐明了该想法对纯概率推断的适用性,展示了重要性加权变分推断技术作为一种增强的变分推断方法,能够识别先前工作中的松散性。实验证实了重要性加权变分推断在概率推断方面的实用性。作为另一个成果,本文研究了使用椭圆分布的推断方法,该方法提高了低维准确性和高维收敛性。
【原文】 J Domke and D Sheldon (2018), Importance weighting and variational inference. In Advances in Neural Information Processing Systems. https://arxiv.org/abs/1808.09034
1 问题提出
概率建模通过为不可观测的变量 z\mathbf{z}z 和可观测变量 x\mathbf{x}x 制定联合模型 p(z,x)p(\mathbf{z}, \mathbf{x})p(z,x) 来推断世界,然后查询后验分布 p(z∣x)p(\mathbf{z} \mid \mathbf{x})p(z∣x) 以了 ...
3️⃣ 概率图推断--精确推断
〖摘要〗
〖原文〗 Standford cs228 notes
〖参考〗CMU 10-708 Slides / CMU 10-708 Lecture Notes / Jordan TextBook, Ch.2(section 2.2 - end) / Koller’s Textbook,Ch.4 / A. Fischer and C. Igel, An Introducton to Restricted Boltzmann Machines / B. A. Cipra, An Introduction to the Ising Model
2️⃣ 概率图表示--马尔可夫随机场
〖摘要〗
〖原文〗 Standford cs228 notes
〖参考〗CMU 10-708 Slides / CMU 10-708 Lecture Notes / Jordan TextBook, Ch.2(section 2.2 - end) / Koller’s Textbook,Ch.4 / A. Fischer and C. Igel, An Introducton to Restricted Boltzmann Machines / B. A. Cipra, An Introduction to the Ising Model
1️⃣ 有向概率图模型概述
〖摘要〗 有向概率图模型又称贝叶斯网络,
〖原文〗ccs228-notes
〖参考〗CMU 10-708 Slides / CMU 10-708 Lecture Notes / Jordan TextBook, Ch.2(section 2.1) / Koller’s Textbook,Ch. 3
1 简介
我们从 “表示” 的主题开始:如何选择概率分布来模拟世界的某些有趣的方面?
想出一个好的模型并不总是那么容易:在前面已经看到,一个简单的垃圾邮件分类模型需要我们指定一些参数,这些参数与英语单词的数量成指数关系!
在本章中,我们将学习一种避免这些症状的方法。我们准备:
学习一种有效且通用的技术,仅使用几个参数来参数化概率分布。
了解如何通过有向无环图 (DAG) 优雅地描述生成模型。
研究 DAG 的结构与其所描述的分布以及建模假设之间的联系;这不仅会使这些建模假设更加明确,而且还将帮助我们设计更有效的推断算法。
本文中的各种模型都是有向图,也被称为『贝叶斯网络』。我们在后面还会看到另外一种方法:无向图,也称为马尔可夫随机场 (MRF)。 贝叶斯网络能够有效地展示因果 ...
自动微分变分推断【ADVI】
【摘要】概率建模是迭代进行的。一位科学家假设一个简单模型,将其拟合到数据中,根据分析对其进行改进,然后重复。然而,将复杂模型拟合到大数据是其中的一个瓶颈。为新模型推导算法在数学和计算上都具有挑战性,这造成很难有效地循环执行这些步骤。为此,我们开发了自动微分变分推断 (ADVI)。使用我们的方法,科学家只提供一个概率模型和一个数据集,没有别的要求。ADVI 会自动推导出一个有效的变分推断算法,让科学家有时间提炼和探索更多模型。ADVI 不需要共轭假设,能够支持更广泛的模型。我们研究了 101010 个不同模型的 ADVI ,并将其应用于具有数百万个观测值的数据集。ADVI 已经被集成到 Stan 概率编程系统中,可以立即使用。
【原文】Alp Kucukelbir, Dustin Tran, Rajesh Ranganath et al.(2016), Automatic Differentiation Variational Inference. ICLR, 2016. arXiv:1603.00788
1 问题提出
我们开发了一种能够为复杂概率模型自动推导出变分推断算法 ...
蒙特卡洛采样的加速方法
〖摘要〗马尔可夫链蒙特卡罗算法通过对分布的局部性探索来模拟复杂的统计分布。这种局部特征虽然不要求使用者了解目标分布性质,但也同时会导致对目标分布更长时间的探索,并且随着问题维度和数据复杂性的增加,对模拟样本数量的要求会也会增加。有几种技术可用于加速蒙特卡罗算法的收敛,无论是在探索层面(如回火、哈密顿蒙特卡罗和部分确定性方法)还是在开发层面(使用 Rao-Blackwellisation 和可扩展方法)。本文是对这些方法进行的一个综述。
〖原文〗 Robert, C.P. et al. (2018) ‘Accelerating MCMC algorithms’, Wiley Interdisciplinary Reviews: Computational Statistics, 10(5), p. e1435. Available at: https://doi.org/10.1002/wics.1435.
1 概述
马尔可夫链蒙特卡罗(MCMC)算法已经使用了近 60 年,在 1990 年代初成为分析贝叶斯复杂模型的参考方法(Gelfand 和 Smith,1990 [41 ...
序贯蒙特卡洛与粒子滤波
〖摘要〗设计一个高效的迭代式模拟采样算法可能很困难,但对其进行推断并且监控其收敛性相对容易。本文首先给出了我们推荐的推断策略(遵循 Gelman et al., 2003 的第 11.10 节),并解释了推荐原因;然后用我们最近研究的一个关于 “民意调查数据分层模型拟合” 的案例进行说明。
〖原文〗 Inference from Simulations and Monitoring Convergence, Handbook of Markov Chain Monte Carlo, 2011
1 背景
现实世界的数据分析通常需要在仅给出对某些相关可观测量的序列观测的情况下估计未知量。在贝叶斯框架中,人们通常掌握模型的一些先验知识:不可观测兴趣量的先验分布和似然函数(将可观测量与不可观测量关联)。不可观测值的后验分布可以使用贝叶斯定理计算,这允许人们对未观测到的量进行推断。
在某些情况下,按顺序处理观测结果是很自然的。这些案例是本文重点,例如,不断有新数据实时输入的雷达跟踪或金融估算工具等在线应用,尝试更新之前形成的后验分布,肯定比从头开始重新计算更容易。
如果上述观测数据可 ...
➀ 基于实例的方法: 距离度量学习
【摘要】 “距离度量” 或者说 “相似度度量” 是基于实例方法和很多其他方法进行最优化选择的基础。
【see also】 《高斯过程的可视化探索》; 《稀疏高斯过程及其推断》; 《深度高斯过程》
p{text-indent:2em;2}
1 距离度量学习
#refplus, #refplus li{
padding:0;
margin:0;
list-style:none;
};
document.querySelectorAll(".refplus-num").forEach((ref) => {
let refid = ref.firstChild.href.replace(location.origin+location.pathname,'');
let refel = document.querySelector(refid);
let refnum = refel.dataset.num; ...