➁ 离散型隐变量:EM 算法
源代码:
Notebook
Repository
本文是关于隐变量模型的第 1 篇,介绍了期望最大化 (EM) 算法及其在高斯混合模型中的应用。
p{text-indent:2em;2}
1. 概述
给定概率模型 p(x∣θ)p(\mathbf{x} \lvert \boldsymbol{\theta})p(x∣θ) 和 NNN 个观测值值 X={x1,…,xN}\mathbf{X} = \{ \mathbf{x}_1, \ldots, \mathbf{ x}_N \}X={x1,…,xN} 。 我们希望找到一个能够使似然 p(X∣θ)p(\mathbf{X} \lvert \boldsymbol{\theta})p(X∣θ) 最大化的参数 θ\boldsymbol{\theta}θ 。这也被称为 最大似然估计 (MLE)。
θMLE=argmaxθp(X∣θ)(1)\boldsymbol{\theta}_{MLE} = \underset{\boldsymbol{\theta}}{\mathrm{argmax}} \quad p(\mathbf{X} \lver ...
重要性加权变分推断方法
【摘要】最近有工作使用重要性采样的思路,来确定更紧致的变分似然边界。本文阐明了该想法对纯概率推断的适用性,展示了重要性加权变分推断技术作为一种增强的变分推断方法,能够识别先前工作中的松散性。实验证实了重要性加权变分推断在概率推断方面的实用性。作为另一个成果,本文研究了使用椭圆分布的推断方法,该方法提高了低维准确性和高维收敛性。
【原文】 J Domke and D Sheldon (2018), Importance weighting and variational inference. In Advances in Neural Information Processing Systems. https://arxiv.org/abs/1808.09034
1 问题提出
概率建模通过为不可观测的变量 z\mathbf{z}z 和可观测变量 x\mathbf{x}x 制定联合模型 p(z,x)p(\mathbf{z}, \mathbf{x})p(z,x) 来推断世界,然后查询后验分布 p(z∣x)p(\mathbf{z} \mid \mathbf{x})p(z∣x) 以了 ...
解决 hexo-renderer-kramed 渲染冲突的部分问题
解决 hexo-renderer-kramed 渲染冲突的部分问题
【阅读建议】因 hexo-renderer-marked 不支持数学公式的渲染,其他渲染器又有一些问题,如 hexo-renderer-pandoc 过于沉重,hexo-renderer-markdown-it 对 NexT 主题支持不佳,因此选用 hexo-renderer-kramed 渲染器。本文解决了该渲染器在渲染 Markdown 及数学公式时遇到的部分问题。
【原文地址】:https://corecabin.cn/2021/08/14/solve-some-problems-of-hexo-renderer-kramed-rendering-conflicts/
1 hexo-renderer-kramed 不能渲染 Todo List 的问题
原来的渲染器 hexo-renderer-marked 是支持 Todo List 的,翻了下 hexo-renderer-marked 的 GitHub 仓库 的 Pull Request。发现在这个 PR 里,hexo-renderer-marked ...
3️⃣ 概率图推断--精确推断
〖摘要〗
〖原文〗 Standford cs228 notes
〖参考〗CMU 10-708 Slides / CMU 10-708 Lecture Notes / Jordan TextBook, Ch.2(section 2.2 - end) / Koller’s Textbook,Ch.4 / A. Fischer and C. Igel, An Introducton to Restricted Boltzmann Machines / B. A. Cipra, An Introduction to the Ising Model
有关贝叶斯深度学习误解的回应
【原文序言】 本人对最近 关于贝叶斯深度学习的一些误解 发布了回应 。从那以后,大家一直要求我将其更进一步发展为容易被理解,且能自成一体的参考资料。为此,我专门在此发布此帖,希望对那些正在寻求了解 “贝叶斯推断独特之处” 以及 “贝叶斯推断在深度学习中为何有价值” 的人们有所帮助。此外,最近人们存在一些对 深度集成 和 贝叶斯方法 之间的误解,认为两者之间存在相互竞争的关系,因此,本文还旨在帮助大家厘清 近似贝叶斯推断 和 深度集成 之间的联系。
【论文背景】 2019 年 12 月, OpenAI 的研究人员 Carles Gelada 发布了一篇推文,表示 “贝叶斯神经网络毫无意义”,其主要论据是深度集成方法已经被证明比传统贝叶斯方法更为有效。一石激起千层浪,社区对此言论展开了激烈的讨论,其中纽约大学的 Wilson 教授 对此给予了驳斥,并专门发论文进行了科学地回应。不过话说回来, Carles Gelada 可能真的书读少了,模型选择、模型平均、模型集成不仅仅是贝叶斯领域的重点领域,而且很可能是未来机器真正自动选择 AI 模型的可能解决途径之一。
【原 文】 And ...
2️⃣ 概率图表示--马尔可夫随机场
〖摘要〗
〖原文〗 Standford cs228 notes
〖参考〗CMU 10-708 Slides / CMU 10-708 Lecture Notes / Jordan TextBook, Ch.2(section 2.2 - end) / Koller’s Textbook,Ch.4 / A. Fischer and C. Igel, An Introducton to Restricted Boltzmann Machines / B. A. Cipra, An Introduction to the Ising Model
1️⃣ 有向概率图模型概述
〖摘要〗 有向概率图模型又称贝叶斯网络,
〖原文〗ccs228-notes
〖参考〗CMU 10-708 Slides / CMU 10-708 Lecture Notes / Jordan TextBook, Ch.2(section 2.1) / Koller’s Textbook,Ch. 3
1 简介
我们从 “表示” 的主题开始:如何选择概率分布来模拟世界的某些有趣的方面?
想出一个好的模型并不总是那么容易:在前面已经看到,一个简单的垃圾邮件分类模型需要我们指定一些参数,这些参数与英语单词的数量成指数关系!
在本章中,我们将学习一种避免这些症状的方法。我们准备:
学习一种有效且通用的技术,仅使用几个参数来参数化概率分布。
了解如何通过有向无环图 (DAG) 优雅地描述生成模型。
研究 DAG 的结构与其所描述的分布以及建模假设之间的联系;这不仅会使这些建模假设更加明确,而且还将帮助我们设计更有效的推断算法。
本文中的各种模型都是有向图,也被称为『贝叶斯网络』。我们在后面还会看到另外一种方法:无向图,也称为马尔可夫随机场 (MRF)。 贝叶斯网络能够有效地展示因果 ...
自动微分变分推断【ADVI】
【摘要】概率建模是迭代进行的。一位科学家假设一个简单模型,将其拟合到数据中,根据分析对其进行改进,然后重复。然而,将复杂模型拟合到大数据是其中的一个瓶颈。为新模型推导算法在数学和计算上都具有挑战性,这造成很难有效地循环执行这些步骤。为此,我们开发了自动微分变分推断 (ADVI)。使用我们的方法,科学家只提供一个概率模型和一个数据集,没有别的要求。ADVI 会自动推导出一个有效的变分推断算法,让科学家有时间提炼和探索更多模型。ADVI 不需要共轭假设,能够支持更广泛的模型。我们研究了 101010 个不同模型的 ADVI ,并将其应用于具有数百万个观测值的数据集。ADVI 已经被集成到 Stan 概率编程系统中,可以立即使用。
【原文】Alp Kucukelbir, Dustin Tran, Rajesh Ranganath et al.(2016), Automatic Differentiation Variational Inference. ICLR, 2016. arXiv:1603.00788
1 问题提出
我们开发了一种能够为复杂概率模型自动推导出变分推断算法 ...
➃ 集成学习: 提升法
【摘要】 高斯过程 Gaussian Processes 是概率论和数理统计中随机过程的一种,是多元高斯分布的扩展,被应用于机器学习、信号处理等领域。本文对高斯过程进行公式推导、原理阐述、可视化以及代码实现,介绍了以高斯过程为基础的高斯过程回归 基本原理、超参优化、高维输入等问题。
【see also】 《高斯过程的可视化探索》; 《稀疏高斯过程及其推断》; 《深度高斯过程》
p{text-indent:2em;2}
1 集成学习
#refplus, #refplus li{
padding:0;
margin:0;
list-style:none;
};
document.querySelectorAll(".refplus-num").forEach((ref) => {
let refid = ref.firstChild.href.replace(location.origin+location.pathname,'');
...
➃ 集成学习:Bagging
【摘要】 高斯过程 Gaussian Processes 是概率论和数理统计中随机过程的一种,是多元高斯分布的扩展,被应用于机器学习、信号处理等领域。本文对高斯过程进行公式推导、原理阐述、可视化以及代码实现,介绍了以高斯过程为基础的高斯过程回归 基本原理、超参优化、高维输入等问题。
【see also】 《高斯过程的可视化探索》; 《稀疏高斯过程及其推断》; 《深度高斯过程》
p{text-indent:2em;2}
1 集成学习之 『装袋法』
#refplus, #refplus li{
padding:0;
margin:0;
list-style:none;
};
document.querySelectorAll(".refplus-num").forEach((ref) => {
let refid = ref.firstChild.href.replace(location.origin+location.pathnam ...