西山晴雪的知识笔记

发表于2023-05-18|贝叶斯统计变分推断统计推断

【摘要】本文为变分推断方法的索引贴，按照变分推断方法发展的几个里程碑结点列出了相关经典文献。 1 综述类 Zhang 2018 年的 Advances in Variational Inference: 变分推断是概率模型中实现近似推断的主要方法之一，基于随机采样的 MCMC 方法在时间复杂度、空间复杂度和收敛可信度方面均不太适用于大型模型（如神经网络）和大规模数据集，而变分推断方法由于将 “估计分布的问题” 转换成了 “寻求具有最优参数的近似分布问题”，进而使推断速度得到了极大提升，而且能够和随机梯度等大样本量结合，是神经网络中寻求不确定性解常用的一种方法。本文介绍了变分推断的核心思想，并概述了迄今为止最主要的变分推断方法。 2 历久弥新的变分推断 – 平均场变分推断平均场（MeanField ）变分推断：可参考 Blei 2017 年的《Variational Inference: A Review for Statisticians》一文，更深入的论文参考 Wainwright 2008 年的《Graphical models, exponential f ...

👍 变分推断方法综述

发表于2023-05-18|贝叶斯统计变分推断统计推断

【摘要】变分推断是概率模型中实现近似推断的主要方法之一，基于随机采样的 MCMC 方法在时间复杂度、空间复杂度和收敛可信度方面均不太适用于大型模型（如神经网络）和大规模数据集，而变分推断方法由于将 “估计分布的问题” 转换成了 “寻求具有最优参数的近似分布问题”，进而使推断速度得到了极大提升，而且能够和随机梯度等大样本量结合，是神经网络中寻求不确定性解常用的一种方法。本文介绍了变分推断的核心思想，并概述了迄今为止最主要的变分推断方法。【原文】 C. Zhang, J. Bütepage, H. Kjellström and S. Mandt, “Advances in Variational Inference,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 41, no. 8, pp. 2008-2026, 1 Aug. 2019, doi: 10.1109/TPAMI.2018.2889774. 🔔 对隐变量的概率分布进行推断，是概率生成模型（如变分自编码器、G ...

证据下界（ELBO）的概念解析

发表于2023-05-18|贝叶斯统计变分推断统计推断

在变分贝叶斯方法中，证据下界（通常缩写为 ELBO ，有时也称为变分下界 [1]或负变分自由能）是一个关于观测数据对数似然的常用下界。 1 术语和符号设 XXX 和 ZZZ 为随机变量，其联合分布为 pθ(X,Z)p_\theta(X,Z)pθ(X,Z)（简写为 pθp_{\theta}pθ ），pθ(X)p_{\theta}(X)pθ(X) 是 XXX 的边缘分布，pθ(Z∣X)p_{\theta}(Z \mid X)pθ(Z∣X) 是给定 XXX 时 ZZZ 的条件分布。对于 XXX 的任意样本实现 x∼pθx \sim p_{\theta}x∼pθ 和任何分布 qϕq_{\phi}qϕ ，有 ln⁡pθ(x)≥Ez∼qϕ[ln⁡pθ(x,z)qϕ(z)].\ln p_{\theta}(x) \geq \mathbb {E}_{z \sim q_{\phi }} \left[\ln{\frac{p_{\theta}(x,z)}{q_{\phi}(z)}}\right]. lnpθ(x)≥Ez∼qϕ[lnqϕ(z)pθ(x,z)]. ...

🔥 可扩展高斯过程索引贴

发表于2023-05-10|高斯过程可扩展性

【摘要】高斯过程的可扩展性问题起步本世纪初，主要是随着数据条件的优化而牵引出来的问题。其本质是核矩阵（或协方差矩阵）的 “大 N 问题”，导致 O(n3)\mathcal{O}(n^3)O(n3) 的计算复杂度核 O(n2)\mathcal{O}(n^2)O(n2) 的存储复杂度。本文梳理了目前的主要应对方法，其中部分方法和高斯过程推断方法有很大关系，因此两者之间会存在一些交叉。 1 综述类 Liu 2020 年的可扩展高斯过程综述: 高斯过程回归具有数据规模的三次方的计算复杂度。为了在保持理想预测质量同时，能够提高扩展性，业界已经提出了各种可扩展高斯过程。本文是对可扩展高斯过程的一篇回顾文章，主要按照两个类别梳理了可扩展高斯过程：一是提炼完整数据的全局近似方法，二是划分数据以进行子空间学习的局部近似方法。对于全局近似，主要关注了稀疏近似，包括改进先验但执行精确推断的先验近似、保留精确先验但执行近似推断的后验近似、利用协方差矩阵中特定结构的结构化稀疏近似。对于局部近似，主要突出了专家混合和专家乘积两种方法，这些专家方法对多个局部专家进行模型平均以提高预测。本文还介绍 ...

🔥 神经网络高斯过程索引贴

发表于2023-05-10|高斯过程神经网络

【摘要】高斯过程具有不确定性估计能力，而（深度）神经网络具有灵活的万能逼近能力。因此，如何将神经网络与高斯过程很好地结合（一方面增强神经网络的不确定性量化能力和可解释性，另一方面有效解决高斯过程的可扩展性问题），已经成为最近 5 - 10 年比较热门的研究领域。本文对相关文献进行了梳理，大致分为四种类型： “神经网络与高斯过程的结合（NN + GP）”、 “高斯过程的神经网络实现（NN Is GP）”、 “高斯过程核的神经网络学习（NN GP Training）”、 “神经网络的高斯过程视角（Interprete NN with GP）”。 1 综述类暂无。 2 神经网络与高斯过程的结合（ NN + GP ） Damianou 2013 年的《深度高斯过程》：首次尝试神经网络与高斯过程的结合，提出了使用多个等效于高斯过程的神经网络层堆叠形成一种新型的深度信念网络（本质是特征学习，采用逐层训练策略）模型，并称之为深度高斯过程，该团队还给出无限多次组合后的核退化形式。 3 高斯过程的神经网络实现（ NN is GP ） Garnelo2018 年的《条 ...

第8章大型数据集的近似方法

发表于2023-05-10|高斯过程可扩展性

【摘要】高斯过程作为一种用于预测的非参数模型，可以用于回归任务，也可以用于分类任务。高斯过程面临的最大问题在于，当面临大数据时，其计算复杂度为 O(n3)\mathcal{O}(n^3)O(n3)，内存复杂度为 O(n2)\mathcal{O}(n^2)O(n2)，这使其在新形势下的使用非常困难。本文对2006年之前的主要大数据的高斯过程处理方法进行了综述，可以作为了解该方向工作的基础。《机器学习中的高斯过程》一书是高斯过程研究领域的扛鼎之作，本文主要节选自该书的第八章。【原文】 Rasmussen, C.E. and Williams, C.K. (2006), Chapter 8 of Gaussian processes for machine learning. Cambridge, Mass: MIT press Cambridge, MA (3). 正如我们在前面的章节中看到的，高斯过程预测的一个重要问题是它的计算规模通常为 \mamthcal{O}(n^3)。对于大型问题（例如 n>10,000n > 10,000n>10,000），存 ...

Transformer 神经过程：通过序列建模进行不确定性感知元学习

发表于2023-05-09|高斯过程神经网络

【摘要】神经过程 (NPs) 是一类流行的元学习方法。与高斯过程 (GP) 类似，神经过程定义函数的分布并可以估计其预测中的不确定性。然而，与 GP 不同，神经过程及其变体存在欠拟合问题，并且通常具有难以处理的似然，这限制了它们在顺序决策中的应用。我们提出了 Transformer Neural Processes (TNPs)，这是神经过程家族的新成员，它将不确定性感知元学习转化为序列建模问题。我们通过基于自回归似然的目标来学习 TNP，并使用一种新颖的基于 transformer 的架构对其进行实例化。模型架构尊重问题结构固有的归纳偏差，例如对观测到的数据点的不变性和对未观测到的点的等变性。我们进一步研究了 transformer 神经过程框架内的旋钮，这些旋钮在解码分布的表现力与额外计算之间进行了权衡。根据经验，我们表明 transformer 神经过程在各种基准问题上实现了最先进的性能，在元回归、图像补全、上下文多臂老虎机和贝叶斯优化方面优于所有以前的神经过程变体。【原文】 Nguyen, T. and Grover, A. (2023) ‘Transfor ...

🔥 贝叶斯方法索引帖

发表于2023-05-08|贝叶斯统计综述概览

一、知识要点 1.1 贝叶斯思维与工作流推荐的几本基础入门书籍： Martin 2015 年的《Bayesian Analysis with Python》 Martin 2022 年的《Bayesian Modeling and Computation in Python》 Kruschke 2015 年的《Doing Bayesian Data Analysis》 1.2 基础的贝叶斯推断方法（1）关于基础的推断方法普渡大学机器人视觉实验室的自编教程：普渡大学的一篇入门教程，清晰地从贝叶斯定理出发，阐明了最大似然估计、最大后验估计、贝叶斯估计三者之间的关系，值得仔细品读。（2）关于似然函数 Reid 等 2010 年《似然与基于似然的推断》：全面地对似然函数以及基于似然的推断方法进行了综述。由于似然函数时贝叶斯方法中的重要组成部分，因此掌握这方面的知识是必要的。文中提到了似然函数及其派生量、最大似然估计及其渐进性质、剖面最大似然估计、受限最大似然估计、贝叶斯估计等方法，并给出了偏似然、伪似然、组合似然、准似然、经验似然等似然函数的常用变体。另 ...

🔥 主要的贝叶斯推断方法

发表于2023-05-08|贝叶斯统计概览

【摘要】统计推断是贝叶斯概率框架中最为重要的部分，也是概率机器学习的核心部分。几乎所有的概率机器学习模型，都会涉及根据观测量来获取隐变量或模型参数相关知识的问题，这就是统计推断。与频率主义不同，贝叶斯推断方法并不给出隐变量的确切值，而是保留了模型的不确定性，给出隐变量的概率分布。由于输出的不再是点，而是一个分布，导致贝叶斯统计推断的难度大大增加了。尤其是在复杂模型和大数据集中，问题更明显。本文对贝叶斯统计推断技术进行了综述，以便快速对相关领域知识有一个理解。【原文】参考 Blei 的讲座自行整理。 1 简介贝叶斯推断是统计学中的一个基本问题，也是许多机器学习方法中遇到的问题。例如：用于分类的高斯混合模型、用于主题建模的潜狄利克雷分配模型等概率图模型，都在拟合数据时需要解决贝叶斯推断问题。同时应注意到，根据模型设置（如：假设、维度等）不同，贝叶斯推断问题有时很难解决。尤其是遇到大型问题中，精确推断方法往往需要大量计算，且变得难以处理，实践中通常会使用一些近似技术来克服此问题，并建立快速和可扩展的系统。本文简单介绍贝叶斯推断存在的现实性问题，并以主 ...

🔥 条件神经过程(CNP)

发表于2023-03-29|【高斯过程，神经网络】

【摘要】深度神经网络擅长函数逼近，但通常针对每个新函数从头开始训练。而贝叶斯方法（如高斯过程）利用先验知识在测试时快速推断新的函数形状，但高斯过程的计算成本很高，而且很难设计出合适的先验。在本文中，我们提出了结合了两者优点的条件神经过程 (CNP)。条件神经过程受到高斯过程等随机过程灵活性的启发，但其结构却类似于神经网络，并可以通过梯度下降进行训练。条件神经过程在仅观测少数训练数据点后就能够做出准确预测，同时可以扩展到复杂函数和大型数据集。我们展示了该方法在一系列机器学习任务上的性能和多功能性，包括回归、分类和图像补全。【原文】 Garnelo, M. et al. (2018) ‘Conditional neural processes’, in J. Dy and A. Krause (eds) Proceedings of the 35th international conference on machine learning. PMLR (Proceedings of machine learning research), pp. 1704–1713. A ...