🔥 变分推断方法索引帖
【摘 要】 本文为变分推断方法的索引贴,按照变分推断方法发展的几个里程碑结点列出了相关经典文献。 1 综述类Zhang 2018 年的 Advances in Variational Inference: 变分推断是概率模型中实现近似推断的主要方法之一,基于随机采样的 MCMC 方法在时间复杂度、空间复杂度和收敛可信度方面均不太适用于大型模型(如神经网络)和大规模数据集,而变分推断方法由于将 “估计分布的问题” 转换成了 “寻求具有最优参数的近似分布问题”,进而使推断速度得到了极大提升,而且能够和随机梯度等大样本量结合,是神经网络中寻求不确定性解常用的一种方法。本文介绍了变分推断的核心思想,并概述了迄今为止最主要的变分推断方法。 2 历久弥新的变分推断 – 平均场变分推断平均场(MeanField )变分推断:可参考 Blei 2017 年的 《Variational Inference: A Review for Statisticians》一文,更深入的论文参考 Wainwright 2008 年的 《Graphical models, exponential...
👍 变分推断方法综述
【摘要】变分推断是概率模型中实现近似推断的主要方法之一,基于随机采样的 MCMC 方法在时间复杂度、空间复杂度和收敛可信度方面均不太适用于大型模型(如神经网络)和大规模数据集,而变分推断方法由于将 “估计分布的问题” 转换成了 “寻求具有最优参数的近似分布问题”,进而使推断速度得到了极大提升,而且能够和随机梯度等大样本量结合,是神经网络中寻求不确定性解常用的一种方法。本文介绍了变分推断的核心思想,并概述了迄今为止最主要的变分推断方法。 【原 文】 C. Zhang, J. Bütepage, H. Kjellström and S. Mandt, “Advances in Variational Inference,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 41, no. 8, pp. 2008-2026, 1 Aug. 2019, doi: 10.1109/TPAMI.2018.2889774. 🔔 ...
证据下界(ELBO)的概念解析
在变分贝叶斯方法中, 证据下界 (通常缩写为 ELBO ,有时也称为 变分下界 [1]或 **负变分自由能** )是一个关于观测数据对数似然的常用下界。 ## 1 术语和符号 设 $X$ 和 $Z$ 为随机变量,其联合分布为 $p_\theta(X,Z)$(简写为 $p_{\theta}$ ),$p_{\theta}(X)$ 是 $X$ 的边缘分布,$p_{\theta}(Z \mid X)$ 是给定 $X$ 时 $Z$ 的条件分布。 对于 $X$ 的任意样本实现 $x \sim p_{\theta}$ 和任何分布 $q_{\phi}$ ,有 $$ \ln p_{\theta}(x) \geq \mathbb {E}_{z \sim q_{\phi }} \left[\ln{\frac{p_{\theta}(x,z)}{q_{\phi}(z)}}\right]. $$ 在变分贝叶斯方法的术语中,**观测变量的分布 $p_{\theta}(X)$ 通常被称为 _证据_ ,其对数形式 $\ln p_{\theta}(X)$ 被称为...
🔥 可扩展高斯过程索引贴
【摘 要】高斯过程的可扩展性问题起步本世纪初,主要是随着数据条件的优化而牵引出来的问题。其本质是核矩阵(或协方差矩阵)的 “大 N 问题”,导致 $\mathcal{O}(n^3)$ 的计算复杂度核 $\mathcal{O}(n^2)$ 的存储复杂度。 本文梳理了目前的主要应对方法,其中部分方法和高斯过程推断方法 有很大关系,因此两者之间会存在一些交叉。 1 综述类Liu 2020 年的 可扩展高斯过程综述:...
🔥 神经网络高斯过程索引贴
【摘 要】 高斯过程具有不确定性估计能力,而(深度)神经网络具有灵活的万能逼近能力。因此,如何将神经网络与高斯过程很好地结合(一方面增强神经网络的不确定性量化能力和可解释性,另一方面有效解决高斯过程的可扩展性问题),已经成为最近 5 - 10 年比较热门的研究领域。本文对相关文献进行了梳理,大致分为四种类型: “神经网络与高斯过程的组合(NN + GP)”、 “高斯过程的神经网络实现(NN Is GP)”、 “高斯过程核的神经网络训练(NN GP Training)”、 “神经网络的高斯过程视角(Interprete NN with GP)”。 1 综述类暂无。 2 神经网络与高斯过程的组合( NN + GP ) Damianou 2013 年的 《深度高斯过程》 : 首次尝试神经网络与高斯过程的结合,提出了使用多个等效于高斯过程的神经网络层堆叠形成一种新型的深度信念网络(本质是特征学习,采用逐层训练策略)模型,并称之为深度高斯过程,该团队还给出无限多次组合后的核退化形式。 Vinyals 等 2016 年的 《匹配神经网络》: Matching networks...
第8章大型数据集的近似方法
【摘 要】高斯过程作为一种用于预测的非参数模型,可以用于回归任务,也可以用于分类任务。高斯过程面临的最大问题在于,当面临大数据时,其计算复杂度为 $\mathcal{O}(n^3)$,内存复杂度为 $\mathcal{O}(n^2)$,这使其在新形势下的使用非常困难。本文对2006年之前的主要大数据的高斯过程处理方法进行了综述,可以作为了解该方向工作的基础。《机器学习中的高斯过程》一书是高斯过程研究领域的扛鼎之作,本文主要节选自该书的第八章。 【原 文】 Rasmussen, C.E. and Williams, C.K. (2006), Chapter 8 of Gaussian processes for machine learning. Cambridge, Mass: MIT press Cambridge, MA (3). 正如我们在前面的章节中看到的,高斯过程预测的一个重要问题是它的计算规模通常为 $\mamthcal{O}(n^3)$。对于大型问题(例如 $n > 10,000$),存储 Gram...
Transformer 神经过程:通过序列建模进行不确定性感知元学习
【摘 要】 神经过程 (NPs) 是一类流行的元学习方法。与高斯过程 (GP) 类似,神经过程定义函数的分布并可以估计其预测中的不确定性。然而,与 GP 不同,神经过程及其变体存在欠拟合问题,并且通常具有难以处理的似然,这限制了它们在顺序决策中的应用。我们提出了 Transformer Neural Processes (TNPs),这是神经过程家族的新成员,它将不确定性感知元学习转化为序列建模问题。我们通过基于自回归似然的目标来学习 TNP,并使用一种新颖的基于 transformer 的架构对其进行实例化。模型架构尊重问题结构固有的归纳偏差,例如对观测到的数据点的不变性和对未观测到的点的等变性。我们进一步研究了 transformer 神经过程框架内的旋钮,这些旋钮在解码分布的表现力与额外计算之间进行了权衡。根据经验,我们表明 transformer 神经过程在各种基准问题上实现了最先进的性能,在元回归、图像补全、上下文多臂老虎机和贝叶斯优化方面优于所有以前的神经过程变体。 【原 文】 Nguyen, T. and Grover, A. (2023)...
🔥 贝叶斯方法索引帖
一、知识要点1.1 贝叶斯思维与工作流推荐的几本基础入门书籍: Martin 2015 年的 《Bayesian Analysis with Python》 Martin 2022 年的 《Bayesian Modeling and Computation in Python》 Kruschke 2015 年的 《Doing Bayesian Data Analysis》 1.2 主要的贝叶斯推断方法(1) 关于基础的推断方法 普渡大学机器人视觉实验室的自编教程: 普渡大学的一篇入门教程,清晰地从贝叶斯定理出发,阐明了最大似然估计、最大后验估计、贝叶斯估计三者之间的关系,值得仔细品读。 (2)关于似然函数 Reid 等 2010 年 《似然与基于似然的推断》 :...
🔥 主要的贝叶斯推断方法
【摘 要】 统计推断是贝叶斯概率框架中最为重要的部分,也是概率机器学习的核心部分。几乎所有的概率机器学习模型,都会涉及根据观测量来获取隐变量或模型参数相关知识的问题,这就是统计推断。与频率主义不同,贝叶斯推断方法并不给出隐变量的确切值,而是保留了模型的不确定性,给出隐变量的概率分布。由于输出的不再是点,而是一个分布,导致贝叶斯统计推断的难度大大增加了。尤其是在复杂模型和大数据集中,问题更明显。本文对贝叶斯统计推断技术进行了综述,以便快速对相关领域知识有一个理解。 【原 文】 参考 Blei 的讲座自行整理。 1...
🔥 条件神经过程(CNP)
【摘 要】 深度神经网络擅长函数逼近,但通常针对每个新函数从头开始训练。而贝叶斯方法(如高斯过程)利用先验知识在测试时快速推断新的函数形状,但高斯过程的计算成本很高,而且很难设计出合适的先验。在本文中,我们提出了结合了两者优点的条件神经过程 (CNP)。条件神经过程受到高斯过程等随机过程灵活性的启发,但其结构却类似于神经网络,并可以通过梯度下降进行训练。条件神经过程在仅观测少数训练数据点后就能够做出准确预测,同时可以扩展到复杂函数和大型数据集。我们展示了该方法在一系列机器学习任务上的性能和多功能性,包括回归、分类和图像补全。 【原 文】 Garnelo, M. et al. (2018) ‘Conditional neural processes’, in J. Dy and A. Krause (eds) Proceedings of the 35th international conference on machine learning. PMLR (Proceedings of machine learning research), pp. 1704–1713....