8️⃣ 常用模型--离散序列模型( HMM 和 CRF )
〖摘要〗
〖原文〗 Standford cs228 notes
〖参考〗CMU 10-708 Slides / CMU 10-708 Lecture Notes / Jordan TextBook, Ch.2(section 2.2 - end) / Koller’s Textbook,Ch.4 / A. Fischer and C. Igel, An Introducton to Restricted Boltzmann Machines / B. A. Cipra, An Introduction to the Ising Model
隐马尔可夫模型
【摘 要】 如果存在具有棘手后验的连续型隐变量和大数据集,我们如何在有向概率图模型中进行有效的推断和学习? 本文引入了一种随机变分推断和学习算法。该算法能够在一些轻度差异化(甚至棘手)的情况下工作,并且能够扩展到大型数据集。本文的贡献有两个:首先,证明了重参数化方法可以产生一个对变分下界的无偏估计,并且该估计方法能够使用随机梯度方法做优化。其次,对于有连续型隐变量的独立同分布数据集,我们利用重参数化的变分下界估计,成功地为棘手后验拟合了近似的推断模型。理论优势最终反映在了实验结果中。
1 介绍
当模型中存在具有棘手后验的连续型隐变量和/或参数时,我们如何使用有向概率图模型进行近似推断和学习呢?
在实践中,变分推断方法可以采用优化方法对棘手后验做近似推断。目前常用的平均场变分推断方法,利用指数族分布来构建一个近似的变分下界,但该方法中需要期望(相对于近似后验)的解析解,这在一般情况下很难适用。
关于变分推断的知识参阅 初始变分推断
贝叶斯方法需要对分布作出推断,由于精确推断通常非常棘手,因此近似推断方法得到了广泛应用。变分推断方法作为其中一种近似推断方法,其核心理念是:
...