随机梯度 MCMC 推断
〖摘要〗本文提出了一个采用蒙特卡洛方法的新框架,用于从小批量迭代学习的大规模数据集学习。当我们对步长进行退火时,将适量噪声添加到标准随机梯度优化算法中,其结果表明迭代将收敛到来自真实后验分布的样本。优化和贝叶斯后验采样之间的这种无缝过渡提供了针对过拟合的内在保护。我们还提出了一种后验统计量的实用蒙特卡洛估计方法,该方法监视 “采样阈值” 并在超过阈值后收集样本。我们基于自然梯度将该方法应用于高斯、逻辑斯谛回归和独立组份分析的混合模型。
〖原文〗 Welling, M. and Teh, Y.W. (2011) ‘Bayesian learning via stochastic gradient Langevin dynamics’, in Proceedings of the 28th international conference on machine learning (ICML-11), pp. 681–688.
1 引言
近年来,越来越多的超大规模机器学习数据集,范围从互联网流量和网络数据、计算机视觉、自然语言处理到生物信息学。现在,这些大规模数据推动了机器学习的 ...