GPyTorch:带GPU加速的黑盒矩阵-矩阵高斯过程推断
【摘 要】 尽管可扩展模型取得了进步,但用于高斯过程 (GP) 的推断工具尚未充分利用计算硬件的发展。我们提出了一种基于黑盒矩阵-矩阵乘法 (BBMM) 的高斯过程推断的有效通用方法。 BBMM 推断使用修改后的共轭梯度算法的批处理版本在一次调用中导出用于训练和推断的所有项。 BBMM 将精确高斯过程推断的渐近复杂度从 \mathcal{O}(n3) 降低到 \mathcal{O}(n2)。使该算法适用于可扩展的近似值和复杂的高斯过程模型只需要一个程序即可与核及其导数进行高效的矩阵-矩阵乘法。此外,BBMM 使用专门的预处理器来大大加快收敛速度。在实验中,我们表明 BBMM 有效地使用 GPU 硬件来显著加速精确的高斯过程推断和可扩展的近似。此外,我们还提供了 GPyTorch,这是一个基于 PyTorch 构建的通过 BBMM 进行可扩展高斯过程推断的软件平台。
【原 文】 Gardner, Jacob, Geoff Pleiss, Kilian Q Weinberger, David Bindel, and Andrew G Wilson. “GPyTorch: Bla ...
稀疏变分方法和随机过程之间的 KL 散度
【摘 要】 学习归纳变量的变分框架 (Titsias, 2009a) 对高斯过程文献产生了很大影响。该框架可以解释为最小化近似过程和后验过程之间严格定义的 Kullback-Leibler 散度。据我们所知,迄今为止,这种联系在文献中并未被提及。在本文中,我们对有关该主题的文献进行了实质性的概括。我们给出了无限索引集假设下的新证明,它允许不属于训练集的归纳点和依赖于所有函数值集的似然。然后,我们讨论了增广索引集,并表明,与以前的工作相反,增广的边缘一致性不足以保证变分推断近似与原始模型的一致性。我们进一步推导出了获得这种保证的额外条件。最后,我们以 域间稀疏近似 和 Cox 过程 为例,展示了我们的稀疏近似框架。
【原 文】 Matthews, A.G. de G. et al. (2015) ‘On Sparse variational methods and the Kullback-Leibler divergence between stochastic processes’. arXiv. Available at: https://doi.org/10.4855 ...
GPflow:使用 TensorFlow 的高斯过程库
【摘 要】 GPflow 是一个以 TensorFlow 为核心计算,以 Python 为前端的高斯过程库。其设计特别强调软件测试,并且能够利用 GPU 硬件。
【原 文】 Matthews, Alexander G. de G., Mark van der Wilk, Tom Nickson, Keisuke Fujii, Alexis Boukouvalas, Pablo León-Villagrá, Zoubin Ghahramani, and James Hensman. “GPflow: A Gaussian Process Library Using TensorFlow,” 2016. https://doi.org/10.48550/ARXIV.1610.08733.
1 现有的高斯过程库
现在有许多公开可用的高斯过程库,规模从个人项目到主要社区工具不等。因此,我们将只考虑现有库的相关子集。有影响力的 GPML 工具箱(Rasmussen 和 Nickisch,2010 年[11])使用了 MATLAB。它已被广泛 forked。对我们特别有参考价值的是 G ...
局部和全局稀疏高斯过程近似
〖摘 要〗高斯过程 (GP) 模型是可以用于回归、分类和其他任务的概率非参数模型。它们在大型数据集上存在计算困难的问题。在过去的十年中,已经开发了许多不同的近似来降低此成本。其中大部分方法可以被称为全局近似,因为它们试图通过一小组支撑点来总结所有训练数据。一种不同的方法是局部回归,其中许多局部专家占据自己的部分空间。在本文中,我们首先研究这些不同方法在哪些情况下会运作良好或失败。然后继续开发一种新的稀疏高斯过程近似,它是全局和局部方法的组合。从理论上讲,我们证明它是 Quinonero-Candela 和 Rasmussen [2005] 提出的稀疏高斯过程近似的自然扩展。我们在一些一维示例和一些大型现实世界数据集上展示了组合近似的好处。
〖原 文〗 Snelson, Edward, and Zoubin Ghahramani. “Local and Global Sparse Gaussian Process Approximations.” In Proceedings of the Eleventh International Conference on Artifi ...
精确高斯过程的GPU并行推断程序
【摘 要】 高斯过程 (GP) 是灵活的非参数模型,其容量随着可用数据的增加而增长。但标准推断程序的计算局限性将精确高斯过程限制在训练点在一万以内的问题上,对于更大的数据集则需要进行近似。在本文中,我们为精确高斯过程开发了一种可扩展的方法,该方法利用多 GPU 并行化、线性共轭梯度等方法,仅通过矩阵乘法访问协方差矩阵。通过划分和分布协方差矩阵乘法,我们证明,可以在不到 2 小时的时间内训练一个超过一百万个点的精确高斯过程,这是以前认为不可能完成的任务。此外,我们的方法具有普遍适用性,不受网格数据或特定核类型的限制。通过这种可扩展性,我们首次对具有 10410^4104 − 10610^6106 个数据点的数据集,进行了精确高斯过程与可扩展高斯过程近似之间的比较,显示出显著的性能改进。
【原 文】 Wang, K.A. et al. (2019) ‘Exact Gaussian Processes on a Million Data Points’. Available at: https://doi.org/10.48550/ARXIV.1903.08114.
1 引言
高 ...
🔥 可扩展高斯过程综述
【摘 要】大数据带来的海量信息以及不断发展的计算机硬件鼓励了机器学习社区的成功案例。同时,它对高斯过程回归 (GPR) 提出了挑战,高斯过程回归是一种众所周知的非参数且可解释的贝叶斯模型,其具有数据规模的三次方复杂性。为了在保持理想预测质量同时,能够提高扩展性,业界已经提出了各种可扩展高斯过程。然而,它们还没有得到全面的回顾和分析,以得到学术界和工业界的充分理解。由于数据量的爆炸式增长,在高斯过程社区中对可扩展高斯过程进行回顾是及时且必要的。为此,本文致力于回顾涉及两个主要类别的最先进的可扩展高斯过程:一是提炼完整数据的全局近似,二是划分数据以进行子空间学习的局部近似。对于全局近似,我们主要关注稀疏近似,包括改进先验但执行精确推断的先验近似、保留精确先验但执行近似推断的后验近似、利用核(协方差)矩阵中特定结构的结构化稀疏近似。对于局部近似,我们突出了专家混合和专家乘积,这些专家方法对多个局部专家进行模型平均以提高预测。为了提供完整回顾,本文还介绍近年在提高可扩展高斯过程的扩展性和功能方面取得的进展。最后,回顾和讨论了可扩展高斯过程在各种场景中的扩展和开放问题,以激发未来研究 ...
对神经切线核的初步理解
【摘 要】 想理解神经网络的训练动态过程,不妨从「神经切线核」入手。那么什么是神经切线核,核机制如何运行?就读于印度理工学院马德拉斯分校电气工程系的 Rajat Vadiraj Dwaraknath 撰文介绍了这一概念。
博客地址:https://rajatvd.github.io/NTK/
文章动图地址:https://github.com/rajatvd/NTK
神经切线核相关论文地址:https://arxiv.org/abs/1806.07572
1 引言
图 1: _这张动图展示了神经网络的训练动态过程。
最近一系列关于理论深度学习的论文讨论了在 无限宽 极限下分析神经网络的问题。这个极限最初似乎不切实际,甚至研究起来毫无意义;但事实证明,此时的神经网络可以简化为具有神经切线核的 线性模型,这使得梯度下降问题可以更好被研究。此研究虽然看起来很有希望,但实证结果表明,此时的神经网络性能并不比实际的超参数网络更好。无论如何,这仍然为神经网络训练的某些方面提供了理论见解,因此值得研究。 此外,神经切线核可在更宽泛的情况下出现,而无需无限宽极限的条件。
本文简单 ...
评测与数据集索引贴
暂无
#refplus, #refplus li{
padding:0;
margin:0;
list-style:none;
};
document.querySelectorAll(".refplus-num").forEach((ref) => {
let refid = ref.firstChild.href.replace(location.origin+location.pathname,'');
let refel = document.querySelector(refid);
let refnum = refel.dataset.num;
let ref_content = refel.innerText.replace(`[${refnum}]`,'');
tippy(ref, {
content: ref_content,
...
高斯过程随机模拟索引贴
暂无
#refplus, #refplus li{
padding:0;
margin:0;
list-style:none;
};
document.querySelectorAll(".refplus-num").forEach((ref) => {
let refid = ref.firstChild.href.replace(location.origin+location.pathname,'');
let refel = document.querySelector(refid);
let refnum = refel.dataset.num;
let ref_content = refel.innerText.replace(`[${refnum}]`,'');
tippy(ref, {
content: ref_content,
...
神经网络高斯过程(NNGP)
【摘要】 很久前就已经证明,当网络宽度为无限宽时,具有独立同分布先验的参数的单隐层全连接神经网络等效于一个高斯过程。也就是说,通过计算相应的高斯过程,可以实现对无限宽神经网络回归任务的精确贝叶斯推断,或者反之,可以用趋近于无线宽的神经网络来实现近似的高斯过程。最近,人们已经开发出了多种用于模仿多层随机神经网络的核函数,但并未考虑贝叶斯框架。因此,之前的工作尚未确定上述核函数是否可用作高斯过程的协方差函数,也无法确定是否允许完全地使用深度神经网络来做贝叶斯预测。 本文推导出了无限宽 “深度” 神经网络和高斯过程之间的精确等价关系,并进一步开发了一个效率较高的计算管道,来计算高斯过程的协方差函数。我们使用生成的高斯过程对 MNIST 和 CIFAR-10 上的宽深度神经网络执行了贝叶斯推断,实验结果表明, 随着层宽的增加,训练后的神经网络精度趋近于相应的高斯过程,并且训练后神经网络预测的误差与高斯过程的不确定性密切相关。我们进一步发现, 随着有限宽度训练网络变得更宽和更类似于高斯过程,测试性能会有所提高,因此高斯过程预测通常优于有限宽神经网络的预测。最后,我们将这些高斯过程的性 ...