西山晴雪的知识笔记

发表于2023-03-04|高斯过程神经网络

【摘要】 NEURAL TANGENTS 是一个库，旨在实现对无限宽神经网络的研究。它提供了一个高级 API，用于指定复杂和分层的神经网络架构。然后可以像往常一样以有限宽或无限宽极限对这些网络进行训练和评估。无限宽网络可以使用精确的贝叶斯推断或通过神经正切核使用梯度下降进行分析训练。此外，NEURAL TANGENTS 提供了工具来研究函数空间或权重空间中广泛但有限网络的梯度下降训练动力学。【原文】 Novak, R. et al. (2019) ‘Neural Tangents: Fast and Easy Infinite Neural Networks in Python’. arXiv. Available at: http://arxiv.org/abs/1912.02803 (Accessed: 4 March 2023). https://github.com/google/neural-tangents 1 简介深度神经网络 (DNN) 的成功部分归功于高级、灵活和高效的软件库的广泛可用性，例如 Tensorflow（Abadi 等，2015）、Ke ...

归纳高斯过程网络（IGN）

发表于2023-03-02|高斯过程神经网络

【摘要】高斯过程 (GP) 是功能强大但计算量大的机器学习模型，需要为每个预测估计核协方差矩阵。在图、集合或图像等大而复杂的领域中，选择合适的核可能不容易，这为学习任务提供了额外的障碍。在过去十年中，这些挑战导致在可扩展性和表达性方面取得了重大进展，例如使用归纳点和神经网络核近似。在本文中，我们提出了归纳高斯过程网络 (IGN)，这是一个同时学习特征空间和归纳点的简单框架。特别是归纳点是直接在特征空间中学习的，能够无缝表示复杂的结构域，同时也促进了可扩展的基于梯度的学习方法。我们考虑了回归和（二元）分类任务，并报告了真实世界数据集的实验结果，表明归纳高斯过程比最先进的方法有显著进步。我们还演示了如何使用归纳高斯过程来有效地使用神经网络架构对复杂域进行建模。【原文】 Tibo, A. and Nielsen, T.D. (2022) ‘Inducing Gaussian Process Networks’. Available at: http://arxiv.org/abs/2204.09889 (Accessed: 2 March 2023). 1 引言高斯过 ...

🔥 神经过程(NP)

发表于2023-02-23|高斯过程神经网络

【摘要】神经网络 (NN) 是一种参数化函数，可以通过梯度下降进行调优，以高精度逼近有标签数据集。另一方面，高斯过程 (GP) 是一种概率模型，它定义了函数的分布，并利用概率推断规则根据数据进行更新。高斯过程具有概率性、数据效率和灵活性，但也是计算密集型的，因此适用范围受到了限制。在本文中，我们介绍了一类神经网络隐变量模型，我们称之为神经过程 (Neural Processes，NP)，它结合了两种方法的优点。与高斯过程一样，神经过程用于定义函数的分布，能够快速适应新观测，并且在预测时能够同步估计其不确定性。与神经网络一样，神经过程在训练和评估期间的计算效率很高，但同时能够学习根据数据调整先验。我们展示了神经过程在一系列学习任务中的表现，包括回归和优化，并与文献中的相关模型进行了比较和对比。【原文】 Garnelo, Marta, Jonathan Schwarz, Dan Rosenbaum, Fabio Viola, Danilo J. Rezende, S. M. Ali Eslami, and Yee Whye Teh. “Neural Processes. ...

🔥 神经过程作为函数的分布

发表于2023-02-23|高斯过程神经网络

【原文】 Kaspar Martins, 2018, Neural Processes as distributions over functions, https://kasparmartens.rbind.io/post/np/ 在 ICML2018 中，提出了一些关于神经过程的有趣工作。见论文《条件神经过程》和同一作者在研讨会上提出的《神经过程》的后续工作。神经过程（NPs）引起了我的注意，因为它们本质上是一种基于神经网络（NN）的概率模型，可以表示随机过程的分布。所以神经过程结合了两个世界的元素: 深度学习：神经网络是灵活的非线性函数，可以直接训练。高斯过程：高斯过程提供了一个概率框架，用于学习一类广泛的非线性函数的分布。两者各有其优缺点。在数据有限的体系中，高斯过程由于其概率性质和捕获不确定性的能力更受欢迎。这与（非贝叶斯）神经网络不同，后者表示一个单一函数，而不是一个关于函数的分布。但是，在存在大量数据的情况下，后者可能更可取，因为训练神经网络在计算上比推断高斯过程更容易实现可扩展性。神经过程旨在结合这两个世界的优点。神经过程背后的想法很有 ...

🔥 神经扩散过程(NDP)

发表于2023-02-21|高斯过程神经网络

【摘要】高斯过程为指定函数的先验分布和后验分布提供了一个优雅的框架。然而，它们计算代价很高，并且受到协方差函数表达能力的限制。我们提出了神经扩散过程 (NDP)，这是一种基于扩散模型的新方法，它学习如何从函数的分布中进行采样。使用一种新颖的注意力块，我们能够将随机过程的性质（例如可交换性）直接整合到神经扩散架构中。经验表明，神经扩散过程能够捕获与高斯过程的真实贝叶斯后验接近的函数型分布。这使各种下游任务成为可能，包括超参数的边缘化和贝叶斯优化。【原文】 Dutordoir, V. et al. (2022) ‘Neural Diffusion Processes’. arXiv. Available at: http://arxiv.org/abs/2206.03992 (Accessed: 21 February 2023). 1 简介高斯过程 (GP) 提供了一个强大的框架来定义函数的分布 [23]。高斯过程的一个关键优势是其可交换性，这使得从训练模型中获得任意位置的一致预测成为可能。但是，有两个关键因素限制了高斯过程在现实世界中可处理的任务范围。首先，推断成 ...

🔥 深度核学习(DKL)

发表于2023-01-01|高斯过程神经网络

【摘要】我们引入了可扩展的深度核，它结合了深度学习架构的结构特性和核方法的非参数灵活性。具体来说，我们使用局部核插值、归纳点和结构利用（Kronecker 和 Toeplitz）代数来转换具有深度架构的谱混合基核的输入，以获得可扩展的核表示。这些封闭形式的核可以用作标准核的直接替代品，具有表达能力和可扩展性方面的优势。我们通过高斯过程的边缘似然共同学习这些核的属性。 nnn 个训练点的推断和学习成本为 O(n)\mathcal{O}(n)O(n)，每个测试点的预测成本为 O(1)\mathcal{O}(1)O(1)。在大量多样的应用程序集合中，包括具有 200200200 万个样本的数据集，我们展示了具有灵活核学习模型和独立深度架构的可扩展高斯过程的改进性能。【原文】 Wilson, A.G. 等 (2015) ‘Deep Kernel Learning’. arXiv. Available at: http://arxiv.org/abs/1511.02222 (Accessed: 31 December 2022). 1 简介 MacKay (1998) [15 ...

深度高斯过程(DGP)

发表于2023-01-01|高斯过程神经网络

【摘要】深度高斯过程是一种基于高斯过程映射的深度信念网络。数据被建模为一个多元高斯过程的输出，而该高斯过程的输入由另一个高斯过程控制。单层模型等效于标准高斯过程或高斯过程隐变量模型 (GP-LVM)。我们通过近似变分边缘化在模型中进行推断。这导致用于做模型选择（层数和每层节点数）的边缘似然具备一个严格的下界。深度信念网络通常适用于使用随机梯度下降（SGD）做优化的大型数据集。但即使在数据稀缺的情况下，本文方法的完全贝叶斯处理也允许其应用深层模型。利用本文变分边界做出的模型选择情况表明，即使对仅包含 150 个样本的数字字符数据集进行建模，5 层的网络层次结构也是合理的。【原文】 Damianou, A. and Lawrence, N.D. (2013) ‘Deep gaussian processes’, in Artificial intelligence and statistics. PMLR, pp. 207–215. 1 概述使用神经网络架构来实现概率建模，已经成为机器学习的一个深入研究领域。深度学习领域的一些新进展 [Hinton and Osind ...