🔥 条件神经过程(CNP)
【摘 要】 深度神经网络擅长函数逼近,但通常针对每个新函数从头开始训练。而贝叶斯方法(如高斯过程)利用先验知识在测试时快速推断新的函数形状,但高斯过程的计算成本很高,而且很难设计出合适的先验。在本文中,我们提出了结合了两者优点的条件神经过程 (CNP)。条件神经过程受到高斯过程等随机过程灵活性的启发,但其结构却类似于神经网络,并可以通过梯度下降进行训练。条件神经过程在仅观测少数训练数据点后就能够做出准确预测,同时可以扩展到复杂函数和大型数据集。我们展示了该方法在一系列机器学习任务上的性能和多功能性,包括回归、分类和图像补全。
【原 文】 Garnelo, M. et al. (2018) ‘Conditional neural processes’, in J. Dy and A. Krause (eds) Proceedings of the 35th international conference on machine learning. PMLR (Proceedings of machine learning research), pp. 1704–1713. A ...
神经网络高斯过程(NNGP)
【摘要】 很久前就已经证明,当网络宽度为无限宽时,具有独立同分布先验的参数的单隐层全连接神经网络等效于一个高斯过程。也就是说,通过计算相应的高斯过程,可以实现对无限宽神经网络回归任务的精确贝叶斯推断,或者反之,可以用趋近于无线宽的神经网络来实现近似的高斯过程。最近,人们已经开发出了多种用于模仿多层随机神经网络的核函数,但并未考虑贝叶斯框架。因此,之前的工作尚未确定上述核函数是否可用作高斯过程的协方差函数,也无法确定是否允许完全地使用深度神经网络来做贝叶斯预测。 本文推导出了无限宽 “深度” 神经网络和高斯过程之间的精确等价关系,并进一步开发了一个效率较高的计算管道,来计算高斯过程的协方差函数。我们使用生成的高斯过程对 MNIST 和 CIFAR-10 上的宽深度神经网络执行了贝叶斯推断,实验结果表明, 随着层宽的增加,训练后的神经网络精度趋近于相应的高斯过程,并且训练后神经网络预测的误差与高斯过程的不确定性密切相关。我们进一步发现, 随着有限宽度训练网络变得更宽和更类似于高斯过程,测试性能会有所提高,因此高斯过程预测通常优于有限宽神经网络的预测。最后,我们将这些高斯过程的性 ...
🔥 神经正切核:神经网络中的收敛和泛化
【摘 要】 多个研究成果表明:初始阶段的无限宽极限人工神经网络 (ANN) 等效于高斯过程 [16][4][7][13][6] ,这将神经网络与核方法成功地链接在了一起。而本文则证明:神经网络在训练期间的演化,也可以用核方法来描述。具体来说,在神经网络参数的梯度下降期间,将输入向量映射到输出向量的神经网络函数 fθf_\thetafθ 也相应地遵循代价函数关于 神经正切核 (NTK) 的核梯度。神经正切核是描述人工神经网络泛化特性的核心。神经正切核在初始化时是随机的,在训练期间也会发生变化,但在无限宽极限下,它会收敛到显式的极限化核,并且在训练期间保持不变。神经正切核的这些特性使得我们在函数空间(而不是参数空间)中研究人工神经网络训练成为可能。我们认为:神经网络训练的收敛性可能与极限化神经正切核的正定性有关;在数据支持球体并且采用非线性非多项式情况下,我们也证明了极限化神经正切核的正定性。然后我们专注于最小二乘回归任务,表明在无限宽极限下,神经网络函数 fθf_\thetafθ 在训练过程中遵循 线性微分方程。另外,我们发现输入相对于神经正切核的最大核主组份方向的收敛速 ...
宽深度神经网络中的高斯过程表现
【摘 要】 尽管深度神经网络在实证上取得了巨大的成功,但要理解其理论特性仍有许多工作要做。在本文中,我们研究了 “具有多个隐藏层的随机、宽、全连接、前馈神经网络” 与 “具有递归核定义的高斯过程” 之间的关系。我们表明,在广泛条件下,随着使架构越来越宽,隐含随机函数在分布中逐步收敛到高斯过程,因此将 Neal (1996) 的结果扩展到了深度网络。为了根据实证计算收敛率,我们使用最大平均差(Maximum Mean Discrepancy)。我们就一些感兴趣的关键预测量,将有限贝叶斯深度网络与高斯过程进行比较,发现在某些情况下,两者接近一致。我们讨论了高斯过程表现的可取性,并回顾了文献中的非高斯替代模型。
【原 文】 Matthews, A.G. de G. 等 (2018) ‘Gaussian Process Behaviour in Wide Deep Neural Networks’. arXiv. Available at: http://arxiv.org/abs/1804.11271 (Accessed: 2 January 2023).
1 简介
本文工作扩展 ...
神经正切:Python 中快速简单的无限宽神经网络
【摘 要】 NEURAL TANGENTS 是一个库,旨在实现对无限宽神经网络的研究。它提供了一个高级 API,用于指定复杂和分层的神经网络架构。然后可以像往常一样以有限宽或无限宽极限对这些网络进行训练和评估。无限宽网络可以使用精确的贝叶斯推断或通过神经正切核使用梯度下降进行分析训练。此外,NEURAL TANGENTS 提供了工具来研究函数空间或权重空间中广泛但有限网络的梯度下降训练动力学。
【原 文】 Novak, R. et al. (2019) ‘Neural Tangents: Fast and Easy Infinite Neural Networks in Python’. arXiv. Available at: http://arxiv.org/abs/1912.02803 (Accessed: 4 March 2023). https://github.com/google/neural-tangents
1 简介
深度神经网络 (DNN) 的成功部分归功于高级、灵活和高效的软件库的广泛可用性,例如 Tensorflow(Abadi 等,2015)、Ke ...
现代高斯过程回归速览
1 无限模型表达 + 现代计算
有没有想过如何创建具有 无限表达能力 的非参数监督学习模型?看看 高斯过程回归 (GPR),这是一种几乎完全根据数据本身学习做出预测的算法(在超参数的帮助下)。将此算法与自动微分等最新的计算进展相结合,可以应用高斯过程回归近乎实时地解决各种受监督的机器学习问题。
在本文中,我们将讨论:
高斯过程回归理论的简要概述/回顾
我们可以使用高斯过程回归解决的问题类型,以及一些例子
高斯过程回归与其他监督学习算法的比较
可以用来实现高斯过程回归的现代编程包和工具
这是我的高斯过程回归系列中的第二篇文章。如需从头开始对高斯过程回归进行严格的介绍,请查看我之前的文章 此处。
2 高斯过程回归的概念
在深入研究如何实现和使用高斯过程回归之前,先快速回顾一下这个监督机器学习算法背后的机制和理论。关于以下概念的详细推导/讨论,请查看我之前的文章《高斯过程回归》 的文章。
(i)以 观测到的 训练点为条件,预测测试点的 条件后验分布:
(ii)将测试点目标的 均值 被预测为 已观测到的目标值的线性组合,这些线性组合的权重,则由从训练输入到测试点的核距离 ...
归纳高斯过程网络(IGN)
【摘 要】 高斯过程 (GP) 是功能强大但计算量大的机器学习模型,需要为每个预测估计核协方差矩阵。在图、集合或图像等大而复杂的领域中,选择合适的核可能不容易,这为学习任务提供了额外的障碍。在过去十年中,这些挑战导致在可扩展性和表达性方面取得了重大进展,例如使用归纳点和神经网络核近似。在本文中,我们提出了归纳高斯过程网络 (IGN),这是一个同时学习特征空间和归纳点的简单框架。特别是归纳点是直接在特征空间中学习的,能够无缝表示复杂的结构域,同时也促进了可扩展的基于梯度的学习方法。我们考虑了回归和(二元)分类任务,并报告了真实世界数据集的实验结果,表明归纳高斯过程比最先进的方法有显著进步。我们还演示了如何使用归纳高斯过程来有效地使用神经网络架构对复杂域进行建模。
【原 文】 Tibo, A. and Nielsen, T.D. (2022) ‘Inducing Gaussian Process Networks’. Available at: http://arxiv.org/abs/2204.09889 (Accessed: 2 March 2023).
1 引言
高斯过 ...
🔥 神经过程(NP)
【摘 要】 神经网络 (NN) 是一种参数化函数,可以通过梯度下降进行调优,以高精度逼近有标签数据集。另一方面,高斯过程 (GP) 是一种概率模型,它定义了函数的分布,并利用概率推断规则根据数据进行更新。高斯过程具有概率性、数据效率和灵活性,但也是计算密集型的,因此适用范围受到了限制。在本文中,我们介绍了一类神经网络隐变量模型,我们称之为神经过程 (Neural Processes,NP),它结合了两种方法的优点。与高斯过程一样,神经过程用于定义函数的分布,能够快速适应新观测,并且在预测时能够同步估计其不确定性。与神经网络一样,神经过程在训练和评估期间的计算效率很高,但同时能够学习根据数据调整先验。我们展示了神经过程在一系列学习任务中的表现,包括回归和优化,并与文献中的相关模型进行了比较和对比。
【原 文】 Garnelo, Marta, Jonathan Schwarz, Dan Rosenbaum, Fabio Viola, Danilo J. Rezende, S. M. Ali Eslami, and Yee Whye Teh. “Neural Processes. ...
🔥 神经过程作为函数的分布
【原 文】 Kaspar Martins, 2018, Neural Processes as distributions over functions, https://kasparmartens.rbind.io/post/np/
在 ICML2018 中,提出了一些关于神经过程的有趣工作。见论文《条件神经过程》 和同一作者在研讨会上提出的 《神经过程》 的后续工作。
神经过程(NPs)引起了我的注意,因为它们本质上是一种基于神经网络(NN)的概率模型,可以表示随机过程的分布。所以神经过程结合了两个世界的元素:
深度学习:神经网络是灵活的非线性函数,可以直接训练。
高斯过程:高斯过程提供了一个概率框架,用于学习一类广泛的非线性函数的分布。
两者各有其优缺点。在数据有限的体系中,高斯过程由于其概率性质和捕获不确定性的能力更受欢迎。这与(非贝叶斯)神经网络不同,后者表示一个单一函数,而不是一个关于函数的分布。但是,在存在大量数据的情况下,后者可能更可取,因为训练神经网络在计算上比推断高斯过程更容易实现可扩展性。
神经过程旨在结合这两个世界的优点。
神经过程背后的想法很有 ...
🔥 神经扩散过程(NDP)
【摘 要】 高斯过程为指定函数的先验分布和后验分布提供了一个优雅的框架。然而,它们计算代价很高,并且受到协方差函数表达能力的限制。我们提出了神经扩散过程 (NDP),这是一种基于扩散模型的新方法,它学习如何从函数的分布中进行采样。使用一种新颖的注意力块,我们能够将随机过程的性质(例如可交换性)直接整合到神经扩散架构中。经验表明,神经扩散过程能够捕获与高斯过程的真实贝叶斯后验接近的函数型分布。这使各种下游任务成为可能,包括超参数的边缘化和贝叶斯优化。
【原 文】 Dutordoir, V. et al. (2022) ‘Neural Diffusion Processes’. arXiv. Available at: http://arxiv.org/abs/2206.03992 (Accessed: 21 February 2023).
1 简介
高斯过程 (GP) 提供了一个强大的框架来定义函数的分布 [23]。高斯过程的一个关键优势是其可交换性,这使得从训练模型中获得任意位置的一致预测成为可能。但是,有两个关键因素限制了高斯过程在现实世界中可处理的任务范围。首先,推断成 ...