🔥 神经正切核:神经网络中的收敛和泛化
【摘 要】 多个研究成果表明:初始阶段的无限宽极限人工神经网络 (ANN) 等效于高斯过程 [16][4][7][13][6] ,这将神经网络与核方法成功地链接在了一起。而本文则证明:神经网络在训练期间的演化,也可以用核方法来描述。具体来说,在神经网络参数的梯度下降期间,将输入向量映射到输出向量的神经网络函数 fθf_\thetafθ 也相应地遵循代价函数关于 神经正切核 (NTK) 的核梯度。神经正切核是描述人工神经网络泛化特性的核心。神经正切核在初始化时是随机的,在训练期间也会发生变化,但在无限宽极限下,它会收敛到显式的极限化核,并且在训练期间保持不变。神经正切核的这些特性使得我们在函数空间(而不是参数空间)中研究人工神经网络训练成为可能。我们认为:神经网络训练的收敛性可能与极限化神经正切核的正定性有关;在数据支持球体并且采用非线性非多项式情况下,我们也证明了极限化神经正切核的正定性。然后我们专注于最小二乘回归任务,表明在无限宽极限下,神经网络函数 fθf_\thetafθ 在训练过程中遵循 线性微分方程。另外,我们发现输入相对于神经正切核的最大核主组份方向的收敛速 ...
宽深度神经网络中的高斯过程表现
【摘 要】 尽管深度神经网络在实证上取得了巨大的成功,但要理解其理论特性仍有许多工作要做。在本文中,我们研究了 “具有多个隐藏层的随机、宽、全连接、前馈神经网络” 与 “具有递归核定义的高斯过程” 之间的关系。我们表明,在广泛条件下,随着使架构越来越宽,隐含随机函数在分布中逐步收敛到高斯过程,因此将 Neal (1996) 的结果扩展到了深度网络。为了根据实证计算收敛率,我们使用最大平均差(Maximum Mean Discrepancy)。我们就一些感兴趣的关键预测量,将有限贝叶斯深度网络与高斯过程进行比较,发现在某些情况下,两者接近一致。我们讨论了高斯过程表现的可取性,并回顾了文献中的非高斯替代模型。
【原 文】 Matthews, A.G. de G. 等 (2018) ‘Gaussian Process Behaviour in Wide Deep Neural Networks’. arXiv. Available at: http://arxiv.org/abs/1804.11271 (Accessed: 2 January 2023).
1 简介
本文工作扩展 ...
神经正切:Python 中快速简单的无限宽神经网络
【摘 要】 NEURAL TANGENTS 是一个库,旨在实现对无限宽神经网络的研究。它提供了一个高级 API,用于指定复杂和分层的神经网络架构。然后可以像往常一样以有限宽或无限宽极限对这些网络进行训练和评估。无限宽网络可以使用精确的贝叶斯推断或通过神经正切核使用梯度下降进行分析训练。此外,NEURAL TANGENTS 提供了工具来研究函数空间或权重空间中广泛但有限网络的梯度下降训练动力学。
【原 文】 Novak, R. et al. (2019) ‘Neural Tangents: Fast and Easy Infinite Neural Networks in Python’. arXiv. Available at: http://arxiv.org/abs/1912.02803 (Accessed: 4 March 2023). https://github.com/google/neural-tangents
1 简介
深度神经网络 (DNN) 的成功部分归功于高级、灵活和高效的软件库的广泛可用性,例如 Tensorflow(Abadi 等,2015)、Ke ...
现代高斯过程回归速览
1 无限模型表达 + 现代计算
有没有想过如何创建具有 无限表达能力 的非参数监督学习模型?看看 高斯过程回归 (GPR),这是一种几乎完全根据数据本身学习做出预测的算法(在超参数的帮助下)。将此算法与自动微分等最新的计算进展相结合,可以应用高斯过程回归近乎实时地解决各种受监督的机器学习问题。
在本文中,我们将讨论:
高斯过程回归理论的简要概述/回顾
我们可以使用高斯过程回归解决的问题类型,以及一些例子
高斯过程回归与其他监督学习算法的比较
可以用来实现高斯过程回归的现代编程包和工具
这是我的高斯过程回归系列中的第二篇文章。如需从头开始对高斯过程回归进行严格的介绍,请查看我之前的文章 此处。
2 高斯过程回归的概念
在深入研究如何实现和使用高斯过程回归之前,先快速回顾一下这个监督机器学习算法背后的机制和理论。关于以下概念的详细推导/讨论,请查看我之前的文章《高斯过程回归》 的文章。
(i)以 观测到的 训练点为条件,预测测试点的 条件后验分布:
(ii)将测试点目标的 均值 被预测为 已观测到的目标值的线性组合,这些线性组合的权重,则由从训练输入到测试点的核距离 ...
归纳高斯过程网络(IGN)
【摘 要】 高斯过程 (GP) 是功能强大但计算量大的机器学习模型,需要为每个预测估计核协方差矩阵。在图、集合或图像等大而复杂的领域中,选择合适的核可能不容易,这为学习任务提供了额外的障碍。在过去十年中,这些挑战导致在可扩展性和表达性方面取得了重大进展,例如使用归纳点和神经网络核近似。在本文中,我们提出了归纳高斯过程网络 (IGN),这是一个同时学习特征空间和归纳点的简单框架。特别是归纳点是直接在特征空间中学习的,能够无缝表示复杂的结构域,同时也促进了可扩展的基于梯度的学习方法。我们考虑了回归和(二元)分类任务,并报告了真实世界数据集的实验结果,表明归纳高斯过程比最先进的方法有显著进步。我们还演示了如何使用归纳高斯过程来有效地使用神经网络架构对复杂域进行建模。
【原 文】 Tibo, A. and Nielsen, T.D. (2022) ‘Inducing Gaussian Process Networks’. Available at: http://arxiv.org/abs/2204.09889 (Accessed: 2 March 2023).
1 引言
高斯过 ...
🔥 神经过程(NP)
【摘 要】 神经网络 (NN) 是一种参数化函数,可以通过梯度下降进行调优,以高精度逼近有标签数据集。另一方面,高斯过程 (GP) 是一种概率模型,它定义了函数的分布,并利用概率推断规则根据数据进行更新。高斯过程具有概率性、数据效率和灵活性,但也是计算密集型的,因此适用范围受到了限制。在本文中,我们介绍了一类神经网络隐变量模型,我们称之为神经过程 (Neural Processes,NP),它结合了两种方法的优点。与高斯过程一样,神经过程用于定义函数的分布,能够快速适应新观测,并且在预测时能够同步估计其不确定性。与神经网络一样,神经过程在训练和评估期间的计算效率很高,但同时能够学习根据数据调整先验。我们展示了神经过程在一系列学习任务中的表现,包括回归和优化,并与文献中的相关模型进行了比较和对比。
【原 文】 Garnelo, Marta, Jonathan Schwarz, Dan Rosenbaum, Fabio Viola, Danilo J. Rezende, S. M. Ali Eslami, and Yee Whye Teh. “Neural Processes. ...
🔥 神经过程作为函数的分布
【原 文】 Kaspar Martins, 2018, Neural Processes as distributions over functions, https://kasparmartens.rbind.io/post/np/
在 ICML2018 中,提出了一些关于神经过程的有趣工作。见论文《条件神经过程》 和同一作者在研讨会上提出的 《神经过程》 的后续工作。
神经过程(NPs)引起了我的注意,因为它们本质上是一种基于神经网络(NN)的概率模型,可以表示随机过程的分布。所以神经过程结合了两个世界的元素:
深度学习:神经网络是灵活的非线性函数,可以直接训练。
高斯过程:高斯过程提供了一个概率框架,用于学习一类广泛的非线性函数的分布。
两者各有其优缺点。在数据有限的体系中,高斯过程由于其概率性质和捕获不确定性的能力更受欢迎。这与(非贝叶斯)神经网络不同,后者表示一个单一函数,而不是一个关于函数的分布。但是,在存在大量数据的情况下,后者可能更可取,因为训练神经网络在计算上比推断高斯过程更容易实现可扩展性。
神经过程旨在结合这两个世界的优点。
神经过程背后的想法很有 ...
Rasmussen 第 2 章 高斯过程回归
【摘 要】高斯过程作为一种用于预测的非参数模型,可以用于回归任务,也可以用于分类任务,本文主要介绍其在回归任务中的主要原理和方法。《机器学习中的高斯过程》一书是高斯过程研究领域的扛鼎之作,本文主要节选自该书的第二章。
【原 文】 Rasmussen, C.E. and Williams, C.K. (2006), Chapter 2 of Gaussian processes for machine learning. Cambridge, Mass: MIT press Cambridge, MA (3).
【提 醒】 本文所有内容均是在假设协方差(核)函数已知的情况下进行的讨论。因此,无论是从权重视角还是从函数视角,关注的主要是(权重或函数的)先验以及(权重或函数的)后验推断。
第2章 高斯过程回归
监督学习可以分为回归和分类问题。分类的输出是离散的类标签,而回归与连续量的预测有关。例如,在金融应用程序中,人们可能会尝试根据利率、货币汇率、可用性和需求来预测商品价格。在本章中,我们描述了回归问题的高斯过程方法;分类问题在第 3 章讨论
有多种方法可以解释高斯过程 (GP ...
Shawe-Taylor 第 3 章:核的性质
【摘 要】高斯过程作为一种用于预测的非参数模型,可以用于回归任务,也可以用于分类任务。在高斯过程中,协方差函数与协方差矩阵占据着非常重要的地位,从某种程度上来说,两者是高斯过程方法的核心。由于两者与核方法有着千丝万缕的联系,因此本文从核方法的经典著作 《模式分析中的核方法》中引入第三章,以便了解核的基本性质,以及其与协方差模型之间的确切关系。
【原 文】 Shawe-Taylor, John, and Nello Cristianini. Kernel Methods for Pattern Analysis. Chapter 3. Cambridge, UK ; New York: Cambridge University Press, 2004.
1 希尔伯特空间
本节介绍与定义核函数有关的空间概念、性质和定理。
1.1 线性空间与内积空间
线性空间也就是向量空间(Vector Space),它指的是一系列向量的集合,并且只定义了两个运算:加法和数乘。加法指的是两个向量之间的运算;而数乘指的是实数和向量的相乘(相当于缩放,scale)也就是向量长度的变化。接下来我们以一 ...
Rasmussen 第 4 章 高斯过程的协方差函数
【摘 要】 协方差函数是高斯过程方法的核心,本文给出了关于协方差函数的概述。
【原 文】 Rasmussen, C.E. and Williams, C.K. (2006), Chapter 4 of Gaussian processes for machine learning. Cambridge, Mass: MIT press Cambridge, MA (3).
第 4 章 协方差函数
我们已经看到,协方差函数是高斯过程预测器中的关键成分,因为它编码了我们对所希望学习的函数的假设。从稍微不同的角度来看,很明显在监督学习中数据点之间的相似性概念是至关重要的;一个基本假设是输入 x\mathbf{x}x 接近的点可能具有相似的目标值 yyy,因此靠近测试点的训练点应该提供有关该点预测的信息。在高斯过程视图下,协方差函数定义了接近度或相似度。
输入对 x\mathbf{x}x 和 x′\mathbf{x}'x′ 的任意函数通常不会是有效的协方差函数。本章的目的是给出一些常用协方差函数的示例并检查它们的性质。
第 4.1 节定义了一些与协方差函数相关的基本术语。
第 4 ...