西山晴雪的知识笔记

发表于2023-05-10|高斯过程神经网络

【摘要】高斯过程具有不确定性估计能力，而（深度）神经网络具有灵活的万能逼近能力。因此，如何将神经网络与高斯过程很好地结合（一方面增强神经网络的不确定性量化能力和可解释性，另一方面有效解决高斯过程的可扩展性问题），已经成为最近 5 - 10 年比较热门的研究领域。本文对相关文献进行了梳理，大致分为四种类型： “神经网络与高斯过程的结合（NN + GP）”、 “高斯过程的神经网络实现（NN Is GP）”、 “高斯过程核的神经网络学习（NN GP Training）”、 “神经网络的高斯过程视角（Interprete NN with GP）”。 1 综述类暂无。 2 神经网络与高斯过程的结合（ NN + GP ） Damianou 2013 年的《深度高斯过程》：首次尝试神经网络与高斯过程的结合，提出了使用多个等效于高斯过程的神经网络层堆叠形成一种新型的深度信念网络（本质是特征学习，采用逐层训练策略）模型，并称之为深度高斯过程，该团队还给出无限多次组合后的核退化形式。 3 高斯过程的神经网络实现（ NN is GP ） Garnelo2018 年的《条 ...

Transformer 神经过程：通过序列建模进行不确定性感知元学习

发表于2023-05-09|高斯过程神经网络

【摘要】神经过程 (NPs) 是一类流行的元学习方法。与高斯过程 (GP) 类似，神经过程定义函数的分布并可以估计其预测中的不确定性。然而，与 GP 不同，神经过程及其变体存在欠拟合问题，并且通常具有难以处理的似然，这限制了它们在顺序决策中的应用。我们提出了 Transformer Neural Processes (TNPs)，这是神经过程家族的新成员，它将不确定性感知元学习转化为序列建模问题。我们通过基于自回归似然的目标来学习 TNP，并使用一种新颖的基于 transformer 的架构对其进行实例化。模型架构尊重问题结构固有的归纳偏差，例如对观测到的数据点的不变性和对未观测到的点的等变性。我们进一步研究了 transformer 神经过程框架内的旋钮，这些旋钮在解码分布的表现力与额外计算之间进行了权衡。根据经验，我们表明 transformer 神经过程在各种基准问题上实现了最先进的性能，在元回归、图像补全、上下文多臂老虎机和贝叶斯优化方面优于所有以前的神经过程变体。【原文】 Nguyen, T. and Grover, A. (2023) ‘Transfor ...

高效的高斯神经过程回归

发表于2023-03-29|高斯过程神经网络

【摘要】条件神经过程 (CNP）是一个有吸引力的元学习模型系列，它可以产生经过良好校准的预测，能够在测试时进行快速推断，并且可以通过简单的最大似然程序进行训练。 CNP 的局限性在于它们无法对输出中的依赖关系进行建模。这极大地影响了预测性能，并且无法抽取相干的函数样本，从而限制了 CNP 在下游应用和决策制定中的适用性。神经过程 (NPs) 试图通过使用隐变量来缓解这个问题，并靠此来建模输出的依赖性，但带来了近似推断的困难。最近的一种替代方法是 FullConvGNP，它可以对预测中的依赖性进行建模，同时仍然可以通过精确的最大似然法进行训练。不幸的是，FullConvGNP 依赖于昂贵的二维卷积，这使其仅适用于一维数据。在本文工作中，我们提出了一种新方法来模拟输出依赖性，它适用于最大似然训练，但可以扩展到二维和三维数据。所提出的模型在合成实验中表现出了良好性能。【原文】 Markou, S. 等 (2021) ‘Efficient Gaussian Neural Processes for Regression’. arXiv. Available at: http: ...

🔥 高斯神经过程

发表于2023-03-23|高斯过程神经网络

高斯神经过程【摘要】神经过程是一类丰富的元学习模型，可将数据集直接映射到预测性随机过程。我们对用于训练条件神经过程的标准最大似然目标进行了严格的分析。此外，我们向神经过程家族提出了一个新成员，称为高斯神经过程 (GNP)，它结合平移等方差性对预测相关性进行建模，能够提供通用的近似保证，并展示了很好的性能。【原文】 Bruinsma, W.P. 等 (2021) ‘The Gaussian Neural Process’. arXiv. Available at: http://arxiv.org/abs/2101.03606 (Accessed: 23 February 2023). 1 引言神经过程 (Neural Processes, NPs; Garnelo 等，2018a [5],2018b [6]) 使用神经网络直接参数化并且学习 “从观测数据到随机过程的后验预测分布的映射” 。在本文工作中，我们为神经过程框架提供了两个贡献。贡献 1: 对用于训练条件神经过程模型的标准最大似然 (ML) 目标进行严格分析。特别是，我们将目标与随机过程之间的 KL\ ...

🔥 自回归条件神经过程

发表于2023-03-23|高斯过程神经网络

【摘要】条件神经过程（CNP）是一种具有吸引力的元学习模型，它可以产生经过良好校准的预测，并且可以通过最大似然程序进行训练。尽管条件神经过程有很多优势，但其无法在预测中建立依赖关系模型。已经有多项工作为此提出了解决方案，但都以近似或仅限于高斯预测为代价的。在本文工作中，我们建议不对条件神经过程模型或训练过程进行任何修改，而是改变其在测试时的部署方式。我们从神经自回归密度估计器 (NADE) 文献中汲取了灵感，使用概率链式法则自回归地定义联合预测分布，而不是对每个目标点进行独立的预测。实验结果表明，此过程允许因子化的高斯条件神经过程对相关的、非高斯的预测分布进行建模。令人惊讶的是，在使用合成数据和真实数据的广泛任务中，我们表明自回归模式下的条件神经过程，不仅显著优于非自回归条件神经过程，而且还与更复杂的模型（训练成本和难度可能高得多）形成了竞争关系。自回归条件神经过程性能出色的原因在于：不需要通过训练来模拟联合分布的依赖性。我们的工作提供了一个示例，说明了神经过程能够从 “神经分布估计的思想” 中受益，进而可以推动对其他神经过程模型的自回归部署研究。 ...

梯度下降学得的模型都近似于一个核机

发表于2023-03-17|高斯过程神经网络

【摘要】深度学习的成功通常归功于其自动发现数据新表示的能力，而不是像其他学习方法那样依赖手工制作的特征。然而，我们表明，通过标准梯度下降算法学习的深度网络实际上在数学上近似等同于核机器，这是一种简单地记忆数据并通过相似函数（核）直接将其用于预测的学习方法。通过阐明它们实际上是训练示例的叠加，这极大地增强了深度网络权重的可解释性。网络架构将目标函数的知识合并到核中。这种更好的理解应该会导致更好的学习算法。【原文】 Domingos, Pedro. “Every Model Learned by Gradient Descent Is Approximately a Kernel Machine.” arXiv, November 30, 2020. http://arxiv.org/abs/2012.00152. 1 引言尽管取得了许多成功，但深度学习仍然知之甚少（Goodfellow 等，2016 年）。相比之下，核机器基于完善的数学理论，但它们的经验性能通常落后于深度网络（Scholkopf 和 Smola，2002）。学习深度网络和许多其他模型的标准算法是梯度 ...

对神经切线核的初步理解

发表于2023-03-07|高斯过程神经网络

【摘要】想理解神经网络的训练动态过程，不妨从「神经切线核」入手。那么什么是神经切线核，核机制如何运行？就读于印度理工学院马德拉斯分校电气工程系的 Rajat Vadiraj Dwaraknath 撰文介绍了这一概念。博客地址：https://rajatvd.github.io/NTK/ 文章动图地址：https://github.com/rajatvd/NTK 神经切线核相关论文地址：https://arxiv.org/abs/1806.07572 1 引言图 1: _这张动图展示了神经网络的训练动态过程。最近一系列关于理论深度学习的论文讨论了在无限宽极限下分析神经网络的问题。这个极限最初似乎不切实际，甚至研究起来毫无意义；但事实证明，此时的神经网络可以简化为具有神经切线核的线性模型，这使得梯度下降问题可以更好被研究。此研究虽然看起来很有希望，但实证结果表明，此时的神经网络性能并不比实际的超参数网络更好。无论如何，这仍然为神经网络训练的某些方面提供了理论见解，因此值得研究。此外，神经切线核可在更宽泛的情况下出现，而无需无限宽极限的条件。本文简单 ...

神经网络高斯过程(NNGP)

发表于2023-03-06|高斯过程神经网络

【摘要】很久前就已经证明，当网络宽度为无限宽时，具有独立同分布先验的参数的单隐层全连接神经网络等效于一个高斯过程。也就是说，通过计算相应的高斯过程，可以实现对无限宽神经网络回归任务的精确贝叶斯推断，或者反之，可以用趋近于无线宽的神经网络来实现近似的高斯过程。最近，人们已经开发出了多种用于模仿多层随机神经网络的核函数，但并未考虑贝叶斯框架。因此，之前的工作尚未确定上述核函数是否可用作高斯过程的协方差函数，也无法确定是否允许完全地使用深度神经网络来做贝叶斯预测。本文推导出了无限宽 “深度” 神经网络和高斯过程之间的精确等价关系，并进一步开发了一个效率较高的计算管道，来计算高斯过程的协方差函数。我们使用生成的高斯过程对 MNIST 和 CIFAR-10 上的宽深度神经网络执行了贝叶斯推断，实验结果表明，随着层宽的增加，训练后的神经网络精度趋近于相应的高斯过程，并且训练后神经网络预测的误差与高斯过程的不确定性密切相关。我们进一步发现，随着有限宽度训练网络变得更宽和更类似于高斯过程，测试性能会有所提高，因此高斯过程预测通常优于有限宽神经网络的预测。最后，我们将这些高斯过程的性 ...

🔥 神经正切核：神经网络中的收敛和泛化

发表于2023-03-06|高斯过程神经网络

【摘要】多个研究成果表明：初始阶段的无限宽极限人工神经网络 (ANN) 等效于高斯过程 [16][4][7][13][6] ，这将神经网络与核方法成功地链接在了一起。而本文则证明：神经网络在训练期间的演化，也可以用核方法来描述。具体来说，在神经网络参数的梯度下降期间，将输入向量映射到输出向量的神经网络函数 fθf_\thetafθ 也相应地遵循代价函数关于神经正切核 (NTK) 的核梯度。神经正切核是描述人工神经网络泛化特性的核心。神经正切核在初始化时是随机的，在训练期间也会发生变化，但在无限宽极限下，它会收敛到显式的极限化核，并且在训练期间保持不变。神经正切核的这些特性使得我们在函数空间（而不是参数空间）中研究人工神经网络训练成为可能。我们认为：神经网络训练的收敛性可能与极限化神经正切核的正定性有关；在数据支持球体并且采用非线性非多项式情况下，我们也证明了极限化神经正切核的正定性。然后我们专注于最小二乘回归任务，表明在无限宽极限下，神经网络函数 fθf_\thetafθ 在训练过程中遵循线性微分方程。另外，我们发现输入相对于神经正切核的最大核主组份方向的收敛速 ...

宽深度神经网络中的高斯过程表现

发表于2023-03-06|高斯过程神经网络

【摘要】尽管深度神经网络在实证上取得了巨大的成功，但要理解其理论特性仍有许多工作要做。在本文中，我们研究了 “具有多个隐藏层的随机、宽、全连接、前馈神经网络” 与 “具有递归核定义的高斯过程” 之间的关系。我们表明，在广泛条件下，随着使架构越来越宽，隐含随机函数在分布中逐步收敛到高斯过程，因此将 Neal (1996) 的结果扩展到了深度网络。为了根据实证计算收敛率，我们使用最大平均差（Maximum Mean Discrepancy）。我们就一些感兴趣的关键预测量，将有限贝叶斯深度网络与高斯过程进行比较，发现在某些情况下，两者接近一致。我们讨论了高斯过程表现的可取性，并回顾了文献中的非高斯替代模型。【原文】 Matthews, A.G. de G. 等 (2018) ‘Gaussian Process Behaviour in Wide Deep Neural Networks’. arXiv. Available at: http://arxiv.org/abs/1804.11271 (Accessed: 2 January 2023). 1 简介本文工作扩展 ...