西山晴雪的知识笔记

发表于2023-03-07|高斯过程随机模拟

暂无 #refplus, #refplus li{ padding:0; margin:0; list-style:none; }； document.querySelectorAll(".refplus-num").forEach((ref) => { let refid = ref.firstChild.href.replace(location.origin+location.pathname,''); let refel = document.querySelector(refid); let refnum = refel.dataset.num; let ref_content = refel.innerText.replace(`[${refnum}]`,''); tippy(ref, { content: ref_content, ...

神经网络高斯过程(NNGP)

发表于2023-03-06|高斯过程神经网络

【摘要】很久前就已经证明，当网络宽度为无限宽时，具有独立同分布先验的参数的单隐层全连接神经网络等效于一个高斯过程。也就是说，通过计算相应的高斯过程，可以实现对无限宽神经网络回归任务的精确贝叶斯推断，或者反之，可以用趋近于无线宽的神经网络来实现近似的高斯过程。最近，人们已经开发出了多种用于模仿多层随机神经网络的核函数，但并未考虑贝叶斯框架。因此，之前的工作尚未确定上述核函数是否可用作高斯过程的协方差函数，也无法确定是否允许完全地使用深度神经网络来做贝叶斯预测。本文推导出了无限宽 “深度” 神经网络和高斯过程之间的精确等价关系，并进一步开发了一个效率较高的计算管道，来计算高斯过程的协方差函数。我们使用生成的高斯过程对 MNIST 和 CIFAR-10 上的宽深度神经网络执行了贝叶斯推断，实验结果表明，随着层宽的增加，训练后的神经网络精度趋近于相应的高斯过程，并且训练后神经网络预测的误差与高斯过程的不确定性密切相关。我们进一步发现，随着有限宽度训练网络变得更宽和更类似于高斯过程，测试性能会有所提高，因此高斯过程预测通常优于有限宽神经网络的预测。最后，我们将这些高斯过程的性 ...

🔥 神经正切核：神经网络中的收敛和泛化

发表于2023-03-06|高斯过程神经网络

【摘要】多个研究成果表明：初始阶段的无限宽极限人工神经网络 (ANN) 等效于高斯过程 [16][4][7][13][6] ，这将神经网络与核方法成功地链接在了一起。而本文则证明：神经网络在训练期间的演化，也可以用核方法来描述。具体来说，在神经网络参数的梯度下降期间，将输入向量映射到输出向量的神经网络函数 fθf_\thetafθ 也相应地遵循代价函数关于神经正切核 (NTK) 的核梯度。神经正切核是描述人工神经网络泛化特性的核心。神经正切核在初始化时是随机的，在训练期间也会发生变化，但在无限宽极限下，它会收敛到显式的极限化核，并且在训练期间保持不变。神经正切核的这些特性使得我们在函数空间（而不是参数空间）中研究人工神经网络训练成为可能。我们认为：神经网络训练的收敛性可能与极限化神经正切核的正定性有关；在数据支持球体并且采用非线性非多项式情况下，我们也证明了极限化神经正切核的正定性。然后我们专注于最小二乘回归任务，表明在无限宽极限下，神经网络函数 fθf_\thetafθ 在训练过程中遵循线性微分方程。另外，我们发现输入相对于神经正切核的最大核主组份方向的收敛速 ...

宽深度神经网络中的高斯过程表现

发表于2023-03-06|高斯过程神经网络

【摘要】尽管深度神经网络在实证上取得了巨大的成功，但要理解其理论特性仍有许多工作要做。在本文中，我们研究了 “具有多个隐藏层的随机、宽、全连接、前馈神经网络” 与 “具有递归核定义的高斯过程” 之间的关系。我们表明，在广泛条件下，随着使架构越来越宽，隐含随机函数在分布中逐步收敛到高斯过程，因此将 Neal (1996) 的结果扩展到了深度网络。为了根据实证计算收敛率，我们使用最大平均差（Maximum Mean Discrepancy）。我们就一些感兴趣的关键预测量，将有限贝叶斯深度网络与高斯过程进行比较，发现在某些情况下，两者接近一致。我们讨论了高斯过程表现的可取性，并回顾了文献中的非高斯替代模型。【原文】 Matthews, A.G. de G. 等 (2018) ‘Gaussian Process Behaviour in Wide Deep Neural Networks’. arXiv. Available at: http://arxiv.org/abs/1804.11271 (Accessed: 2 January 2023). 1 简介本文工作扩展 ...

神经正切：Python 中快速简单的无限宽神经网络

发表于2023-03-04|高斯过程神经网络

【摘要】 NEURAL TANGENTS 是一个库，旨在实现对无限宽神经网络的研究。它提供了一个高级 API，用于指定复杂和分层的神经网络架构。然后可以像往常一样以有限宽或无限宽极限对这些网络进行训练和评估。无限宽网络可以使用精确的贝叶斯推断或通过神经正切核使用梯度下降进行分析训练。此外，NEURAL TANGENTS 提供了工具来研究函数空间或权重空间中广泛但有限网络的梯度下降训练动力学。【原文】 Novak, R. et al. (2019) ‘Neural Tangents: Fast and Easy Infinite Neural Networks in Python’. arXiv. Available at: http://arxiv.org/abs/1912.02803 (Accessed: 4 March 2023). https://github.com/google/neural-tangents 1 简介深度神经网络 (DNN) 的成功部分归功于高级、灵活和高效的软件库的广泛可用性，例如 Tensorflow（Abadi 等，2015）、Ke ...

归纳高斯过程网络（IGN）

发表于2023-03-02|高斯过程神经网络

【摘要】高斯过程 (GP) 是功能强大但计算量大的机器学习模型，需要为每个预测估计核协方差矩阵。在图、集合或图像等大而复杂的领域中，选择合适的核可能不容易，这为学习任务提供了额外的障碍。在过去十年中，这些挑战导致在可扩展性和表达性方面取得了重大进展，例如使用归纳点和神经网络核近似。在本文中，我们提出了归纳高斯过程网络 (IGN)，这是一个同时学习特征空间和归纳点的简单框架。特别是归纳点是直接在特征空间中学习的，能够无缝表示复杂的结构域，同时也促进了可扩展的基于梯度的学习方法。我们考虑了回归和（二元）分类任务，并报告了真实世界数据集的实验结果，表明归纳高斯过程比最先进的方法有显著进步。我们还演示了如何使用归纳高斯过程来有效地使用神经网络架构对复杂域进行建模。【原文】 Tibo, A. and Nielsen, T.D. (2022) ‘Inducing Gaussian Process Networks’. Available at: http://arxiv.org/abs/2204.09889 (Accessed: 2 March 2023). 1 引言高斯过 ...

🔥 神经过程(NP)

发表于2023-02-23|高斯过程神经网络

【摘要】神经网络 (NN) 是一种参数化函数，可以通过梯度下降进行调优，以高精度逼近有标签数据集。另一方面，高斯过程 (GP) 是一种概率模型，它定义了函数的分布，并利用概率推断规则根据数据进行更新。高斯过程具有概率性、数据效率和灵活性，但也是计算密集型的，因此适用范围受到了限制。在本文中，我们介绍了一类神经网络隐变量模型，我们称之为神经过程 (Neural Processes，NP)，它结合了两种方法的优点。与高斯过程一样，神经过程用于定义函数的分布，能够快速适应新观测，并且在预测时能够同步估计其不确定性。与神经网络一样，神经过程在训练和评估期间的计算效率很高，但同时能够学习根据数据调整先验。我们展示了神经过程在一系列学习任务中的表现，包括回归和优化，并与文献中的相关模型进行了比较和对比。【原文】 Garnelo, Marta, Jonathan Schwarz, Dan Rosenbaum, Fabio Viola, Danilo J. Rezende, S. M. Ali Eslami, and Yee Whye Teh. “Neural Processes. ...

🔥 神经过程作为函数的分布

发表于2023-02-23|高斯过程神经网络

【原文】 Kaspar Martins, 2018, Neural Processes as distributions over functions, https://kasparmartens.rbind.io/post/np/ 在 ICML2018 中，提出了一些关于神经过程的有趣工作。见论文《条件神经过程》和同一作者在研讨会上提出的《神经过程》的后续工作。神经过程（NPs）引起了我的注意，因为它们本质上是一种基于神经网络（NN）的概率模型，可以表示随机过程的分布。所以神经过程结合了两个世界的元素: 深度学习：神经网络是灵活的非线性函数，可以直接训练。高斯过程：高斯过程提供了一个概率框架，用于学习一类广泛的非线性函数的分布。两者各有其优缺点。在数据有限的体系中，高斯过程由于其概率性质和捕获不确定性的能力更受欢迎。这与（非贝叶斯）神经网络不同，后者表示一个单一函数，而不是一个关于函数的分布。但是，在存在大量数据的情况下，后者可能更可取，因为训练神经网络在计算上比推断高斯过程更容易实现可扩展性。神经过程旨在结合这两个世界的优点。神经过程背后的想法很有 ...

Rasmussen 第 2 章高斯过程回归

发表于2023-02-23|高斯过程基本原理

【摘要】高斯过程作为一种用于预测的非参数模型，可以用于回归任务，也可以用于分类任务，本文主要介绍其在回归任务中的主要原理和方法。《机器学习中的高斯过程》一书是高斯过程研究领域的扛鼎之作，本文主要节选自该书的第二章。【原文】 Rasmussen, C.E. and Williams, C.K. (2006), Chapter 2 of Gaussian processes for machine learning. Cambridge, Mass: MIT press Cambridge, MA (3). 【提醒】本文所有内容均是在假设协方差（核）函数已知的情况下进行的讨论。因此，无论是从权重视角还是从函数视角，关注的主要是（权重或函数的）先验以及（权重或函数的）后验推断。第2章高斯过程回归监督学习可以分为回归和分类问题。分类的输出是离散的类标签，而回归与连续量的预测有关。例如，在金融应用程序中，人们可能会尝试根据利率、货币汇率、可用性和需求来预测商品价格。在本章中，我们描述了回归问题的高斯过程方法；分类问题在第 3 章讨论有多种方法可以解释高斯过程 (GP ...

Shawe-Taylor 第 3 章：核的性质

发表于2023-02-23|高斯过程基本原理

【摘要】高斯过程作为一种用于预测的非参数模型，可以用于回归任务，也可以用于分类任务。在高斯过程中，协方差函数与协方差矩阵占据着非常重要的地位，从某种程度上来说，两者是高斯过程方法的核心。由于两者与核方法有着千丝万缕的联系，因此本文从核方法的经典著作《模式分析中的核方法》中引入第三章，以便了解核的基本性质，以及其与协方差模型之间的确切关系。【原文】 Shawe-Taylor, John, and Nello Cristianini. Kernel Methods for Pattern Analysis. Chapter 3. Cambridge, UK ; New York: Cambridge University Press, 2004. 1 希尔伯特空间本节介绍与定义核函数有关的空间概念、性质和定理。 1.1 线性空间与内积空间线性空间也就是向量空间（Vector Space），它指的是一系列向量的集合，并且只定义了两个运算：加法和数乘。加法指的是两个向量之间的运算；而数乘指的是实数和向量的相乘（相当于缩放，scale）也就是向量长度的变化。接下来我们以一 ...