【摘 要】 高斯过程具有不确定性估计能力,而(深度)神经网络具有灵活的万能逼近能力。因此,如何将神经网络与高斯过程很好地结合(一方面增强神经网络的不确定性量化能力和可解释性,另一方面有效解决高斯过程的可扩展性问题),已经成为最近 5 - 10 年比较热门的研究领域。本文对相关文献进行了梳理,大致分为四种类型: “神经网络与高斯过程的组合(NN + GP)”“高斯过程的神经网络实现(NN Is GP)”“高斯过程核的神经网络训练(NN GP Training)”“神经网络的高斯过程视角(Interprete NN with GP)”

1 综述类

暂无。

2 神经网络与高斯过程的组合( NN + GP )

  • Damianou 2013 年的 《深度高斯过程》 : 首次尝试神经网络与高斯过程的结合,提出了使用多个等效于高斯过程的神经网络层堆叠形成一种新型的深度信念网络(本质是特征学习,采用逐层训练策略)模型,并称之为深度高斯过程,该团队还给出无限多次组合后的核退化形式。

  • Vinyals 等 2016 年的 《匹配神经网络》: Matching networks for one shot learning

  • Chen 等 2020 年的 《相关性场景中的随机梯度下降:对高斯过程的研究》: 传统神经网络假设输出之间呈独立同分布,这也是随机梯度下降方法得以实施的主要依据之一;但在输出之间具有相关性的场景中,能否采用随机梯度下降方法?如何使用随机梯度下降方法?会有什么效果? 本文作者以高斯过程为重点,给出了这些问题的答案。

3 高斯过程的神经网络实现( NN is GP )

  • Garnelo2018 年的 《条件神经过程》。首次提出了条件神经过程和神经过程的概念,采用元学习实现了深度学习灵活性和概率模型不确定性的结合,算是用神经网络实现随机过程的最早尝试。该方法的问题在于无法为相同的背景点生成不同的函数样本,即缺少不确定性建模能力。

  • Garnelo2018 年的 《神经过程》,另参见 Kaspar 2018 年的一个博文。为了提升不确定性建模能力,在条件神经过程基础上增加了一个类似于 VAE 瓶颈的隐变量 zzzz 的每一个随机样本都对应于随机过程的一个具体实现,这样就可以通过多个样本在解码器网络中的前向传递,生成目标处的预测分布。作者将整个模型命名为神经过程。该方法的问题在于单个预测输出虽然包含了不确定性(即测试点处的边缘分布),但不同点处的输出之间相互独立,无法对输出的相关性建模,这从某种程度上来说,失去了随机过程的优势。

  • Kim 等 2019 年提出的 《注意力神经过程》 : 为了实现对输出相关性建模,在神经过程中引入注意力机制。

  • Bruinsma 等 2021 年的 《高斯神经过程》 : 采用函数 KLKL 散度作为训练的代价函数,同时为了解决输出相关性建模问题,引入了一个用于学习核函数的神经网络,并将其与神经过程网络的结合体称为高斯神经过程。

  • Markou 等 2021 年的 《高效的高斯神经过程回归》: 认为 Bruinsma 的高斯神经过程方法采用的 CNN 神经网络( 本文作者称为为 FullConvGP)会限制输入的维度(D=1D = 1 ),因此提出了对原始高斯神经过程方法的改进,并将新模型称为卷积高斯神经过程(ConvGP)。

  • Dutordoir 等 2022 年的 《神经扩散过程》:将扩散模型引入神经过程,

  • Nguyen 等 2022 年的 《transformer 神经过程》: transformer 神经过程。

  • Bruinsma 等 2023 年的 《自回归条件神经过程》 : 还是为了提升相关性预测能力,但自回归条件神经过程并不对模型或训练过程进行任何修改,而是像 MCDropout、神经自回归密度估计器 (NADE) 等一样,改变了 CNP 在测试阶段的部署方式,使用概率链式法则来自回归地定义联合预测分布,而不是对每个目标点独立进行预测。

4 高斯过程的神经网络推断 (GP Kernel identified by NN )

  • Wilson 2015 年的 《深度核学习》:认为高斯过程与神经网络之间最大的不同在于基函数,神经网络只有有限的基函数(参数的原因),而高斯过程通常使用无限多个固定的基函数(例如谱分解后的特征函数),因此提出了一种 “前馈神经网络(模拟非线性的特征映射函数)” + “无线宽神经网络(模拟高斯过程的无限个基函数)” 构成的深度核学习神经网络,并给出了训练和推断的算法。

  • Liu 等 2020 年的 《高斯过程超参数的任务无关摊销推断》 :

  • Simpson 等 2021 年的 《利用 Transformer 识别核》 :利用基于 transformer 的架构生成高斯过程核函数的推荐,由于采用了自注意机制,能够处理任意维度的输入数据集。该文使用了 Zaheer 等 2017 年提出的 《深度集合》 理论。

  • Lenzi 2021 年的《神经网络用于复杂模型的参数估计》: 当标准似然估计方法在计算上无法实施时,我们建议使用深度学习来估计统计模型中的参数。我们展示了如何从最大稳定过程中估计参数,其中即使使用小数据集进行推理也非常具有挑战性,但模拟很简单。我们使用来自模型模拟的数据作为输入并训练深度神经网络来学习统计参数。我们基于神经网络的方法为当前方法提供了一种有竞争力的替代方法,这一点在相当大的准确性和计算时间改进中得到了证明。它作为统计参数估计中深度学习的概念证明,可以扩展到其他估计问题。

  • Tibo 等 2022 年的 《归纳高斯过程网络》:认为 Wilson 的方法在原始空间中选择稀疏归纳点不利于捕获特征空间中的交互,因此,提出了一种归纳高斯过程网络,用于学习特征空间中的归纳点和深度核。(注:之前的方法将归纳点视为一种超参数,此处可做类似延伸)

5 神经网络的高斯过程视角(Explain NN with GP&Kernel)

  • Neal 等 1994 年《无线宽神经网络的先验》: 单隐层无限宽神经网络等效于高斯过程。

  • Williams 等 1997 年 [《Computing with infinite networks》]: 计算出了单隐层神经网络的解析高斯过程核,并给出了使用高斯过程先验进行回归的精确贝叶斯推断方法。

  • Hazan 等 2015 年的《Steps toward deep kernel methods from infinite neural networks》:讨论了无限宽深度神经网络的等效核构建问题,但只限于两个非线性隐藏层。

  • Daniely 等 2016 年的《Toward deeper understanding of neural networks: The power of initialization and a dual view on expressivity》: 将组合核方法扩展到神经网络,利用有向无环图构造了神经网络的 “具有相同非线性全连接拓扑的组合核”。

  • Lee 等 2017 年的 《神经网络高斯过程》: 论证分析了深度的无线宽神经网络等效于高斯过程。

  • Matthews 等 2018 年的 《宽深度神经网络的高斯过程表现》 :

  • Jacot 等 2018 年的 《神经切线核》:剖析了神经网络训练期间的动态特性,并认为其训练动力学可以被视为一种神经正切核机制, 入门参见 Rajatvd 2019 年的 《神经正切核入门》, Novak 2019 年的 《神经切线核之 Python 实现》

  • Domingos 等 2020 年的 《梯度下降学得的模型都近似于一个核机》:在神经正切核基础上,提出了路径核的概念,并认为所有通过梯度下降学得的模型,都可以被视为一种核机器。

6 应用方法

6.1 空间预测

Sidén 2020 年的 《深度马尔可夫随机场》: 本文并非高斯过程与神经网络的结合,但由于高斯过程与高斯马尔可夫随机场之间存在明确的关系,因此也可供参考。高斯马尔可夫随机场 (GMRF) 是一种广泛应用于空间统计和相关领域的概率图模型,用于模拟空间结构的依赖性。我们在 GMRF 和卷积神经网络 (CNN) 之间建立了正式联系。常见的 GMRF 是生成模型的特例,其中从数据到潜在变量的逆映射由 1 层线性 CNN 给出。这种连接使我们能够将 GMRF 推广到多层 CNN 架构,以一种有利于计算缩放的方式有效地增加相应 GMRF 的阶数。我们描述了如何使用成熟的工具(例如 autodiff 和变分推理)来简单有效地推理和学习深度 GMRF。我们展示了所提出模型的灵活性,并表明它在预测和预测不确定性方面优于卫星温度数据集上的最新技术。

Chen 等 2022 年的 《深度克里金法(DeepKriging)》: 在空间统计中,一个共同的目标是通过利用空间依赖性来预测未观察到的位置的空间过程的值。克里金法使用协方差函数提供最佳线性无偏预测器,并且通常与高斯过程相关联。然而,当考虑非高斯和分类数据的非线性预测时,克里金预测不再是最优的,并且相关的方差往往过于乐观。尽管深度神经网络 (DNN) 广泛用于一般分类和预测,但尚未对具有空间依赖性的数据进行深入研究。在这项工作中,我们提出了一种用于空间预测的新型 DNN 结构,其中通过添加具有基函数的空间坐标嵌入层来捕获空间依赖性。我们在理论和模拟研究中表明,所提出的 DeepKriging 方法与高斯情况下的克里金法有直接联系,并且对于非高斯和非平稳数据,它比克里金法具有多重优势,即它提供非线性预测,因此具有较小的近似误差,它不需要对协方差矩阵进行操作,因此可扩展到大型数据集,并且具有足够多的隐藏神经元,它提供了模型容量方面的最佳预测。我们进一步探讨了在不假设任何数据分布的情况下基于密度预测量化预测不确定性的可能性。最后,我们将该方法应用于预测整个美国大陆的 PM2.5 浓度。

Grey、Heaton 等 2022 年的 《深度神经网络在大规模空间预测中的应用》: 采用了类似 Chen 的方法做了大量试验,以证明深度神经网络可以用于空间预测。需要注意的是,第二作者 Heaton 正是该领域评测方面引用率最高文章的作者,相信国际同行也都关注到了这个发展趋势。

6.2 模型推断

Gerber 等 2021 年的 [《使用神经网络实现空间高斯过程模型的快速协方差参数估计》])() : 在高斯过程模型中,通常几个参数就足以参数化协方差函数(在高斯过程领域中,通常被称为超参数),并且可以使用最大似然 (ML) 方法从数据中估计这些参数。但传统机器学习方法在计算上要求很高。本文提出使用神经网络方法来实现参数近似估计的想法,训练 神经网络输入中等大小的空间场或变差函数,返回变程(即长度尺度范围)和噪声信号协方差参数(即 σnoise2\sigma^2_{noise})。经过训练后,神经网络提供的估计与机器学习估计具有相似的精度,并且速度提高了 100100 倍或更多。