【摘 要】在现代深度学习中,估计贝叶斯模型平均值的积分有很多挑战,包括高维的参数空间和复杂的后验形态。但是,将这一挑战切实地视为一个积分问题,而非试图为蒙特卡洛近似获得后验样本,会为未来的进展提供机会。贝叶斯深度学习已经取得了快速的实际进展,现在的方法能够比标准训练有更好的准确性和校准,而且开销最小。

【原 文】Wilson, A.G. and Izmailov, P. (2020) ‘Bayesian Deep Learning and a Probabilistic Perspective of Generalization’, in Advances in Neural Information Processing Systems. Curran Associates, Inc., pp. 4697–4708. Available at: https://proceedings.neurips.cc/paper/2020/hash/322f62469c5e3c7dc3e58f5a4d1ea399-Abstract.html.

〖论文贡献〗

  • 论文表明: 深度集成为近似贝叶斯推断提供了一种可信机制,作者认为应该更多从集成方法角度考虑贝叶斯深度学习,而不是简单地将重点放在蒙特卡罗方法,或如何从后验中精确采样上。
  • 作者提出了 MultiSWAMultiSWAG 方法,通过边缘化多个吸收谷内的后验来优化深度集成。
  • 作者从不同角度研究了权重的高斯分布所隐含的函数空间分布,例如考虑了基于数据实例的归纳相关结构。
  • 作者讨论了贝叶斯深度学习中的温度缩放问题。
  • 作者表明,针对深度学习结果的不可解释问题,可以按照上述研究成果从概率角度自然地理解其泛化,并通过高斯过程等其他模型重现了相关结果。
  • 虽然贝叶斯神经网络可以拟合随机标记的图像,但先验可以为结构化数据集分配更高的概率质量;我们从概率的角度讨论这种现象,并表明高斯过程也具有相似的特性。

1 引言

想象一个简单的的航空公司乘客数据的拟合问题(图 1),你会选择以下的哪个模型:

(1) f1(x)=w0+w1xf_1(x)=w_0+w_1x

(2) f2(x)=j=03wjxjf_2(x)=\sum_{j=0}^{3}w_jx^j

(3) f3(x)=j=0104wjxjf_3(x)=\sum_{j=0}^{10^4}w_jx^j

相信大多数读者会选择(1)和(2),因为担心出现过拟合。但其实在这些选项中,(3)最诚实地代表了我们的信念。实际上,对于上述任何一个模型而言,数据的基本事实都有可能无法合适地诠释,不过(3)中存在一些系数 wj{w_j} 的设置,有可能可以提供比(1)和(2)两个受控模型更好的选择,(1)和(2)实际是(3)的特例。此外,人们对观测数据生成过程的信念往往非常复杂,而且经常与观测到的数据点的数量无关。

Figure01

图 1:飞机乘客数据

在现代实践中,人们其实暗中倾向于选择 (3),因为经常有人使用具有数百万个参数的神经网络来拟合仅具有数千个点的数据集。此外,高斯过程等非参数方法通常涉及无限多个参数,从而提供了一种通用逼近的灵活性 [40] ,但在许多情况下仅仅提供了非常简单的预测分布。 事实上,用参数数量作为代表来理解泛化行为是非常糟糕的选择

从概率视角来看,泛化在很大程度上取决于两个性质:一是 模型的支撑能力(support),二是 归纳偏好(inductive biases)

考虑 图 2(a) ,其中横轴是所有可能数据集的概念化,纵轴是模型的贝叶斯证据 p(DM)=p(DM,w)p(w)dwp(\mathcal{D} \mid \mathcal{M})= \int p \left(\mathcal{D}|\mathcal{M},w \right )p(w)dw ,也称边缘似然。 边缘似然(证据)是我们在函数上的先验分布 p(f(x))p(f(x)) 中随机采样时,生成某个数据集 D\mathcal{D} 的概率。对于回归任务而言,这个函数的先验由模型参数的先验 p(w)p(w) 导致。

注: 这里隐含了高斯过程中的函数空间时间和权重空间视角。

在此我们作出如下定义:

模型的支撑能力(support) 』:定义为当证据大于零时( p(DM)>0p(\mathcal{D} \mid \mathcal{M})>0),一个模型可以支撑的数据集范围(注:通常被理解为支撑越大,泛化能力越强,但事实并非如此,因为有些模型支撑很大,但泛化效果并不好,如 图 2(a) 中的 MLP 模型。在 图 2(a) 中可以看到三种模型在 Dataset 轴上的覆盖范围,显然 MLP 的支撑能力较强,CNN 次之,Linear Function 最差)。

归纳偏好(inductive biases) 』:定义为不同数据集之间的相对先验概率(即 p(DM)p(\mathcal{D} \mid \mathcal{M}) 相对于数据集的分布)(注:归纳偏好代表了先验概率在不同数据集之间的偏好程度,对于不同的场景可能要求有所不同,如 图 2(b) 中涉及三种数据集的场景,显然 CNN 很好地同时照顾到三个数据集,而 MLPLinear Function 均只能照顾到一个数据集)。

注: 此处通俗一点说,『模型支撑』指对问题域中数据集的容纳范围;而『归纳偏好』指对问题域中数据集的容纳质量。两者都照顾到的模型,泛化能力一定强,而只照顾到其中一点的模型,泛化能力不一定强。

MacKay [26] 曾使用与 图 2(a) 类似的示意图来理解证据用于模型选择时存在的奥卡姆剃刀效应;我们相信它也可以用于模型的构建和泛化。

从这个角度来看,我们希望一个模型的 支撑 足够大,这样就可以表示更多可能的假设。如果我们相信数据中存在某些 “纯噪声数据” 的概率,我们甚至希望模型能够表示这些纯噪声,例如含噪的 CIFAR [51] 。但更重要的是,我们还需要归纳偏好,以便仔细表示特定问题类的哪些先验更加符合我们认可的假设。如果针对图像建模,那么这可能是一些可以很好描述图像的统计性质(例如卷积结构)。

Figure02

图 2:不同几何形态的后验。(a) 理想情况下,一个模型可以支持范围广泛的数据集,但因为有归纳偏好,使我们可以为正在考虑的特定类别问题提供高先验概率。在此图中,对于 CIFAR-10 数据集而言,CNN 优于线性模型和全连接 MLP(注:仅针对当前数据集设置,不具普遍意义)。(b)当模型支撑(假设空间)足够大时,模型可以围绕一个真实解收缩,但这在现实世界中通常更复杂。(c)当支撑存在截断的情况时,模型将收敛到错误的解。(d)当归纳偏好不合理时,即使假设空间包含真值,模型也很难有效地收缩。

图 2(a) 说明了三种模型:

  • 蓝色曲线代表简单线性函数 f(x)=w0+w1xf(x)=w_{0}+w_{1} x,该模型参数上先验分布为 p(w0,w1)p\left(w_{0}, w_{1}\right) (如:标准正态分布 N(0,I)\mathcal{N}(0, I) ),从函数空间视角来看,这会产生一个函数的分布 p(f(x))p(f(x)) 。我们从先验 p(w0,w1)p(w_0,w_1) 中抽取的参数值,会产生对应于不同斜率和截距的函数 f(x)f(x)。因此,该模型的支撑非常有限:它甚至不能表达一个二次函数。但由于边缘似然必须对数据集 D\mathcal{D} 进行归一化,所以该模型对其所支持的数据集分配了更多概率质量(体现为所支持的数据集很窄,但相应的概率质量很大)。
  • 红色曲线代表一个大型的全连接多层感知机。该模型是高度灵活的,但是它在不同数据集上的 模型支撑 分布过于均匀,以至于对许多图像数据集来说不是特别引人注意。
  • 绿色曲线代表卷积神经网络,它代表了一个令人信服的支撑和归纳偏好,用于图像识别。这个模型高度灵活,但又能够为结构化问题提供一个特别好的支撑。

有了大的模型支撑,我们就会撒下一张足够大的网,使后验能够围绕着给定问题的真解收缩,如 图 2(b) 所示,虽然这实际上非常复杂。另一方面,如果真解模型过于简单,而错误地没有被包含在假设空间中时,其后验就会围绕错误的解进行收缩,如 图 2(c) 。而在 图 2(d) 中,模型虽然具有广泛的支撑,但并没有形成一个很好的收缩方案,因为其模型的支撑分布地过于均匀了,以至于缺乏突出的重点。

回到先前的示例,我们当然可以通过致力于改善支撑来证明高阶多项式;但我们更必须小心地选择系数的先验,以便使所产生的函数上的先验具有合理的归纳偏好。实际上,这种贝叶斯概念并非基于单一数字,而是一个二维概念。从概率角度看,不要将模型的灵活性与复杂度混为一谈非常重要。例如具有 RBF 核的高斯过程具有很大的支撑和灵活性,但是归纳偏好却倾向于一个非常简单的解决方案。

我们还可以看到 参数数量 无法回答以下有关泛化的问题: 参数上的先验以及其导出的函数上的先验,到底是如何导致了方案的分布?

本文从泛化的概率视角来分析贝叶斯深度学习。贝叶斯方法的关键特性是边缘化而不是优化,贝叶斯方法通过所有参数可能值的概率分布来表达最终解决方案,而不是将宝全部压在某一个具体的参数值上。神经网络是典型由数据近似驱动的,可以表达对应于不同参数值的多种高性能模型,而这正是与贝叶斯方法最大的不同(注:贝叶斯方法推断得到模型参数的概率分布,其得到预测结果需要关于模型参数做边缘化计算;而非贝叶斯方法则估计出模型参数的一个具体值,预测结果依托于此具体值,无需边缘化)。

此外,本文澄清了一个概念:深度集成方法 [22] 并非是贝叶斯推断的一种竞争方法,不过可以被视为一种与贝叶斯边缘化相竞争的机制(注:深度集成方法符合贝叶斯方法的整体框架,只是在边缘化这个具体环节上,与现有贝叶斯方法的边缘化方式有所区别,并且总体上要优于现有的边缘化方法,其主要原因会在后文中阐释)。事实上,我们实证性地展示了:深度集成方法可以提供比标准贝叶斯方法更佳的近似预测分布,并且我们也提出了 MultiSWAG 方法,这是一种受深度集成启发的方法,能够在多个吸收谷内实施边缘化,进而在相同训练时间内获得更好的性能(注:作者认为深度集成方法性能好的原因在于 “有很大概率找到参数空间中的多个峰值(或吸收谷)”,因此在本文中提出了一种支持多峰值(吸收谷)的新方法)。

然后,我们分析了由神经网络权重的先验而导出的函数的先验性质,表明其具有合理的归纳偏好,我们将这些结果与 Tempering 联系起来。我们还表明,最近在 Zhang 等 [51] 中提到的神秘泛化特性(指在训练样本的标签中,制作一些随机标签,模型依然能够拟合出正确结果),可以用函数的先验分布来解释,而且该特性并非神经网络特有。事实上,高斯过程也可以完美地拟合带有随机标签的图像,并且能够泛化到无噪声问题。这些现象的主要原因是:对常见问题设置了较大的模型支撑和合理的归纳偏执。

我们进一步表明,虽然贝叶斯神经网络可以拟合含噪声的数据集,但边缘似然能更好地支持无噪声的数据集(与 图 2 一致)。我们还表明,MultiSWAG 中的多峰值边缘化能够减轻双降现象,从而在模型灵活性方面实现了性能的单调改善,这与我们关于泛化的观点一致。与随机梯度下降训练和单峰边缘化相比,MultiSWAG 在准确性和 NLL 方面都有显著改善。

我们的代码见 github 仓库

2 相关工作

(1)贝叶斯神经网络

贝叶斯神经网络的早期著名工作包括 MacKay [26]MacKay [27]Neal [35] 。这些工作通常赞成贝叶斯方法的模型类尽可能灵活,与 Box 和 Tiao [5] 意见一致。因此,Neal [35] 探索了大型贝叶斯神经网络的极限,表明随着隐藏单元的数量接近无穷大,这些模型逐步成为具有特定核函数的高斯过程。这项工作与一些有关 神经正切核 的近期工作相互协调 [16]

(2)边缘似然

边缘似然常被用于贝叶斯假设检验、模型比较和超参数调整,贝叶斯因子被用来在模型之间进行选择 [18]MacKay [28] (第 28 章)用类似于 图 2(a) 的图表说明边缘似然具有奥卡姆剃刀属性,在先验赋予各种模型相同概率的条件下,边缘似然也倾向于能够与给定数据集一致的最简单模型。Rasmussen 和 Ghahramani [41] 解释了只要模型能够对应于合理的函数分布,边缘似然可以有助于大型的灵活模型。

(3)神经网络中的新贝叶斯方法

最近人们对开发现代深度学习的贝叶斯方法很感兴趣,新的挑战和架构与早期工作中考虑的完全不同。最近的工作主要集中在:

  • 可扩展推断方法,例如:[4][9][19][42][20][29]
  • 函数空间启发性先验,例如:[50][25][45][13]
  • 在参数空间中开发平坦目标先验,直接利用神经网络函数形式偏好(functional form bias),在参数空间中开发平坦目标先验,例如: [34]

Wilson [48] 提供了一个促进贝叶斯深度学习的讲座。

(4) PAC-Bayes 框架

一般来说,PAC-Bayes 提供了一个令人信服的框架,用于推导明确的非渐近泛化边界 [31][23][7][36][37][30][17]。这些界可以通过更少的参数和非常紧凑的先验来改进,这可能不同于提供最佳泛化的方法。从我们的观点来看,模型灵活性和具有大支撑的(而非紧凑的)先验是我们想要的。我们的工作还显示了多吸收谷的边缘化对深度学习模型泛化非常重要,而 PAC-Bayes 边界基本上不会被多峰形态的后验所改变。

我们的重点是对 PAC-Bayes 的补充,并且在很大程度上是规范性的,旨在提供关于模型构建、推理、泛化和神经网络先验的直觉、贝叶斯模型平均和深度集成之间的新联系、贝叶斯模型平均在现代深度神经网络背景下的优势、关于贝叶斯深度学习中退火的观点、与简单蒙特卡洛形成对比的边缘化观点、以及深度学习中贝叶斯边缘化的新方法。

PAC-Bayes 的目的是为贝叶斯泛化误差估计量生成(Possible Approximation Correct, PAC)的风险界限。

(5)其他工作

  • Pearce 等 [39] 提出了对深度集成的修改,并认为它执行了近似贝叶斯推理;
  • Gustafsson 等 [12] 简要提到了可以将深度集成视为来自近似后验的样本。
  • Fort 等 [8] 考虑了运行单个随机梯度下降的多个模型和独立运行各自随机梯度下降的多个模型所产生预测结果的多样性,并建议对随机梯度下降迭代的均值进行集成。

3 贝叶斯边缘化

通常我们想要计算的预测分布由下式给出:

p(yx,D)=p(yx,w)p(wD)dw(式 1)p(y \mid x, \mathcal{D})=\int p(y \mid x, w) p(w \mid \mathcal{D}) d w \tag{式 1}

输出是 yy(例如:回归值,类标签。…),输入是 xx (例如:空间位置,图像。…),神经网络 f(x;w)f(x;w) 的权重(或参数)为 wwD\mathcal{D} 为数据。公式(1) 表示贝叶斯模型平均值(贝叶斯模型平均)。与其把所有事情都押在一个假设上(指频率主义使用单一参数设置),我们更想要使用所有的参数设置,并由其后验概率作加权平均。该过程称为参数 ww 的边缘化,因为通过积分后,预测分布不再以 ww 为条件。这不是一个有争议的公式,而只是概率的加法和乘法规则。

3.1 超越蒙特卡洛

公式(1) 中的积分不能以封闭形式计算时,几乎所有估计方法都涉及简单的蒙特卡罗近似: p(yx,D)1Jj=1Jp(yx,wj),wjp(wD)p(y \mid x, \mathcal{D}) \approx \frac{1}{J} \sum_{j=1}^{J} p\left(y \mid x, w_{j}\right), w_{j} \sim p(w \mid \mathcal{D}) 。在实践中,来自后验 p(wD)p(w \mid \mathcal{D}) 的样本也是近似的,并且通过 MCMCor 确定性方法找到。确定性方法近似 p(wD)p(w \mid \mathcal{D}) 具有不同的更方便的密度 q(wD,θ)q(w \mid \mathcal{D}, \theta),我们可以从中采样,通常选择为高斯。选择参数 θ\theta 使 qq 以某种程度接近 pp;例如:变分近似 [2] 寻找 argminθKL(qp)\operatorname{argmin}_{\theta} \mathbb{KL}(q \| p),已经成为一种流行的确定性近似方法。其他标准确定性近似包括拉普拉斯 [27]EP [32] 以及 INLA [43]

公式(1) 中的预测分布估计的角度来看,我们可以将简单的蒙特卡罗视为用一组点质量逼近后验,其位置由另一个连续型的近似后验分布 qq 的样本给出,即:

p(w \mid \mathcal{D}) \approx$ $\sum_{j=1}^{J} \delta\left(w=w_{j}\right), w_{j} \sim q(w \mid \mathcal{D})

无论如何,最终目标是准确计算 公式(1) 中的预测分布,而非找到后验的一般性准确表示。尤其需要注意那些对贝叶斯模型平均积分作出最大贡献的后验区域。在 第 3.2 节第 4 节 中,我们将考虑多种近似预测分布的方法。

3.2 深度集成就是贝叶斯模型平均

(1)贝叶斯深度学习方法和理解的改进,对于将机器学习用于可靠决策至关重要。一个经过良好校准的预测分布为决策提供了明显更多的信息,并有助于防止在损失校准推断中罕见但代价高昂的错误。

此外,通过表示多个吸收谷,与 Ovadia 等 的贝叶斯方法相比,深度集成可以提供更好的贝叶斯模型平均近似值 [38] 。事实上,函数多样性对于贝叶斯模型平均积分的良好近似很重要,如 第 3.1 节 所述。我们将在 第 4 节 探讨这些问题。

图 3:真实预测分布的近似。 (a) 通过组合 1010 条长 HMC 链获得的近似预测分布。(b) 使用 5050 个独立训练的神经网络作深度集成后得到的近似预测分布。(c) 通过因子分解的变分推断获得的近似预测分布。(d) 深度集成方法和变分方法形成的预测分布相对于样本数量的收敛性;我们测量了输入位置范围内边缘之间的平均 Wasserstein 距离。多谷底的深度集成方法比传统单谷底的变分推断方法提供了更可信的贝叶斯预测分布,后者在数据簇之间显得过于自信。顶部面板显示真实的预测分布与深度集成和变分推断近似之间的 Wasserstein 距离,该距离是输入 xx 的函数。

4 边缘化的实证研究

我们已经证明,深度集成可以被解释为贝叶斯边缘化的一种近似方法,它通过表征后验分布中的多个吸引谷来选择功能多样性。而大多数贝叶斯深度学习方法都专注于忠实地逼近单个吸引谷内的后验。我们提出了一种新方法 MultiSWAG,它结合了这两种方法。 MultiSWAG 组合了多个独立训练的 SWAG 近似 [29] ,以创建对后验的高斯混合近似,其中每个高斯以不同的吸收谷为中心。我们注意到 MultiSWAG 不需要任何超出标准深度集成的训练时间。我们在 图 8 (附录)中说明了深度集成、标准变分单吸收谷方法、 MultiSWAG 之间的概念差异。

图 3 中,我们评估了单吸收谷和多吸收谷方法,在这种情况下我们可以接近精确地计算预测分布。为了近似实际情况,我们使用 hamiltorch 软件包 [6] 产生了 1010 条哈密顿蒙特卡罗 (HMC) 链。我们提供了用于生成数据和训练模型的详细信息,以及 HMC 样本的收敛分析(见附录 D.1)。我们看到,与单吸收谷变分方法相比,深度集成给出的预测分布更接近真实分布:在数据簇之间,深度集成方法提供了与穷举 HMC 相似的认知不确定性表征,而变分方法则在这些地区显得过度自信。

此外,我们看到真正的预测分布与这两个近似分布之间的 Wasserstein 距离 随着深度集成样本数量的增加而快速收缩,但变分方法则几乎与样本数量无关。因此,与传统上被称为贝叶斯替代方法的单吸收谷变分方法相比,深度集成提供了对 公式(1) 中贝叶斯模型平均值的更好近似。变分方法必须支持对多个吸收谷进行边缘化处理,才能在贝叶斯预测分布上与深度集成方法相竞争。

接下来,我们在 CIFAR-10 数据集 [21] 上评估 MultiSWAG 的分布变化,复制了 Ovadia 等 [38] 的设置。我们考虑了 Hendrycks 和 Dietterich [14] 介绍的 1616 种数据损坏,每种损坏都有 55 个不同的严重等级。对于每一种损坏,我们评估了深度集成和 MultiSWAG 方法在不同训练预算下的表现。对于深度集成,我们将性能显示为集成中各独立训练模型的函数。对于 MultiSWAG,我们将性能显示为所构建独立 SWAG 近似值的函数;然后从这些近似值中各抽取 2020 个模型来构建最终的集成。

虽然 MultiSWAG 的训练时间与深度集成相同,但在测试时 MultiSWAG 的成本更高,因为相应集成由更多的模型组成。考虑到测试时间受限情况,我们还提出了 MultiSWA 方法。这是一种将独立训练的 SWA 解决方案集成在一起的方法 [15]SWA 方法是相应高斯 SWAG 近似的平均值。Izmailov 等 [15] 认为,SWA 方法用一个单一模型对 SWAG 所代表的局部集成进行了近似。

图 4 在 CIFAR-10 数据集上使用了 PreResNet-20 神经网络的深度集成、MultiSWAGMultiSWA 方法对应的负对数似然,具有不同强度的高斯模糊干扰。图中的每个图像均显示了干扰的强度。对于所有级别的干扰强度,MultiSWAGMultiSWA 方法均优于由较少独立模型构成的深度集成方法。在高强度干扰情况下,即使对于许多独立模型, MultiSWAG 方法也明显优于其他方法。我们在附录中提供了其他干扰强度时对应的结果。

图 4 中,显示了在 CIFAR-10 上用不同强度的高斯模糊(从左到右增加)损坏情况下,预激活 ResNet-20 神经网络的负对数似然与独立训练模型数量之间函数关系。MultiSWAG 在高度损坏的数据上明显优于深度集成。对于较低的损坏程度,当只有少量独立训练模型可用时,MultiSWAG 的效果特别好。我们注意到 MultiSWA 也优于深度集成方法,并且在训练和测试时具有与深度集成相同的计算需求。我们在附录图 9,10 11,12 中展示了其他类型的损坏结果,显示出类似趋势。在附录中有对 MultiSWAG 进行的广泛评估。

我们对泛化的观点与贝叶斯边缘化有着深刻的联系。为了最大程度实现深度学习中边缘化的优势,我们需要通过多峰的近似后验(如 MultiSWAG )来考虑尽可能多的假设。在 第 7 节 中,我们将回到 MultiSWAG,展示它如何缓解双重下降,并形成比随机梯度下降和单谷边缘化更好的泛化表现,无论是在准确性方面还是在 NLL 方面。

5 神经网络先验

参数的先验 p(w)p(w) 与模型的函数形式 f(x;w)f(x; w) 相结合,导致函数的分布 p(f(x;w))p(f(x; w)) 。正是这种对函数的分布控制了模型的泛化特性;孤立的参数先验分布没有任何意义。神经网络被赋予了结构特性,提供了良好的归纳偏好,如转换等价性、分层表示和稀疏性。按照 图 2 的意思,由于神经网络的灵活性,先验将有很大的支撑,但其归纳偏好为数据集提供了较大概率质量,这些数据集是神经网络常用问题领域的典型代表。本节将重点研究函数上分布的属性。第 6 节 会继续有关先验的讨论,重点从泛化的概率视角考察 Zhang 等 [51] 中提到的含噪 CIFAR 结果。这些章节最好一起阅读。在 [49] 中,我们将讨论与这些结果有关的退火(Tempering)

5.1 深度图像的先验和随机网络特征

最近的两项成果提供了强有力的证据,当与神经网络架构相结合时,参数的模糊高斯先验会导致函数的分布具有有用的归纳偏好。在深度图像先验中,Ulyanov 等 [46] 表明,未经训练的随机初始化卷积神经网络为图像去噪、超分辨率和染色等提供了出色的性能。这一结果表明,在任何训练之前,神经网络 p(f(x;w))p(f(x; w)) 上的随机先验的抽样函数,具备捕获低层次图像统计数据的能力。类似地,Zhang 等 [51] 表明,用随机初始化的未经训练的卷积神经网络对 CIFAR-10 进行预处理,极大地提升了像素上一个简单高斯核的测试性能,准确率从 54%54\% 上升到 71%71 \%。加入 2\ell_{2} 正则化后,准确率只提高了 2%2\%。这些结果再次表明,参数上的较宽高斯先验能导致合理的神经网络先验,同时减少参数空间中的先验方差能带来微小的额外收益,这与 2\ell_{2} 正则化相对应。

图 5: 导致的先验相关函数。当 p(w)=N(0,α2I)p(w)=\mathcal{N}\left(0, \alpha^{2} I\right) 时,由 LeNet-5 推导的 MNIST 的 {0,1,2,4,7}\{0,1,2,4,7\} 类中成对物体的平均先验相关性。同一类别的图像比不同类别图像具有更高的先验相关性,这表明 p(f(x;w))p(f(x; w)) 具有理想的归纳偏好。相关性随着 α\alpha 的增加而略有下降。(d): MNIST 上的 2020SWAG 样本的集成所对应的 NLL,是 α\alpha 的函数(使用 LeNet-5 )。

5.2 先验类别的相关性

图 5 中,我们研究了 LeNet-5 卷积网络 [24] 在 MNIST 的不同类别物体上输出的先验相关性。我们对权重为 p(w)=\mathcal{N}\left(0, \alpha^{2} I/right) 的网络进行采样,并计算所有成对图像对应的第一类的对数值,并计算这些对数值的相关性。对于所有的 α\alpha 水平,对应于同一类别的物体之间的相关性始终高于不同类别的物体之间的相关性,这表明该网络在这些图像上导致了一个合理的先验相似性指标。此外,我们观察到,随着我们增加 α\alpha,先验相关性会有所下降,这表明根据 第 5.1 节 ,约束权重的范数会起到一些作用。同样,在(d) 组中,我们看到 NLL 随着 α\alpha[0,0.5][0,0.5] 区间上的增加而明显下降,然后略有增加,但此后相对稳定。

6 重新思考泛化

Zhang 等 [51] 证明了深度神经网络有足够的能力在流行的图像分类任务上适应随机标签,并提出这一结果需要重新思考泛化问题以理解深度学习。

然而,我们认为,从概率论的角度来看,这种行为并不令人费解,不是神经网络所独有的,也不能作为反对具有模糊参数先验的贝叶斯神经网络(BNN)的证据。从根本上说,解决的办法就是导言中提出的观点:从概率论的角度来看,泛化至少是一个二维的概念,与支持度(灵活性)有关,支持度应该尽可能大,甚至支持有噪声的解决方案,以及代表解决方案的相对先验概率的归纳偏好。

事实上,我们证明了 Zhang 等 [51] 中被视为神秘和特定于神经网络的行为可以被高斯过程(高斯过程)完全再现。高斯过程是本实验的理想选择,因为它们是流行的贝叶斯非参数模型,而且它们直接在函数空间中分配先验。此外,高斯过程具有显著的灵活性,可以用流行的协方差函数(如 RBF 核)提供通用近似。然而,在带有 RBF 核的高斯过程下,先验的函数是相对简单的。我们在附录中进一步描述高斯过程,Rasmussen 和 Williams [40] 提供了广泛的介绍。

我们从一个简单的例子开始,说明带有 RBF 核的高斯过程能够很容易地拟合一个损坏的数据集,但在非损坏的数据集上有很好的泛化能力,见 图 6 。 在 图 6a 中,我们有来自高斯过程先验的函数 p(f(x))p(f(x)) 的样本函数,显示先验下的可能函数是平滑和乖巧的。在 图 6b 中,我们看到高斯过程能够合理地拟合结构化函数的数据。而在 图 6c 中,高斯过程也能够拟合高度腐败的数据,基本上没有结构;尽管这些数据不是先验的可能的抽样,但高斯过程对广泛的解决方案,包括噪声,都有支持。

图 6:重新思考泛化。 (a):先验高斯过程的样本函数。(b):高斯过程 拟合(具有 95% 可信区域)生成的结构化数据 ygreen(x)=sin(x2π)+ϵ,ϵN(0,0.22)y_{green}(x)=sin(x·2\pi)+ \epsilon,\epsilon \sim \mathcal{N}(0,0.2^2) 。(c): 高斯过程 拟合,没有训练错误,在大量添加红色损坏数据后,从 Uniform[0.5,1]\text{Uniform}[0.5,1] 中提取。(d): CIFAR-10 两类 CIFAR-10 的带有 RBF 核的变分 高斯过程 边缘似然。(e):CIFAR-10 上 PreResNet-20 的 Laplace BNN 边缘似然,具有不同的随机标签。

我们接下来表明,高斯过程可以复制 Zhang 等 [51] 中描述的泛化行为(实验细节见附录)。当应用于具有随机标签的 CIFAR-10 图像时,高斯过程实现了 100%100 \% 的训练准确率和 10.4%10.4 \% 的测试准确率(在随机猜测的水平)。然而,在真实标签上训练的同一模型的训练和测试准确率为 72.872.854.354.3 。因此,Zhang 等 [51] 描述的泛化行为并不是神经网络所独有的,可以通过单独考虑支持和归纳偏好来解决。

事实上,尽管高斯过程支持具有随机标签的 CIFAR-10 图像,但在高斯过程先验下,它们是不可能的。在 图 6d 中,我们计算了二元 CIFAR-10 分类问题上的近似高斯过程边际似然,标签的腐败程度不同。我们看到,随着数据中噪声的增加,近似的边际似然,以及对这些数据的先验支持,都在减少。在 图 6e 中,我们看到贝叶斯神经网络的类似趋势。同样,随着损坏的标签比例的增加,近似的边际似然也在减少,这表明贝叶斯神经网络给出的函数的先验对这些噪声数据集的支持较少。我们在附录中提供了进一步的实验细节。我们在 [49] 中提供了关于 BNN 先验的进一步评论,以及与节制的联系。

Dziugaite 和 Roy [7] 以及 Smith 和 Le [44]Zhang 等 [51] 的观点进行了补充,对于 MNIST,Dziugaite 和 Roy [7] 展示了无噪声二元 MNIST 的非空洞 PAC-Bayes 界限,但没有展示噪声 MNIST,Smith 和 Le 显示逻辑回归可以在子采样的 MNIST 上适合噪声标签,从 Occam 因子的角度解释结果。

7 双坡谷

双重下降 [3] 描述了随着模型灵活性的增加,泛化误差减少、增加,然后再次减少。先减后增被称为经典制度:灵活性增加的模型越来越能捕捉到结构并表现得更好,直到它们开始过度拟合。接下来的制度被称为现代插值制度,它被认为是深度学习中神秘的泛化行为。

然而,我们的泛化观点表明,当我们使用具有合理先验的贝叶斯模型平均化时,性能应该随着我们增加模型的灵活性而单调地改善。事实上,在 图 1 的开头例子中,我们原则上希望使用最灵活的模型。到目前为止,我们的结果表明,标准的 BNN 先验在函数空间中诱导出结构化的、有用的先验,所以我们不应该期望在贝叶斯深度学习模型中进行合理的边际化的双重下降。

为了验证这一假设,我们按照 Nakkiran 等 [33] 的做法,用不同宽度的 ResNet-18 模型评估 MultiSWAGSWAG 和标准 SGD,同时测量误差和负数似然(NLL)。详细情况见 附录 D。我们在 图 7 和附录 图 17 中展示了结果。

图 7:贝叶斯模型平均化缓解了双重下降。(a): 测试误差和(b)。CIFAR-100 上不同宽度的 ResNet-18 对 SGD、SWAG 和 MultiSWAG 的 NLL 损失。(c): 测试误差和 (d)。当 20 \% 的标签被随机重新洗牌时的 NLL 损失。SWAG 减少了双降,而 MultiSWAG 在多种模式上进行边际化处理,完全缓解了在原始标签上和标签噪声下的双降,在精度和 NLL 上都是如此。(e): MultiSWAG 在不同的独立 SWAG 模型数量下的测试误差;误差随着独立模型数量的增加而单调下降,缓解了双降。MultiSWAG 也提供了明显的性能改进。其他结果见附录 图 17

首先,我们观察到用随机梯度下降训练的模型确实受到了双重下降的影响,特别是当训练标签被部分破坏时(见图 7c),图 7d )。我们还看到,SWAG,一个单模态的后验近似,减少了双重下降的程度。此外,MultiSWAG,执行更详尽的多模态贝叶斯模型平均,完全缓解了双降:MultiSWAG 解决方案的性能随着模型的大小而单调地增加,即使在显著的标签损坏下也没有显示双降。我们注意到,在 图 7c 中,深度集合遵循与 MultiSWAG 类似的模式,也缓解了双降,但准确度略差(约 12%1-2 \%)。这一结果与我们在 第 3.2 节 中的观点一致,即深度集合比传统的单盆贝叶斯边缘化程序提供了更好的贝叶斯预测分布的近似。

我们的结果强调了对后验的多种模式进行边际化的重要性:在 20%20\% 标签腐败的情况下,SWAG 明显受到双重下降的影响,而 MultiSWAG 却没有。在 图 7e 中,我们展示了随着 MultiSWAG 中独立模式边际化数量的增加,双重下降是如何缓解的。这些结果也清楚地表明,MultiSWAG 比随机梯度下降和 SWAG 模型的精度都有明显的提高,此外还有 NLL,这是贝叶斯模型平均的一个经常被忽视的优点。

8 讨论

最近关于了解损失情况的工作 [Garipov et al., 2018, Draxler et al., 2018, Fort and Jastrzebski, 2019] 使我们能够研究这一假设。请注意,先前关于损耗景观的工作主要集中在模式连通性和低损耗隧道上,但并未明确关注不同模式的功能有多么多样化。这些论文(以及其他关于深度集成的论文)中的实验通过下游指标(例如准确性和校准)或通过可视化低损耗隧道的性能为该假设提供了间接证据。我们通过显式测量训练轨迹及其子空间(dropout、对角高斯、低秩高斯和随机子空间)以及跨多个数据集、架构和数据集转换的不同随机初始化轨迹的函数空间多样性来补充这些工作。我们的发现表明,沿单个训练轨迹或其子空间采样的函数在预测中往往非常相似(而在权重空间中可能相差甚远),而从不同随机初始化轨迹采样的函数往往非常多样化。

除了对常规测试数据进行评估外,我们还使用 CIFAR-10-C 和 ImageNet-C 基准 [Hendrycks 和 Dietterich,2019] 评估了数据集损坏版本的性能,其中包含原始图像的损坏版本19 种损坏类型(ImageNet-C 为 15 种)和不同的强度值(1-5),并被 Ovadia 等使用。 [2019] 测量数据集偏移下不确定性估计的校准。继 Ovadia 等之后。 [2019],我们测量准确性以及 Brier 分数 [Brier,1950](较低的值表示更好的不确定性估计)。我们使用 SVHN 数据集 [Netzer et al., 2011] 来评估在 CIFAR-10 数据集上训练的不同方法如何对分布外 (OOD) 输入做出反应。

9 更广泛的影响

  • 我们展示了 BatchEnsemble分布外数据集的预测校准方面上下文老虎机的不确定性评估 也是有效的。

(2)贝叶斯深度学习也可用于提高样本效率,减少了训练精确神经网络所需的大型标记数据集。

(3)贝叶斯神经网络可以对噪声更加稳健,正如在双降实验中所显示的那样。

(4)对深度学习中泛化的更好理解,有助于我们更可靠地预测一个神经网络何时可以合理地部署在实际问题中。

(5)潜在的缺点包括:计算量和方法复杂性的增加,有时需要关于近似推理的专家知识来实现良好的性能。

参考文献

  • [1] Arsenii Ashukha, Alexander Lyzhov, Dmitry Molchanov, and Dmitry Vetrov. Pitfalls of in-domain uncertainty estimation and ensembling in deep learning. arXiv preprint arXiv: 2002.06470,2020
  • [2] Matthew James Beal. Variational algorithms for approximate Bayesian inference. university of London, 2003 .
  • [3] Mikhail Belkin, Daniel Hsu, Siyuan Ma, and Soumik Mandal. Reconciling modern machinelearning practice and the classical bias-variance trade-off. Proceedings of the National Academy of Sciences, 116(32): 15849-15854,2019 .
  • [4] Charles Blundell, Julien Cornebise, Koray Kavukcuoglu, and Daan Wierstra. Weight uncertainty in neural networks. arXiv preprint arXiv:1505.05424, 2015 .
  • [5] George EP Box and George C Tiao. Bayesian inference in statistical analysis, addision-wesley. Reading, MA, 1973 .
  • [6] Adam D Cobb, Atılım Güneş Baydin, Andrew Markham, and Stephen J Roberts. Introducing an explicit symplectic integration scheme for riemannian manifold hamiltonian monte carlo. arXiv preprint arXiv: 1910.06243,2019 .
  • [7] Gintare Karolina Dziugaite and Daniel M Roy. Computing nonvacuous generalization bounds for deep (stochastic) neural networks with many more parameters than training data. a r X i preprint arXiv: 1703.11008,2017.
  • [8] Stanislav Fort, Huiyi Hu, and Balaji Lakshminarayanan. Deep ensembles: A loss landscape perspective. arXiv preprint arXiv: 1912.02757,2019 .
  • [9] Yarin Gal and Zoubin Ghahramani. Dropout as a Bayesian approximation: Representing model uncertainty in deep learning. In international conference on machine learning, pages 1050-1059,2016
  • [10] Jacob R Gardner, Geoff Pleiss, David Bindel, Kilian Q Weinberger, and Andrew Gordon Wilson. 高斯过程 yTorch: Blackbox matrix-matrix gaussian process inference with gpu acceleration. In Neural Information Processing Systems, 2018.
  • [11] Andrew Gelman and Donald B. Rubin. Inference from iterative simulation using multiple sequences. Statist. Sci., 7(4): 457-472,11 1992. doi: 10.1214/ss/1177011136. URL https: //doi.org/10.1214/ss/1177011136.
  • [12] Fredrik K Gustafsson, Martin Danelljan, and Thomas B Schön. Evaluating scalable bayesian deep learning methods for robust computer vision. arXiv preprint arXiv:1906.01620, 2019 .
  • [13] Danijar Hafner, Dustin Tran, Alex Irpan, Timothy Lillicrap, and James Davidson. Reliable uncertainty estimates in deep neural networks using noise contrastive priors. arXiv preprint arXiv: 1807.09289,2018
  • [14] Dan Hendrycks and Thomas Dietterich. Benchmarking neural network robustness to common corruptions and perturbations. arXiv preprint arXiv: 1903.12261,2019 .
  • [15] Pavel Izmailov, Dmitrii Podoprikhin, Timur Garipov, Dmitry Vetrov, and Andrew Gordon Wilson. Averaging weights leads to wider optima and better generalization. In Uncertainty in Artificial Intelligence (UAI), 2018 .
  • [16] Arthur Jacot, Franck Gabriel, and Clément Hongler. Neural tangent kernel: Convergence and generalization in neural networks. In Advances in neural information processing systems, pages 8571-8580,2018
  • [17] Yiding Jiang, Behnam Neyshabur, Hossein Mobahi, Dilip Krishnan, and Samy Bengio. Fantastic generalization measures and where to find them. arXiv preprint arXiv: 1912.02178,2019
  • [18] Robert E Kass and Adrian E Raftery. Bayes factors. Journal of the American Statistical Association, 90(430): 773-795,1995 .
  • [19] Alex Kendall and Yarin Gal. What uncertainties do we need in Bayesian deep learning for computer vision? In Advances in neural information processing systems, pages 5574-5584, 2017 .
  • [20] Mohammad Emtiyaz Khan, Didrik Nielsen, Voot Tangkaratt, Wu Lin, Yarin Gal, and Akash Srivastava. Fast and scalable Bayesian deep learning by weight-perturbation in adam. \operatorname{ar} X i preprint arXiv: 1806.04854,2018 .
  • [21] Alex Krizhevsky, Vinod Nair, and Geoffrey Hinton. The CIFAR-10 dataset. 2014. http: //www.cs.toronto.edu/kriz/cifar.html.
  • [22] Balaji Lakshminarayanan, Alexander Pritzel, and Charles Blundell. Simple and scalable predictive uncertainty estimation using deep ensembles. In Advances in Neural Information Processing Systems, pages 6402-6413, 2017.
  • [23] John Langford and Rich Caruana. (not) bounding the true error. In Advances in Neural Information Processing Systems, pages 809-816, 2002 .
  • [24] Yann LeCun, Léon Bottou, Yoshua Bengio, and Patrick Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11): 2278-2324,1998.
  • [25] Christos Louizos, Xiahan Shi, Klamer Schutte, and Max Welling. The functional neural process. In Advances in Neural Information Processing Systems, 2019 .
  • [26] David JC MacKay. Bayesian methods for adaptive models. PhD thesis, California Institute of Technology, 1992 .
  • [27] David JC MacKay. Probable networks and plausible predictions?a review of practical Bayesian methods for supervised neural networks. Network: computation in neural svstems, 6(3): 469-505 1995
  • [28] David JC MacKay. Information theory, inference and learning algorithms. Cambridge university press, 2003 .
  • [29] Wesley J Maddox, Pavel Izmailov, Timur Garipov, Dmitry P Vetrov, and Andrew Gordon Wilson. A simple baseline for Bayesian uncertainty in deep learning. In Advances in Neural Information Processing Systems, 2019 .
  • [30] Andres R. Masegosa. Learning under model misspecification: Applications to variational and ensemble methods, 2019 .
  • [31] David A McAllester. Pac-bayesian model averaging. In Proceedings of the twelfth annual conference on Computational learning theory, pages 164-170, 1999 .
  • [32] T.P. Minka. Expectation propagation for approximate Bayesian inference. In Uncertainty in Artificial Intelligence, volume 17, pages 362-369, 2001 .
  • [33] Preetum Nakkiran, Gal Kaplun, Yamini Bansal, Tristan Yang, Boaz Barak, and Ilya Sutskever. Deep double descent: Where bigger models and more data hurt. arXiv preprint arXiv:1912.02292, 2019 .
  • [34] Eric Nalisnick. On priors for Bayesian neural networks. PhD thesis, UC Irvine, 2018 .
  • [35] R.M. Neal. Bayesian Learning for Neural Networks. Springer Verlag, 1996. ISBN 0387947248 .
  • [36] Behnam Neyshabur, Srinadh Bhojanapalli, David McAllester, and Nati Srebro. Exploring generalization in deep learning. In Advances in Neural Information Processing Systems, pages 5947-5956,2017
  • [37] Behnam Neyshabur, Srinadh Bhojanapalli, and Nathan Srebro. A PAC-bayesian approach to spectrally-normalized margin bounds for neural networks. In International Conference on Learning Representations, 2018. URL https: //openreview.net/forum?id=Skz_WfbCZ.
  • [38] Yaniv Ovadia, Emily Fertig, Jie Ren, Zachary Nado, D Sculley, Sebastian Nowozin, Joshua V Dillon, Balaji Lakshminarayanan, and Jasper Snoek. Can you trust your model's uncertainty? evaluating predictive uncertainty under dataset shift. arXiv preprint arXiv: 1906.02530,2019 .
  • [39] Tim Pearce, Mohamed Zaki, Alexandra Brintrup, Nicolas Anastassacos, and Andy Neely. Uncertainty in neural networks: Bayesian ensembling. arXiv preprint arXiv: 1810.05546,2018 .
  • [40] C. E. Rasmussen and C. K. I. Williams. Gaussian processes for Machine Learning. The MIT Press, 2006
  • [41] Carl Edward Rasmussen and Zoubin Ghahramani. Occam's razor. In Neural Information Processing Systems (NIPS), 2001 .
  • [42] Hippolyt Ritter, Aleksandar Botev, and David Barber. A scalable Laplace approximation for neural networks. In International Conference on Learning Representations (ICLR), 2018 .
  • [43] Havard Rue, Sara Martino, and Nicolas Chopin. Approximate Bayesian inference for latent gaussian models by using integrated nested laplace approximations. Journal of the royal statistical society: Series b (statistical methodology), 71(2):319-392, 2009.
  • [44] Samuel L Smith and Quoc V Le. A Bayesian perspective on generalization and stochastic gradient descent. In International Conference on Learning Representations, 2018 .
  • [45] Shengyang Sun, Guodong Zhang, Jiaxin Shi, and Roger Grosse. Functional variational Bavesian neural networks. arXiv preprint arXiv: 1903.05779,2019 .
  • [46] Dmitry Ulyanov, Andrea Vedaldi, and Victor Lempitsky. Deep image prior. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 9446-9454, 2018 .
  • [47] Florian Wenzel, Kevin Roth, Bastiaan S Veeling, Jakub Światkowski, Linh Tran, Stephan Mandt, Jasper Snoek, Tim Salimans, Rodolphe Jenatton, and Sebastian Nowozin. How good is the Bayes posterior in deep neural networks really? arXiv preprint arXiv: 2002.02405,2020.
  • [48] Andrew Gordon Wilson. The case for Bayesian deep learning. arXiv preprint arXiv:2001.10995, 2020
  • [49] Andrew Gordon Wilson and Pavel Izmailov. Tempering in Bayesian deep learning. 2020 . https://cims.nyu.edu/~andrewgw/bdltempering.pdf.
  • [50] Wanqian Yang, Lars Lorch, Moritz A Graule, Srivatsan Srinivasan, Anirudh Suresh, Jiayu Yao, Melanie F Pradier, and Finale Doshi-Velez. Output-constrained Bayesian neural networks. arXiv preprint arXiv: 1905.06287,2019.
  • [51] Chiyuan Zhang, Samy Bengio, Moritz Hardt, Benjamin Recht, and Oriol Vinyals. Understanding deep learning requires rethinking generalization. arXiv preprint arXiv: 1611.03530,2016.