从损失景观视角看深度集成
【摘要】 深度集成已被经验证明是一种提高深度学习模型的准确性、不确定性和分布外鲁棒性的有前途的方法。虽然深度集成在理论上是由自举驱动的,但仅通过随机初始化训练的非自举集成在实践中也表现良好,这表明可能存在其他解释为什么深度集成运行良好。学习网络参数分布的贝叶斯神经网络在理论上受到贝叶斯原理的良好推动,但在实践中表现不如深度集成,尤其是在数据集转移的情况下。理论与实践之间存在这种差距的一种可能解释是,流行的可扩展变分贝叶斯方法倾向于关注单一模式,而深度集成倾向于探索函数空间中的多种模式。我们以最近关于理解神经网络损失情况的工作为基础,并添加我们自己的探索来衡量预测空间中函数的相似性,从而研究这一假设。我们的结果表明,随机初始化探索完全不同的模式,而沿着优化轨迹的函数或从其子空间中采样的函数在单个模式预测方面聚集,同时经常在权重空间中显着偏离。发展多样性-准确性平面的概念,我们表明随机初始化的去相关能力是流行的子空间采样方法无法比拟的。最后,我们评估了集成、基于子空间的方法和基于子空间的方法的集成的相对效果,实验结果验证了我们的假设。
【原 文】 Fort, S., Hu, H. and Lakshminarayanan, B. (2019) ‘Deep Ensembles: A Loss Landscape Perspective’. arXiv. Available at: https://doi.org/10.48550/ARXIV.1912.02757.
1 简介
考虑一个典型的分类问题,其中 xn ∈ RD 表示 D 维特征,yn ∈ [1, . . . , K] 表示类别标签。假设我们有一个条件分布的参数模型 p(y|x, θ),其中 θ 表示神经网络的权重和偏差,p(θ) 是参数的先验分布。贝叶斯后验参数由 p(θ|{xn, yn}nN=1) ∝ p(θ) |N n=1 p(yn|xn, θ) 给出。
当 p(yn|xn, θ) 是深度神经网络 (NN) 时,计算 θ 上的精确后验分布在计算上非常昂贵(如果不是不可能的话)。已经为贝叶斯神经网络开发了多种近似,包括拉普拉斯近似 [MacKay,1992 年]、马尔可夫链蒙特卡罗方法 [Neal,1996 年;Welling 和 Teh,2011 年;Springenberg 等,2016 年]、变分贝叶斯方法 [Graves , 2011, Blundell et al., 2015, Louizos and Welling, 2017, Wen et al., 2018] 和 Monte-Carlo dropout [Gal and Ghahramani, 2016, Srivastava et al., 2014]。虽然计算后验具有挑战性,但执行最大后验 (MAP) 估计通常很容易,这对应于后验的模式。 MAP 解决方案可以写成以下损失的最小值:
θMAP = arg min θ L(θ, {xn, yn}N n=1) = arg min θ − log p(θ) − N ∑ n=1 log p(yn|xn, θ)。
MAP 解决方案计算效率高,但仅给出点估计而不是参数分布。深度集成,由 Lakshminarayanan 等人提出。 [2017],通过初始化 M 个不同的值并多次重复最小化来训练神经网络的集合,如果损失是非凸的,这可能导致 M 个不同的解决方案。 Lakshminarayanan 等 [2017] 发现对抗训练在他们的一些实验中提供了额外的好处,但我们将忽略对抗训练,只关注随机初始化的集成。
给定有限的训练数据,许多参数值同样可以很好地解释观察结果,捕获这些不同的解决方案对于量化认知不确定性至关重要 [Kendall 和 Gal,2017]。贝叶斯神经网络学习一个关于权重的分布,一个好的后验近似应该能够在理论上学习多模态后验分布。 Deep ensembles 的灵感来自 bootstrap [Breiman, 1996],它具有有用的理论特性。然而,Lakshminarayanan 等人根据经验观察到了这一点。 [2017],李等 [2015] 仅使用随机初始化训练单个网络在实践中就足够了,使用引导程序甚至会损害性能(例如,对于小的集成规模)。此外,Ovadia 等 [2019] 和 Gustafsson 等 [2019] 在各种数据集和架构上独立地对现有的不确定性量化方法进行了基准测试,并观察到集成在准确性和不确定性方面往往优于近似贝叶斯神经网络,尤其是在数据集移位的情况下。
这些实证观察提出了一个重要问题:为什么仅使用随机初始化训练的深度集成在实践中效果如此好?一种可能的假设是,集成倾向于从函数空间中的不同模式 3 进行采样,而变分贝叶斯方法(最小化 DKL(q(θ)|p(θ|{xn, yn}nN=1))可能无法探索多种模式尽管它们可以有效地捕获单一模式内的不确定性。请参见图 1 的卡通插图。请注意,虽然 MAP 解决方案是训练损失的局部最优解,但它不一定是验证损失的局部最优解。
图 1:假设的卡通插图。 x 轴表示参数值,y 轴绘制训练和验证数据上的负损失 。
已经提出了一些用来评估不确定性估计的质量的测度,例如校准 (Dawid, 1982; Degroot & Fienberg, 1983)。另一个重要指标是将预测不确定性估计推广到分布外数据集(Hendrycks & Dietterich,2019)。最近又提出了采用 上下文老虎机任务
来评估预测不确定性的质量,以获得最大化的奖励(Riquelme 等人,2018 年),而这需要良好的不确定性估计以平衡探索和开发。
2 背景
神经网络的损失情况(也称为客观情况)——网络在训练期间导航的权重和偏差空间——是一个高维函数,因此可能非常复杂。然而,许多经验结果表明损失表面的性质非常简单。 Goodfellow 和 Vinyals [2014] 观察到从初始化到相应最优值的线性路径上的损失单调递减,沿途没有遇到明显的障碍。李等 [2018] 表明,将优化约束到权重空间中的随机低维超平面会导致与全空间优化相当的结果,前提是维度超过适度阈值。 Fort 和 Scherlis [2019] 从几何上理解并扩展了这一点。
加里波夫等 [2018],德拉克斯勒等 [2018] 表明,虽然两个独立最优值之间的线性路径在中间达到高损耗区域,但实际上存在连接任何一对最优值(或至少迄今为止根据经验研究的任何对)的连续低损耗路径。在 [Fort and Jastrzebski, 2019] 中,这些观察被统一到一个单一的现象学模型中。虽然低损耗隧道沿路径创建具有几乎相同的低损耗值的函数,但 Fort 和 Jastrzebski [2019]、Garipov 等人的实验。 [2018] 提供了初步证据表明这些功能在功能空间上往往非常不同,在隧道中间发生显着变化,请参阅附录 A 进行审查和补充其结果的其他经验证据
3 实验设置
我们探索了 CIFAR-10 [Krizhevsky, 2009]、CIFAR-100 [Krizhevsky, 2009] 和 ImageNet [Deng et al., 2009] 数据集。我们在 CIFAR-10 数据集上训练卷积神经网络,该数据集包含来自 10 个类别的 50K 个训练示例。为了验证我们的发现是否跨架构,我们在 CIFAR-10 上使用了以下 3 种架构:
SmallCNN:10 个 epoch 的通道 [16,32,32] 达到 64% 的测试精度。 • MediumCNN:通道[64,128,256,256] 40 个时期,达到71% 的测试准确率。 • ResNet20v1 [He et al., 2016a]:200 个时期达到 90% 的测试精度。
我们使用 Adam 优化器 [Kingma 和 Ba,2015] 进行训练,并确保我们观察到的效果是通用的,我们验证我们的结果也适用于香草随机梯度下降 (SGD)(由于篇幅限制未显示)。我们使用 batch size 128 和 dropout 0.1 来训练 SmallCNN 和 MediumCNN。我们为每个训练使用了 40 个 epoch。为了生成权重空间和预测空间相似性结果,我们使用 1.6 × 10−3 的恒定学习率,并且每 10 个时期减半,除非另有说明。我们不对这两种架构使用任何数据增强。对于 ResNet20v1,我们使用 Keras 示例中使用的数据增强和学习率计划。4 总体趋势在我们探索的所有架构、数据集和其他超参数和非线性选择中是一致的。
为了测试我们的观察是否可以推广到其他数据集,我们还在更复杂的数据集上进行了某些实验,例如 CIFAR-100 [Krizhevsky,2009],它包含属于 100 个类的 50K 个示例和 ImageNet [Deng 等人,2009],其中包含大约 100 万个示例属于 1000 个类。 CIFAR-100 使用与上述相同的 ResNet20v1 和 Adam 优化器进行训练,批量大小为 128,总轮数为 200。学习率从 10−3 开始衰减到 (10−4, 5 × 10−5, 10−5, 5 × 10−7) 在历元 (100, 130, 160, 190)。 ImageNet 使用 ResNet50v2 [He et al., 2016b] 和动量优化器(0.9 动量)进行训练,批量大小为 256 和 160 个时期。学习率从 0.15 开始,在第 (80, 120) 个时期衰减到 (0.015, 0.0015)。
尽管深度神经网络在各种任务上都实现了最先进的性能,但它们的预测通常校准不佳(Guo 等人,2017 年)。贝叶斯神经网络 (Hinton & Neal, 1995) 假设权重分布而不是点估计,因此常用于模型不确定性估计 (Dusenberry et al., 2019)。但它们需要对传统神经网络训练方案进行修改。深度集成已被提出作为一种简单且可扩展的替代方案,并且已被证明可以进行校准良好的不确定性估计(Lakshminarayanan 等人,2017 年)。最近,Ovadia 等 (2019) 和 Gustafsson 等(2019 年)在广泛的数据集和架构上独立地对现有的不确定性建模方法进行了基准测试,并观察到集成在准确性和不确定性方面往往优于变分贝叶斯神经网络,尤其是在分布外数据集上。Fort等(2019)研究了损失的几何形态,并提出变分方法仅捕获了局部不确定性,而集成方法则探索了全局不同的峰值,这也解释了为什么深度集成通常表现更好。
4 可视化函数空间相似度
4.1 随机初始化轨迹内和跨随机初始化轨迹的函数相似性
首先,我们计算沿单个轨迹的不同检查点之间的相似性。在图 2(a) 中,我们绘制了权重空间中的余弦相似度,定义为 cos(θ1, θ2) = θ> 1 θ2 ||θ1||||θ2|| .在图 2(b) 中,我们绘制了函数空间中的分歧,定义为检查点不同意的点的分数,即 1 N ∑N n=1[f (xn; θ1) 6= f (xn; θ2 )],其中 f (x; θ) 表示网络为输入 x 预测的类标签。我们观察到沿轨迹的检查点在权重空间和函数空间中都非常相似。接下来,我们评估来自不同随机初始化的最终解决方案的多样性。
图 2:在 CIFAR-10 上使用 SmallCNN 的结果。左图:检查点之间的余弦相似度,用于测量沿优化轨迹的权重空间对齐。中间图:来自不同检查点的预测不一致的标签部分。右图:来自对应于 3 个不同随机初始化轨迹(不同颜色)的检查点的预测的 t-SNE 图。
来自不同初始化的函数是不同的,如图 3 中的相似性图所示。将其与图 2(a) 和 2(b) 进行比较,我们看到单个轨迹内的函数表现出更高的相似性,而不同轨迹上的函数表现出更多较低的相似性。
接下来,我们沿着来自多个初始化的各个训练轨迹从不同检查点进行预测,并计算 t-SNE 图 [Maaten 和 Hinton,2008] 以可视化它们在函数空间中的相似性。更准确地说,对于每个检查点,我们采用一组示例的 softmax 输出,展平向量并使用它来表示模型的预测。然后使用 t-SNE 算法将其简化为 t-SNE 图中的二维点。图 2© 显示不同轨迹(用不同颜色的圆圈表示)探索的函数相距甚远,而在单个轨迹(相同颜色的圆圈)内探索的函数往往更相似。
图 3:使用两种不同架构的 CIFAR-10 结果。对于这些架构中的每一个,左侧子图显示了权重空间中不同解决方案之间的余弦相似性,右侧子图显示了不同解决方案的预测不一致的标签部分。通常,来自两个不同初始化的权重向量基本上是正交的,而它们的预测与任何其他对大致不同。
4.2 每个轨迹和跨轨迹的子空间内函数的相似性
除了沿轨迹的检查点外,我们还根据每个单独的轨迹构建子空间。可扩展变分贝叶斯方法通常近似于权重沿训练轨迹的分布,因此可视化子空间之间函数的多样性有助于理解贝叶斯神经网络和集成之间的差异。我们使用一组具有代表性的四种子空间采样方法:Monte Carlo dropout、对角高斯近似、低秩协方差矩阵高斯近似和随机子空间近似。与 dropout 和高斯近似假设变分后验的参数形式不同,随机子空间方法探索子空间内的所有高质量解,因此可以被认为是对后验的非参数变分近似。由于空间限制,我们在这项工作中不考虑马尔可夫链蒙特卡罗(MCMC)方法;张等 [2020] 表明流行的随机梯度 MCMC (SGMCMC) 方法可能不会探索多种模式并提出循环 SGMCMC。我们在附录 C 中比较了随机初始化和循环 SGMCMC 的多样性。在方法的描述中,令 θ0 为优化的权重空间解(我们训练的神经网络的权重和偏差),我们将围绕它构建子空间。
• 随机子空间采样:我们从优化解θ0 开始,并在权重空间中选择一个随机方向v。我们通过选择不同的 t 值并查看配置 θ0 + tv 的预测来朝这个方向迈进。我们对许多随机方向 v 重复此操作。 • Dropout 子空间:我们从优化解决方案 θ0 开始,使用随机选择的 pkeep 应用 dropout,评估 dropoutpkeep (θ0) 处的预测,并使用不同的 pkeep 重复多次。 • 对角高斯子空间:我们从一个优化的解决方案θ0 开始,并查看对其进行的最近的训练迭代。对于每个可训练参数 θi,我们独立计算每个参数的均值 μi 和标准差 σi,这对应于对角协方差矩阵。这类似于 SWAG-diagonal [Maddox et al., 2019]。为了从子空间中抽样解决方案,我们重复抽取样本,其中每个参数独立为 θi ∼ N (μi, σi)。 • 低秩高斯子空间:我们遵循与上述对角高斯子空间相同的程序来计算每个可训练参数的均值μi。对于协方差,我们使用 rankk 近似,通过计算最近权重向量 {vi ∈ Rparams}k 的前 k 个主成分。我们从 k 维正态分布中采样并获得权重配置为 θ ∼ μ + ∑ i N (0k, 1k)vi。在整篇文章中,我们交替使用低秩和 PCA 高斯这两个术语。
图 4:在 CIFAR-10 上使用 SmallCNN 的结果:每个轨迹的验证集预测的 t-SNE 图以及四种不同的子空间生成方法(用方块显示),以及 3 个独立初始化和训练的运行(不同颜色)。如图中所示,子空间采样函数停留在构建它们的运行的预测空间邻域内,表明真正不同的函数未被采样。
图 4 显示,从对应于特定初始化的子空间(由彩色方块表示)采样的函数彼此更加相似。虽然一些子空间更加多样化,但它们仍然不与来自另一个随机初始化轨迹的函数重叠。
作为附加证据,图 5 提供了沿两个不同最优值方向的径向景观的二维可视化。可视化的权重空间的二维部分由原点(所有权重均为 0)和两个独立初始化和训练的最优值定义。两条轨迹的权重(以红色和蓝色显示)使用标准技术进行初始化,并且由于它们的 softmax 交叉熵损失,它们随着训练呈放射状增加。左边的子图显示不同的随机初始化轨迹最终达到相似的精度。我们还沿着轨迹 1(以粉红色显示)从高斯子空间中采样。
中间和右边的子图显示参数沿着最优 1 和 2 的路径的函数空间相似性(定义为它们在类预测上一致的点的分数)。沿着每个轨迹(和高斯子空间)的解更多类似于它们各自的最优值,这与余弦相似性和 t-SNE 图一致。
图 5:在 CIFAR-10 上使用 MediumCNN 的结果:原点和两个独立最优值之间的径向损失景观切割。左图显示模型沿着两个独立轨迹路径的准确性,中间图和右图显示函数空间与两个最优值的相似性。
4.3 多样性与准确性图
为了以另一种方式说明差异,我们从单个子空间中采样函数并绘制准确性与多样性的关系图,这是通过基线解决方案的预测之间的差异来衡量的。从偏差方差权衡的角度来看,我们需要一个过程来生成准确的函数(通过聚合导致低偏差)以及去相关(通过聚合导致较低的方差)。因此,多样性与准确性图使我们能够可视化子空间采样方法与深度集成可以实现的权衡。
多样性分数通过测量预测不同的数据点的比例来量化两个函数(一个基本解决方案和一个采样解决方案)的差异。我们选择这种方法是因为它很简单;我们还计算了输出概率分布之间的 KL 散度和其他距离,得出了等效的结论。令 ddiff 表示两个函数不同的预测分数。当两个函数做出相同的类别预测时为 0,当它们在每个示例上都不同时为 1。为了说明一个函数的准确性越低,由于错误答案可能是随机的并且两个函数之间不相关的可能性,它的潜在 ddiff 越高,我们通过 (1 − a) 对其进行归一化,其中 a 是采样溶液的准确性。我们还通过扰动参考解决方案的预测(下限)和给定精度(上限)下的完全随机预测来导出这些曲线的理想化下限和上限(以虚线显示),请参阅附录 D 进行讨论。
图 6:在 CIFAR-10 上训练的 3 个模型的多样性与准确性图:SmallCNN、MediumCNN 和 ResNet20v1。与四种不同的子空间采样方法相比,独立初始化和优化的解决方案(红星)实现了更好的多样性与准确性权衡。
图 6 显示了 CIFAR-10 上的结果。将这些子空间点(彩色点)与基线最优值(绿色星)和不同随机初始化的最优值(用红色星表示)进行比较,我们观察到随机初始化在采样多样化和准确的解决方案方面比基于子空间的方法更有效由单一轨迹构成。结果在不同的架构和数据集上是一致的。图 7 显示了 CIFAR-100 和 ImageNet 上的结果。我们观察到,与独立初始化和训练的最优解相比,通过子空间采样方法获得的解在准确性和预测多样性之间的权衡更差。有趣的是,子空间采样方法与多样性-精度平面中的独立最优之间的分离变得更加明显,问题越困难,网络越强大。
图 7:CIFAR-100 上的 ResNet20v1 和 ImageNet 上的 ResNet50v2 的多样性与精度图。
5 评估集成与子空间方法的相对效果
我们在图 1 中的假设和上一节中的经验观察表明,基于子空间的方法和集成应该在不确定性和准确性方面提供互补的好处。由于我们的目标不是提出一种新方法,而是仔细检验这个假设,我们评估了以下四种变体的性能以进行对照比较:
• 基线:在单个轨迹结束时最佳。 • 子空间采样:对从子空间采样的解决方案的平均预测。 • 集成:通过随机初始化多次训练基线并对预测进行平均。 • Ensemble + 子空间采样:通过随机初始化进行多次训练,并在每个轨迹内使用子空间采样。
为了将随机样本的准确性保持在合理的水平以进行公平比较,如果验证准确性低于 0.65,我们将拒绝该样本。对于 CIFAR-10 实验,我们使用 PCA 对随机样本进行 rank-4 近似。请注意,对角高斯、低秩高斯和随机子空间采样方法来近似后验的每个模式会导致每个模式所需的参数数量增加。但是,仅使用每种模式的平均权重不会导致这种增加。伊兹梅洛夫等 [2018] 提出了随机权重平均(SWA)以实现更好的泛化。受凸优化中的 Polyak-Ruppert 平均启发,人们还可以计算沿轨迹的权重的(指数移动)平均值(另请参阅 [Mandt 等人,2017] 以了解迭代平均的贝叶斯观点)。由于 Izmailov 等人已经研究了权重平均 (WA)。 [2018],我们不详细讨论。我们的目标是测试 WA 是否在每个模式中找到更好的点估计(参见图 1 中的卡通插图)并为集成提供随机初始化的互补优势。在我们的实验中,我们在最后几个时期使用 WA,这对应于仅使用每个模式中参数的平均值。
图 8:在 CIFAR-10 上使用 MediumCNN 的结果显示了集成和子空间方法作为集成大小函数的互补优势。我们为每个子空间方法使用了 10 个样本。
图 8 显示了 CIFAR-10 上的结果。结果验证了我们的假设:(i) 子空间采样和集成提供互补优势,以及 (ii) 集成的相对优势更高,因为它对更多样化的解决方案进行平均预测。
函数空间多样性对数据集转移的影响我们在数据集转移下测试了相同的假设 [Ovadia 等人,2019 年,Hendrycks 和 Dietterich,2019 年]。图 9 的左侧和中间子图显示了 CIFAR-10-C 基准的准确性和 Brier 分数。我们再次观察到集成和子空间采样方法提供了互补的好处。
多样性与准确性图将多样性与参考解决方案进行了比较,但同样重要的是还要查看同一方法的多个样本之间的多样性,因为这将有效地确定该方法在偏差方差权衡方面的效率-离开。函数空间多样性对于避免在数据集移位下的过度自信预测尤为重要,因为对相似函数进行平均不会减少过度自信。为了可视化这一点,我们为每种方法抽取 5 个样本并计算它们的预测之间的平均 Jensen-Shannon 散度,定义为 ∑M m=1 KL(pθm (y|x)|| ̄ p(y|x)) 其中 KL表示 Kullback-Leibler 散度和 ̄ p(y|x) = (1/M ) ∑ m pθm (y|x)。图 9 的右侧子图显示了 CIFAR-10-C 上腐败强度增加的结果。我们观察到 Jensen-Shannon 散度在独立随机初始化之间最高,而对于子空间采样方法则较低;
图 9:使用 MediumCNN 在 CIFAR-10-C 上针对不同级别的腐败强度的结果。左图显示准确性,中图显示 Brier 分数,右图显示 Jensen-Shannon 散度。
在数据集转移下差异更大,这解释了 Ovadia 等人的发现。 [2019] 深度集成在数据集转移下优于其他方法。在 SVHN 等 OOD 数据集上进行测试时,我们也观察到类似的趋势:独立运行的 JS 散度为 0.384,轨迹内为 0.153,随机采样为 0.155,等级 5 PCA 高斯为 0.087,对角线高斯为 0.034。
ImageNet 上的结果为了说明对另一个具有挑战性的数据集的影响,我们使用 ResNet50v2 架构在 ImageNet [Deng et al., 2009] 上重复这些实验。由于计算限制,我们不评估 ImageNet 上的 PCA 子空间。图 10 显示了 ImageNet 测试集(零损坏强度)和 ImageNet-C 增加损坏强度的结果。与 CIFAR-10 类似,随机子空间在子空间采样方法中表现最佳,并为随机初始化提供互补优势。我们根据经验观察到,当各个模型在每个模式中收敛到更好的最优值时,WA(或子空间采样)的相对增益较小。仔细选择要平均的点,例如使用快速几何集成中的循环学习率 [Garipov et al., 2018] 可以产生更多的好处。
图 10:在 ImageNet 测试和 ImageNet-C 上使用 ResNet50v2 进行各种损坏的结果。
6 讨论
通过广泛的实验,我们表明随机初始化神经网络的轨迹探索函数空间中的不同模式,这解释了为什么只用随机初始化训练的深度集成在实践中效果很好。子空间采样方法,如权重平均、蒙特卡洛 dropout 和各种版本的局部高斯近似,样本函数可能位于权重空间中距离起点相对较远的位置,但它们在函数空间中保持相似,从而导致不充分不同的预测集。使用多样性-准确性平面的概念,我们凭经验证明当前的变分贝叶斯方法无法达到独立训练模型实现的多样性和准确性之间的权衡。未来的研究有几个有趣的方向:了解随机初始化对训练动力学的作用(初步调查见附录 B),探索比深度集成实现更高多样性的方法(例如通过显式去相关),以及开发参数有效方法(例如隐式集成或贝叶斯深度学习算法)比深度集成实现更好的多样性-准确性权衡。
参考文献
- [1] David JC MacKay. Bayesian methods for adaptive models. PhD thesis, California Institute of Technology, 1992.
- [2] Radford M. Neal. Bayesian Learning for Neural Networks. Springer-Verlag New York, Inc., 1996.
- [3] Max Welling and Yee Whye Teh. Bayesian Learning via Stochastic Gradient Langevin Dynamics. In ICML, 2011.
- [4] Jost Tobias Springenberg, Aaron Klein, Stefan Falkner, and Frank Hutter. Bayesian optimization with robust Bayesian neural networks. In NeurIPS, 2016.
- [5] Alex Graves. Practical variational inference for neural networks. In NeurIPS, 2011.
- [6] Charles Blundell, Julien Cornebise, Koray Kavukcuoglu, and Daan Wierstra. Weight uncertainty in neural networks. In ICML, 2015.
- [7] Christos Louizos and Max Welling. Multiplicative Normalizing Flows for Variational Bayesian Neural Networks. In ICML, 2017.
- [8] Yeming Wen, Paul Vicol, Jimmy Ba, Dustin Tran, and Roger Grosse. Flipout: Efficient pseudoindependent weight perturbations on mini-batches. In ICLR, 2018.
- [9] Yarin Gal and Zoubin Ghahramani. Dropout as a Bayesian approximation: Representing model uncertainty in deep learning. In ICML, 2016.
- [10] Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. Dropout: A simple way to prevent neural networks from overfitting. JMLR, 2014.
- [11] Balaji Lakshminarayanan, Alexander Pritzel, and Charles Blundell. Simple and scalable predictive uncertainty estimation using deep ensembles. In NeurIPS, 2017.
- [12] Alex Kendall and Yarin Gal. What uncertainties do we need in Bayesian deep learning for computer vision? In NeurIPS, 2017.
- [13] Leo Breiman. Bagging predictors. Machine learning, 1996.
- [14] Stefan Lee, Senthil Purushwalkam, Michael Cogswell, David Crandall, and Dhruv Batra. Why M heads are better than one: Training a diverse ensemble of deep networks. arXiv preprint arXiv:1511.06314, 2015.
- [15] Yaniv Ovadia, Emily Fertig, Jie Ren, Zachary Nado, D Sculley, Sebastian Nowozin, Joshua V Dillon, Balaji Lakshminarayanan, and Jasper Snoek. Can you trust your model’s uncertainty? Evaluating predictive uncertainty under dataset shift. In NeurIPS, 2019.
- [16] Fredrik K Gustafsson, Martin Danelljan, and Thomas B Schön. Evaluating scalable Bayesian deep learning methods for robust computer vision. arXiv preprint arXiv:1906.01620, 2019.
- [17] Timur Garipov, Pavel Izmailov, Dmitrii Podoprikhin, Dmitry P Vetrov, and Andrew G Wilson. Loss surfaces, mode connectivity, and fast ensembling of DNNs. In NeurIPS, 2018.
- [18] Felix Draxler, Kambis Veschgini, Manfred Salmhofer, and Fred A Hamprecht. Essentially no barriers in neural network energy landscape. arXiv preprint arXiv:1803.00885, 2018.
- [19] Stanislav Fort and Stanislaw Jastrzebski. Large scale structure of neural network loss landscapes. In NeurIPS, 2019.
- [20] Ian J. Goodfellow and Oriol Vinyals. Qualitatively characterizing neural network optimization problems. CoRR, abs/1412.6544, 2014.
- [21] Chunyuan Li, Heerad Farkhoor, Rosanne Liu, and Jason Yosinski. Measuring the intrinsic dimension of objective landscapes. In ICLR, 2018.
- [22] Stanislav Fort and Adam Scherlis. The Goldilocks zone: Towards better understanding of neural network loss landscapes. In AAAI, 2019.
- [23] Alex Krizhevsky. Learning multiple layers of features from tiny images. 2009.
- [24] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. ImageNet: A Large-Scale Hierarchical Image Database. In CVPR, 2009.
- [25] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In CVPR, 2016a. Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. In ICLR, 2015.
- [26] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Identity mappings in deep residual networks. In European conference on computer vision, 2016b. Dan Hendrycks and Thomas Dietterich. Benchmarking neural network robustness to common corruptions and perturbations. In ICLR, 2019.
- [27] Glenn W Brier. Verification of forecasts expressed in terms of probability. Monthly weather review, 1950.
- [28] Yuval Netzer, Tao Wang, Adam Coates, Alessandro Bissacco, Bo Wu, and Andrew Y Ng. Reading Digits in Natural Images with Unsupervised Feature Learning. In NeurIPS Workshop on Deep Learning and Unsupervised Feature Learning, 2011.
- [29] Laurens van der Maaten and Geoffrey Hinton. Visualizing data using t-SNE. JMLR, 2008.
- [30] Ruqi Zhang, Chunyuan Li, Jianyi Zhang, Changyou Chen, and Andrew Gordon Wilson. Cyclical stochastic gradient mcmc for bayesian deep learning. In International Conference on Learning Representations, 2020.
- [31] Wesley J Maddox, Pavel Izmailov, Timur Garipov, Dmitry P Vetrov, and Andrew Gordon Wilson. A simple baseline for bayesian uncertainty in deep learning. In Advances in Neural Information Processing Systems, pages 13132–13143, 2019.
- [32] Pavel Izmailov, Dmitrii Podoprikhin, Timur Garipov, Dmitry Vetrov, and Andrew Gordon Wilson. Averaging weights leads to wider optima and better generalization. In UAI, 2018.
- [33] Stephan Mandt, Matthew D Hoffman, and David M Blei. Stochastic gradient descent as approximate Bayesian inference. JMLR, 2017.