【摘 要】 不确定性表示对于深度学习的安全可靠部署至关重要。贝叶斯方法提供了一种自然机制来表示认知不确定性,从而改进泛化和校准预测分布。了解近似推断的保真度具有超越衡量特定任务泛化的标准方法的非凡价值:如果近似推断正常工作,那么我们可以期望在任意数量的现实世界设置中进行更可靠和准确的部署。在本次比赛中,我们使用通过数百个张量处理单元 (TPU) 设备并行计算获得的哈密顿蒙特卡罗 (HMC) 样本作为参考,评估深度学习中近似贝叶斯推断程序的保真度。我们考虑了各种任务,包括图像识别、回归、协变量偏移和医学应用。所有数据都是公开的,我们发布了几个基线,包括随机 MCMC、变分方法和深度集成。比赛导致许多团队提交了数百份作品。获奖作品都涉及新颖的多峰值后验近似,突出了表示多种峰值的相对重要性,并建议我们不应将深度集成视为标准单峰近似的“非贝叶斯”替代方案。未来,该竞赛将为深度学习中近似贝叶斯推断程序的创新和持续基准测试提供基础。 HMC 样品将继续通过竞赛网站提供

【原 文】 Wilson, A.G. et al. (2022) ‘Evaluating approximate inference in bayesian deep learning’, in D. Kiela, M. Ciccone, and B. Caputo (eds) Proceedings of the NeurIPS 2021 competitions and demonstrations track. PMLR (Proceedings of machine learning research), pp. 113–124. Available at: https://proceedings.mlr.press/v176/wilson22a.html.

1 大赛说明

虽然深度学习对于机器学习来说是革命性的,但大多数现代深度学习模型都不能表示其不确定性,也无法利用经过充分研究的概率论工具。社区一直非常积极地解决这一差距,引入了使用贝叶斯推断技术的新深度学习模型,以及包含深度学习元素的贝叶斯模型。 NeurIPS 贝叶斯深度学习研讨会是自 2016 年以来每年第二大的研讨会,这清楚地证明了社区对这些主题的广泛而一致的兴趣。这种广泛的兴趣也从 NeurIPS 2019、ICML 2020 和 NeurIPS 2021 上关于贝叶斯深度学习和深度不确定性表示的主要教程中得到了明确证明(Khan,2019 年 [9];Wilson,2020 年[23];Tran 等,2020 年[21]) 贝叶斯技术在深度学习中的使用可以追溯到 1990 年代,在 Radford Neal (Neal, 1996)[17] 和 David MacKay (MacKay, 1995)[14] 的开创性著作中。这些工作产生了推断深度模型置信度的工具,并在当时的许多任务上取得了最先进的性能。随着深度学习的复兴,在过去五年中,将近似贝叶斯推断程序扩展到现代架构和数据集方面取得了非凡的进展。 其中许多程序在医疗诊断和更可靠的自动驾驶等公共利益任务上提供了可喜的表现(Leibig 等,2017 年[12];Filos 等,2019 年[1])。例如,在医学诊断中,简单地将图像标记为病理或健康是不够的。相反,我们需要根据类别标签的概率做出治疗决定。为此,贝叶斯方法代表了对数据不同假设的认知不确定性,以提供完整的预测分布。这种预测分布在决策制定中至关重要,因为它可以与识别结果不对称性的损失函数相结合,并且罕见的错误可能会非常昂贵。例如,假阴性通常比假阳性代价高得多。 然而,目前还没有机制来了解深度学习中的近似推断过程是否按预期工作,并提供贝叶斯预测分布的忠实近似。事实上,标准指标(例如泛化的准确度或负对数似然)无法区分 “模型指定” 和 “推断过程” 之间的影响(Yao 等,2019 年 [26])。 考虑与优化做类比是有帮助的。原则上,优化程序旨在最小化我们的训练目标,而不是在特定基准任务上提供良好的测试集泛化。一种擅长优化的方法可能对各种各样的问题都有用。尽管我们查询优化过程中的训练损失很容易,但却无法直接访问贝叶斯后验预测分布。 在本次比赛中,我们提供了一个独特的机会,通过与哈密顿蒙特卡洛 (HMC)(Neal 等,2011 年)[16]的比较来衡量深度学习中近似推断程序的保真度。 HMC 是一种高效且经过充分研究的马尔可夫链蒙特卡洛 (MCMC) 方法,可以保证从真实后验渐近地生成样本,但在现代深度学习中成本过高:HMC 可能需要数万次训练迭代才能生成来自后验的单个样本。 为了应对这一计算挑战,我们在数百个张量处理单元 (TPU) 设备上进行了并行计算。我们在 Izmailov 等 (2021b)[8] 中提供了广泛的细节,以及与几个流行基线的比较 。 该竞赛提供了一种标准化机制,用于评估深度学习中各种近似推断方法的保真度。每个参与者都可以访问我们跨多个参考数据集的各种架构的 HMC 样本。参与者只需要提供对他们程序中预测分布的访问权限,然后我们的评估框架就会创建一个包含所有方法的排行榜。在比赛的评估阶段,参赛者提交他们在评估数据集上的推断程序代码,我们在本地评估推断的保真度。我们考虑图像识别、回归、协变量偏移和医疗保健方面的问题。近似推断程序的总运行时间被限制为不超过标准 SGD 训练的十倍,它基本上涵盖了所有现代近似推断程序,但比完整的 HMC 便宜几个数量级。 竞赛将为理解许多近似推断程序的功效、在评估中分离模型规范和推断以及设计新的推断算法提供巨大的资源,这些算法可以以比 HMC 低得多的成本提供可靠的推断,否则 HMC 是无法访问的机器学习从业者。更广泛地说,深度学习中高保真贝叶斯推断程序的发展,是构建安全稳健的自动决策系统的重要组成部分。这需要针对不确定性给出忠实表示和可靠的预测分布。 在本节中,我们概述了比赛设置的细节,在第 2 节和第 3 节中,我们讨论了结果和结论。比赛有数百个参赛作品,激发了新的近似推断程序和概念见解。领先团队中一个值得注意的主题是多峰值后验近似的使用将在第 4 节进一步讨论。比赛将形成一个持久的基准来评估深度学习中的近似推断程序,最新的样本和数据可通过[比赛网站](https://izmailovpavel.github.io/neurips_bdl_competition/)获得。 ### 1.1 任务 贝叶斯深度学习方法具有无数的潜在应用,因为推断贝叶斯后验分布是一种合并训练数据集中所含信息的强大原则性方法。这些场景包括: - 安全的医疗诊断:自动处理明确的诊断,同时将困难的决定提升给可以请求进一步扫描的医疗专业人员。 - 罕见或代表性不足的输入:认识到当个人来自数据集中代表性不足的群体并寻求专家指导时存在的不确定性。 - 协变量偏移:识别协变量偏移使模型预测不可靠的情况,例如在自动驾驶中。 在最近的工作中,研究人员在与此类贝叶斯深度学习应用相关的特定指标方面取得了很大进展(例如,Lakshminarayanan 等,2017 年 [11];Leibig 等,2017 年[12];Maddox 等,2019 年[15];Filos 等, 2019 年[1];Ovadia 等,2019 年[19];Izmailov 等,2021a [7])。 然而,之前的工作主要集中在简单指标上,如 `准确性`、`对数似然` 和 `拒绝准确性`。但由于近似推断的问题,一种方法有可能对其他任务的泛化能力很差,但也可能在个别情况下得分很高。而我们并不关注一组任务的泛化误差,而是希望了解哪些近似推断方法正在 **按预期执行以产生高质量的后验近似,从而导致对其在广泛设置中的适用性有更多校准期望**。 为此,我们要求参与者对 `表 1` 中列出的应用场景进行近似推断。对于列标记为 `development datasets` 的数据集,我们向参与者提供 HMC 检查点和相应的预测分布。这些数据集用于开发和校准竞赛第一阶段(开发阶段)的解决方案。标记为 “Evaluation Datasets” 的数据集用于评估提交的内容。参与者提交训练脚本以生成评估数据集的预测分布,然后我们将其与未发布的 HMC 检查点的预测分布进行比较。 这些数据集涵盖了回归和分类等不同类型监督学习任务,并且针对分布内和分布外场景进行了评估。此外,还选择了 `表 1` 中的数据集和参考架构,以收集可靠的 HMC 仿真结果。我们相信这些是比较全面的基准,可以从竞赛中得出一些结论性成果。 > 表 1:必需的任务。参赛作品需要证明其在一系列易于访问的应用程序和架构中逼近预测后验方面的有效性。对于 CIFAR 数据集,使用了标准测试集和损坏版本(Hendrycks 和 Dietterich,2019 [5])。对于 UCI,我们使用 Hernandez-Lobato 和 Adams (2015)[6] 中选择的回归数据集。 ![Table01](https://xishansnowblog.oss-cn-beijing.aliyuncs.com/images/images/stats-20230103112558-faa1.webp) ### 1.2 指标 评估方法:评估提交的预测分布与多个哈密顿蒙特卡洛近似的预测分布之间的相似性。让我们用 $\hat{p}(y|x)$ 表示输入 $x$ 对应的目标预测分布( HMC 近似 ),令 $p(y|x)$ 表示提交竞赛的预测分布。 **(1)分类任务** 对于分类任务,我们考虑两个主要指标: **一致性(agreement)** 和 **总变差(total variation)**。设 $D_{test} = \{x_i\}^{n}_{i=1}$ 为测试数据集。然后我们将 $\hat{p}$ 和 $p$ 之间的 **一致性** 定义为 “$\hat{p}$ 和 $p$ 的 top-1 预测一致” 的那些测试数据点的分数 : $$ \text{agreement}(\hat{p}, p) = \frac{1}{n} \sum^{n}_{i=1} \mathbb{I} \left[ \arg \max_j \hat{p}(y = j|x_i) = \arg \max_j p(y = j|x_i) \right] \tag{1} $$ 其中 $\mathbb{I}[·]$ 是指示函数。一致性指标衡量参赛作品 **捕获贝叶斯模型平均 top-1 预测的程度**,越高越好。 我们将 $\hat{p}$ 和 $p$ 之间的 **总变差** 度量定义为 “在测试数据点上平均的” 两种预测分布之间的总变差距离: $$ \text{TV}(\hat{p}, p) = \frac{1}{n} \sum^{n}_{i=1} \frac{1}{2} \sum_j \left | \hat{p}(y = j|x_i) − p(y = j|x_i)\right | \tag{2} $$ 总变差 **捕获 $\hat{p}$ 和 $p$ 之间完整预测分布的一致性程度**,越低越好。为了获得较低的总变差分数,提交作品不仅要捕获 HMC 的 top-1 预测,还要捕获所有类别概率。 **(2)回归任务** 对于回归任务,我们考虑 $\hat{p}$ 和 $p$ 之间的 `Wasserstein-2 距离`。由于 $p$ 是以每个样本的一组采样预测形式提供的,因此该度量的计算为逐点 `W2 距离`: $$ W_2 (\hat{p}, p) = \text{inf}_I \sqrt{\sum_{i \in I,j} |p_i − \hat{p}_j|^2} \tag{3} $$ 其中 $I$ 是可能的数据点排序,`W2 距离` 越低越好。 **(3)训练时间** 除了上述分数之外,提交内容还受训练时间(s)限制,即训练脚本执行近似推断所花费的时间。我们要求每个任务的训练时间不超过相当于 $1000$ 个随机梯度下降训练的 epochs。我们将要求几份获奖作品参赛者提供脚本。 **(4)性能分数** 提交的内容会得到一个性能分数,该分数是 **top 1一致性**、 **总变差** 和 测试问题的 **Wasserstein 距离** 三者的加权平均值。对于每个指标,我们对提交进行排名并计算整个问题的平均排名。对于轻量任务,我们只考虑 CIFAR-10 数据集,对于扩展任务,我们对所有数据集的排名进行平均。 ### 1.3 提供的基线、代码和材料 我们提供了 **深度集成**、 **平均场变分推断**、 **MC Dropout** 和 **随机梯度 MCMC (SG-MCMC)方法的几种变体** 作为基线,并提供了 `development datasets` 的结果(见 `表 2` )以及 `JAX` 框架中的实现(入门工具包)。在 `图 1` 中,我们可视化了 **HMC**、 **深度集成** 和 **SGLD** 等方法在不同学习率下的预测熵分布和校准曲线。有关详细信息,请参阅 Izmailov 等 (2021b) [8]。 > 表 2:基线和示例结果。深度集成和 SG-MCMC 变体的协议和总变差指标。这些方法是在 CIFAR-10 训练集上训练的,我们报告了原始 CIFAR-10 测试集和来自 CIFAR-10-C 的损坏测试集的结果。对于 CIFAR-10-C,我们报告了不同腐败和腐败强度的指标的均值和标准差。 ![Table02](https://xishansnowblog.oss-cn-beijing.aliyuncs.com/images/images/stats-20230103113843-82fb.webp) ![Figure01](https://xishansnowblog.oss-cn-beijing.aliyuncs.com/images/images/stats-20230103114051-eac0.webp) > 图 1:HMC、SGLD(学习率 $α = 10^{−6}$ 和 $3 · 10^{−6}$)的后验预测分布的预测熵分布(左)和校准曲线(右),以及 CIFAR-10 上 ResNet20-FRN 的深度集成。在左侧,对于除 HMC 之外的所有方法,我们绘制了一对直方图:针对 HMC 和相应的方法。深度集成提供比 HMC 更自信的预测,具有高学习率的 SGLD 不够自信,而 $α = 10^{−6}$ 的 SGLD 与 HMC 匹配良好。 ### 1.4 教程和文档 我们在 Izmailov 等 (2021b) [8]中详细描述了 HMC 实现以及基线比较。我们还在竞赛网站上提供了用于提交竞赛的 API 的详细文档,以及贝叶斯深度学习的教程资源。我们在 ICML 2020 上提供了贝叶斯深度学习教程(Wilson,2020)[23]。 ## 2 比赛结果 本节讨论获胜的解决方案和比赛结果。在评估阶段,我们一共收到了来自 $12$ 个不同团队的 $337$ 份提交。我们在 `表 3` 中报告了前 6 名团队的结果。完整结果可在 [竞赛网站](https://izmailovpavel.github.io/neurips_bdl_competition/) 上获得。 > 表 3:比赛结果。前 6 名参赛团队的各数据集指标结果。 ![Table03](https://xishansnowblog.oss-cn-beijing.aliyuncs.com/images/images/stats-20230103121949-0cf1.webp) ### 2.1 moellenh 团队 【团队成员】:Thomas Mollenhoff、Yuesong Shen、Gian Maria Marconi、Peter Nickl、Mohammad Emtiyaz Khan 【轻量任务】:第一名 【扩展任务】:第一名 moellenh 团队设计了一种 Khan 和 Rue (2021)[10] 中引入的 `贝叶斯学习规则 (BLR)` 方法。该想法围绕多个独立峰值的结构化来构建对参数后验分布的全局近似。他们构建了一个高斯混合的后验近似,其中每个高斯都有一个对角协方差矩阵,并使用了一种类似 `Adam` 的优化器进行估计,该优化器被称为`改进的变分在线牛顿 (iVON)` 方法,最初由 Lin 等(2020)[13]提出。每个高斯分布都是从该方法的独立运行中构建的,并且各高斯分布在混合时采用均匀加权。 moellenh 团队报告称: 在开发阶段的 CIFAR-10 数据集上,所提出的具有单峰值近似的 iVON 方法,达到了 $93.2\%$ 的一致性,而 SGD 基线的一致性为 $91\%$,VoGN 基线(Osawa 等,2019 [18])的一致性为 $91.9\%$。通过考虑对 $8$ 个峰值的混合高斯近似,他们进一步将一致性提高到 $95\%$。 在评估阶段,moellenh 团队在 CIFAR 和 UCI 数据集上取得了所有团队中最好的成绩。对于每个数据集,他们混合使用 $6$ 个独立训练的高斯来近似后验。他们还报告称,通过使用 $16$ 个高斯分布的更昂贵的近似,他们可以超越 `MedMNIST 数据集` 的最佳解决方案,不过超出了训练时间的限制。 ### 2.2. nkotelevskii 和 achille.thin 团队 【团队成员】:Nikita Kotelevskii 和 Achille Thin。 【轻量任务】:第二名(共享)。 【扩展任务】:第二名。 nkotelevskii 和 achille.thin 团队的方法基于 MutiSWAG (Wilson 和 Izmailov,2020 [24])。 MultiSWAG 的思想是构造一个高斯混合后验近似,其中每个高斯是围绕不同峰值对后验的局部近似。在标准 MultiSWAG 中,高斯均值和协方差是从优化轨迹近似得出的:均值是优化迭代的权重的均值,协方差矩阵是对其经验协方差的低秩加对角近似。 nkotelevskii 和 achille.thin 团队修改了 MultiSWAG 以使用 SGLD(Welling 和 Teh,2011 年 [22]),这是一种随机梯度的 MCMC 采样器,不是标准优化器。此外,他们探索了几种用于表示高斯协方差矩阵的新方法:逐层分解和每层具有多个分量的更细粒度的分解。他们的最终解决方案使用了具有不同类型协方差矩阵表示的多个高斯的集成(Ensemble)。 nkotelevskii 和 achille.thin 团队报告称,他们的结果对超参数的选择非常敏感。他们利用了公开可用的开发数据来调整这些超参数以获得最佳结果。 ### 2.3 adelaunoy 团队 【团队成员】:Arnaud Delaunoy 【顾问】:Gilles Louppe 【轻量任务】:第二名(共享)。 【扩展任务】:第三名。 adelaunoy 团队开发了最初由 Pearce 等(2020)[20] 提出的`锚定集成( Anchored Ensembles )` 的扩展版本。锚定集成的想法是在神经网络集成的训练过程中注入噪声,使得集成组件会收敛至来自后验的样本。通过这种方式,该解决方案被正则化以接近从先验采样的点,称为锚点。 adelaunoy 团队修改了锚定集成以提高其计算效率:他们不是从头开始训练每个集成组件,而是从先验获得的解中初始化新的集成组件。在这种情况下,使用 `Guided Walk Metropolis-Hastings MCMC 程序` 抽取锚点,该程序从先验中生成相关样本,以确保锚点彼此靠近,但同时覆盖先验分布。由此产生的过程可以构建一个由 $21$ 名成员组成的集成,其所需时间仅相当于标准锚定集成训练 $2$ 名成员所需的时间。 adelaunoy 团队使用的最终算法使用了独立训练和顺序锚定集成的组合,以实现计算效率和集成多样性的最佳权衡。 ## 3 观察和收获 本节将讨论我们从比赛结果中得出的重要结论和观察结果。 **(1) 所有进入前 5 名的团队都使用某种形式的集成来构建后验的多峰近似。** 尽管在本次比赛中我们衡量的是近似推断的保真度而不是泛化性能,但多个参与者发现:集成可以带来显著的改进。此外,moellenh 团队报告说,标准深度集成为匹配 HMC 预测分布提供了非常强大的基线。Wilson 和 Izmailov (2020) [24] 以及 Izmailov 等 (2021b) [8]也得到了同样的观察。并在博文 [《深度集成作为近似贝叶斯推断》](https://cims.nyu.edu/~andrewgw/deepensembles/) 中进行了详细讨论。这些结果充分表调:我们应该停止将深度集成视为单峰变分推断程序的 “非贝叶斯” 替代方案。事实上,后验的多峰近似应该成为贝叶斯深度学习的新标准,多峰甚至可能比每个峰值内的近似质量更重要。 **(2)参赛方法实现的后验近似质量,高度依赖于超参数。** 多个参与者共享的另一个观察结果是,通过他们的方法实现的后验近似的质量高度依赖于超参数。我们相信,为本次比赛开发的高质量 HMC 参考可用于调整贝叶斯深度学习方法,以在实践中实现高质量的近似推断。 **(3)无限宽神经网络与 HMC 的相似性似乎并不高,需要进一步研究。** 贝叶斯神经网络的无限宽度限制有时也被用作 “基本事实” 推断的代理,因为在回归的某些条件下,这些限制会收敛到一个封闭形式的高斯过程预测分布(例如,Foong 等,2020 年[2];He 等,2020 年 [4])。然而,这些限制产生了与参数贝叶斯神经网络类似物不同的模型,因此不清楚我们期望参数贝叶斯神经网络中的高质量推断,与无限宽网络中的精确推断有多接近。在 UCI 基准(此处唯一允许对无限宽进行封闭形式推断的基准)上,我们发现无限宽与 HMC 的相似性排名最后。进一步比较这些指标是未来工作的一个有趣方向。 **(4)所有方法都难以与 HMC 对损坏数据的预测相匹配。** 我们发现所有提交的方法都难以与 HMC 对损坏数据的预测相匹配。在损坏的 CIFAR-10-C 数据上,所有团队取得的最佳一致性为 $78.7 \%$,而在干净的 CIFAR-10 测试中为 $91.6\%$。我们认为近似推断方法仍有很大的改进空间,我们的比赛提供了一个独特的基准来衡量这一领域的进展。 总之,我们相信该竞赛将为深度学习中近似贝叶斯推断程序的创新和持续基准测试奠定基础。我们收到了来自 $12$ 个活跃团队的 $300$ 多份提交,每个团队都开发了独特的竞赛方法。前 $3$ 名的提交都提出了新颖想法,提供了贝叶斯深度学习中最先进的方法。比赛中使用的数据和 HMC 样本将托管在比赛网站上,为贝叶斯深度学习中的近似推断方法建立永久基准。 如果您发现此基准或 HMC 样本对您的研究有用,请引用 Izmailov 等 (2021b) [8] 和本比赛总结。 ## 参考文献

  • [1] Angelos Filos, Sebastian Farquhar, Aidan N Gomez, Tim G J Rudner, Zachary Kenton, Lewis Smith, Milad Alizadeh, Arnoud de Kroon, and Yarin Gal. Benchmarking bayesian deep learning with diabetic retinopathy diagnosis. 2019.
  • [2] Andrew Foong, David Burt, Yingzhen Li, and Richard Turner. On the expressiveness of approximate inference in bayesian neural networks. Advances in Neural Information Processing Systems, 33:15897–15908, 2020.
  • [3] Andrew YK Foong, Yingzhen Li, Jos ́e Miguel Hern ́andez-Lobato, and Richard E Turner. ’in-between’uncertainty in bayesian neural networks. arXiv preprint arXiv:1906.11537, 2019.
  • [4] Bobby He, Balaji Lakshminarayanan, and Yee Whye Teh. Bayesian deep ensembles via the neural tangent kernel. Advances in Neural Information Processing Systems, 33:1010–1022, 2020.
  • [5] Dan Hendrycks and Thomas Dietterich. Benchmarking Neural Network Robustness to Common Corruptions and Perturbations. ICLR, March 2019.
  • [6] Jose Miguel Hernandez-Lobato and Ryan P. Adams. Probabilistic Backpropagation for Scalable Learning of Bayesian Neural Networks. Proceedings of the 32nd International Conference on Machine Learning, 2015.
  • [7] Pavel Izmailov, Patrick Nicholson, Sanae Lotfi, and Andrew G Wilson. Dangers of bayesian model averaging under covariate shift. Advances in Neural Information Processing Systems, 34, 2021a.
  • [8] Pavel Izmailov, Sharad Vikram, Matthew D Hoffman, and Andrew Gordon Gordon Wilson. What are bayesian neural network posteriors really like? In International Conference on Machine Learning, pages 4629–4640, 2021b.
  • [9] Emtiyaz Khan. Deep learning with Bayesian principles, URL https://www.youtube.com/watch?v=2wFb46Q8kmA. 2019.
  • [10] Mohammad Emtiyaz Khan and H ̊avard Rue. The bayesian learning rule. arXiv preprint arXiv:2107.04562, 2021.
  • [11] Balaji Lakshminarayanan, Alexander Pritzel, and Charles Blundell. Simple and scalable predictive uncertainty estimation using deep ensembles. 2017.
  • [12] Christian Leibig, Vaneeda Allken, Murat Se ̧ckin Ayhan, Philipp Berens, and Siegfried Wahl. Leveraging uncertainty information from deep neural networks for disease detection. 7 (1), 2017.
  • [13] Wu Lin, Mark Schmidt, and Mohammad Emtiyaz Khan. Handling the positive-definite constraint in the bayesian learning rule. In International Conference on Machine Learning, pages 6116–6126. PMLR, 2020.
  • [14] David JC MacKay. Probable networks and plausible predictions?a review of practical Bayesian methods for supervised neural networks. Network: computation in neural systems, 6(3):469–505, 1995.
  • [15] Wesley Maddox, Timur Garipov, Pavel Izmailov, Dmitry Vetrov, and Andrew Gordon Wilson. A simple baseline for bayesian uncertainty in deep learning. 2019.
  • [16] Radford M Neal et al. Mcmc using hamiltonian dynamics. Handbook of markov chain monte carlo, 2(11):2, 2011.
  • [17] R.M. Neal. Bayesian Learning for Neural Networks. Springer Verlag, ISBN 0387947248. 1996.
  • [18] Kazuki Osawa, Siddharth Swaroop, Mohammad Emtiyaz E Khan, Anirudh Jain, Runa Eschenhagen, Richard E Turner, and Rio Yokota. Practical deep learning with bayesian principles. Advances in neural information processing systems, 32, 2019.
  • [19] Yaniv Ovadia, Emily Fertig, Jie Ren, Zachary Nado, D. Sculley, Sebastian Nowozin, Joshua V. Dillon, Balaji Lakshminarayanan, and Jasper Snoek. Can you trust your model’s uncertainty? evaluating predictive uncertainty under dataset shift. 2019.
  • [20] Tim Pearce, Felix Leibfried, and Alexandra Brintrup. Uncertainty in neural networks: Approximately bayesian ensembling. In International conference on artificial intelligence and statistics, pages 234–244. PMLR, 2020.
  • [21] Dustin Tran, Jasper Snoek, and Balaji Lakshminarayanan. Practical uncertainty estimation and out-of-distribution robustness in deep learning, URL https://slideslive.com/38935801/ practical-uncertainty-estimation-outofdistribution-robustness-in-deep-learning. 2020.
  • [22] Max Welling and Yee W Teh. Bayesian learning via stochastic gradient langevin dynamics. In Proceedings of the 28th international conference on machine learning (ICML-11), pages 681–688. Citeseer, 2011.
  • [23] Andrew Gordon Wilson. Bayesian deep learning and a probabilistic perpsective of model construction, URL https://www.youtube.com/watch?v=E1qhGw8QxqY. 2020.
  • [24] Andrew Gordon Wilson and Pavel Izmailov. Bayesian deep learning and a probabilistic perspective of generalization. In Advances in Neural Information Processing Systems, 2020.
  • [25] Jiancheng Yang, Rui Shi, and Bingbing Ni. Medmnist classification decathlon: A lightweight automl benchmark for medical image analysis. arXiv preprint arXiv:2010.14925, 2020.
  • [26] Jiayu Yao, Weiwei Pan, Soumya Ghosh, and Finale Doshi-Velez. Quality of uncertainty quantification for bayesian neural network inference. arXiv preprint arXiv:1906.09686, 2019.