Ovadia2019: 评估数据集漂移情况下的预测不确定性

【摘要】包括深度学习在内的现代机器学习方法在监督学习任务的预测准确性方面取得了巨大成功，但在给出预测不确定性的有用估计方面可能仍存在不足。量化不确定性在现实环境中尤为重要，现实环境通常涉及由于样本偏差和非平稳性等多种因素而从训练分布中漂移的输入分布。在这种情况下，经过良好校准的不确定性估计会传达有关何时应该（或不应该）信任模型输出的信息。许多概率深度学习方法，包括贝叶斯和非贝叶斯方法，已在文献中提出用于量化预测不确定性，但据我们所知，以前没有对这些方法在数据集漂移下进行严格的大规模实证比较。我们提出了现有最先进的分类问题方法的大规模基准，并研究了数据集漂移对准确性和校准的影响。我们发现传统的事后校准确实存在不足，其他几种先前的方法也是如此。然而，一些边缘化模型的方法在广泛的任务中给出了令人惊讶的强大结果。

【原文】 Ovadia, Y. et al. (2019) ‘Can You Trust Your Model’s Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift’.

1 简介

最近在多个领域取得的成功导致了深度神经网络 (DNN) 在实践中的广泛部署。因此，这些模型的预测分布越来越多地用于重要应用的决策，从成像的机器学习辅助医学诊断（Esteva 等，2017 年）到自动驾驶汽车（Bojarski 等，2016 年）。这种高风险应用不仅需要点预测，还需要预测不确定性的准确量化，即除了类别预测之外的有意义的置信度值。有了来自目标数据分布的足够多的独立标记样本，就可以估计模型的置信度与其准确性的匹配程度，并相应地调整预测。然而，在实践中，一旦模型被部署，观察数据的分布可能会发生变化，并最终与原始训练数据分布大不相同。例如，考虑数据分布可能随时间、季节性或流行趋势而变化的在线服务。事实上，在分布漂移和分布外 (OOD) 输入条件下的稳健性对于机器学习的安全部署是必要的（Amodei 等，2016 年）。对于此类设置，校准的预测不确定性很重要，因为它可以准确评估风险，让从业者知道准确性可能会如何降低，并允许系统因信心不足而放弃决策

已经开发了多种方法来量化 DNN 中的预测不确定性。混合密度网络等概率神经网络 (MacKay & Gibbs, 1999) 捕获给定输入的输出中固有的模糊性，也称为任意不确定性 (Kendall & Gal, 2017)。贝叶斯神经网络学习量化参数不确定性的参数后验分布，这是一种可以通过收集额外数据来减少的认知不确定性。流行的近似贝叶斯方法包括拉普拉斯近似 (MacKay, 1992)、变分推理 (Graves, 2011; Blundell et al., 2015)、基于 dropout 的变分推理 (Gal & Ghahramani, 2016; Kingma et al., 2015)、期望传播Hern ́ andez-Lobato & Adams (2015) 和随机梯度 MCMC (Welling & Teh, 2011)。非贝叶斯方法包括使用引导程序或集成训练多个概率神经网络（Osband 等，2016 年；Lakshminarayanan 等，2017 年）。另一种流行的非贝叶斯方法涉及通过温度标度（Platt，1999）重新校准保留验证集的概率，这由 Guo 等展示。 (2017) 导致对 i.i.d. 进行良好校准的预测。测试集。

1.1 使用分布漂移评估预测不确定性

虽然之前的工作已经评估了 OOD 输入的预测不确定性的质量（Lakshminarayanan 等，2017），但据我们所知，还没有对数据集漂移下不同方法的不确定性估计进行全面评估。事实上，我们认为在分布漂移的情况下，预测不确定性的有效评估是最有意义的。原因之一是事后校准在独立同分布 (i.i.d.) 方案中提供了良好的结果，但即使在输入数据发生轻微变化的情况下也会失败。如上所述，在现实世界的应用中，分布漂移非常普遍。随着原始训练数据的变化越来越大，了解模型输出的风险、不确定性和信任度问题变得越来越重要。

1.2 贡献

本着呼吁对现有方法有更严格理解的精神（Lipton & Steinhardt，2018 年；Sculley 等，2018 年；Rahimi & Recht，2017 年），本文提供了评估不确定性的基准，该基准不仅关注 i.i.d.分配漂移下的环境和不确定性。我们对概率深度学习中的流行方法进行了大规模评估，重点关注在大规模设置中运行良好的方法，并在跨图像、文本和分类模态的各种分类基准上对其进行评估。我们使用这些实验来评估以下问题：

在数据集漂移的情况下，不同方法的不确定性估计的可信度如何？
在 i.i.d 中进行校准。设置转换为数据集漂移下的校准？
不同方法的不确定性和准确度如何在数据集漂移的情况下共同变化？是否有方法在这种情况下始终表现良好？

除了回答上述问题外，我们的代码与我们的模型预测一起开源，以便研究人员可以轻松地评估他们在这些基准上的方法

2 背景

2.1 符号和问题

设置令 $\boldsymbol{x} \in \mathbb{R}^d$ 表示一组 $d$ 维特征， $y \in \{1,\ldots , k\}$ 表示 $k$ 分类的相应标签（目标）。我们假设训练数据集 $\mathcal{D}$ 由 $N$ 个 i.i.d. 样本 $\mathcal{D} = \{(\boldsymbol{x}, y_n)\}^N_{n=1}$ 组成。

令 $p^{*}(\boldsymbol{x},y)$ 表示真实分布（未知，仅通过样本 $\mathcal{D}$ 观察），也称为数据生成过程。我们专注于分类问题，其中假设真实分布是 $k$ 个类的离散分布，并且观察到的 $y \in \{1, \ldots , k\}$ 是来自条件分布 $p^{*}(y \mid \boldsymbol{x})$ 的样本。我们使用神经网络对 $p_{\boldsymbol{\theta}}(y \mid \boldsymbol{x})$ 建模并使用训练数据集估计参数 $\boldsymbol{\theta}$ 。在测试时，我们根据测试集评估模型预测，测试集是从与训练数据集相同的分布中采样的。然而，在这里我们还根据从 $q(\boldsymbol{x},y) \neq p^{*}(\boldsymbol{x},y)$ 采样的 OOD 输入评估模型。特别是，我们考虑两种漂移：

测试输入的漂移版本，其中真实标签属于 $k$ 类之一。我们使用 Hendrycks & Dietterich (2019) 提出的诸如损坏和扰动之类的漂移，并且理想情况下希望模型预测随着漂移的增加而变得更加不确定，假设漂移会降低准确性。这也称为协变量漂移（Sugiyama 等，2009 年）。
一个完全不同的 OOD 数据集，其中ground truth 标签不是 $k$ 类之一。在这里，我们检查模型是否对这些新实例表现出更高的预测不确定性，并为此报告仅依赖于预测而非真实标签的诊断。

2.2 现有方法的顶层概述

已经开发了多种方法来提供更高质量的不确定性估计或执行 OOD 检测以告知模型置信度。这些大致可以分为：

（1）仅处理 $p(y \mid \boldsymbol{x})$ 的方法，我们将在第 3 节中更详细地讨论这些方法。

（2）对联合分布 $p(y,\boldsymbol{x})$ 建模的方法，例如深度混合模型（Kingma 等，2014 年；Alemi 等，2018 年；Nalisnick 等，2019 年；Behrmann 等，2018 年）。

（3）除 $p(y \mid \boldsymbol{x})$ 外还具有 OOD 检测组件的方法（Bishop，1994；Lee 等，2018；Liang 等，2018），以及选择性分类的相关工作（Geifman & El-Yaniv） , 2017).

我们推荐 Shafaei 等 (2018) 对这些方法的最新综述。由于建模假设的差异，对这些不同类别的方法进行公平比较具有挑战性；例如，一些 OOD 检测方法依赖于已知 OOD 集的知识，或者使用非上述类别进行训练，将这些方法的预测与从贝叶斯 DNN 获得的预测进行比较可能并不总是有意义的。我们专注于上面 (1) 描述的方法，因为这使我们能够专注于对数据做出相同建模假设并且仅在量化预测不确定性方面有所不同的方法。

3 方法和指标

3.1 参测方法

我们从概率深度学习文献中选择了一部分方法，因为它们具有普遍性、可扩展性和实际适用性。这些包括：

传统方法(Vanilla)：最大 softmax 概率 (Hendrycks & Gimpel, 2017)
调温法(Temp Scaling)：使用验证集通过温度缩放进行事后校准 (Guo et al., 2017)
丢弃法(Dropout)： Monte-Carlo Dropout (Gal & Ghahramani , 2016; Srivastava et al., 2015) 丢弃率为 $p$
集成法(Ensembles)： $M$ 个网络的集成使用随机初始化在整个数据集上独立训练 (Lakshminarayanan et al., 2017) (实验中设置 $M = 10$ )
随机变分推断( SVI)：用于深度学习的随机变分贝叶斯推理（Blundell 等，2015 年；Graves，2011 年；Louizos 和 Welling，2017 年、2016 年；Wen 等，2018 年）。有关 SVI 实施的详细信息，请参阅附录 A.6。
最终层近似法(Last Layer): 仅对最后一层参数进行贝叶斯推断（Riquelme 等，2018）-（LL SVI）仅对最后一层进行平均场随机变分推断-（LL Dropout）仅对最后一层之前的激活进行丢弃

3.2 评测指标

（1）正确评分规则

除了不依赖于预测不确定性的指标之外（比如分类准确率 $\uparrow$ ，我们用箭头表示哪个方向更好），常用的指标如下：

负对数似然 (NLL) $\downarrow$ ：通常用于评估某些预留数据集上模型不确定性的质量。缺点：虽然是一个正确评分规则 (Gneiting & Raftery, 2007 ^[16])，但它会过分强调尾部概率 (Quinonero-Candela et al., 2006) ^[47]。
Brier Score $\downarrow$ (Brier, 1950)^[7] 衡量预测概率准确性的正确评分规则。它被计算为预测概率向量 $p(y \mid x_n, \boldsymbol{\theta})$ 和单热编码真实响应 $y_n$ 的平方误差。也就是：

\text{BS} = |\mathcal{Y}|^{-1} \sum_{y \in \mathcal{Y}} \left (p(y \mid \boldsymbol{x}_n, \boldsymbol{\theta}) − \delta (y − y_n) \right)^2 = |\mathcal{Y}|^{-1} \left( 1 − 2p(y_n|\boldsymbol{x}_n, \boldsymbol{\theta}) + \sum_{y \in \mathcal{Y}} p(y \mid \boldsymbol{x}_n, \boldsymbol{\theta})^2 \right) \tag{1}

Brier 分数有一个方便的解释，即 BS = 不确定性 - 分辨率 + 可靠性，其中不确定性是标签的边缘不确定性，分辨率衡量个体预测与边缘的偏差，而可靠性衡量校准作为长期真实标签的平均违反频率。我们参考 DeGroot & Fienberg (1983) ^[11] 将 Brier 分数分解为分类的校准和细化，并参考 (Brocker, 2009)^[8] 对任何适当评分规则的一般分解。缺点：Brier 分数对与发生/频繁事件相关的预测概率不敏感。

（2）非正确评分规则

Brier 分数和负对数似然都是正确评分规则，因此最佳分数对应于完美预测。除了这两个指标，我们还评估了两个指标: 预期校准误差（expected calibration error） 和 熵（entropy）。这些都不是正确评分规则，因此存在产生最佳分数的简单解决方案；例如，返回每个实例的边缘概率 $p(y)$ 将产生完美校准但无信息的预测。每个正确评分规则都会引发一个校准测量（Brocker，2009） ^[8]。然而，ECE 并不是这种分解的结果，也没有相应的正确评分规则；我们改为包括 ECE，因为它被广泛使用且直观。每个正确评分规则也与相应的熵函数相关联，香农熵是对数概率的熵 (Gneiting & Raftery, 2007) ^[16]。

预期校准误差 (ECE) $\downarrow$ : 衡量预测概率与经验准确性之间的对应关系（Naeini 等，2015 年 ^[42]）。它被计算为 $S$ 个桶 $B_s = \{n \in 1 \ldots N : p(y_n|\boldsymbol{x}_n, \boldsymbol{\theta}) \in (ρ_s, ρ_{s+1}]\}$ 的桶内精度和桶内预测概率之间的平均差距。即 $\text{ECE} = \sum^{S}_{s=1} \frac{|B_s|}{N} |\text{acc}(B_s) − \text{conf}(B_s)|$ ，其中 $\text{acc}(B_s ) = |B_s|^{-1} \sum_{n\in B_s} [y_n = \hat{y}_n]$ ， $\text{conf}(B_s) = |B_s|^{-1} \sum_{n \in B_s} p(\hat{y}_n | \boldsymbol{x}_n, \boldsymbol{\theta})$ ， $\hat{y}_n = \arg \max_y p( y \mid \boldsymbol{x}_n, \boldsymbol{\theta})$ 是第 $n$ 个预测。当桶 $\{ρ_s : s \in 1 \ldots S\}$ 是保留预测概率的分位数时， $|B_s| \approx |B_k|$ 并且估计误差近似恒定. 缺点：由于分桶，ECE 不会随着预测接近真实值而单调增加。如果 $|B_s| \neq |B_k|$ ，则估计误差会因桶而异。
熵：完全 OOD 输入没有基本事实标签。因此，我们报告了已知和 OOD 输入的置信度直方图和预测熵以及准确性与置信度图（Lakshminarayanan 等，2017 年）^[32]：给定预测 $p(y = k|\boldsymbol{x}_n, \boldsymbol{\theta})$ ，我们将预测标签定义为 $\hat{y}_n = \arg \max_y p(y \mid \boldsymbol{x}_n, \boldsymbol{\theta})$ ，置信度为 $p(y = y \mid \boldsymbol{x}, \boldsymbol{\theta}) = \max_k p(y = k | \boldsymbol{x}_n, \boldsymbol{\theta})$ 。我们过滤掉对应于特定置信度阈值 $τ \in [0, 1]$ 的测试样本，并计算该数据集的准确性。

4 实验与结果

我们在三种不同模式的各种数据集上评估深度学习模型的预测不确定性行为：图像、文本和分类（在线广告）数据。对于每一个，都遵循标准的训练、验证和测试协议，但我们还评估了逐步漂移的数据和 OOD 数据集的结果。我们详细介绍了附录 A 中使用的模型和实现。使用贝叶斯优化（Golovin 等，2017 年）^[17]（ImageNet 除外）的所有方法都调整了超参数，详见附录 A.8。

4.1 一个说明性的例子——MNIST

我们首先使用 MNIST 数据集说明问题设置和实验。我们使用了 LeNet（LeCun 等，1998 年）^[34]架构，并且与所有的实验一样，我们遵循标准的训练、验证、测试和超参数调整协议。然而，我们还计算了逐步漂移的数据（在这种情况下旋转或水平平移的图像越来越多）的预测，并研究了模型预测分布的行为。此外，我们在完全 OOD 数据集 Not-MNIST (Bulatov, 2011)^[9] 上进行预测，并观察模型预测的熵。我们在 图 1 中总结了我们的一些发现并在下面进行讨论。

图 1：MNIST 的结果：1(a) 和 1(b) 显示了准确性和 Brier 分数随着数据的移动越来越大。阴影区域代表超过 10 次运行的标准误差。为了理解准确性和 Brier 分数之间的差异，我们通过查看 1© 和 1(d) 中预测的置信度来探索每种方法的预测分布。我们还在 1(e) 和 1(f) 中探讨了每种方法对完全 OOD 数据的熵和置信度。 SVI 在验证和测试拆分上的准确性较低，但它对数据集转换的鲁棒性明显更强，这可以通过较低的 Brier 分数、较低的总体置信度 1(d) 和较高的转换下预测熵 (1©) 和 OOD 数据来证明(1(e),1(f))。

我们希望看到的：自然地，我们期望模型的准确性随着它对不断变化的数据进行预测而降低，理想情况下，这种准确性的降低将与预测熵的增加同时发生。在训练和验证分布上经过良好校准的模型理想情况下会在移动数据上保持如此。如果校准（ECE 或 Brier 可靠性）保持尽可能一致，从业者和下游任务可以考虑到模型变得越来越不确定。在完全 OOD 数据上，人们会期望预测分布具有高熵。本质上，我们希望预测表明模型“知道它不知道的东西”，因为输入偏离了训练数据分布。

我们观察到的：我们在图 1(a) 和 1(b) 中看到，对于所有测试的方法，准确度肯定会随着漂移的变化而降低，并且很难在该指标上消除歧义。然而，Brier 分数描绘了一幅更清晰的图景，我们看到了方法之间的显著差异，即某些方法的预测质量比其他方法下降得更明显。一个重要的观察结果是，虽然对验证集进行校准会导致对测试集进行良好校准的预测，但它并不能保证对漂移数据进行校准。事实上，几乎所有其他方法（vanilla 除外）在 shift 下的 Brier 分数方面都比最先进的事后校准（温度缩放）表现更好。虽然 SVI 在测试集上的准确度最差，但当出现显著漂移时，它实际上比所有其他方法的表现要好得多。在图 1© 和 1(d) 中，我们查看每种方法的置信度分布，以了解指标之间的差异。我们在图 1(d) 中看到 SVI 总体上具有最低的置信度，但在图 1© 中我们观察到 SVI 在高置信度下给出了最高的准确度（或者相反，自信错误的频率要低得多），这对于高风险的应用程序。大多数方法展示了非常低的熵（图 1(e)），并对完全 OOD 的数据给出了高置信度的预测（图 1(f)），即它们对完全 OOD 数据肯定是错误的。

4.2 图像模型：CIFAR-10 和 ImageNet

我们现在研究在两个基准图像数据集 CIFAR-10 (Krizhevsky, 2009) 和 ImageNet (Deng et al., 2009) 上训练的残差网络 (He et al., 2016) 在分布漂移下的预测分布。我们分别为 CIFAR-10 和 ImageNet 使用 20 层和 50 层 ResNet。对于漂移数据，我们使用 Hendrycks & Dietterich (2019) 介绍的 80 种不同的失真（16 种不同类型，每种有 5 个强度级别，插图参见附录 B）。为了评估 CIFAR-10 模型对完全 OOD 数据的预测，我们使用 SVHN 数据集（Netzer 等，2011）。

图 2：分布偏移下的校准：在 (a) CIFAR-10 和 (b) ImageNet 上所有类型的损坏下准确度和 ECE 的详细比较。对于每种方法，我们显示测试集的平均值，并使用箱线图总结每个偏移强度的结果。每个方框显示四分位数，总结了所有 (16) 种班次类型的结果，而误差条表示不同班次类型的最小值和最大值。图 S4 (CIFAR-10) 和 S5 (ImageNet) 中提供了显示其他指标的图。附录 G 中提供了数值比较表

图 2 总结了 CIFAR-10（顶部）和 ImageNet（底部）在所有 80 种损坏和强度组合中的准确性和 ECE（Hendrycks & Dietterich，2019）。图 3 检查了模型在 CIFAR-10（顶部）和 ImageNet（底部）上的漂移（高斯模糊）和 OOD 数据的预测分布。随着漂移的增加，两个数据集上的分类器都显示出较差的准确性和校准。比较不同方法的准确性，我们看到集成在分布漂移下达到了最高的准确性。比较不同方法的 ECE，我们观察到虽然这些方法对于较小的漂移值实现了相当低的 ECE 值，但对于较大的漂移值，集成优于其他方法。为了测试这个结果是否仅仅是因为集合的总容量更大，我们训练模型时使用了 Vanilla 和 Dropout 方法的两倍数量的过滤器。与相应的低容量模型相比，高容量模型没有显示出更好的中到高漂移精度或校准（见附录 C）。在图 S8 和 S9 中，我们还探讨了在 dropout、SVI 和最后一层方法中使用的样本数量以及集成的大小对 CIFAR-10 的影响。我们发现，虽然将集成规模增加到 50 个确实有所帮助，但集成的大部分收益仅需 5 个模型即可实现。有趣的是，虽然温度缩放对于低漂移值实现了低 ECE，但随着漂移的增加，ECE 显著增加，这表明 i.i.d. 上的校准。验证数据集不保证分布漂移下的校准。（请注意，对于 ImageNet，我们发现仅考虑前 5 个预测类别的类似趋势，请参见图 S5。）此外，结果表明，虽然温度缩放比普通方法有显著帮助，但集成和丢失往往更好。在图 3 中，我们看到集成和丢失在更高的置信度下更准确。然而，在 3© 中，我们看到温度缩放给出了 OOD 数据的最高熵。集成始终具有高精度，但在 OOD 数据上也具有高熵。我们参考附录 C 了解更多结果；图 S4 和 S5 报告了 CIFAR-10 和 ImageNet 的其他指标，例如 Brier 分数（及其组成项），以及增加漂移值的前 5 错误。

图 3：CIFAR-10 和 ImageNet 的结果。左栏：3(a) 和 3(d) 显示准确度作为置信度的函数。中间列：3(b) 和 3(e) 显示了强度 3 的高斯模糊大于给定置信度值的示例数。右列：3© 和 3(f) 显示了来自 CIFAR- 的熵和置信度的直方图在完全不同的数据集 (SVHN) 上训练模型。

总的来说，集成在各个指标上始终表现最佳，而 dropout 始终比温度缩放和最后一层方法表现更好。虽然方法的相对顺序在 CIFAR-10 和 ImageNet 上是一致的（集成表现最好），但顺序与 SVI 表现最好的 MNIST 上的顺序有很大不同。有趣的是，LL-SVI 和 LL-Dropout 在漂移数据集和 SVHN 上的表现比普通方法差。我们还在附录 E 中评估了作为最后一层方法的变分高斯过程，但它并没有优于 LL-SVI 和 LL-Dropout。

4.3 文本模型

继 Hendrycks & Gimpel (2017) 之后，我们在 20newsgroups 数据集 (Lang, 1995) 上训练了 LSTM (Hochreiter & Schmidhuber, 1997)，并评估了模型在分布漂移和 OOD 文本下的稳健性。我们使用偶数类（20 个中的 10 个类）作为分布数据，10 个奇数类作为漂移数据。我们在附录 A.4 中提供了更多详细信息。

当测试数据由分布内和移动或完全 OOD 数据混合组成时，我们会查看置信度与准确性，在本例中为十亿字基准 (LM1B)（Chelba 等，2013 年）。图 4（底行）显示了结果。集成显著优于所有其他方法，并在准确性与置信度之间实现更好的权衡。令人惊讶的是，LL-Dropout 和 LL-SVI 的表现比普通方法差，给出了更高的置信度错误预测，尤其是在完全 OOD 数据上进行测试时。

图 4 报告了分布内数据的预测熵直方图，并将它们与漂移数据集和 OOD 数据集的直方图进行了比较。这反映了每种方法如何通过对熵应用阈值来避免预测。正如预期的那样，大多数方法在完全 OOD 数据集上实现了最高的预测熵，其次是漂移数据集，然后是分布内测试数据集。只有集成在漂移数据上始终具有更高的熵，这解释了为什么它们在图 4 第二行的置信度与准确性曲线上表现最好。分布和漂移或 OOD 数据。虽然 Dropout 和 LL-Dropout 在 in-distribution 上表现相似，但 LL-Dropout 在漂移和 OOD 数据上表现出比 Dropout 更少的不确定性。温度缩放似乎不会显著增加漂移数据的不确定性。

图 4：顶行：分布内（实线）、偏移（虚线）和完全不同的 OOD（虚线）文本示例的预测分布的熵直方图。底行：分别评估分布内和分布内漂移文本示例 (a,b) 以及分布内和 OOD 文本示例 (c,d) 时的置信度分数与准确性和计数。

4.4 具有分类特征的广告点击模型

最后，我们评估了不同方法在 Criteo Display Advertising Challenge 数据集 上的性能，这是一个二元分类任务，由 3700 万个示例组成，每个示例具有 13 个数值特征和 26 个分类特征。我们通过将每个分类特征重新分配给一个随机的新标记来引入漂移，该标记具有一些控制漂移强度的固定概率。这粗略地模拟了在非固定分类特征中观察到的一种变化，因为类别标记随时间出现和消失，例如由于哈希冲突。该模型由具有散列和嵌入式分类特征的 3 隐藏层多层感知器 (MLP) 组成，并实现了大约 0.5 的负对数似然（竞赛获胜者达到 0.44）。由于类别不平衡（约 25% 的示例是正例），我们报告 AUC 而不是分类准确度。

这些实验的结果如图 5 所示。（附录 C 中的图 S7 显示了包括 ECE 和 Brier 分数分解在内的其他结果。）我们观察到，对于大多数漂移值，集成在 AUC 和 Brier 分数方面都更优，其中随着班次的增加，集成与其他方法之间的性能差距通常会增加。两种 Dropout 模型变体在漂移数据上都产生了改进的 AUC，并且 Dropout 在漂移随机化值超过 60% 时的 Brier 分数超过了集成。 SVI 被证明对训练具有挑战性，并且生成的模型一致表现不佳； LL-SVI 表现更好，但总体上没有改进香草模型。引人注目的是，温度标度比 Vanilla 的 Brier 分数更差，这表明验证集上的事后校准实际上会损害数据集漂移下的校准。

图 5：Criteo 的结果：前两个图显示 AUC 和 Brier 分数随着偏移的增加而降低，而后两个图描述了预测置信度的分布及其在 75% 的分类特征随机化时的相应准确度。 SVI 因表现太差而被排除在外。

5 要点和建议

我们提出了对不同方法的大规模评估，这些方法用于量化数据集漂移下跨不同数据模式和架构的预测不确定性。我们的主要信息如下：

随着准确性的提高，无论使用何种方法，不确定性的质量都会随着数据集漂移的增加而不断降低。
更好的 i.i.d. 校准和准确性测试数据集通常不会在数据集漂移（漂移版本以及完全不同的 OOD 数据）下转化为更好的校准。
具有温度标度的事后校准（在 i.i.d 验证上）导致 i.i.d. 上校准良好的不确定性。测试集和较小的漂移值，但随着漂移的增加，将认知不确定性考虑在内的方法明显优于这些方法。
与 Dropout 相比，Last layer Dropout 在漂移和 OOD 数据集上表现出更少的不确定性。
SVI 在 MNIST/CIFAR 上很有前途，但很难在更大的数据集（如 ImageNet）和其他架构（如 LSTM）上工作。
在我们的实验中，方法的相对排序大部分是一致的（MNIST 除外）。 MNIST 上方法的相对排序并不反映它们在其他数据集上的排序。
Deep ensembles 似乎在大多数指标上表现最好，并且对数据集漂移更稳健。我们发现相对较小的整体规模（例如 $M = 5$ ）可能就足够了（附录 D）。
我们还比较了 Ren 等（2019） ^[49] 解决现实世界中具有挑战性的基因组学问题的方法集。我们的观察与论文中的其他实验一致。深度集成表现最好，但与论文中的其他实验一样，仍有很大的改进空间。详见 F 节。

我们希望这个基准对社区有用，并激发更多关于数据集漂移下不确定性的研究，这对现有方法来说似乎具有挑战性。虽然我们只关注预测不确定性的质量，但应用程序可能还需要考虑方法的计算和内存成本；附录 A.9 中的表 S1 讨论了这些成本，性能最好的方法往往更昂贵。降低计算和内存成本，同时在数据集漂移下保持相同的性能，也将是一个关键的研究挑战。

参考文献

[1] Alemi, A. A., Fischer, I., and Dillon, J. V. Uncertainty in the variational information bottleneck. arXiv preprint arXiv:1807.00906, 2018.
[2] Amodei, D., Olah, C., Steinhardt, J., Christiano, P., Schulman, J., and Man ́ e, D. Concrete problems in AI safety. arXiv preprint arXiv:1606.06565, 2016.
[3] Behrmann, J., Duvenaud, D., and Jacobsen, J.-H. Invertible residual networks. arXiv preprint arXiv:1811.00995, 2018.
[4] Bishop, C. M. Novelty Detection and Neural Network Validation. IEE Proceedings-Vision, Image and Signal processing, 141(4):217–222, 1994.
[5] Blundell, C., Cornebise, J., Kavukcuoglu, K., and Wierstra, D. Weight uncertainty in neural networks. In ICML, 2015.
[6] Bojarski, M., Testa, D. D., Dworakowski, D., Firner, B., Flepp, B., Goyal, P., Jackel, L. D., Monfort, M., Muller, U., Zhang, J., Zhang, X., Zhao, J., and Zieba, K. End to end learning for self-driving cars. arXiv preprint arXiv:1604.07316, 2016.
[7] Brier, G. W. Verification of forecasts expressed in terms of probability. Monthly weather review, 1950.
[8] Brocker, J. Reliability, sufficiency, and the decomposition of proper scores. Quarterly Journal of the Royal Meteorological Society, 135(643):1512–1519, 2009.
[9] Bulatov, Y. NotMNIST dataset,URL http://yaroslavvb.blogspot.com/2011/09/notmnist-dataset.html. 2011.
[10] Chelba, C., Mikolov, T., Schuster, M., Ge, Q., Brants, T., Koehn, P., and Robinson, T. One billion word benchmark for measuring progress in statistical language modeling. arXiv preprint arXiv:1312.3005, 2013.
[11] DeGroot, M. H. and Fienberg, S. E. The comparison and evaluation of forecasters. The statistician, 1983.
[12] Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., and Fei-Fei, L. ImageNet: A Large-Scale Hierarchical Image Database. In Computer Vision and Pattern Recognition, 2009.
[13] Esteva, A., Kuprel, B., Novoa, R. A., Ko, J., Swetter, S. M., Blau, H. M., and Thrun, S. Dermatologistlevel classification of skin cancer with deep neural networks. Nature, 542, 1 2017.
[14] Gal, Y. and Ghahramani, Z. Dropout as a Bayesian approximation: Representing model uncertainty in deep learning. In ICML, 2016.
[15] Geifman, Y. and El-Yaniv, R. Selective classification for deep neural networks. In NeurIPS, 2017.
[16] Gneiting, T. and Raftery, A. E. Strictly proper scoring rules, prediction, and estimation. Journal of the American Statistical Association, 102(477):359–378, 2007.
[17] Golovin, D., Solnik, B., Moitra, S., Kochanski, G., Karro, J., and Sculley, D. Google vizier: A service for black-box optimization. In Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 1487–1495. ACM, 2017.
[18] Graves, A. Practical variational inference for neural networks. In NeurIPS, 2011.
[19] Guo, C., Pleiss, G., Sun, Y., and Weinberger, K. Q. On calibration of modern neural networks. In International Conference on Machine Learning, 2017.
[20] He, K., Zhang, X., Ren, S., and Sun, J. Deep residual learning for image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 770–778, 2016.
[21] Hendrycks, D. and Dietterich, T. Benchmarking neural network robustness to common corruptions and perturbations. In ICLR, 2019.
[22] Hendrycks, D. and Gimpel, K. A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks. In ICLR, 2017.
[23] Hensman, J., Matthews, A., and Ghahramani, Z. Scalable variational gaussian process classification. In International Conference on Artificial Intelligence and Statistics. JMLR, 2015.
[24] Hernandez-Lobato, J. M. and Adams, R. Probabilistic Backpropagation for Scalable Learning of Bayesian Neural Networks. In ICML, 2015.
[25] Hochreiter, S. and Schmidhuber, J. Long short-term memory. Neural Comput., 9(8):1735–1780, November 1997.
[26] Kendall, A. and Gal, Y. What uncertainties do we need in Bayesian deep learning for computer vision? In NeurIPS, 2017.
[27] Kingma, D. and Ba, J. Adam: A Method for Stochastic Optimization. In ICLR, 2014.
[28] Kingma, D. P., Mohamed, S., Rezende, D. J., and Welling, M. Semi-supervised learning with deep generative models. In NeurIPS, 2014.
[29] Kingma, D. P., Salimans, T., and Welling, M. Variational dropout and the local reparameterization trick. In NeurIPS, 2015.
[30] Klambauer, G., Unterthiner, T., Mayr, A., and Hochreiter, S. Self-normalizing neural networks. In NeurIPS, 2017.
[31] Krizhevsky, A. Learning multiple layers of features from tiny images. 2009.
[32] Lakshminarayanan, B., Pritzel, A., and Blundell, C. Simple and Scalable Predictive Uncertainty Estimation Using Deep Ensembles. In NeurIPS, 2017.
[33] Lang, K. Newsweeder: Learning to filter netnews. In Machine Learning. 1995.
[34] LeCun, Y., Bottou, L., Bengio, Y., and Haffner, P. Gradient-based learning applied to document recognition. In Proceedings of the IEEE, November 1998.
[35] Lee, K., Lee, K., Lee, H., and Shin, J. A simple unified framework for detecting out-of-distribution samples and adversarial attacks. In NeurIPS, 2018.
[36] Liang, S., Li, Y., and Srikant, R. Enhancing the Reliability of Out-of-Distribution Image Detection in Neural Networks. ICLR, 2018.
[37] Lipton, Z. C. and Steinhardt, J. Troubling trends in machine learning scholarship. arXiv preprint arXiv:1807.03341, 2018.
[38] Louizos, C. and Welling, M. Structured and efficient variational deep learning with matrix Gaussian posteriors. arXiv preprint arXiv:1603.04733, 2016.
[39] Louizos, C. and Welling, M. Multiplicative Normalizing Flows for Variational Bayesian Neural Networks. In ICML, 2017.
[40] MacKay, D. J. Bayesian methods for adaptive models. PhD thesis, California Institute of Technology, 1992.
[41] MacKay, D. J. and Gibbs, M. N. Density Networks. Statistics and Neural Networks: Advances at the Interface, 1999.
[42] Naeini, M. P., Cooper, G. F., and Hauskrecht, M. Obtaining Well Calibrated Probabilities Using Bayesian Binning. In AAAI, pp. 2901–2907, 2015.
[43] Nalisnick, E., Matsukawa, A., Teh, Y. W., Gorur, D., and Lakshminarayanan, B. Hybrid models with deep and invertible features. arXiv preprint arXiv:1902.02767, 2019.
[44] Netzer, Y., Wang, T., Coates, A., Bissacco, A., Wu, B., and Ng, A. Y. Reading Digits in Natural Images with Unsupervised Feature Learning. In NeurIPS Workshop on Deep Learning and Unsupervised Feature Learning, 2011.
[45] Osband, I., Blundell, C., Pritzel, A., and Van Roy, B. Deep exploration via bootstrapped DQN. In NeurIPS, 2016.
[46] Platt, J. C. Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods. In Advances in Large Margin Classifiers, pp. 61–74. MIT Press, 1999.
[47] Quinonero-Candela, J., Rasmussen, C. E., Sinz, F., Bousquet, O., and Sch ̈ olkopf, B. Evaluating predictive uncertainty challenge. In Machine Learning Challenges. Springer, 2006.
[48] Rahimi, A. and Recht, B. An addendum to alchemy, 2017.
[49] Ren, J., Liu, P. J., Fertig, E., Snoek, J., Poplin, R., DePristo, M. A., Dillon, J. V., and Lakshminarayanan, B. Likelihood ratios for out-of-distribution detection. arXiv preprint arXiv:1906.02845, 2019.
[50] Riquelme, C., Tucker, G., and Snoek, J. Deep Bayesian Bandits Showdown: An Empirical Comparison of Bayesian Deep Networks for Thompson Sampling. In ICLR, 2018.
[51] Sculley, D., Snoek, J., Wiltschko, A., and Rahimi, A. Winner’s curse? On pace, progress, and empirical rigor. 2018.
[52] Shafaei, A., Schmidt, M., and Little, J. J. Does Your Model Know the Digit 6 Is Not a Cat? A Less Biased Evaluation of “Outlier” Detectors. ArXiv e-Print arXiv:1809.04729, 2018.
[53] Srivastava, R. K., Greff, K., and Schmidhuber, J. Training Very Deep Networks. In NeurIPS, 2015.
[54] Sugiyama, M., Lawrence, N. D., Schwaighofer, A., et al. Dataset shift in machine learning. The MIT Press, 2009.
[55] Welling, M. and Teh, Y. W. Bayesian Learning via Stochastic Gradient Langevin Dynamics. In ICML, 2011.
[56] Wen, Y., Vicol, P., Ba, J., Tran, D., and Grosse, R. Flipout: Efficient pseudo-independent weight perturbations on mini-batches. arXiv preprint arXiv:1803.04386, 2018.
[57] Wu, A., Nowozin, S., Meeds, E., Turner, R. E., Hernandez-Lobato, J. M., and Gaunt, A. L. Deterministic Variational Inference for Robust Bayesian Neural Networks. In ICLR, 2019.