现代神经网络的校准

【摘要】 “信念校准”（预测器输出的概率性预测结果与真实正确结果之间的可代表性纠正问题）对于许多分类模型非常重要。我们发现，与十年前不同，现代神经网络的校准很差。通过大量实验，我们观察到深度、宽度、权重衰减和批量归一化是影响校准的重要因素。我们评估了各种后处理校准方法在图像和文档分类数据集及现代神经网络架构上的性能。我们的分析和实验不仅提供了对神经网络学习的见解，而且还为实际场景提供了一个简单而直接的方法：在大多数数据集上，温度定标法（一种 Platt 定标法 的单参数变体）在校准预测方面非常有效。

【原文】 Guo, C., Pleiss, G., Sun, Y., and Weinberger, K. Q. 2017. On Calibration of Modern Neural Networks. Proceedings of the 34th International Conference on Machine Learning, PMLR, 1321–1330.

【阅后感】本文是近年有关现代神经网络的不确定性校准问题的最重要的一篇文献。作者在总结了分类神经网络中的各种不确定性校准方法后，提出了自己的温度定标法方法，达到了 SOTA 水平。本文可以作为校准领域的一篇综述文章对待。

Outline

创新点：提出了温度定标法方法

研究意义：提高神经网络预测结果信念的准确性。

应用前景：基于不确定性的后续任务，如主动学习、强化学习等应用均可使用。

问题：可以认为是在模型不确定性紊乱时的一种事后标校补救措施。

1. 概述(pdf)

深度学习的最新进展显著提高了神经网络的准确性（Simonyan 和 Zisserman，2015；Srivastava 等人，2015；He 等人，2016；Huang 等人，2016；2017）。因此，神经网络现在被部署在很多应用中以做出复杂的决策，例如对象检测 (Girshick, 2015)、语音识别 (Han-nun et al., 2014) 和医学诊断 (Caruana et al.,2015)。在这些场景中，神经网络是大型决策流程的重要组成部分。在现实世界的决策系统中，分类网络不仅必须保证预测准确，还应该能够指出其结果何时可能不正确。例如：

使用神经网络检测行人和其他障碍物的自动驾驶汽车应用（Bojarski 等，2016 年）。如果网络无法自信地预测是否存在直接障碍物，则汽车应更多地依赖其他传感器的输出进行制动。
在自动化医疗保健中，当疾病诊断网络的信念较低时，控制权就应转交给人类医生（Jiang et al., 2012）。

具体来说，除了作出预测之外，神经网络还应提供校准后的信念（或者不确定性）测量结果。换句话说，与预测的类标签相关的概率（简称为类概率）应该能够真实反映其预测正确的可能性。

信念校准对于模型的可解释性也很重要。人类对概率有一种天然的认知直觉（Cosmides & Tooby，1996）。良好的信念估计能够 为建立用户信任 提供宝贵的附加信息，对于那些难以解释分类决策结果的黑盒神经网络尤其如此。

此外，良好的概率估计可用于将神经网络合并到其他概率模型中。例如：可以通过将网络输出与语音识别中的语言模型（Hannun 等人，2014 年；Xiong 等人，2016 年）或用于对象检测的相机信息（Kendall & Cipolla，2016 年）相结合来提高性能。

2005 年，Niculescu-Mizil & Caruana (2005) 曾表明，神经网络通常在二分类任务中通常会产生经过良好校准的概率。尽管今天的神经网络比十年前更准确了，但我们却惊讶地发现：『现代神经网络不再是良好校准的』。这在 图 1 中进行了可视化，它比较了 CIFAR-100 数据集上的 $5$ 层 LeNet（左）（LeCun 等人，1998）和 $110$ 层 ResNet（右）（He 等人，2016）。顶行以直方图形式显示了 预测信念 的分布，竖的灰色虚线分别对应预测的 信念均值 和预测的 准确度。可以看出，相较于 LeNet，ResNet 大幅提升了准确度，但其预测信念却出现了不同的表现：LeNet 的平均信念与其准确度很接近，而 ResNet 的平均信念远高于其准确度。这在底部行的可靠性图中得到了进一步说明（DeGroot & fienberg, 1983; Niculescu-Mizil & Caruana, 2005），该图将准确性视为信念的函数。我们看到 LeNet 校准良好，因为信念非常接近预期准确度（即柱状图大致沿对角线对齐）。而 ResNet 的准确性更好，但与它的信念不匹配。

在本文中，我们不仅要了解为什么神经网络会出现校准错误，还要确定哪些方法可以缓解此问题。我们在几个计算机视觉和 NLP 任务中均证明了神经网络自身产生的信念不能代表真实概率；我们给出了对校准错误原因的一些观察和直觉（主要在神经网络训练和架构方面）；最后，我们在 SOTA 的神经网络上比较了多种后处理校准方法，并介绍了我们自己的几个扩展。令人惊讶的是，我们发现温度定标法（一种普兰特定标 (Platt et al., 1999) 的单参数变体）通常能够有效获得校准后概率。该方法很容易用现有深度学习框架实现，也很容易地在实际环境中采用。

现代神经网络的校准情况对比

图 1. CIFAR-100 上 $5$ 层 LeNet（左）和 $110$ 层 ResNet（右）的信念直方图（上）和可靠性图（下）。详细说明请参考文字内容。

2. 基本定义

在本文中，主要面向使用神经网络进行有监督多分类的任务场景。

输入 $X \in \mathcal{X}$ 和标签 $Y \in \mathcal{Y} = \{1, \ldots ,K\}$ 服从真实的联合分布 $\pi(X, Y) =\pi(Y|X)\pi(X)$ 。用 $h$ 表示神经网络 $h(X) =(\hat Y, \hat P)$ ，其中 $\hat Y$ 为类预测结果， $\hat P$ 是其信念（即预测正确的概率）。我们希望对信念估计 $\hat P$ 进行校准，这意味着让 $\hat P$ 能够代表真实概率。

例如，给出信念为 $0.8$ 的 $100$ 次预测，则我们期望真实情况确实是其中有 $80$ 次预测是被正确分类的，而不是 $60$ 个或 $85$ 个。更正式地说，我们将完全的校准定义为：

\mathbb{P}(\hat Y = Y \mid \hat P = p) = p,\,\, \forall p \in [0, 1] \tag{1}

在所有实际场景中，实现完全校准是不可能的。另外，因为 $\hat P$ 是一个连续型随机变量，因此式 $(1)$ 中的概率无法用有限个样本来计算。这促使人们寻求能够反映式 $(1)$ 所示校准情况的一些经验近似。

2.1 可靠性图

可靠性图（例如 图 1 底部）是模型校准情况的直观表示（DeGroot 和 Fienberg，1983；Niculescu-Mizil 和 Caruana，2005）。这些图将样本的（预期）准确度绘制为信念的函数。如果模型经过完全校准（即如果 式 (1) 成立），那么可靠性图应该绘制为准确度和信念之间的恒等函数（即完美的对角线）。任何与完美对角线存在偏差的情况，都表示校准错误。

为了估计有限样本的（预期）准确度，我们依据信念将预测划分为 $M$ 个区间（每个大小为 $1/M$ ），然后分别计算每个区间中的准确度。令 $B_m$ 为样本索引集，其索引的所有样本的预测信念均在区间 $I_m = (\frac{m−1}{M}, \frac{m}{M}]$ 内。则区间 $B_m$ 的准确度为：

\operatorname{acc}(B_m) =\frac{1}{|B_m|} \sum_{i \in B_m} 1(\hat{y_i}=y_i)

其中 $\hat {y_i}$ 和 ${y_i}$ 是样本 $i$ 的预测和真实类别标签， $|B_m|$ 为样本数量。基本概率知识告诉我们 $\operatorname{acc}(B_m)$ 是 $\mathbb{P}( \hat Y = Y \mid \hat P \in I_m)$ 的无偏且一致的估计量。

我们将 $B_m$ 内的平均信念定义为：

\operatorname{conf}(B_m) =\frac{1}{|B_m|} \sum_{i∈B_m} \hat{p_i}

其中 $\hat{p_i}$ 是样本 $i$ 的信念。对于 $B_m$ 样本集， $\operatorname{acc}(B_m)$ 和 $\operatorname{conf}(B_m)$ 分别近似于 式 (1) 的左侧和右侧。因此，对于所有区间 $m \in \{1, \ldots ,M \}$ ，一个完全校准的模型应当均有 $\operatorname{acc}(B_m) = \operatorname{conf}(B_m)$ 。

请注意，可靠性图不显示给定区间中样本的比例，因此不能用于估计校准了多少样本，也无法反映样本数据存在偏斜的问题。

2.2 校准误差期望值 (ECE)

可靠性图是有用的可视化工具，但使用一个指标来量化描述校准情况更为方便。

由于直接比较 准确度 和 信念 对应的两个分布的统计量无法照顾到所有方面，所以有工作提出了一些变体，每个变体都有自己特别强调的要素。其中有一种表示平均校准错误的指标：校准误差期望值（Expected Calibration Error, ECE） ，即 信念 和 准确度之间差距（绝对值）的期望值，数学形式为：

\mathbb{E}_{\hat P} \left [ \left | \mathbb{P}(\hat Y = Y \mid \hat P = p) -p \right | \right] \tag{2}

$\operatorname{ECE}$ （Naeini et al., 2015）将预测划分为 $M$ 个等间距区间（类似于可靠性图），并分别计算区间内准确度和信念之间的差值，然后在所有区间上，根据区间内样本的数量做加权平均，以近似 式 (2) 中的校准误差。更确切地说：

\operatorname{ECE} = \sum \limits_{m=1}^{M} \frac{\left | B_m \right |}{n} \left | \operatorname{acc}(B_m) - \operatorname{conf}(B_m) \right | \tag{3}

其中 $n$ 是总样本数。指定区间的 $\operatorname{acc}$ 和 $\operatorname{conf}$ 之间的差异表示校准误差（可靠性图中的红色条部分，例如 图 1）。我们使用 $\operatorname{ECE}$ 作为衡量校准的主要经验性指标。

2.3 最大校准误差 (MCE)

在需要绝对可靠的信念测量的一些高风险应用中，我们可能更关心信念和准确性之间的最坏偏差情况（通常认可一定范围内的偏差，但希望最坏偏差情况能够最小化），相应测度为最大校准误差（Max Calibration Error,MCE）：

\max _{p \in[0,1]}|\mathbb{P}(\hat{Y}=Y \mid \hat{P}=p)-p| \tag{4}

最大校准误差 $\operatorname{MCE}$ (Naeini et al., 2015) 代表偏差的上限。与 $\operatorname{ECE}$ 类似，可以采用分区间形式做统计：

\operatorname{MCE}=\max _{m \in\{1, \ldots, M\}}\left|\operatorname{acc}\left(B_{m}\right)-\operatorname{conf}\left(B_{m}\right)\right| \tag{5}

在可靠性图中， $\operatorname{MCE}$ 测量所有区间的最大校准差（红色条），而 $\operatorname{ECE}$ 测量所有差的加权平均值。对于完全校准的分类器， $\operatorname{MCE}$ 和 $\operatorname{ECE}$ 应当都为 $0$ 。

2.4 负对数似然 (NLL)

负对数似然 $\operatorname{NLL}$ 是概率模型质量的标准测度（Friedman 等人，2001）。它在深度学习背景下也被称为交叉熵损失（Cross Entropy Loss）（Bengio et al., 2015）。给定一个概率模型 $\hat{\pi}(Y \mid X)$ 和 $n$ 个样本， $\operatorname{NLL}$ 定义为：

\mathcal{L}=-\sum_{i=1}^{n} \log \left(\hat{\pi}\left(y_{i} \mid \mathbf{x}_{i}\right)\right)

预期的标准结果是 (Friedman et al., 2001)：当且仅当 $\hat \pi (Y \mid X)$ 恢复真实分布 $\pi (Y \mid X)$ 时， $\operatorname{NLL}$ 为最小值。

3. 校准错误的影响因素

近年来，神经网络的架构和训练程序发展迅速。在本节中，我们确定了导致 图 1 中错误校准现象的一些近期变化。虽然不能断言因果关系，但我们发现模型容量、正则化的缺乏等，都与模型（错误）校准密切相关。

3.1 模型容量的影响

神经网络的模型容量在过去几年中以惊人的速度增长。现在常见的网络有数百甚至数千层（He et al., 2016; Huang et al., 2016）和数百个卷积层（Zagoruyko& Komodakis，2016）。最近的工作表明，非常深或宽的模型能够更好地泛化，同时表现出轻松适应大型训练集的能力（Zhang et al., 2017）。

虽然增加深度和宽度可能会减少分类错误，但我们观察到，它们的增加也会对模型校准带来负面影响。图 2 显示了在 CIFAR-100 上训练的 ResNet 网络误差（蓝色曲线）、 $\operatorname{ECE}$ （红色曲线）与深度、宽度等要素之间的关系。最左图为每层 $64$ 个卷积滤波器的网络在不同深度时的表现；左中图将深度固定为 $14$ 层，并改变每层卷积滤波器的数量（即改变网络宽度）。该图表明，其中即使最小的模型也表现出了一定程度的错误校准，但总体上来说， $\operatorname{ECE}$ 指标随着模型容量的增加而显著增长。

训练阶段，在模型能够正确分类（几乎）所有训练样本后，可以通过增加预测信念来进一步最小化 $\operatorname{NLL}$ 。模型容量的增加会降低训练的 $\operatorname{NLL}$ ，因此平均来说，模型会更加（过度）自信。

神经网络对校准的影响因素

图 2. 网络深度（最左）、宽度（左中）、批量归一化（右中）和权重衰减（最右）对错误校准的影响，采用 $\operatorname{ECE}$ 测度（越低越好）。

3.2 批量归一化的影响

批量归一化 (Ioffe & Szegedy, 2015) 通过 最小化隐藏层中激活的分布偏移 来改进神经网络的优化。最近的研究表明，归一化技术有助于开发非常深的架构，例如 ResNets (He et al., 2016) 和 DenseNets (Huang et al., 2017)。已经表明，批量归一化改进了训练时间，减少了对额外正则化的需求，并且在某些情况下可以提高网络的准确度。

虽然很难准确指出批量归一化如何影响模型的最终预测，但我们确实观察到：使用批量归一化训练的模型往往更容易出现校准错误。在 图 2 的右中图中， $6$ 层的 ConvNet 在应用批量归一化后产生了更差的校准，尽管分类精度略有提高，并且我们发现：无论批量归一化模型上使用的超参数如何（低或高学习率等），该结果都成立。

3.3 权重衰减

权重衰减曾经是神经网络的主要正则化机制，但在训练现代神经网络时正在减少使用。学习理论表明，正则化对于防止过拟合是必要的，特别模型容量增加的时候（Vapnik，1998）。然而，由于批量归一化技术的明显正则化效果，最新的研究似乎表明：那些较少采用 $L2$ 正则化的模型倾向于更好地泛化效果（Ioffe & Szegedy，2015）。因此，现在训练模型时，大多会采用的很小的权重衰减（如果有的话）。2015 年表现最好的那些 ImageNet 模型，都比前几年的模型使用了更小的权重衰减（He et al., 2016; Simonyan & Zisserman, 2015)。

我们发现权重衰减越小的训练，对校准越有负面影响。图 2 中最右侧的图显示了具有不同权重衰减量的 $110$ 层 ResNet 的训练误差和 $\operatorname{ECE}$ 。在其他形式的正则化技术方面，该示例仅采用了数据增强和批量归一化。我们可以观察到：在相同参数设置下，校准和准确度并没有被同步优化。尽管该模型在分类误差方面表现出过度正则和正则不足的情况，但似乎并没有表现出权重衰减过大会对校准产生负面的影响。当添加更多正则化时，模型校准会在达到最佳准确度之后继续改进。图末尾的轻微上升可能是使用了阻碍优化的权重衰减因子而造成的一个假象。

3.4 复对数似然(NLL)

$\operatorname{NLL}$ 可用于间接测量模型校准。在实践中，我们会观察 $\operatorname{NLL}$ 和准确度之间的脱节，这可以解释 图 2 中的错误校准。这种脱节是因为神经网络可以对 $\operatorname{NLL}$ 过拟合而不会对 $0/1$ 损失过拟合。我们在一些校准错误的模型的训练曲线中观察到了这种趋势。图 3 显示了随着训练的进行，CIFAR-100 上的测试误差和测试 $\operatorname{NLL}$ （匹配到了误差的尺度）。当学习率下降时，误差和 $\operatorname{NLL}$ 在第 $250$ 轮明显下降；但是， $\operatorname{NLL}$ 在剩余训练过程中存在过拟合。令人惊讶的是，对 $\operatorname{NLL}$ 的过拟合反而有利于分类准确度。在 CIFAR-100 上，在 $\operatorname{NLL}$ 过拟合的区域，测试误差从 $29\%$ 下降到 $27\%$ 。这种现象给出了错误校准的具体解释：神经网络以良好建模的概率为代价，学习了更好的分类准确度。

我们可以将这一发现与最近检查大型神经网络泛化的工作联系起来。Zhang et al. ( 2017 ) 观察到，深度神经网络似乎违反了对学习理论的普遍理解，即具有很少正则化的大型模型无法很好地泛化。 $\operatorname{NLL}$ 和 $0/1$ 损失之间脱节的现象表明，高容量模型不一定能够避免过拟合，只是部分过拟合表现成了信念误差而非分类误差。

负对数似然

图 3. 训练期间在 CIFAR-100 上具有随机深度的 $110$ 层 ResNet 的测试误差和 $\operatorname{NLL}$。 $\operatorname{NLL}$ 按照一个常数做了尺度缩放以适合该图。在第 250 轮和 375 轮时，学习率下降了 10 倍。在不同轮之间标记的阴影区域表示了最佳的验证损失和最佳的验证误差区间。

4. 校准方法

在本节中，我们首先回顾现有的校准方法，并介绍我们自己的新变体。所有产生（校准后）概率的方法都采用了后处理方式。每种方法都需要保留一个验证集，该验证集可以与用于超参数调整的验证数据集相同。我们假设训练集、验证集和测试集来自相同的数据分布。

4.1 二分类模型的校准

我们首先在二分类场景中引入校准，即 $Y = \{0, 1\}$ 。为简单起见，在本小节中，我们假设模型仅输出正类的信念。即给定样本 $x_i$ ，我们能够得到神经网络预测 $y_i = 1$ 时的概率 $\hat p_i$ ，以及神经网络的非概率输出 $z_i \in \mathbb{R}$ （即 logit ）。预测概率 $\hat{p_i}$ 是从 $z_i$ 通过 sigmoid 函数 $σ$ 导出的，即 $\hat {p_i} = σ(z_i)$ 。我们的目标是生成一个基于 $y_i$ 、 $\hat{p_i}$ 和 $z_i$ 的校准后概率 $\hat {q_i}$ 。

4.1.1 直方图分区法

直方图分区法 是一种简单的非参数校准方法 (Zadrozny & Elkan, 2001) 。简而言之，所有未经过校准的预测结果 $\hat{p}_{i}$ 被划分为互斥的区间 $B_{1}、\ldots、B_{M}$ 。每个区间都分配了一个校准分数 $\theta_{m}$ ，即如果 $\hat{p}_{te}$ 分配给区间 $B_{m}$ ，则校准后的预测 $\hat{q}_{te}=\theta_{m}$ 。在测试时，如果预测信念 $\hat{p}_{t e}$ 落入区间 $B_{m}$ ，则校准后的预测 $\hat{q}_{t e}$ 为 $\theta_{m}$ 。

更精确地，对于一个适当选择的 $M$ （通常较小），我们首先定义区间边界， $0=a_{1} \leq a_{2} \leq \ldots \leq a_{M+1}=1$ ，其中 $B_{m}$ 由区间 $\left(a_{m}, a_{m+1}\right]$ 定义。通常，区间边界要么选择为等长区间，要么使每个区间中的样本数量相等。校准预测 $\theta_{i}$ 的选择以最小化逐区间的平方损失为准则：

\min_{\substack{M \\ \theta_{1}, \ldots, \theta_{M} \\ a_{1}, \ldots, a_{M+1}}} \sum_{m=1}^{M} \sum_{i=1}^{n} \mathbf{I}\left(a_{m} \leq \hat{p}_{i}<a_{m+1}\right)\left(\theta_{m}-y_{i}\right)^{2} \tag{7}

其中 $\mathbf{I}$ 是指示函数。给定固定的区间边界，式 $(7)$ 的解会产生对应于 $B_{m}$ 中正样本平均数量的 $\theta_{m}$ 。

4.1.2 等渗回归

等渗回归可以说是最常见的非参数校准方法 (Zadrozny & Elkan, 2002)，学习一个分段常数函数 $f$ 来对未校准的预测输出做转换；即 $\hat{q}_{i}=f\left(\hat{p}_{i}\right)$ 。具体来说，等渗回归产生能够最小化平方损失 $\sum_{i=1}^{n}\left(f\left(\hat{p}_{i}\right)-y_{i}\right)^{2}$ 的 $f$ 。由于 $f$ 被限制为分段常数，因此可以将优化问题写成：

\min _{\substack{M \\ \theta_{I}, \ldots, \theta_{M} \\ a_{1}, \ldots, a_{M+1}}} \sum_{m=1}^{M} \sum_{i=1}^{n} \mathbf{I}\left(a_{m} \leq \hat{p}_{i}<a_{m+1}\right)\left(\theta_{m}-y_{i}\right)^{2} \tag{8}

其中：

0=a_{1} \leq a_{2} \leq \ldots \leq a_{M+1}=1

\theta_{1} \leq \theta_{2} \leq \ldots \leq \theta_{M}

区间数为 $M$ ； $a_{1}, \ldots, a_{M+1}$ 为区间边界； $\theta_{1}、\ldots、\theta_{M}$ 为函数值。在这种参数化形式下，等渗回归其实是直方图分区法的泛化，其中分区边界和分区预测被一起优化。

4.1.3 贝叶斯分位数分区法（Bayesian Binning into Quantiles, BBQ）

$\operatorname{BBQ}$ 是在直方图分区法基础上，使用了贝叶斯模型平均的扩展方法 (Naeini et al., 2015) 。本质上， $\operatorname{BBQ}$ 边缘化了所有可能的分区方案以产生 $\hat{q}_{i}$ 。更正式地说，分区方案 $s$ 是一对 $(M, \mathcal{I})$ ，其中 $M$ 是分区数， $\mathcal{I}$ 是将 $[0, 1]$ 分成不相交区间的分区方案 $\left(0=a_{1} \leq a_{2} \leq \ldots \leq a_{M+1}=1\right)$ 。分区方案的参数是 $\theta_{1}、\ldots、\theta_{M}$ 。

在这个框架下，直方图分区法和等渗回归法都产生单一的分区方案，而 $\operatorname{BBQ}$ 则考虑了验证数据集 $D$ 的所有可能分区方案空间 $\mathcal{S}$ 。 $\operatorname{BBQ}$ 对每个方案产生的概率进行贝叶斯平均：

\begin{aligned} \mathbb{P}\left(\hat{q}_{t e} \mid \hat{p}_{t e}, D\right) &=\sum_{s \in \mathcal{S}} \mathbb{P}\left(\hat{q}_{t e}, S=s \mid \hat{p}_{t e}, D\right) \\ &=\sum_{s \in \mathcal{S}} \mathbb{P}\left(\hat{q}_{t e} \mid \hat{p}_{t e}, S=s, D\right) \mathbb{P}(S=s \mid D) \tag{9} \end{aligned}

其中 $\mathbb{P}\left(\hat{q}_{te} \mid \hat{p}_{te}, S=s, D\right)$ 是使用了分区方案 $s$ 的校准后概率。使用均匀先验，权重 $\mathbb{P}(S=s \mid D)$ 可以使用贝叶斯法则推导得出：

\mathbb{P}(S=s \mid D)=\frac{\mathbb{P}(D \mid S=s)}{\sum_{s^{\prime} \in \mathcal{S}} \mathbb{P}\left(D \mid S=s^{\prime}\right)} \tag{10}

参数 $\theta_{1}, \ldots, \theta_{M}$ 可以看作是 $M$ 个独立二项分布的参数。因此，通过在 $\theta_{1}, \ldots, \theta_{M}$ 上放置一个 $\operatorname{Beta}$ 先验，我们可以获得边缘似然 $\mathbb{P}(D \mid S=s)$ 的封闭表达式，这允许我们为任何测试输入计算 $\mathbb{P}\left(\hat{q}_{te} \mid \hat{p}_{te}, D\right)$ 。

4.1.4 `Platt` 定标法

与其他方法不同，Platt 定标 是一种用于校准的参数化方法 (Platt et al., 1999) 。分类器的非概率性预测（即 $logit$ ）被用作逻辑斯谛回归模型的特征变量，该逻辑斯谛回归模型在验证集上进行训练以返回校准后概率。

更具体地说，在神经网络的语境中 (Niculescu-Mizil & Caruana, 2005) ，Platt 定标 学习标量参数 $a, b \in \mathbb{R}$ ，并将 $\hat{q}_{i} =\sigma\left(a z_{i}+b\right)$ 作为校准后的概率，其中 $\sigma$ 为 Sigmoid 函数。参数 $a$ 和 $b$ 可以使用验证集上的负对数似然 $\operatorname{NLL}$ 损失进行优化。

需要注意的是，神经网络的参数在校准阶段是已知并固定的。

4.2 多分类模型的校准

对于涉及 $K>2$ 类的分类问题，我们回到问题的数学描述。

神经网络为每个输入 $\mathbf{x}_{i}$ 输出了类别预测 $\hat{y}_{i}$ 和信念 $\hat{p}_{i}$ 。在多分类情况下，神经网络计算得到的 $\text{logits}$ 变成了一个向量 $\mathbf{z}_{i}$ ，预测输出 $\hat{y}_{i}=\operatorname{argmax}_{k} \mathbf{z}_{i}^{(k )}$ ，而信念 $\hat{p}_{i}$ 则通常是使用 softmax 函数 $\sigma_{\text{SM}}$ 导出：

\sigma_{\text{SM}}\left(\mathbf{z}_{i}\right)^{(k)}=\frac{\exp \left(z_{i}^{(k)}\right)}{\sum_{j=1}^{K} \exp \left(z_{i}^{(j)}\right)}, \quad \hat{p}_{i}=\max _{k} \sigma_{\mathrm{SM}}\left(\mathbf{z}_{i}\right)^{(k)} \tag{11}

我们的目标是：基于 $y_{i}$ 、 $\hat{y}_{i}、$ $\hat{p}_{i}$ 和 $\mathbf{z}_{i}$ 生成校准后的信念 $\hat{q}_{i}$ 和类预测（可能是新的） $\hat{y}_{i}^{\prime}$ 。

4.2.1 扩展分区法

将二进制校准方法扩展到多类设置是一种常见方法，该方法将问题视为 $K$ 个一对多问题（Zadrozny & Elkan，2002）。对于某一个 $k\in \{1, \ldots, K\}$ ，我们形成一个二元校准问题，其中标签为 $\mathbf{1}\left(y_{i}=k\right)$ ，预测概率为 $\sigma_{ \mathrm{SM}}\left(\mathbf{z}_{i}\right)^{(k)}$ 。这为我们提供了 $K$ 个校准模型，每个模型都用于特定类别。

在测试时，我们得到一个非归一化的概率向量 $\left[\hat{q}_{i}^{(1)}, \ldots, \hat{q}_{i}^{(K)}\right ]$ ，其中 $\hat{q}_{i}^{(k)}$ 是第 $k$ 类的校准概率。新的类预测 $\hat{y}_{i}^{\prime}$ 是向量的 argmax，新的信念 $\hat{q}_{i}^{\prime}$ 是被 $\sum_{k=1}^{K} \hat{q}_{i}^{(k)}$ 归一化后的向量的最大值。此扩展分区对于直方图分区法、等渗回归法和 $\operatorname{BBQ}$ 法均适用。

4.2.2 矩阵定标和向量定标法

矩阵定标法 和 向量定标法是 Platt 定标法 面向多分类的两种扩展。令 $\mathbf{z}_{i}$ 为输入 $\mathbf{x}_{i}$ 在 softmax 层之前生成的 $\text{logits}$ 向量。矩阵定标法将线性变换 $\mathbf{W} \mathbf{z}_{i}+\mathbf{b}$ 应用于 $\text{logits}$ ：

\begin{aligned} &\hat{q}_{i}=\max _{k} \sigma_{\mathrm{SM}}\left(\mathbf{W} \mathbf{z}_{i}+\mathbf{b}\right)^{(k)}, \\ &\hat{y}_{i}^{\prime}=\underset{k}{\operatorname{argmax}}\left(\mathbf{W} \mathbf{z}_{i}+\mathbf{b}\right)^{(k)} \end{aligned} \tag{12}

参数 $\mathbf{W}$ 和 $\mathbf{b}$ 可以在验证集上针对 $\operatorname{NLL}$ 进行优化。

矩阵定标法的参数数量随类数 $K$ 呈二次方增长。当其中 $\mathbf{W}$ 被限制为对角矩阵时，被称为 向量定标法。

4.2.3 温度定标法

温度定标法 是 Platt 定标法 的简单扩展，它对所有类别仅使用同一个标量参数 $T>0$ 。给定 $\text{logits}$ 向量 $\mathbf{z}_{i}$ ，新的信念将被预测为：

\hat{q}_{i}=\max _{k} \sigma_{\mathrm{SM}}\left(\mathbf{z}_{i} / T\right)^{(k)} \tag{13}

式中的 $T$ 被称为温度。

在 $T > 1$ 时会 “软化” softmax（即提高了输出熵），并且随着 $T \rightarrow \infty$ ，概率 $\hat{q_i}$ 接近 $1/K$ ，代表最大的不确定性。
在 $T = 1$ 时，则恢复到了原始概率 $\hat {p_i}$ 。
当 $T \rightarrow 0$ 时，概率塌缩到一个点质量（即 $\hat{q_i} = 1$ ）。

温度 $T$ 在验证集上针对 $\operatorname{NLL}$ 进行优化。因为参数 $T$ 并没有改变 softmax 函数的最大值，所以类预测结果 $\hat{y_i}$ 保持不变。换句话说，温度定标法并不会影响模型的准确度。

温度定标法通常用于知识蒸馏（Hinton 等人，2015 年）和统计力学（Jaynes，1957 年）等场景中，据我们所知，在校准概率模型的问题域内还没有任何应用。该模型等效于最大化输出概率分布的熵，但要受到 $\text{logits}$ 的某些约束。

4.3 其他相关工作

近年来，校准和信念评分已在很多种情况下进行了研究：

Kuleshov & Ermon (2016) 研究了在线场景中的校准问题，其中输入可能来自潜在的对抗性来源。
Kuleshov & Liang (2015) 研究了当输出空间是结构化对象时如何产生校准后概率。
Lakshminarayanan 等人（2016）使用集成方法来获得不确定性估计。
Pereyra 等人（2017）将过度自信的预测作为正则化的一种形式进行惩罚。
Hendrycks & Gimpel (2017) 使用信念评分来确定样本是否分布不均。

贝叶斯神经网络 (Denker & Lecun, 1990; MacKay, 1992) 可以返回输出的概率分布，是一种可以直接表示模型不确定性的方法。

Gal & Ghahramani (2016) 在 Dropout ( Srivastava et al., 2014) 和模型不确定性之间建立了联系，提出了 MC Dropout，并认为，在给定样本的情况下，具有 Dropout 单元的采样模型是一种能够估计所有可能模型的概率分布的方法。
Kendall & Gal (2017) 使用该方法提出了一个能够输出每个数据点的预测均值和方差的模型。这种不确定性的概念不仅限于分类问题。

与这些方法不同，我们的框架不需要进行模型采样，它直接返回给定输出的信念，而不是返回可能输出的分布。

5. 结果

我们将 第 4 节 中的校准方法应用于图像分类和文档分类神经网络。对于图像分类，我们使用 6 个数据集：

Caltech-UCSD Birds (Welinder et al., 2010)：200 种鸟类。 5994/2897/2897 个图像分别对应训练/验证/测试集。
Stanford Cars（Krause 等人，2013 年）：按品牌、型号和年份划分的 196 类汽车。用于训练/验证/测试的 8041/4020/4020 个图像。
ImageNet 2012 (Deng et al., 2009)：来自 1000 个类别的自然场景图像。 130 万/25,000/25,000 个图像用于训练/验证/测试。
CIFAR-10/CIFAR-100 (Krizhevsky & Hinton, 2009)：来自 10/100 个类别的彩色图像 (32 × 32)。用于训练/验证/测试的 45,000/5,000/10,000 个图像。
Street View House Numbers (SVHN) (Netzer et al.,2011)：来自 Google Street View 的裁剪门牌号码 32 × 32 彩色图像。用于训练/验证/测试的 604,388/6,000/26,032 个图像。

我们训练了最先进的卷积网络：ResNets(He et al., 2016)、ResNets with stochastic depth (SD)(Huang et al., 2016)、Wide ResNets (Zagoruyko & Ko-modakis, 2016)、和 DenseNets (Huang et al., 2017)。我们使用每篇论文中描述的数据预处理、训练程序和超参数。对于鸟类和汽车，我们微调了在 ImageNet 上预训练的网络。

对于文档分类，我们使用 4 个数据集进行实验：

20 News：新闻文章，按内容分为 20 类。 9034/2259/7528 个文件用于训练/验证/测试。
Reuters：新闻文章，按主题分为 8 类。 4388/1097/2189 个文件用于训练/验证/测试。
Stanford Sentiment Treebank (SST) (Socher et al.,2013)：电影评论，表示为由情感注释的句子分析树。每个样本包括一个粗略的二元标签和一个细粒度的 5 类标签。如 (Tai et al., 2015) 中所述，训练/验证/测试集包含 6920/872/1821 个二进制文档和 544/1101/2210 个细粒度文档。

在 20 News 和 Reuters 上，我们使用 3 个前馈层和批量归一化训练深度平均网络 (DAN) (Iyyer 等人，2015)。这些网络使用原始论文建议的优化超参数获得了具有竞争力的准确度。在 SST 上，我们使用作者代码中的默认设置来训练 TreeLSTM（长短期记忆）（Tai 等人，2015）。

视觉和自然语言数据集上的校准表现

表 1：视觉和 NLP 数据集在校准前后的 $\operatorname{ECE}$ （ $M = 15$ ），采用百分数表示。

5.1 校准结果分析

表 1 显示了在应用各种方法之前和之后的模型校准，采用 $\operatorname{ECE}$ （ $M = 15$ ）作为指标。值得注意的是，大多数数据集和模型都存在一定程度的错误校准， $\operatorname{ECE}$ 通常在 $4\%$ 到 $10\%$ 之间。这不是特定于架构的：我们观察到卷积网络（有和没有 skip 连接）、循环网络和深度平均网络上的错误校准。两个值得注意的例外是 SVHN 和 Reuters，它们的 $\operatorname{ECE}$ 值都低于 $1\%$ 。这两个数据集的误差都非常低（分别为 $1.98\%$ 和 $2.97\%$ ）；因此， $\operatorname{ECE}$ 相对于错误的比率与其他数据集相当。

我们最重要的发现是：温度定标法具有惊人的有效性 。

温度定标法 在视觉任务上优于所有其他方法，并且在 NLP 数据集上的表现与其他方法相当。可能更令人惊讶的是，温度定标法甚至优于 向量定标法 和 矩阵定标法，后者严格来说是更通用的方法。事实上，向量定标法 与 温度定标法 是基本相同的解决方案，学习到的向量具有几乎恒定的条目，因此与标量变换没有什么不同。换句话说，神经网络的错误校准本质上是低维的。

唯一没有被温度定标法校准的数据集是 Reuters 数据集。在该情况下，只有上述方法之一能够改进校准。因为这个数据集一开始就经过很好的校准（ $\operatorname{ECE} ≤ 1\%$ ），所以任何方法都没有太大的改进空间，甚至可能不需要后处理。此外，我们的评测指标也有可能受到了 数据集拆分 或 特定分区方案 的影响。

矩阵定标法 在具有数百个类别的数据集（即鸟类、汽车和 CIFAR-100）上表现不佳，并且无法在有 $1000$ 个类别的 ImageNet 数据集上收敛。这是意料之中的，因为需要的参数数量与类数量成二次方关系。任何具有数万（或更多）参数的校准模型在小型验证集上都将过拟合，即便应用正则化后也是一样。

分区法 改进了大多数数据集的校准，但并不优于温度定标法。此外，分区方法会改变类别的预测结果，这会影响准确度。直方图分区间是最简单的分区方法，通常优于等渗回归和 $BBQ$ 方法，尽管这两种方法严格来说都更通用。这进一步支持了我们的发现：校准通常被简单模型纠正。

校准前后的可靠性图对比

图 4: CIFAR-100 校准前（最左侧）和校准后（左中、右中、最右）的可靠性图

5.2 可靠性图

图 4 为 CIFAR-100 上的 $110$ 层 ResNet 网络在校准前后的可靠性图。从最左边的图中，可以看到未校准的 ResNet 网络往往对其预测过于自信。然后可以观察到 温度定标法（左中）、直方图分区法（右中）和 等渗回归法（最右）对校准的影响。所有三种方法都产生了更好的信念估计。在这三种方法中，温度定标法最接近地重建了所需对角线函数。每个分区都得到了很好的校准，考虑到所有的概率仅由一个参数修改，这是非常了不起的。

5.3 计算时间

所有方法的计算时间都随验证集的样本数量线性增长。

温度定标法 是目前最快的方法，因为它相当于一维凸优化问题。使用共轭梯度求解器，可以在 $10$ 次迭代中找到最佳温度，在大多数现代硬件上只需几分之一秒。事实上，即便最简单的最佳温度线性搜索方法，也比任何其他方法快。

向量定标法 和 矩阵定标法 的计算复杂度在类别数量上分别呈线性和二次方增长，这也反映了每种方法的参数数量。对于 CIFAR-100 ( $K = 100$ )，找到具有共轭梯度下降的近似最优向量定标法解决方案需要至少 $2$ 个数量级以上的时间。

直方图分区法和 等渗回归法 比 温度定标法 要涨一个数量级，而 $\operatorname{BBQ}$ 则需要大约 $3$ 个数量级的时间。

5.4 易实施性

$\operatorname{BBQ}$ 可以说是最难实施的，因为它需要实施模型平均的方案。虽然所有其他方法都相对容易实现，但温度定标法可以说是最直接融入神经网络管道流的方法。例如，在 Torch7 (Collobert et al., 2011) 中，我们通过在 $\text{logits}$ 和 softmax 之间插入 ann.MulConstant 来实现温度定标法，其参数为 $1/T$ 。我们在训练期间设置了 $T=1$ ，然后在验证集上找到其最优值。

6. 结论

现代神经网络表现出一种奇怪的现象：分类误差减少的同时，信念误差和校准错误会发生恶化。

我们已经证明，神经网络架构和训练的最新进展，包括 模型容量、归一化 和 正则化，都会对神经网络校准产生很大影响。探讨为何现代神经网络在提高准确性同时会影响校准，仍然是未来的工作。但是，本文采用的简单技术可以有效地纠正神经网络中的错误校准现象，温度定标法 是最简单、最快、最直接的方法，而且通常是最有效的方法，这非常令人惊讶。

参考文献

Bengio, Yoshua, Goodfellow, Ian J, and Courville, Aaron.Deep learning. Nature, 521:436–444, 2015.

Bojarski, Mariusz, Del Testa, Davide, Dworakowski,Daniel, Firner, Bernhard, Flepp, Beat, Goyal, Prasoon,Jackel, Lawrence D, Monfort, Mathew, Muller, Urs,Zhang, Jiakai, et al. End to end learning for self-drivingcars. arXiv preprint arXiv:1604.07316, 2016.

Caruana, Rich, Lou, Yin, Gehrke, Johannes, Koch, Paul,Sturm, Marc, and Elhadad, Noemie. Intelligible modelsfor healthcare: Predicting pneumonia risk and hospital30-day readmission. In KDD, 2015.

Collobert, Ronan, Kavukcuoglu, Koray, and Farabet,Cl´ement. Torch7: A matlab-like environment for ma-chine learning. In BigLearn Workshop, NIPS, 2011.

Cosmides, Leda and Tooby, John. Are humans good intu-itive statisticians after all? rethinking some conclusionsfrom the literature on judgment under uncertainty. cog-nition, 58(1):1–73, 1996.

DeGroot, Morris H and Fienberg, Stephen E. The compar-ison and evaluation of forecasters. The statistician, pp.12–22, 1983.

Deng, Jia, Dong, Wei, Socher, Richard, Li, Li-Jia, Li, Kai,and Fei-Fei, Li. Imagenet: A large-scale hierarchicalimage database. In CVPR, pp. 248–255, 2009.

Denker, John S and Lecun, Yann. Transforming neural-netoutput levels to probability distributions. In NIPS, pp.853–859, 1990.

Friedman, Jerome, Hastie, Trevor, and Tibshirani, Robert.The elements ofstatistical learning, volume 1. Springerseries in statistics Springer, Berlin, 2001.

Gal, Yarin and Ghahramani, Zoubin. Dropout as a bayesianapproximation: Representing model uncertainty in deeplearning. In ICML, 2016.

Girshick, Ross. Fast r-cnn. In ICCV, pp. 1440–1448, 2015.

Hannun, Awni, Case, Carl, Casper, Jared, Catanzaro,Bryan, Diamos, Greg, Elsen, Erich, Prenger, Ryan,Satheesh, Sanjeev, Sengupta, Shubho, Coates, Adam,et al. Deep speech: Scaling up end-to-end speech recog-nition. arXiv preprint arXiv:1412.5567, 2014.

He, Kaiming, Zhang, Xiangyu, Ren, Shaoqing, and Sun,Jian. Deep residual learning for image recognition. InCVPR, pp. 770–778, 2016.

Hendrycks, Dan and Gimpel, Kevin. A baseline for de-tecting misclassiﬁed and out-of-distribution examples inneural networks. In ICLR, 2017.

Hinton, Geoffrey, Vinyals, Oriol, and Dean, Jeff. Distillingthe knowledge in a neural network. 2015.

Huang, Gao, Sun, Yu, Liu, Zhuang, Sedra, Daniel, andWeinberger, Kilian. Deep networks with stochasticdepth. In ECCV, 2016.

Huang, Gao, Liu, Zhuang, Weinberger, Kilian Q, andvan der Maaten, Laurens. Densely connected convolu-tional networks. In CVPR, 2017.

Ioffe, Sergey and Szegedy, Christian. Batch normalization:Accelerating deep network training by reducing internalcovariate shift. 2015.

Iyyer, Mohit, Manjunatha, Varun, Boyd-Graber, Jordan,and Daum´e III, Hal. Deep unordered composition rivalssyntactic methods for text classiﬁcation. In ACL, 2015.

Jaynes, Edwin T. Information theory and statistical me-chanics. Physical review, 106(4):620, 1957.

Jiang, Xiaoqian, Osl, Melanie, Kim, Jihoon, and Ohno-Machado, Lucila. Calibrating predictive model estimatesto support personalized medicine. Journal of the Amer-ican Medical Informatics Association, 19(2):263–274,2012.

Kendall, Alex and Cipolla, Roberto. Modelling uncertaintyin deep learning for camera relocalization. 2016.

Kendall, Alex and Gal, Yarin. What uncertainties do weneed in bayesian deep learning for computer vision?arXiv preprint arXiv:1703.04977, 2017.

Krause, Jonathan, Stark, Michael, Deng, Jia, and Fei-Fei,Li. 3d object representations for ﬁne-grained catego-rization. In IEEE Workshop on 3D Representation andRecognition (3dRR), Sydney, Australia, 2013.

Krizhevsky, Alex and Hinton, Geoffrey. Learning multiplelayers of features from tiny images, 2009.

Kuleshov, Volodymyr and Ermon, Stefano. Reliable con-ﬁdence estimation via online learning. arXiv preprintarXiv:1607.03594, 2016.

Kuleshov, Volodymyr and Liang, Percy. Calibrated struc-tured prediction. In NIPS, pp. 3474–3482, 2015.

Lakshminarayanan, Balaji, Pritzel, Alexander, and Blun-dell, Charles. Simple and scalable predictive uncer-tainty estimation using deep ensembles. arXiv preprintarXiv:1612.01474, 2016.

LeCun, Yann, Bottou, L´eon, Bengio, Yoshua, and Haffner,Patrick. Gradient-based learning applied to documentrecognition. Proceedings of the IEEE, 86(11):2278–2324, 1998.

MacKay, David JC. A practical bayesian framework forbackpropagation networks. Neural computation, 4(3):448–472, 1992.

Naeini, Mahdi Pakdaman, Cooper, Gregory F, andHauskrecht, Milos. Obtaining well calibrated probabili-ties using bayesian binning. In AAAI, pp. 2901, 2015.

Netzer, Yuval, Wang, Tao, Coates, Adam, Bissacco,Alessandro, Wu, Bo, and Ng, Andrew Y. Reading dig-its in natural images with unsupervised feature learning.In Deep Learning and Unsupervised Feature LearningWorkshop, NIPS, 2011.

Niculescu-Mizil, Alexandru and Caruana, Rich. Predictinggood probabilities with supervised learning. In ICML,pp. 625–632, 2005.

Pereyra, Gabriel, Tucker, George, Chorowski, Jan, Kaiser,Łukasz, and Hinton, Geoffrey. Regularizing neuralnetworks by penalizing conﬁdent output distributions.arXiv preprint arXiv:1701.06548, 2017.

Platt, John et al. Probabilistic outputs for support vec-tor machines and comparisons to regularized likelihoodmethods. Advances in large margin classiﬁers, 10(3):61–74, 1999.

Simonyan, Karen and Zisserman, Andrew. Very deep con-volutional networks for large-scale image recognition. InICLR, 2015.

Socher, Richard, Perelygin, Alex, Wu, Jean, Chuang, Ja-son, Manning, Christopher D., Ng, Andrew, and Potts,Christopher. Recursive deep models for semantic com-positionality over a sentiment treebank. In EMNLP, pp.1631–1642, 2013.

Srivastava, Nitish, Hinton, Geoffrey, Krizhevsky, Alex,Sutskever, Ilya, and Salakhutdinov, Ruslan. Dropout: Asimple way to prevent neural networks from overﬁtting.Journal ofMachine Learning Research, 15:1929–1958,2014.

Srivastava, Rupesh Kumar, Greff, Klaus, and Schmid-huber, J¨urgen. Highway networks. arXiv preprintarXiv:1505.00387, 2015.

Tai, Kai Sheng, Socher, Richard, and Manning, Christo-pher D. Improved semantic representations from tree-structured long short-term memory networks. 2015.

Vapnik, Vladimir N. Statistical Learning Theory. Wiley-Interscience, 1998.

Welinder, P., Branson, S., Mita, T., Wah, C., Schroff, F.,Belongie, S., and Perona, P. Caltech-UCSD Birds 200.Technical Report CNS-TR-2010-001, California Insti-tute of Technology, 2010.

Xiong, Wayne, Droppo, Jasha, Huang, Xuedong, Seide,Frank, Seltzer, Mike, Stolcke, Andreas, Yu, Dong,and Zweig, Geoffrey. Achieving human parity inconversational speech recognition.arXiv preprintarXiv:1610.05256, 2016.

Zadrozny, Bianca and Elkan, Charles. Obtaining cal-ibrated probability estimates from decision trees andnaive bayesian classiﬁers. In ICML, pp. 609–616, 2001.

Zadrozny, Bianca and Elkan, Charles. Transforming classi-ﬁer scores into accurate multiclass probability estimates.In KDD, pp. 694–699, 2002.

Zagoruyko, Sergey and Komodakis, Nikos. Wide residualnetworks. In BMVC, 2016.

Zhang, Chiyuan, Bengio, Samy, Hardt, Moritz, Recht, Ben-jamin, and Vinyals, Oriol. Understanding deep learningrequires rethinking generalization. In ICLR, 2017.