【摘 要】 黑盒机器学习模型现在常被应用于高风险环境中,例如医疗诊断,这需要量化不确定性以避免模型失败。共形预测是一种用户友好的范式,用于为上述高风险的预测创建统计上严格的不确定性集合(或区间)。至关重要的是,这些集合在数据分布不明确的意义上也是有效的:即使没有分布假设或模型假设,这些集合也具有明确的、非渐近的保证。可以将共形预测与任何已经训练好的模型(例如神经网络)一起使用,以生成能够按照用户指定概率(如 90%90\% )包含基本事实的集合。共形预测易于理解、易于使用并且具备通用性,适用于计算机视觉、自然语言处理、深度强化学习等领域出现的各类问题。本文旨在通过一个自包含的文档,使读者能够理解共形预测和相关无分布不确定性量化技术工作原理。我们将引导读者了解共形预测的实用理论和示例,并描述其对复杂机器学习任务的扩展,包括结构化输出、分布偏移、时间序列、异常值、Dropout 模型等。

【原 文】 Angelopoulos, A. N. and Bates, S.(2021). “A Gentle Introduction to Conformal Prediction and Distribution-Free Uncertainty Quantification”, https://arxiv.org/abs/2107.07511.

【阅后感】 共形预测用经验数据来确定新预测中信念的精确度。给定一个错误概率 ε\varepsilon 和一套将真实标签 yy 预测为估计值 y^\hat{y} 的方法,共形预测可以产生一个以概率 1ε1 \varepsilon 包含 yy 的标签集合( 或区间 ),也就是说,共形预测能够构造一种含置信度的预测器,可以按照用户指定的错误率生成预测集合。共形预测的好处之一是可以逐类地应用,独立保证每个类的错误率。共形预测可以应用于任何能够产生 y^\hat{y} 的方法,如:最近邻方法、支持向量机、岭回归、神经网络等。共形预测非常适用于在线场景,在该场景中,标签将被连续地预测,每个标签都会在下一个标签之前被预测。而其中共形预测最新颖和最有价值的特性是:如果连续性样本是从相同的分布中独立采样的,那么连续性预测在 1ε1-\varepsilon 的时间里都是正确的,即便它们都是建立在累积数据集而非独立数据集基础之上。除了通过独立采样产生连续性样本的模型外,其他在线压缩模型也可以使用共形预测,其中最典型的是被广泛使用的高斯线性模型。

1. 什么是共形预测 ?

共形预测是为任意模型生成预测集合的直接方法。我们通过一个简短、实用的图像分类示例来介绍共形预测的一般性概念和解释。共形预测的顶层轮廓大致包含两步:

  • 预测:我们从一个已完成拟合的预测器(例如神经网络分类器)开始,并称该预测器为 f^\hat{f}
    为了从模型 f^\hat{f} 和校准数据中构造预测集合 C\mathcal{C},需要执行一个校准步骤(只需要几行代码);参见 图 2。该校准步骤如下:

  • 其次,我们不能保证 softmax\text{softmax} 输出是好的;因为它们可能被任意过拟合或以其他方式而不可信。因此,我们没有直接使用 softmax\text{softmax} 输出,而是使用校准集来调整它们的不足之处。

1αP(Ytest C(Xtest ))1α+1n+1(1)1-\alpha \leq \mathbb{P}\left(Y_{\text {test }} \in \mathcal{C}\left(X_{\text {test }}\right)\right) \leq 1-\alpha+\frac{1}{n+1} \tag{1}

校准集包含模型在训练期间从未见过的 n500n \approx 500 个新数据点,这使我们能够对其性能进行更诚实的评估。

预测集合示例

图 1:Imagenet 上的预测集合示例。我们展示了三个越来越难的狐鼠类样本,以及由共形预测得到的预测集合,即 $\mathcal{C}(X_{\text{test}})$。

3.2 校准集大小的影响

  • 计算共形分值
    • 本例中我们将共形分值 si=1f^(Xi)Yis_i=1-\hat{f}\left(X_i\right)_{Y_i} 定义为:『 11 减去真实类的 softmax\text{softmax} 输出』。也就是说,当真实类的 softmax\text{softmax} 输出越低时( 即模型严重错误时 )分值较高。
  • 计算分位数
    • 依据分数集合 s1,,sns_1, \ldots, s_n ,计算其 (n+1)(1α)/n\lceil(n+1)(1-\alpha)\rceil / n 分位数 q^\hat{q} ,其中 $ \lceil\cdot\rceil$ 是上限函数。 q^\hat{q} 本质上是 1α1-\alpha 分位数,此处做了一个小的修正。
  • 构建预测集合
    • 对于每一个新的测试数据点( 即 XtestX_{\text{test}} 已知,但 YtestY_{\text{test}} 未知 ),创建预测集合 C(Xtest )={y:f^(Xtest )y1q^}\mathcal{C}\left( X_{\text {test }}\right)=\left\{ y:\hat{f}\left(X_{\text {test }}\right)_y \geq 1-\hat{q}\right\} ,其中包括了具有足够高 softmax\text{softmax} 输出值的所有可能类别( 参见 图 2 )。

值得注意的是,无论使用什么模型、也无论数据的分布是否已知,该算法都能提供满足 公式 (1) 的预测集合。

共形预测过程及其 Python 代码

🔔 备注:

对预测集合 C\mathcal{C} 的解释

  • C\mathcal{C} 可以被视为一个具有集合类型输出的函数,它接收一个图像,输出一个类别集合,如 图 1 所示。而模型的 softmax\text{softmax} 输出有助于生成该集合。此方法能够为每个特定输入自适应地构造不同的输出集。当模型不确定或图像本质上很难时,该预测集合会变大,而这是我们想要的性质,因为集合大小提供了模型确定性的指标。
  • 此外,C(Xtest )\mathcal{C}\left( X_{\text {test }}\right) 可以被解释为图像 Xtest X_{\text {test }} 可以分配到的一组似是而非的类。
  • 最后,C\mathcal{C} 是有效的,满足 公式 (1)

上述 C\mathcal{C} 的性质可以自然地适用于为回归等其他机器学习问题。

着眼于泛化问题,让我们详细回顾一下分类问题中发生的事情。

  • 首先,我们收到了一个模型,该模型具有内置但启发式的不确定性概念:softmax\text{softmax} 输出。 softmax\text{softmax} 输出试图测量每个类的条件概率;换句话说,softmax\text{softmax} 向量的第 jj 个条目估计 P(Y=jX=x)P(Y = j | X = x),即在已知输入图像 xx 的条件下,是类别 jj 的概率。
    在本文的前几节中,我们几乎只关注共形预测的数据拆分方法,但这不是唯一的方法。在完全共形预测中,我们不拆分数据,这提高了统计效率,因为本身不需要校准集。相反,所有数据都用于拟合模型。另一方面,完全共形预测需要为每个新的测试点和假定的标签重新训练模型,这可能是棘手的。尽管如此,如果数据稀缺且模型易于拟合,读者可能希望使用完全共形和相关方法。此外,对于某些简单类别的模型,可以使用计算技巧来加速完全共形预测并避免为每个假定的标签 y 拟合模型。例如,在线性回归中,Sherman-Morrison-Woodbury 公式可以使读者免于完全重新计算模型。关于全共形预测并使其高效的研究已有数十年的历史,该主题已被 [3] 和 [1] 涵盖。最近的发展见 [77, 78]。

共形预测的许多统计扩展也出现了。此类扩展包括我们之前讨论过的风险控制 [4, 18] 和协变量偏移 [25] 的想法。一个重要且持续的工作领域是分布变化,我们的测试点与我们的校准数据具有不同的分布。例如,[93] 构建了一个对分数函数中已知 f 散度的变化具有鲁棒性的共形过程,并且 [31] 通过不断重新估计共形分位数。 [26] 开创的共形预测的加权版本提供了用于处理不可交换数据的工具,最显着的是缓慢变化的时间序列。除了分布变化之外,最近的统计扩展还解决了一些主题,例如为反事实和个体治疗效果创建可靠的共形预测区间 [94-96]、生存时间的协变量相关下限 [97]、保护校准隐私的预测集合数据[98],以及处理相关数据[99-101]。

  • 首先,调整涉及共形分值的计算,当模型不确定增加时,该分值会增长;但共形分值本身并不构成有效的预测区间。在本例中,共形分值被定义为『 11 减去真实类的 softmax\text{softmax} 输出值』。但更广义含义上来说,共形分值可以是 xxyy 的任何函数。
  • 然后,我们将 qq 近似为所有分值的 1α1 - \alpha 分位数。在这种情况下,分位数有一个简单的解释:当设置 α=0.1\alpha = 0.1 时,至少 90%90\%softmax\text{softmax} 输出真实值高于 1q1 - q

利用上述事实,在测试时,我们获得了新图像 XtestX_{\text{test}}softmax\text{softmax} 输出,并将 softmax\text{softmax} 输出高于 1q1 - q 的所有类收集到预测集合 C(Xtest)\mathcal{C}(X_{\text{test}}) 中。由于真实类 YtestY_{\text{test}}softmax\text{softmax} 输出能够保证处于 1q1 - q 之上,也就是说概率至少为 90%90\%,因此我们最终得到了 公式 (1) 中的保证。

1.1 共形预测的说明

正如我们在备注中所说,共形预测并不特定于 softmax\text{softmax} 输出或分类问题。事实上,共形预测可以看作是一种从任何模型中获取任何启发式不确定性概念并将其转换为严格概念的方法(见下图)。共形预测不关心潜在的预测问题是离散/连续还是分类/回归。

共形预测示意

我们接下来概述一般输入 xx 和输出 yy(不一定是离散的)的共形预测。

  1. 使用预训练模型识别不确定性的启发式概念。
  2. 定义分值函数 s(x,y)Rs(x, y) \in \mathbb{R}(较大的分数表示 xxyy 之间的一致性较差)。
  3. 计算共形分值集合 s1=s(X1,Y1),,sn=s(Xn,Yn)s_1 = s(X_1, Y_1), \ldots, s_n = s(X_n, Y_n) 的第 (n+1)(1α)n\frac{\lceil(n+1)(1−\alpha)\rceil}{n} 分位数,并将定义为 q^\hat{q}
  4. 使用该分位数形成新样本的预测集合:

C(Xtest)={y:s(Xtest,y)q^}(2)\mathcal{C}(X_{\text{test}}) = \{y : s(X_{\text{test}}, y) \leq \hat{q} \} \tag{2}

和以前一样,这些集合满足 公式 (1) 中的有效性性质,适用于任何评分函数和数据分布。下面给出了覆盖范围保证的正式定理:

共形覆盖保证定理

有关包含 公式 (1) 中上限的证明和陈述,请参见附录。我们注意到上面只是共形预测的一种特殊情况,称为『分裂共形预测( Split Conformal Prediction )』。这是共形预测最广泛使用的版本,它将是我们的主要关注点。为了完成完成图景,我们将在第 6 节后面全面描述共形预测,并在第 7 节中概述文献。

评分函数的选择

乍一看,这似乎好得令人难以置信,持怀疑态度的读者可能会问以下问题:

『 如何能够在底层模型不确定性的启发式概念非常糟糕的情况下,构建一个在统计上有效的预测集合?』

让我们给出一些直觉来补充 附录 D 证明中的数学理解。粗略地说,如果分数 sis_i 正确地将输入从模型误差的最低到最高幅度排序,那么对于简单输入,结果集合会更小,而对于困难的输入则更大。 如果分数不好,从某种意义上说,它们不接近这个排名,那么这些集合将毫无用处。例如,如果分数是随机噪声,那么集合将包含标签空间的随机样本,其中该随机样本足够大以提供有效的边缘覆盖。

这说明了关于共形预测的一个重要的基本事实:尽管保证始终成立,但预测集合的有用性主要由评分函数决定

这应该不足为奇:评分函数包含了我们所知道的关于问题和数据的所有信息,包括底层模型本身。例如,在分类问题和回归问题上,应用共形预测之间的主要区别在于分数的选择。单个基础模型也有许多可能的评分函数,它们具有不同的性质。因此,构建正确的评分函数是一项重要的工程选择。接下来,我们将展示几个良好的评分函数示例。

2 共形过程的示例

在本节中,我们给出了在许多环境中应用的共形预测示例,目的是为读者提供一组实际部署和使用的技术。请注意,我们将在本节中仅关注一维 YY,较小的共形分数将对应于更多的模型信念(这样的分数称为不合格分数)。更丰富的设置,例如高维 YY、误差的复杂(或多个)概念,或者不同误差的成本不同,通常需要风险控制语言,如 第 A 节 所述。

2.1 采用自适应预测集合的分类

2.2 共形化的分位数回归

2.3 共形化的标量不确定性估计

2.4 共形贝叶斯

🔔 讨论

正如我们的示例所示,共形预测是一种简单实用的技术,具有许多用例。它也很容易实现并且计算量很小。此外,上述四个示例为用户设计具有各种最优性概念的评分函数提供了路线图,包括平均大小、适应性和贝叶斯风险。还有更多的事情要做——共形预测可以比现在看起来更广泛地应用。我们将在第 4 节概述共形预测对其他预测任务的扩展,例如异常值检测、图像分割、串行时间序列预测等。在讨论这些扩展之前,我们将在标准设置下深入探讨共形预测的诊断,包括条件覆盖的重要话题。

3 评估共形预测

我们在最后两节中学习了如何形成满足严格统计保证的有效预测集合。现在我们将讨论如何评估它们。我们的评估将分为两类之一。

  1. 评估适应性。非常重要的是要记住,具有最小平均集合大小的共形预测过程不一定是最好的。一个好的共形预测程序将以忠实反映模型不确定性的方式给出简单输入的小集和硬输入的大集。共形预测的覆盖保证并不暗示这种适应性,但在共形预测的实际部署中是不可协商的。我们将形式化适应性,探索其后果,并提出实用的算法来评估它。
  2. 正确性检查。正确性检查可帮助您测试是否正确实施了共形预测。我们将凭经验检查覆盖率是否满足定理 1。严格评估此属性是否成立需要仔细考虑真实数据集存在的有限样本可变性。我们为良性波动的大小制定了明确的公式——如果观察到覆盖范围中 1-α 的偏差大于这些公式所规定的,那么实施就存在问题。

我们建议的许多评估都是计算密集型的,并且需要在不同的数据拆分上运行整个共形过程至少 100 次。当分数需要很长时间来计算时,这些评估的原生实现可能会很慢。通过一些简单的计算技巧和战略缓存,我们可以将这个过程加快几个数量级。因此,为了帮助读者,我们将数学描述与代码穿插在一起,以有效地实现这些计算。

3.1 评估适应性

此外,预测集合并不是无分布不确定性量化的唯一重要形式。一种替代形式是共形预测分布,它在回归问题 [76] 中输出响应空间 Y 上的概率分布。最近的工作还解决了通过直方图分箱 [102, 103] 校准不确定性的标量概念以具有概率意义的问题——这就像 Platt 缩放或等渗回归的严格版本。来自共形预测的工具还可用于通过检查评分函数在新数据点上的行为来识别数据分布发生变化的时间。例如,[24] 使用共形预测执行异常值检测,[59, 104] 检测时间序列数据中的变化点,[105] 测试两个数据集之间的协变量偏移,以及 [106] 跟踪预测变量在数据流,以识别其分布中的有害变化(增加风险的变化)何时发生。

3.3 检查正确的覆盖率

4 共形预测的扩展

4.1 组平衡的共形预测

4.2 类条件的共形预测

4.3 共形风险控制

4.4 异常值检测

4.5 协变量偏移下的共形预测

4.6 分布漂移下的共形预测

5 工作实例

5.1 多标签分类

5.2 肿瘤分割

5.3 具有时间序列分布偏移的天气预报

5.4 通过异常值检测识别恶性在线评论

5.5 选择性分类

6 完全共形预测

6.1 完全共形预测

6.2 交叉共形预测、CV+ 和 Jackknife+

7 共形预测的历史

我们希望读者喜欢阅读我们温和的介绍中的技术内容。作为一个 dénouement,我们现在向共形预测的历史致敬。具体来说,我们将追溯与无分布的共形预测相关的技术的历史,即(1)与模型无关,(2)与数据分布无关,以及(3)在有限样本中有效。统计学中还有其他一些工作同样声称“无分布”一词,特别是当它被渐近解释时,例如置换检验 [41]、分位数回归 [9]、秩检验 [42-44],甚至 bootstrap [45, 46]——以下不是这些主题的历史。相反,我们专注于共形预测的祖先和后代。

7.1 缘起

共形预测的故事开始于乌克兰第七大城市以北 63 公里处,位于利沃夫州的采矿小镇切尔沃诺赫拉德,弗拉基米尔·沃夫克 (Vladimir Vovk) 在那里度过了他的童年。弗拉基米尔的父母都是乌克兰血统的医疗专业人员,尽管多年来利沃夫地区多次易手。 Vovk 回忆说,在他早期的教育中,考试很少,成绩主要基于口头回答。他在学校表现出色,最终在乌克兰数学奥林匹克中获得第一名;他还获得了金牌,这意味着他是优秀的中学毕业生之一。可能是因为他早熟,他的数学老师会在课堂上占据他的位置,给他一本以前由 Kvant 的 Isaak Kikoin 和 Andrey Kolmogorov 编辑的杂志,他在那里学习了物理、数学和工程学——见图 18。弗拉基米尔最初参加了莫斯科第二医学研究所(现称为俄罗斯国立研究型医科大学)研究生物控制论,但最终对该计划感到失望,该计划过于强调医学并要求学习解剖学和生理学等课程(“太许多带有奇怪拉丁名字的骨头”)。因此,他再次参加了入学考试,并在莫斯科国立大学的 Mekh-Mat(机械和数学学院)重新开始了学校的学习。在那里的第三年,他成为了安德烈·科尔莫哥洛夫的学生。这是共形预测的种子第一次播下的时候。今天,Vladimir Vovk 与合作者 Alexander Gammerman、Vladimir Vapnik 等人一起被广泛认为是共形预测的共同发明者,我们将很快讨论他们的贡献。首先,我们将传递共形预测的一些历史根源,以及一些与 Vovk 相关的口述历史,如果不写,可能会被遗忘。

Kolmogorov 和 Vovk 在他在密歇根州立大学读本科的余下三年中大约每周见面一次。那时,Kolmogorov 对 Vovk 产生了兴趣,并鼓励他研究困难的数学问题。最终,Vovk 决定研究 Kolmogorov 感兴趣的一个主题:算法上的随机序列,然后被称为集体,并被 Kolmogorov 修改为伯努利序列。

集体的工作始于 20 世纪初,由 Gustav Fechner 的 Kollectivmasslehre [47] 开始,并由 von Mises [48]、Abraham Wald [49]、Alonzo Church [50] 等人显着发展。这些统计学家之间就 von Mises 的公理是否构成了概率的有效基础进行了长时间的辩论,而 Jean Ville 是一个值得注意的反对者 [51]。尽管冯·米塞斯的集体理论有些不复存在,但在此期间产生的数学思想继续对统计学产生广泛的影响,正如我们将看到的那样。对最初关于集体的辩论的更仔细的历史回顾存在于其他地方[50, 52-54]。我们专注于它与共形预测发展的联系。

Kolmogorov 对伯努利序列的兴趣一直持续到 1970 年代和 1980 年代,当时 Vovk 是他的学生。 Vovk 回忆说,在去火车站的路上,Kolmogorov 告诉他(不是用这些确切的话):

“看看你周围;您不仅会看到无限的序列。有有限的序列。”

感觉有限情况实际上很重要,Kolmogorov 通过伯努利序列扩展了集体的想法。

定义 1

正如随机序列研究中的典型情况一样,底层对象本身并不是随机变量序列。相反,Kolmogorov 通过 Kolmogorov 复杂性量化了序列的“典型性”:他询问我们需要编写多长时间的程序才能将其与同一空间中的其他序列区分开来 [55-57]。 Vovk 关于随机序列的第一项工作修改了 Kolmogorov [58] 的定义,以更好地反映抛硬币等事件的随机性。 Vovk 在 [59] 的附录中讨论了伯努利序列的历史,包括 Martin-L ̈of 和 Levin 所做的重要工作。学习伯努利序列理论使 Vovk 更接近于理解有限样本可交换性及其在预测问题中的作用。

在进入现代之前,我们将最后说明早期概率学家的贡献。不合格分数的概念来自(局部)随机性缺陷的想法。考虑序列:00000000000000000000000000000000000000000000000000000000000000000001

使用计算机,我们可以编写一个非常短的程序来识别序列中的“1”,因为它是非典型的——它具有很大的随机性缺陷。但是要识别序列中的任何特定“0”,我们必须指定它的位置,因为它非常典型——它有一个小的随机性缺陷。启发式的理解在这里就足够了,我们将随机性缺陷的正式定义推迟到 [60],避免了图灵机和 Kolmogorov 复杂性的符号。当随机性缺陷很大时,一个点是非典型的,就像我们在第 2 节中讨论的分数一样。这些想法,连同现有的关于容差区间的统计文献 [61-64] 以及与 de Finetti 的可交换性定理相关的工作 [65- [70]形成了共形预测的种子:集体的粗略概念最终变成了可交换性,而随机性缺陷的想法最终变成了不整合。

7.2 进入共形预测

我们现在称为共形预测的框架是由 Vladimir Vovk、Alexander Gammerman、Craig Saunders 和 Vladimir Vapnik 在 1996-1999 年孵化的,首先使用 e-values [71],然后使用 pvalues [5, 72]。几十年来,Vovk 和合作者开发了共形预测的理论和应用。关键时刻包括:
• 2002 年证明,在在线共形预测中,错误概率在时间步长上是独立的[73];
• 2002 年与 Harris Papadopoulos 和 Kostas Proedrou 一起开发的分裂共形预测器 [2];
• Glenn Shafer 在 2003 年 12 月 1 日用 Vovk [1] 编写随机世界中的算法学习时创造了术语“共形预测器”。
• 2003 年 Venn Predictors [74] 的发展(Vovk 说这个想法是在 Dagstuhl 研讨会“Kolmogorov 复杂性与应用”期间在德国的一辆公共汽车上产生的);
• 2012 年共形和概率预测及其应用研讨会 (COPA) 的成立,由 Harris Papadopoulos 及其同事在希腊主办;
• 2012 年创建交叉共形预测器 [39] 和 Venn-Abers 预测器 [75];
• 2017 年共形预测分布的发明[76]。

随机世界中的算法学习 [1],作者 Vovk、Gammerman 和 Glenn Shafer,在第 2 章的参考书目和第 10 章的正文中包含对上述历史的进一步观点。此外,该书的网站链接到几十个关于共形预测和相关主题的技术报告。我们现在帮助读者了解其中的一些关键发展

最近的一些工作希望通过使用噪声对比先验 [94] 或使用校准数据集 [95] 来解决该问题。[96] 的作者使用了 concrete 分布 [97] 来近似 MC Dropout 方法 中的 Bernoulli 参数 [85],允许对其进行优化,从而得到校准更好的后验方差。尽管做出了大量努力,在贝叶斯神经网络的变分推断框架内制定可靠且校准的不确定性估计任务仍然没有得到解决。

在完全共形和分裂共形之间,存在交叉共形预测。在交叉共形预测中,我们将数据分成 K 个折叠(非重叠子集)。对于第 k 个折叠,我们在折叠 1、…、k-1、k + 1、…、K 上训练我们的模型,然后计算折叠 k 的分数。交叉共形预测的优点是我们只需要训练模型 K 次。但是,保证比共形预测更脆弱;见 [39] 和 [79]。

共形预测最近在美国由 Jing Lei、Larry Wasserman 及其同事的开创性工作推广 [3, 80-83]。 Vovk 本人记得 Wasserman 的参与是该领域历史上具有里程碑意义的时刻。特别是,他们在回归 [83] 中进行无分布预测推理的一般框架是一项开创性的工作。在核密度估计和核回归的特殊情况下,他们还创建了完全共形预测的有效近似值 [3, 84]。 Jing Lei 还创建了 Lasso 和弹性网络程序的快速而准确的共形化 [85]。他们的另一个同样重要的贡献是将共形预测介绍给数千名研究人员,包括本文的作者,以及 Rina Barber、Emmanuel Candes、Aaditya Ramdas、Ryan Tibshirani,他们自己最近做出了基础性贡献。其中一些我们已经在第 2 节中涉及,例如自适应预测集合、共形分位数回归、协变量移位共形,以及共形预测作为索引嵌套集的想法 [86]。

该小组还在 Vovk、Lei 和 Wasserman 先前的工作的基础上做了基础工作,限制了无分布条件保证可以存在的条件 [87],这些工作表明,对于任意连续分布,条件覆盖是不可能的 [3, 14, 83]。最近在 [88] 中也对这一事实进行了更细粒度的分析,表明当且仅当 Xtest 分布的有效支持大小小于样本大小的平方时,才能实现消失宽度间隔。

7.3 当前趋势

我们现在更广泛地讨论共形预测和无分布不确定性量化方面的最新工作,为我们在前几节中未讨论的主题提供指针。我们在这里引用的许多论文将是关于无分布方法的新研究的重要起点。

最近的许多论文都集中在设计共形程序以根据特定需求(如小集合大小 [6]、在特征空间区域之间大致平衡的覆盖范围 [4、7、15、27、87、89])具有良好的实际性能,和跨类平衡的错误 [6, 23, 90, 91]。这通常涉及调整共形分数;我们在第 2 节中给出了许多此类调整的示例。良好的共形分数也可以用数据进行训练,以优化更复杂的需求 [92]。

贝叶斯神经网络通常比经典神经网络有更好的校准 [46] [58] [66],其预测出的不确定性与观测误差更加一致。与非贝叶斯神经网络相比,引入贝叶斯方法后模型既不会过度自信,也不会缺乏自信。

到目前为止,我们介绍了设计和训练贝叶斯神经网络的基本理论。但事实上,上述方法很难适用于目前深度学习中使用的大规模架构。最近的研究也表明,只有近似贝叶斯方法才能够得到一个较好的、正确校准的模型和不确定性估计 [46]

开发更好的不确定性估计器可以提高共形预测的实际有效性。关于这个主题的文献太广泛了,甚至无法开始讨论;相反,我们将分位数回归作为一个富有成效的工作的一个例子,它与第 2.2 节中的共形预测很好地融合在一起。

分位数回归首先在 [9] 中提出,并在 [107] 中扩展到局部多项式情况。在足够的规律性下,分位数回归均匀地收敛到真正的分位数函数[107-111]。 Koenker 和合作者 [112, 113] 编写了分位数回归的实用且可访问的参考资料。今天,积极的工作仍在继续,以分析分位数回归的统计特性及其在不同条件下的变体,例如在加法模型 [114] 中,或者在间隔的大小可能与错误覆盖事件相关时改善条件覆盖率 [16]。分位数回归手册 [113] 包含有关此类主题的更多详细信息,并为感兴趣的读者提供了分位数回归回忆录。由于分位数回归渐近地提供具有接近条件覆盖的区间,因此共形化版本也继承了这种良好的行为。

伴随着这样的统计进步,最近出现了共形预测的实际应用浪潮。在[4]中研究了大规模深度学习中的共形预测,重点是图像分类。共形预测的一个引人注目的用例是加快和降低复杂模型的测试时间评估的计算成本 [115, 116]。相同的研究人员在元学习设置中汇集了多个任务的信息,以形成用于小样本预测的紧密预测集合 [117]。更接近最终用户,我们知道共形预测的几个实际应用。 《华盛顿邮报》使用保角预测估计了 2020 年美国总统大选中民主党和共和党的杰出选票数量 [118]。医院的早期临床实验也强调了共形预测在该环境中的效用,尽管真正的部署仍有待实现 [119, 120]。当应用共形预测时,刑事司法系统中算法风险预测的公平性和可靠性会提高(在受控数据集上)[120-122]。最近开发了一个与 scikit-learn 兼容的开源库 MAPIE,用于构建共形预测区间。在共形预测和许多其他应用中,未来还有大量工作要做。

今天,无分布不确定性量化领域仍然很小,但同比增长迅速。机器学习部署的颁布已经引起了人们认为点预测是不够的,并表明我们仍然需要严格的统计推断来做出可靠的决策。世界各地的许多研究人员都关注这一事实,并使用共形预测等无分布的想法创建了新的算法和软件。这些开发项目数量众多且质量上乘,因此大多数评论都已过时。为了跟踪发布的内容,读者可能希望查看 Awesome Conformal Prediction 存储库,它提供了该区域中经常更新的资源列表。

我们将以给读者的个人笔记结束我们的温和介绍——你也可以成为这个故事的一部分。无分布不确定性量化的初级领域有足够的空间进行重大技术贡献。此外,这些概念实用且易于理解;它们可以很容易地在代码中被理解和实现。因此,我们鼓励读者尝试无分布不确定性量化;还有很多事情要做!

参考文献

  • [1] V. Vovk, A. Gammerman, and G. Shafer, Algorithmic Learning in a Random World. Springer, 2005.
  • [2] H. Papadopoulos, K. Proedrou, V. Vovk, and A. Gammerman, “Inductive confidence machines for regression,” in Machine Learning: European Conference on Machine Learning, 2002, pp. 345–356.
  • [3] J. Lei and L. Wasserman, “Distribution-free prediction bands for non-parametric regression,” Journal of the Royal Statistical Society: Series B: Statistical Methodology, pp. 71–96, 2014.
  • [4] A. N. Angelopoulos, S. Bates, J. Malik, and M. I. Jordan, “Uncertainty sets for image classifiers using conformal prediction,” in International Conference on Learning Representations, 2021.
  • [5] V. Vovk, A. Gammerman, and C. Saunders, “Machine-learning applications of algorithmic randomness,” in International Conference on Machine Learning, 1999, pp. 444–453.
  • [6] M. Sadinle, J. Lei, and L. Wasserman, “Least ambiguous set-valued classifiers with bounded error levels,” Journal of the American Statistical Association, vol. 114, pp. 223–234, 2019.
  • [7] Y. Romano, M. Sesia, and E. J. Candes, “Classification with valid and adaptive coverage,” arXiv:2006.02544, 2020.
  • [8] Y. Romano, E. Patterson, and E. Candes, “Conformalized quantile regression,” in Advances in Neural Information Processing Systems, vol. 32, 2019, pp. 3543–3553.
  • [9] R. Koenker and G. Bassett Jr, “Regression quantiles,” Econometrica: Journal of the Econometric Society, vol. 46, no. 1, pp. 33–50, 1978.
  • [10] A. N. Angelopoulos, A. P. Kohli, S. Bates, M. I. Jordan, J. Malik, T. Alshaabi, S. Upadhyayula, and Y. Romano, “Image-to-image regression with distribution-free uncertainty quantification and applications in imaging,” arXiv preprint arXiv:2202.05265, 2022.
  • [11] P. Hoff, “Bayes-optimal prediction with frequentist coverage control,” arXiv:2105.14045, 2021.
  • [12] L. Wasserman, “Frasian inference,” Statistical Science, vol. 26, no. 3, pp. 322–325, 2011.
  • [13] T. Melluish, C. Saunders, I. Nouretdinov, and V. Vovk, “Comparing the bayes and typicalness frameworks,” in European Conference on Machine Learning, Springer, 2001, pp. 360–371.
  • [14] V. Vovk, “Conditional validity of inductive conformal predictors,” in Proceedings of the Asian Conference on Machine Learning, vol. 25, 2012, pp. 475–490.
  • [15] M. Cauchois, S. Gupta, and J. Duchi, “Knowing what you know: Valid and validated confidence sets in multiclass and multilabel prediction,” arXiv:2004.10181, 2020.
  • [16] S. Feldman, S. Bates, and Y. Romano, “Improving conditional coverage via orthogonal quantile regression,” in Advances in Neural Information Processing Systems, 2021.
  • [17] A. N. Angelopoulos, S. Bates, A. Fisch, L. Lei, and T. Schuster, “Conformal risk control,” arXiv preprint arXiv:2208.02814, 2022.
  • [18] A. N. Angelopoulos, S. Bates, E. J. Candes, M. I. Jordan, and L. Lei, “Learn then test: Calibrating predictive algorithms to achieve risk control,” arXiv:2110.01052, 2021.
  • [19] M. A. Pimentel, D. A. Clifton, L. Clifton, and L. Tarassenko, “A review of novelty detection,” Signal Processing, vol. 99, pp. 215–249, 2014.
  • [20] R. A. Fisher, “Design of experiments,” British Medical Journal, vol. 1, no. 3923, p. 554, 1936.
  • [21] E. J. Pitman, “Significance tests which may be applied to samples from any populations,” Supplement to the Journal of the Royal Statistical Society, vol. 4, no. 1, pp. 119–130, 1937.
  • [22] V. Vovk, I. Nouretdinov, and A. Gammerman, “Testing exchangeability on-line,” in Proceedings of the 20th International Conference on Machine Learning (ICML-03), 2003, pp. 768–775.
  • [23] L. Guan and R. Tibshirani, “Prediction and outlier detection in classification problems,” arXiv:1905.04396, 2019.
  • [24] S. Bates, E. Candes, L. Lei, Y. Romano, and M. Sesia, “Testing for outliers with conformal p-values,” arXiv:2104.08279, 2021.
  • [25] R. J. Tibshirani, R. Foygel Barber, E. Candes, and A. Ramdas, “Conformal prediction under covariate shift,” in Advances in Neural Information Processing Systems 32, 2019, pp. 2530–2540.
  • [26] R. F. Barber, E. J. Candes, A. Ramdas, and R. J. Tibshirani, “Conformal prediction beyond exchangeability,” arXiv:2202.13415, 2022.
  • [27] L. Guan, “Conformal prediction with localization,” arXiv:1908.08558, 2020.
  • [28] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Doll ́ar, and C. L. Zitnick, “Microsoft coco: Common objects in context,” in European conference on computer vision, Springer, 2014, pp. 740–755.
  • [29] A. Malinin, N. Band, G. Chesnokov, Y. Gal, M. J. Gales, A. Noskov, A. Ploskonosov, L. Prokhorenkova, I. Provilkov, V. Raina, et al., “Shifts: A dataset of real distributional shift across multiple large-scale tasks,” arXiv preprint arXiv:2107.07455, 2021.
  • [30] A. V. Dorogush, V. Ershov, and A. Gulin, “Catboost: Gradient boosting with categorical features support,” arXiv preprint arXiv:1810.11363, 2018.
  • [31] I. Gibbs and E. Candes, “Adaptive conformal inference under distribution shift,” arXiv:2106.00170, 2021.
  • [32] M. Zaffran, O. F ́eron, Y. Goude, J. Josse, and A. Dieuleveut, “Adaptive conformal predictions for time series,” in International Conference on Machine Learning, PMLR, 2022, pp. 25 834–25 866.
  • [33] I. Gibbs and E. Candes, “Conformal inference for online prediction with arbitrary distribution shifts,” arXiv preprint arXiv:2208.08401, 2022.
  • [34] C. Xu and Y. Xie, “Conformal prediction interval for dynamic time-series,” in International Conference on Machine Learning, PMLR, 2021, pp. 11 559–11 569.
  • [35] L. Hanu and Unitary team, Detoxify, Github. https://github.com/unitaryai/detoxify, 2020.
  • [36] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “Bert: Pre-training of deep bidirectional transformers for language understanding,” arXiv preprint arXiv:1810.04805, 2018.
  • [37] P. W. Koh, S. Sagawa, H. Marklund, S. M. Xie, M. Zhang, A. Balsubramani, W. Hu, M. Yasunaga, R. L. Phillips, I. Gao, et al., “Wilds: A benchmark of in-the-wild distribution shifts,” in International Conference on Machine Learning, PMLR, 2021, pp. 5637–5664.
  • [38] G. Shafer and V. Vovk, “A tutorial on conformal prediction,” Journal of Machine Learning Research, vol. 9, no. Mar, pp. 371–421, 2008.
  • [39] V. Vovk, “Cross-conformal predictors,” Annals of Mathematics and Artificial Intelligence, vol. 74, no. 1-2, pp. 9–28, 2015.
  • [40] R. F. Barber, “Is distribution-free inference possible for binary regression?” arXiv:2004.09477, 2020.
  • [41] E. Chung and J. P. Romano, “Exact and asymptotically robust permutation tests,” The Annals of Statistics, vol. 41, no. 2, pp. 484–507, 2013.
  • [42] H. B. Mann and D. R. Whitney, “On a test of whether one of two random variables is stochastically larger than the other,” The Annals of Mathematical Statistics, pp. 50–60, 1947.
  • [43] E. L. Lehmann, “The power of rank tests,” The Annals of Mathematical Statistics, pp. 23–43, 1953.
  • [44] Z. Sidak, P. K. Sen, and J. Hajek, Theory of rank tests. Elsevier, 1999.
  • [45] B. Efron and R. J. Tibshirani, An introduction to the bootstrap. CRC press, 1994.
  • [46] S. Chatterjee and P. Qiu, “Distribution-free cumulative sum control charts using bootstrap-based control limits,” The Annals of Applied Statistics, vol. 3, no. 1, pp. 349–369, 2009.
  • [47] G. T. Fechner, Kollektivmasslehre. Engelmann, 1897.
  • [48] R. von Mises, “Grundlagen der wahrscheinlichkeitsrechnung,” Mathematische Zeitschrift, vol. 5, no. 1, pp. 52–99, 1919.
  • [49] A. Wald, “Die widerspruchfreiheit des kollectivbegriffes der wahrscheinlichkeitsrechnung,” Ergebnisse Eines Mathematischen Kolloquiums, vol. 8, no. 38-72, p. 37, 1937.
  • [50] A. Church, “On the concept of a random sequence,” Bulletin of the American Mathematical Society, vol. 46, no. 2, pp. 130–135, 1940.
  • [51] J. Ville, “Etude critique de la notion de collectif,” Bull. Amer. Math. Soc, vol. 45, no. 11, p. 824, 1939.
  • [52] G. Shafer and V. Vovk, “The sources of Kolmogorov’s Grundbegriffe,” Statistical Science, vol. 21, no. 1, pp. 70–98, 2006.
  • [53] V. Vovk, “Kolmogorov’s complexity conception of probability,” Synthese Library, pp. 51–70, 2001.
  • [54] C. P. Porter, “Kolmogorov on the role of randomness in probability theory,” Mathematical Structures in Computer Science, vol. 24, no. 3, 2014.
  • [55] A. N. Kolmogorov, “Three approaches to the quantitative definition of information,” Problems of Information Transmission, vol. 1, no. 1, pp. 1–7, 1965.
  • [56] A. Kolmogorov, “Logical basis for information theory and probability theory,” IEEE Transactions on Information Theory, vol. 14, no. 5, pp. 662–664, 1968.
  • [57] A. N. Kolmogorov, “Combinatorial foundations of information theory and the calculus of probabilities,” Russian Mathematical Surveys, vol. 38, no. 4, pp. 29–40, 1983.
  • [58] V. G. Vovk, “On the concept of the Bernoulli property,” Russian Mathematical Surveys, vol. 41, no. 1, p. 247, 1986.
  • [59] V. Vovk, “Testing randomness online,” Statistical Science, vol. 36, no. 4, pp. 595–611, 2021.
  • [60] F. Mota, S. Aaronson, L. Antunes, and A. Souto, “Sophistication as randomness deficiency,” in International Workshop on Descriptional Complexity of Formal Systems, Springer, 2013, pp. 172181.
  • [61] S. S. Wilks, “Determination of sample sizes for setting tolerance limits,” Annals of Mathematical Statistics, vol. 12, no. 1, pp. 91–96, 1941.
  • [62] ——, “Statistical prediction with special reference to the problem of tolerance limits,” Annals of Mathematical Statistics, vol. 13, no. 4, pp. 400–409, 1942.
  • [63] A. Wald, “An extension of Wilks’ method for setting tolerance limits,” Annals of Mathematical Statistics, vol. 14, no. 1, pp. 45–55, 1943.
  • [64] J. W. Tukey, “Non-parametric estimation II. Statistically equivalent blocks and tolerance regions–the continuous case,” Annals of Mathematical Statistics, vol. 18, no. 4, pp. 529–539, 1947.
  • [65] P. Diaconis and D. Freedman, “Finite exchangeable sequences,” The Annals of Probability, pp. 745764, 1980.
  • [66] D. J. Aldous, “Exchangeability and related topics,” in ́ Ecole d’ ́ Et ́e de Probabilit ́es de Saint-Flour XIII—1983, 1985, pp. 1–198.
  • [67] B. De Finetti, “Funzione caratteristica di un fenomeno aleatorio,” in Atti del Congresso Internazionale dei Matematici: Bologna del 3 al 10 de Settembre di 1928, 1929, pp. 179–190.
  • [68] D. A. Freedman, “Bernard Friedman’s urn,” The Annals of Mathematical Statistics, pp. 956–970, 1965.
  • [69] E. Hewitt and L. J. Savage, “Symmetric measures on Cartesian products,” Transactions of the American Mathematical Society, vol. 80, no. 2, pp. 470–501, 1955.
  • [70] J. F. Kingman, “Uses of exchangeability,” The Annals of Probability, vol. 6, no. 2, pp. 183–197, 1978.
  • [71] A. Gammerman, V. Vovk, and V. Vapnik, “Learning by transduction,” Proceedings of the Fourteenth Conference on Uncertainty in Artificial Intelligence, vol. 14, pp. 148–155, 1998.
  • [72] C. Saunders, A. Gammerman, and V. Vovk, “Transduction with confidence and credibility,” 1999.
  • [73] V. Vovk, “On-line confidence machines are well-calibrated,” in The 43rd Annual IEEE Symposium on Foundations of Computer Science, IEEE, 2002, pp. 187–196.
  • [74] V. Vovk, G. Shafer, and I. Nouretdinov, “Self-calibrating probability forecasting.,” in Neural Information Processing Systems, 2003, pp. 1133–1140.
  • [75] V. Vovk and I. Petej, “Venn-Abers predictors,” arXiv:1211.0025, 2012.
  • [76] V. Vovk, J. Shen, V. Manokhin, and M.-g. Xie, “Nonparametric predictive distributions based on conformal prediction,” Machine Learning, pp. 1–30, 2017.
  • [77] E. Ndiaye and I. Takeuchi, “Computing full conformal prediction set with approximate homotopy,” in Advances in Neural Information Processing Systems, 2019.
  • [78] ——, “Root-finding approaches for computing conformal prediction set,” arXiv:2104.06648, 2021.
  • [79] R. F. Barber, E. J. Candes, A. Ramdas, and R. J. Tibshirani, “Predictive inference with the jackknife+,” The Annals of Statistics, vol. 49, no. 1, pp. 486–507, 2021.
  • [80] J. Lei, J. Robins, and L. Wasserman, “Efficient nonparametric conformal prediction regions,” arXiv:1111.1418, 2011.
  • [81] ——, “Distribution-free prediction sets,” Journal of the American Statistical Association, vol. 108, no. 501, pp. 278–287, 2013.
  • [82] B. P ́oczos, A. Singh, A. Rinaldo, and L. Wasserman, “Distribution-free distribution regression,” in Artificial Intelligence and Statistics, PMLR, 2013, pp. 507–515.
  • [83] J. Lei, M. G’Sell, A. Rinaldo, R. J. Tibshirani, and L. Wasserman, “Distribution-free predictive inference for regression,” Journal of the American Statistical Association, vol. 113, no. 523, pp. 10941111, 2018.
  • [84] J. Lei, A. Rinaldo, and L. Wasserman, “A conformal prediction approach to explore functional data,” Annals of Mathematics and Artificial Intelligence, vol. 74, pp. 29–43, 2015.
  • [85] J. Lei, “Fast exact conformalization of the lasso using piecewise linear homotopy,” Biometrika, vol. 106, no. 4, pp. 749–764, 2019.
  • [86] C. Gupta, A. K. Kuchibhotla, and A. Ramdas, “Nested conformal prediction and quantile out-of-bag ensemble methods,” Pattern Recognition, p. 108 496, 2021.
  • [87] R. Foygel Barber, E. J. Candes, A. Ramdas, and R. J. Tibshirani, “The limits of distribution-free conditional predictive inference,” Information and Inference: A Journal of the IMA, vol. 10, no. 2, pp. 455–482, 2021.
  • [88] Y. Lee and R. F. Barber, “Distribution-free inference for regression: Discrete, continuous, and in between,” arXiv:2105.14075, 2021.
  • [89] R. Izbicki, G. Shimizu, and R. Stern, “Flexible distribution-free conditional predictive bands using density estimators,” in Proceedings of Machine Learning Research, vol. 108, PMLR, 2020, pp. 30683077.
  • [90] J. Lei, “Classification with confidence,” Biometrika, vol. 101, no. 4, pp. 755–769, Oct. 2014.
  • [91] Y. Hechtlinger, B. Poczos, and L. Wasserman, “Cautious deep learning,” arXiv:1805.09460, 2018.
  • [92] D. Stutz, K. D. Dvijotham, A. T. Cemgil, and A. Doucet, “Learning optimal conformal classifiers,” in International Conference on Learning Representations, 2022.
  • [93] M. Cauchois, S. Gupta, A. Ali, and J. C. Duchi, “Robust validation: Confident predictions even when distributions shift,” arXiv:2008.04267, 2020.
  • [94] L. Lei and E. J. Candes, “Conformal inference of counterfactuals and individual treatment effects,” arXiv:2006.06138, 2020.
  • [95] M. Yin, C. Shi, Y. Wang, and D. M. Blei, “Conformal sensitivity analysis for individual treatment effects,” arXiv:2112.03493, 2021.
  • [96] V. Chernozhukov, K. W ̈ uthrich, and Y. Zhu, “An exact and robust conformal inference method for counterfactual and synthetic controls,” Journal of the American Statistical Association, pp. 1–16, 2021.
  • [97] E. J. Candes, L. Lei, and Z. Ren, “Conformalized survival analysis,” arXiv:2103.09763, 2021.
  • [98] A. N. Angelopoulos, S. Bates, T. Zrnic, and M. I. Jordan, “Private prediction sets,” arXiv:2102.06202, 2021.
  • [99] V. Chernozhukov, K. W ̈ uthrich, and Z. Yinchu, “Exact and robust conformal inference methods for predictive machine learning with dependent data,” in Conference On Learning Theory, PMLR, 2018, pp. 732–749.
  • [100] R. Dunn, L. Wasserman, and A. Ramdas, “Distribution-free prediction sets with random effects,” arXiv:1809.07441, 2018.
  • [101] R. I. Oliveira, P. Orenstein, T. Ramos, and J. V. Romano, “Split conformal prediction for dependent data,” arXiv:2203.15885, 2022.
  • [102] C. Gupta and A. Ramdas, “Distribution-free calibration guarantees for histogram binning without sample splitting,” in International Conference on Machine Learning, vol. 139, 2021, pp. 3942–3952.
  • [103] S. Park, S. Li, O. Bastani, and I. Lee, “PAC confidence predictions for deep neural network classifiers,” in International Conference on Learning Representations, 2021.
  • [104] D. Volkhonskiy, E. Burnaev, I. Nouretdinov, A. Gammerman, and V. Vovk, “Inductive conformal martingales for change-point detection,” in Conformal and Probabilistic Prediction and Applications, PMLR, 2017, pp. 132–153.
  • [105] X. Hu and J. Lei, “A distribution-free test of covariate shift using conformal prediction,” arXiv:2010.07147, 2020.
  • [106] A. Podkopaev and A. Ramdas, “Tracking the risk of a deployed model and detecting harmful distribution shifts,” arXiv:2110.06177, 2021.
  • [107] P. Chaudhuri, “Global nonparametric estimation of conditional quantile functions and their derivatives,” Journal of Multivariate Analysis, vol. 39, no. 2, pp. 246–269, 1991.
  • [108] I. Steinwart and A. Christmann, “Estimating conditional quantiles with the help of the pinball loss,” Bernoulli, vol. 17, no. 1, pp. 211–225, 2011.
  • [109] I. Takeuchi, Q. V. Le, T. D. Sears, and A. J. Smola, “Nonparametric quantile estimation,” Journal of Machine Learning Research, vol. 7, pp. 1231–1264, 2006.
  • [110] K. Q. Zhou, S. L. Portnoy, et al., “Direct use of regression quantiles to construct confidence sets in linear models,” The Annals of Statistics, vol. 24, no. 1, pp. 287–306, 1996.
  • [111] K. Q. Zhou and S. L. Portnoy, “Statistical inference on heteroscedastic models based on regression quantiles,” Journal of Nonparametric Statistics, vol. 9, no. 3, pp. 239–260, 1998.
  • [112] R. Koenker, Quantile Regression. Cambridge University Press, 2005.
  • [113] R. Koenker, V. Chernozhukov, X. He, and L. Peng, “Handbook of quantile regression,” 2018.
  • [114] R. Koenker, “Additive models for quantile regression: Model selection and confidence bandaids,” Brazilian Journal of Probability and Statistics, vol. 25, no. 3, pp. 239–262, 2011.
  • [115] A. Fisch, T. Schuster, T. S. Jaakkola, and R. Barzilay, “Efficient conformal prediction via cascaded inference with expanded admission,” in International Conference on Learning Representations, 2021.
  • [116] T. Schuster, A. Fisch, T. Jaakkola, and R. Barzilay, “Consistent accelerated inference via confident adaptive transformers,” Empirical Methods in Natural Language Processing, 2021.
  • [117] A. Fisch, T. Schuster, T. Jaakkola, and D. Barzilay, “Few-shot conformal prediction with auxiliary tasks,” in International Conference on Machine Learning, vol. 139, 2021, pp. 3329–3339.
  • [118] J. Cherian and L. Bronner, “How the Washington Post estimates outstanding votes for the 2020 presidential election,” Washington Post, 2021, https://s3.us-east-1.amazonaws.com/elex-models-prod/2020general/write-up/election model writeup.pdf.
  • [119] C. Lu and J. Kalpathy-Cramer, “Distribution-free federated learning with conformal predictions,” arXiv:2110.07661, 2021.
  • [120] C. Lu, A. Lemay, K. Chang, K. Hoebel, and J. Kalpathy-Cramer, “Fair conformal predictors for applications in medical imaging,” arXiv:2109.04392, 2021.
  • [121] Y. Romano, R. F. Barber, C. Sabatti, and E. Candes, “With malice toward none: Assessing uncertainty via equalized coverage,” Harvard Data Science Review, vol. 2, no. 2, Apr. 30, 2020.
  • [122] A. K. Kuchibhotla and R. A. Berk, “Nested conformal prediction sets for classification with applications to probation data,” arXiv:2104.09358, 2021.
  • [123] S. Bates, A. Angelopoulos, L. Lei, J. Malik, and M. Jordan, “Distribution-free, risk-controlling prediction sets,” Journal of the Association for Computing Machinery, vol. 68, no. 6, Sep. 2021.
  • [124] F. Bretz, W. Maurer, W. Brannath, and M. Posch, “A graphical approach to sequentially rejective multiple test procedures,” Statistics in Medicine, vol. 28, no. 4, pp. 586–604, 2009.