🔥 神经网络中的不确定性研究综述
【摘 要】 在过去十年中,神经网络几乎触及了每一个科学领域,并成为各种现实世界应用的关键部分。由于越来越多的传播和使用,人们对神经网络预测结果的信心也变得越来越重要。但基础的神经网络要么无法提供不确定性估计,要么存在过于自信或信心不足的问题。为了克服这个问题,许多研究人员致力于理解和量化神经网络中的预测不确定性。前人已经确定了不同类型和来源的不确定性,并提出了各种估计和量化神经网络中不确定性的方法。本文全面概述了神经网络中的不确定性估计,回顾了该领域的最新进展,突出了当前的挑战,并确定了潜在的研究机会。它旨在为任何对神经网络中的不确定性估计感兴趣的人提供一个宽泛的概述和介绍,而不预先假定读者具备该领域的先验知识。为此,论文首先对不确定性来源这一关键因素进行了全面介绍,并将其分为(可还原的) 模型不确定性 和(不可还原的) 数据不确定性 。介绍了基于单一确定性神经网络
【原 文】 Gawlikowski, Jakob, et al. “A survey of uncertainty in deep neural networks.” arxiv preprint arXiv:2107.03342 (2021).
【阅后感】 本文比较全面地回顾了与神经网络的预测不确定性相关的话题:从不确定性的来源与分类开始,到估计不确定性的方法,再到不确定性的量化评估和校准方法,内容全面而精炼,值得深入阅读。其中个人觉得值得阅读的有几点:(1)系统梳理了不确定性来源和类型,这在之前的文章中几乎都是一笔带过的,但这对正确理解不确定性具有提纲挈领的作用;(2)不确定性的深度神经网络估计方法更为全面,之前的综述主要围绕贝叶斯神经网络方法展开,少量提到了其他方法(如:深度集成),而本文更系统地将估计方法分为四类:单一确定性神经网络、深度集成网络、贝叶斯神经网络、测试时数据增强,梳理地更全面;(3)在最近几年比较热门的不确定性计量和校准方面涉及的内容比较多,这是之前文章所缺乏的;(4)将最近一两年有关不确定性测试基线的最新进展也囊括进来了,反映出作者在这个方面上跟踪很及时;(5) 重要的是,作者来自空间数据科学领域。
1 概述
在过去十年中,深度神经网络 (DNN)
取得了巨大进步,促进其应用于各种研究领域,其中包括对复杂系统进行建模或理解,例如地球观测、医学图像分析或机器人技术。尽管深度神经网络在医学图像分析 [1][2][3][4][5][6] 、自动车辆控制 [7][8][9][10] 等高风险领域很有吸引力,但在注重任务安全问题的现实应用中部署仍然有限。造成这种限制的主要因素是:
- 深度神经网络的推断模型`缺乏表现力和透明度`,使得人们很难相信他们的结果 [2]
- 无法区分`分布内样本`和`分布外样本` [11][12] ,对`分布偏移`比较敏感 [13]
- 缺少为深度神经网络的决策 [14] 和过度自信的预测 [15][16] 提供可靠不确定性估计的方法
- 对`对抗性样本`不敏感,使深度神经网络更容易受到破坏 [17][18][19]
上述因素主要源于数据中已经包含的不确定性( **数据不确定性** )或缺乏对神经网络的了解( **模型不确定性** )。为了克服这些限制,提供不确定性估计是必不可少的,以便`预测不确定性`可以被忽略或传递给人类专家来做出相应决策 [20]。
预测不确定性 在本文中为一个独立、完整的术语,中文理解为 “预测结果的不确定性” 或 “预测输出的不确定性”,英文翻译为 “Uncertainty of Prediction”,专指某个机器学习模型的预测输出中存在的不确定性,也是本文讨论的主要对象。获得预测不确定性的方法比较多( 见 第 3 节
),但从贝叶斯视角来看可以划分为贝叶斯方法和非贝叶斯方法,前者的主要特点是先得到模型参数的后验分布,而后通过边缘化得到预测;而后者会采用各种方法直接估计预测输出的不确定性,例如目前 SOTA 的深度集成方法对不同子模型的输出做平均后得出预测,还有些方法假设预测输出服从某种分布,而后通过最优化计算得到该分布的参数。
不过 Wilson 等
在一篇 博客 中也提出,深度集成方法不仅不是非贝叶斯方法,反而恰恰说明了贝叶斯方法的有效性,因为贝叶斯方法的最大特点就是边缘化而非后验分布,而深度集成方法恰恰是在对可能的模型做边缘化,以得到更为可靠的预测。
模型引起的不确定性 也被称为 模型不确定性 或 认知不确定性 。
数据引起的不确定性 也被称为 数据不确定性 、偶然不确定性 或 任意不确定性。
式 (7)
实际上对应了贝叶斯方法,即先推断模型参数的后验分布,而后通过边缘化求得预测分布,该预测分布中包含了所有不确定性,而 式 (8)
是其中确定性最高的那套参数的点估计预测结果。 式 (9)
和 式 (10)
《安全的人工智能需要贝叶斯深度学习》 一文提出,在多任务学习中存在另外一种本文没有提到的数据不确定,即在相同输入数据集情况下,由于任务不同而导致的不确定性,并因此将数据不确定性划分为两类:
因为 模型不确定性 可以捕获由于缺乏知识而导致的不确定性内容,因此可以用来捕获域内、域偏移和域外不确定性。与此相对,数据不确定性 仅捕获由训练数据本身引起的不确定性,因此只能用来捕获域内不确定性,例如重叠样本、系统性标签的噪声等。
> **表 1 :本文涉及的四种方法一览表**(`贝叶斯神经网络`、`集成方法`、`单一确定性神经网络`、`测试时数据增强`)。表中的 `High/Low` 标签是相对于其他方法并基于其背后的思想给出的。 ![](https://xishansnowblog.oss-cn-beijing.aliyuncs.com/images/images/bayes_20220323_132337_6bbe.webp) ### 3.1 单一确定性神经网络方法 确定性神经网络的参数是确定性的,同一输入的重复前向传递会提供相同的结果。我们梳理和总结了 “基于单一确定性神经网络的前向传递来计算 $y^\ast$ 的预测不确定性” 的所有方法。
是相对于 随机性
疑惑: 以下两个英文有何不同?
真实分布 ( true distribution )
是指什么? 预测分布(predictive distribution)
和 预测分布(predicted distribution)
经反复理解并查阅原文文献后,此处的“预测分布( predicted distribution
)”,与传统贝叶斯方法中的 “预测分布(predictive distribution
)” 含义相同。在后者中,会通过对模型参数的后验分布做边缘化,以求解响应变量的概率分布,即预测分布;更进一步地基于该预测分布求期望值作为点估计。而此处的思想是不对模型参数建模,而是直接对神经网络的预测分布做参数化近似建模( 有点像施加在输出变量上的变分推断 ),通过训练求解近似分布的最优参数,进而用近似分布代替预测分布求解期望值作为点估计。由于该方法没有对模型参数建模,其神经网络权重是确定性的而非随机性的,因此是非贝叶斯的。
之所以这样说,是因为在贝叶斯方法中,只将不确定性分为 数据不确定性
和 模型不确定性
Dirichlet 分布
是连续型随机变量的概率密度,而 类别分布(Catelogorical 分布)
是离散型随机变量的概率质量,当某个模型的似然为类别分布时,Dirichlet 分布为其共轭先验,因此可以得到后验的封闭形式解
。此处实际上是将确定性神经网络的输出视为服从 类别分布
的随机向量,而将 Dirichlet 分布
的定义参见 第 5 节 对预测置信度进行校准
和 重参数化技巧
。参见 《贝叶斯神经网络技术浅析》的第 4.2 节
不确定性估计(Estimation of Uncertainty)
不确定性估计结果(the Uncertainty Estimates)
不确定性测度(Uncertainty Measures)
不确定性估计的质量(Quality of the Uncertainty Estimates)
与 不确定真实值
下图说明了设计 不确定性测度
不同估计方法的后验预测图,蓝色区域为两倍标准差的不确定性区间。(1)收敛并混合良好的 HMC 后验预测作为基线(即作为真实值的替代),注意中间缺乏样本的区间不确定性明显增加,符合真实预期;(2)PBP、MVG 和 BBH 等其他方法产生的后验预测分布,明显在缺乏样本的区间都错误地表现出了较低的方差,表明在此处出现了过度自信( 或者说不确定性估计结果不准确 );(3)后三种方法的对数似然都与 HMC 方法相当,说明依赖样本点的传统测度指标( 分类中的对数似然、回归中的 RMSE 等 ),无法有效地评价不确定性估计的质量,需要设计新的测度指标。
graph LR 不确定性测度-->分类任务 不确定性测度-->回归任务 不确定性测度-->分割任务 分类任务-->数据不确定性 A 分类任务-->模型不确定性 A 分类任务-->分布不确定性 A 分类任务-->多样本不确定性 A 回归任务-->数据不确定性 B 回归任务-->模型不确定性 B 回归任务-->分布不确定性 B 回归任务-->多样本不确定性 B 数据不确定性 A-->最大概率 数据不确定性 A-->熵 模型不确定性 A-->互信息 模型不确定性 A-->预期 KL 散度 模型不确定性 A-->预测方差
此处数据不确定性面向单数据点,实际上是基于 softmax
可以先熟悉机器学习中的常见质量评价指标,如:准确率(Accuracy)、错误率(Error rate)、精确率(Precision)、召回率(recall)、综合评价指标(F-Measure)等,以及常见图形:ROC 曲线、PR 曲线等。
准确率(Accuracy) 为 被正确预测的总样本数(TP+TN)
除以 所有样本数量(TP+FP+TN+FN)
真阳性率(True Positive Rate, TPR) 为 被正确预测为阳性的样本数(TP)
除以 真实阳性样本的总数(TP+FN)
假阳性率(False Positive Rate, FPR) 为 被错误预测为阳性的样本数(FP)
除以 真实阴性样本的总数(TN+FP)
精度(Precision) 为 被正确预测为阳性的样本数(TP)
除以 被预测为阳性的样本总数(TP+FP)
召回率(Recall) 为 被正确预测为阳性的样本数(TP)
除以 真实阳性样本的总数(TP+FN)
F-Score 为综合指标,定义为 $(1+ \beta^2)\frac{Recall \cdot Precision}{Recall+ \beta^2 \cdot Precision}$, 当 $\beta=1$ 时, 被称为 F1-Score
,此时精度和召回率都很重要,权重相当。如果认为精度更重要一些,可以设置 $\beta < 1$ ,如果认为召回率更重要一些,可以设置 $\beta > 1$。
- 在肿瘤判断和地震预测场景中,要求高的召回率,即有肿瘤或有地震尽量都与测出来;
- 在垃圾邮件检测场景中,要求高的精度,即放进
癌症检查数据样本有 $10000$ 个,其中 $10$ 个祥本真有癌症,其它无癌症。假设分类模型在 $9990$ 个无癌症数据中预测正确了 $9980$ 个,在 $10$ 个癌症数据中预测正确了 $9$ 个,此时真阳 = $9$ ,真阴 = $9980$ ,假阳 = $10$ ,假阴 = $1$。
- $Accuracy = (9+9980) /10000=99.89%$
- $Precision=9 / (9+10)= 47.36%$
- $Recall = 9/(9+1) = 90%$
- $F1-score=2×(47.36% × 90%)/(1 × 47.36% + 90%)=62.07%$
- $F2-score=5× (47.36% × 90%)/(4×47.36%+90%)=76. 27%$
