🔥 Wilson2022:评估贝叶斯深度学习中的近似推断
【摘 要】 不确定性表示对于深度学习的安全可靠部署至关重要。贝叶斯方法提供了一种自然机制来表示认知不确定性,从而改进泛化和校准预测分布。了解近似推断的保真度具有超越衡量特定任务泛化的标准方法的非凡价值:如果近似推断正常工作,那么我们可以期望在任意数量的现实世界设置中进行更可靠和准确的部署。在本次比赛中,我们使用通过数百个张量处理单元 (TPU) 设备并行计算获得的哈密顿蒙特卡罗 (HMC) 样本作为参考,评估深度学习中近似贝叶斯推断程序的保真度。我们考虑了各种任务,包括图像识别、回归、协变量偏移和医学应用。所有数据都是公开的,我们发布了几个基线,包括随机 MCMC、变分方法和深度集成。比赛导致许多团队提交了数百份作品。获奖作品都涉及新颖的多峰值后验近似,突出了表示多种峰值的相对重要性,并建议我们不应将深度集成视为标准单峰近似的“非贝叶斯”替代方案。未来,该竞赛将为深度学习中近似贝叶斯推断程序的创新和持续基准测试提供基础。 HMC 样品将继续通过竞赛网站提供 【原 文】 Wilson, A.G. et al. (2022) ‘Evaluating approximate...
Google2021: 深度学习中不确定性和鲁棒性的基线
【摘 要】 对不确定性和稳健性的高质量估计对于许多现实世界的应用至关重要,尤其是对于作为许多已部署 ML 系统基础的深度学习而言。因此,比较改进这些估计的技术的能力对于研究和实践都非常重要。然而,由于一系列原因,通常缺乏方法的竞争性比较,包括:用于广泛调整的计算可用性、合并足够多的基线以及用于再现性的具体文档。在本文中,我们介绍了不确定性基线:在各种任务上高质量地实施标准和最先进的深度学习方法。在撰写本文时,该集合涵盖 9 个任务的 19 种方法,每个方法至少有 5 个指标。每个基线都是一个独立的实验管道,具有易于重用和扩展的组件。我们的目标是为新方法或应用的实验提供直接起点。 此外,我们还提供模型检查点、作为 Python 笔记本的实验输出以及用于比较结果的排行榜。 https://github.com/google/uncertainty-baselines 【原 文】 Nado, Z. et al. (2021) Uncertainty Baselines: Benchmarks for Uncertainty & Robustness in Deep...
Ovadia2019: 评估数据集漂移情况下的预测不确定性
【摘 要】 包括深度学习在内的现代机器学习方法在监督学习任务的预测准确性方面取得了巨大成功,但在给出预测不确定性的有用估计方面可能仍存在不足。量化不确定性在现实环境中尤为重要,现实环境通常涉及由于样本偏差和非平稳性等多种因素而从训练分布中漂移的输入分布。在这种情况下,经过良好校准的不确定性估计会传达有关何时应该(或不应该)信任模型输出的信息。许多概率深度学习方法,包括贝叶斯和非贝叶斯方法,已在文献中提出用于量化预测不确定性,但据我们所知,以前没有对这些方法在数据集漂移下进行严格的大规模实证比较。我们提出了现有最先进的分类问题方法的大规模基准,并研究了数据集漂移对准确性和校准的影响。我们发现传统的事后校准确实存在不足,其他几种先前的方法也是如此。然而,一些边缘化模型的方法在广泛的任务中给出了令人惊讶的强大结果。 【原 文】 Ovadia, Y. et al. (2019) ‘Can You Trust Your Model’s Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift’. 1...
现代神经网络的校准
【摘 要】 “信念校准”(预测器输出的概率性预测结果与真实正确结果之间的可代表性纠正问题)对于许多分类模型非常重要。我们发现,与十年前不同,现代神经网络的校准很差。通过大量实验,我们观察到深度、宽度、权重衰减和批量归一化是影响校准的重要因素。我们评估了各种后处理校准方法在图像和文档分类数据集及现代神经网络架构上的性能。我们的分析和实验不仅提供了对神经网络学习的见解,而且还为实际场景提供了一个简单而直接的方法:在大多数数据集上,温度定标法(一种 Platt 定标法 的单参数变体)在校准预测方面非常有效。 【原 文】 Guo, C., Pleiss, G., Sun, Y., and Weinberger, K. Q. 2017. On Calibration of Modern Neural Networks. Proceedings of the 34th International Conference on Machine Learning, PMLR, 1321–1330. 【阅后感】...