西山晴雪的知识笔记

发表于2023-01-02|BayesNN深度集成

【摘要】集成方法已被证明在提高神经网络的准确性和预测不确定性方面取得了广泛的成功。然而，一个集成的训练和测试成本会随着神经网络数量的增加而线性增加，这很快就会变得难以接受。在本文中，我们提出了一种新的集成方法：BatchEnsemble，其计算和内存成本明显低于典型集成。 BatchEnsemble 在神经网络的每一层都将成员神经网络相互连接起来，集成成员的权重被描述为一个共享权重矩阵 W∈Rn×mW \in \mathbb{R}^{n \times m}W∈Rn×m 和 MMM 个成员 Rank-1 矩阵 Fi∈Rn×mF_{i} \in \mathbb{R}^{n \times m}Fi∈Rn×m 的 Hadamard 乘积。与典型集成方法不同，BatchEnsemble 不仅可以跨设备并行化（其中每个设备训练一个成员），而且还可以在一个设备内并行化（其中多个集成成员同时更新给定的 mini-batch ）。在 CIFAR-10、CIFAR-100、WMT14 EN-DE/EN-FR 翻译等任务和分布外任务中，BatchEnsemble 均产生了较典型集成方法更具 ...

从损失景观视角看深度集成

发表于2023-01-01|BayesNN深度集成

【摘要】深度集成已被经验证明是一种提高深度学习模型的准确性、不确定性和分布外鲁棒性的有前途的方法。虽然深度集成在理论上是由自举驱动的，但仅通过随机初始化训练的非自举集成在实践中也表现良好，这表明可能存在其他解释为什么深度集成运行良好。学习网络参数分布的贝叶斯神经网络在理论上受到贝叶斯原理的良好推动，但在实践中表现不如深度集成，尤其是在数据集转移的情况下。理论与实践之间存在这种差距的一种可能解释是，流行的可扩展变分贝叶斯方法倾向于关注单一模式，而深度集成倾向于探索函数空间中的多种模式。我们以最近关于理解神经网络损失情况的工作为基础，并添加我们自己的探索来衡量预测空间中函数的相似性，从而研究这一假设。我们的结果表明，随机初始化探索完全不同的模式，而沿着优化轨迹的函数或从其子空间中采样的函数在单个模式预测方面聚集，同时经常在权重空间中显著偏离。发展多样性-准确性平面的概念，我们表明随机初始化的去相关能力是流行的子空间采样方法无法比拟的。最后，我们评估了集成、基于子空间的方法和基于子空间的方法的集成的相对效果，实验结果验证了我们的假设。【原文】 Fort, S., Hu, H ...

深度集成方法(Deep Ensembles)

发表于2022-12-31|BayesNN深度集成

【摘要】深度神经网络是强大的黑盒预测器，最近在广泛的任务中取得了令人印象深刻的性能。量化神经网络中的预测不确定性是一个具有挑战性但尚未解决的问题。贝叶斯神经网络能够学习权重分布，是目前估计预测不确定性的最先进技术；但其需要对训练过程进行重大修改，并且与标准（非贝叶斯）神经网络相比，计算成本很高。在本文中，我们提出了贝叶斯神经网络的替代方案：深度集成。该方案易于实现、易于并行化并产生高质量的预测不确定性估计。通过一系列关于分类和回归基准的实验，我们证明它能够产生校准良好的不确定性估计，并且与贝叶斯神经网络一样好甚至更好。最后，我们评估了测试样本（类别已知或未知）的预测不确定性，结果表明我们的方法能够在未知类上表达出更高程度的不确定性，这与y现有方法对未知类别也做出过度自信的预测相比，存在明显改进。【原文】 Lakshminarayanan, B., Pritzel, A. and Blundell, C. (2017) ‘Simple and Scalable Predictive Uncertainty Estimation using Deep Ens ...

🔥 神经网络中的不确定性研究综述

发表于2022-03-22|BayesNN综述概览

【摘要】在过去十年中，神经网络几乎触及了每一个科学领域，并成为各种现实世界应用的关键部分。由于越来越多的传播和使用，人们对神经网络预测结果的信心也变得越来越重要。但基础的神经网络要么无法提供不确定性估计，要么存在过于自信或信心不足的问题。为了克服这个问题，许多研究人员致力于理解和量化神经网络中的预测不确定性。前人已经确定了不同类型和来源的不确定性，并提出了各种估计和量化神经网络中不确定性的方法。本文全面概述了神经网络中的不确定性估计，回顾了该领域的最新进展，突出了当前的挑战，并确定了潜在的研究机会。它旨在为任何对神经网络中的不确定性估计感兴趣的人提供一个宽泛的概述和介绍，而不预先假定读者具备该领域的先验知识。为此，论文首先对不确定性来源这一关键因素进行了全面介绍，并将其分为（可还原的）模型不确定性和（不可还原的）数据不确定性。介绍了基于单一确定性神经网络、贝叶斯神经网络、神经网络集成、测试时数据增强四种不确定性的建模方法，讨论了这些领域的不同分支及最新发展。在实际应用方面，我们讨论了各种不确定性的测量方法，以及神经网络的校准方法，概述了现有基线和可用成果。来自 ...

🔥 神经网络泛化的贝叶斯概率视角

发表于2021-10-03|BayesNN综述概览

【摘要】在现代深度学习中，估计贝叶斯模型平均值的积分有很多挑战，包括高维的参数空间和复杂的后验形态。但是，将这一挑战切实地视为一个积分问题，而非试图为蒙特卡洛近似获得后验样本，会为未来的进展提供机会。贝叶斯深度学习已经取得了快速的实际进展，现在的方法能够比标准训练有更好的准确性和校准，而且开销最小。【原文】Wilson, A.G. and Izmailov, P. (2020) ‘Bayesian Deep Learning and a Probabilistic Perspective of Generalization’, in Advances in Neural Information Processing Systems. Curran Associates, Inc., pp. 4697–4708. Available at: https://proceedings.neurips.cc/paper/2020/hash/322f62469c5e3c7dc3e58f5a4d1ea399-Abstract.html. 〖论文贡献〗论文表明：深度集成为近似 ...