批量集成方法(Batch Ensemble)
【摘 要】 集成方法已被证明在提高神经网络的准确性和预测不确定性方面取得了广泛的成功。然而,一个集成的训练和测试成本会随着神经网络数量的增加而线性增加,这很快就会变得难以接受。在本文中,我们提出了一种新的集成方法:BatchEnsemble,其计算和内存成本明显低于典型集成。 BatchEnsemble 在神经网络的每一层都将成员神经网络相互连接起来,集成成员的权重被描述为一个共享权重矩阵 W∈Rn×mW \in \mathbb{R}^{n \times m}W∈Rn×m 和 MMM 个成员 Rank-1 矩阵 Fi∈Rn×mF_{i} \in \mathbb{R}^{n \times m}Fi∈Rn×m 的 Hadamard 乘积。与典型集成方法不同,BatchEnsemble 不仅可以跨设备并行化(其中每个设备训练一个成员),而且还可以在一个设备内并行化(其中多个集成成员同时更新给定的 mini-batch )。在 CIFAR-10、CIFAR-100、WMT14 EN-DE/EN-FR 翻译等任务和分布外任务中,BatchEnsemble 均产生了较典型集成方法更具 ...
从损失景观视角看深度集成
【摘要】 深度集成已被经验证明是一种提高深度学习模型的准确性、不确定性和分布外鲁棒性的有前途的方法。虽然深度集成在理论上是由自举驱动的,但仅通过随机初始化训练的非自举集成在实践中也表现良好,这表明可能存在其他解释为什么深度集成运行良好。学习网络参数分布的贝叶斯神经网络在理论上受到贝叶斯原理的良好推动,但在实践中表现不如深度集成,尤其是在数据集转移的情况下。理论与实践之间存在这种差距的一种可能解释是,流行的可扩展变分贝叶斯方法倾向于关注单一模式,而深度集成倾向于探索函数空间中的多种模式。我们以最近关于理解神经网络损失情况的工作为基础,并添加我们自己的探索来衡量预测空间中函数的相似性,从而研究这一假设。我们的结果表明,随机初始化探索完全不同的模式,而沿着优化轨迹的函数或从其子空间中采样的函数在单个模式预测方面聚集,同时经常在权重空间中显着偏离。发展多样性-准确性平面的概念,我们表明随机初始化的去相关能力是流行的子空间采样方法无法比拟的。最后,我们评估了集成、基于子空间的方法和基于子空间的方法的集成的相对效果,实验结果验证了我们的假设。
【原 文】 Fort, S., Hu, H ...
深度集成方法(Deep Ensembles)
【摘要】 深度神经网络是强大的黑盒预测器,最近在广泛的任务中取得了令人印象深刻的性能。量化神经网络中的 预测不确定性 是一个具有挑战性但尚未解决的问题。贝叶斯神经网络能够学习权重分布,是目前估计 预测不确定性 的最先进技术;但其需要对训练过程进行重大修改,并且与标准(非贝叶斯)神经网络相比,计算成本很高。在本文中,我们提出了贝叶斯神经网络的替代方案:深度集成。该方案易于实现、易于并行化并产生高质量的 预测不确定性 估计。通过一系列关于分类和回归基准的实验,我们证明它能够产生校准良好的不确定性估计,并且与贝叶斯神经网络一样好甚至更好。最后,我们评估了测试样本(类别已知或未知)的 预测不确定性 ,结果表明我们的方法能够在未知类上表达出更高程度的不确定性,这与y现有方法对未知类别也做出过度自信的预测相比,存在明显改进。
【原文】 Lakshminarayanan, B., Pritzel, A. and Blundell, C. (2017) ‘Simple and Scalable Predictive Uncertainty Estimation using Deep Ens ...