西山晴雪的知识笔记

置顶|发表于2023-01-03|预测任务概览

待完善 #refplus, #refplus li{ padding:0; margin:0; list-style:none; }； document.querySelectorAll(".refplus-num").forEach((ref) => { let refid = ref.firstChild.href.replace(location.origin+location.pathname,''); let refel = document.querySelector(refid); let refnum = refel.dataset.num; let ref_content = refel.innerText.replace(`[${refnum}]`,''); tippy(ref, { content: ref_content, ...

生成任务索引帖

置顶|发表于2023-01-03|生成任务概览

待完善 #refplus, #refplus li{ padding:0; margin:0; list-style:none; }； document.querySelectorAll(".refplus-num").forEach((ref) => { let refid = ref.firstChild.href.replace(location.origin+location.pathname,''); let refel = document.querySelector(refid); let refnum = refel.dataset.num; let ref_content = refel.innerText.replace(`[${refnum}]`,''); tippy(ref, { content: ref_content, ...

发现任务索引帖

置顶|发表于2023-01-03|发现任务概览

待完善 #refplus, #refplus li{ padding:0; margin:0; list-style:none; }； document.querySelectorAll(".refplus-num").forEach((ref) => { let refid = ref.firstChild.href.replace(location.origin+location.pathname,''); let refel = document.querySelector(refid); let refnum = refel.dataset.num; let ref_content = refel.innerText.replace(`[${refnum}]`,''); tippy(ref, { content: ref_content, ...

深度密度网络

置顶|发表于2023-01-02|BayesNN单一确定性神经网络

comment:: 利用损失函数不同的两次深度密度神经网络训练，分别预测均值网络和预测方差网络，进而对于每一个新输入都会得到两个输出。理论上，方差较大的那个对应于分布外，而方差小的那个对应分布内。由于训练方差神经网络需要的样本事实上并不存在，因此作者先在分布内训练数据集基础上得到的因子分析模型，然后对该模型进行适当改造后，用于人工合成分布外样本。试验表明，在分布外数据检测方面性能优于 MC Dropout 和高斯过程。摘要 (pdf) 英语口语水平的自动评估比较重要。自动化评估系统需要处理大量候选人和复杂的技能水平，但其中一些候选人可能与训练数据集差异非常大，从而破坏了系统预测成绩的有效性。对于高风险测试，要求系统不仅应当准确评估，而且应当能够给出其预测的不确定性，以便人类介入分级结果的决策。本文调研了高斯进程（GP）分级系统，其效果不错，但不具备大数据集的可扩展性。MC Dropout 可用于深度神经网络（DNN）的不确定性估计，但无法区分分布外的样本。本文提出了一种基于深度密度网络（DDN）的新方法来产生不确定性，并将其与 MC Dropou 和 GP 进行了比 ...

谱归一化高斯过程（SNGP ）

置顶|发表于2023-01-02|BayesNN单一确定性神经网络

【摘要】贝叶斯神经网络和深度集成是估计深度学习模型预测不确定性的主要方法。但由于内存和推断成本较高，它们在实时、工业规模应用中的实用性受到较大限制。这促使我们研究只需要一个深度神经网络 (DNN) 的高质量不确定性估计的原则性方法。通过将不确定性量化形式化为一个极小极大学习问题，我们首先选择距离感知（即模型正确量化测试样本与训练数据流形之间距离的能力）作为 DNN 实现的必要条件高质量（即极小极大最优）不确定性估计。然后，提出了谱归一化高斯过程（SNGP），这是一种通过在训练期间添加权重归一化步骤并将输出层替换为高斯过程而形成的提高现代 DNN 距离感知能力的简单方法。在一系列视觉和语言理解任务以及现代架构（Wide-ResNet 和 BERT）上，SNGP 在预测、校准和分布外检测方面与深度集成具有竞争力，并且优于其他单一确定性模型方法。可在https://github.com/google/uncertainty-baselines/tree/master/baselines 获取代码。【原文】 Liu, J.Z. et al. (2020) ‘Simple a ...

先验网络

置顶|发表于2023-01-02|BayesNN单一确定性神经网络

comment:: 一种利用神经网络来推断分类任务中不确定性的方法，其主要特点在于从理论上对贝叶斯公式进行了扩展，将原先隐式的分布不确定性显式化，通过对模型参数的边缘化，首先得到分布不确定性的估计，而后通过对分布不确定性的边缘化，得到预测分布。 1 概述 1.1 研究背景 Bayesian Neural Networks have been computationally more demanding and conceptually more complicated. Monte-Carlo Dropout using an ensemble of multiple stochastic forward passes and computing the mean and spread of the ensemble. Deep Ensembles yields competitive uncertainty estimates to MC dropout Another class of approaches involves explicitly trai ...

批量集成方法（Batch Ensemble）

置顶|发表于2023-01-02|BayesNN深度集成

【摘要】集成方法已被证明在提高神经网络的准确性和预测不确定性方面取得了广泛的成功。然而，一个集成的训练和测试成本会随着神经网络数量的增加而线性增加，这很快就会变得难以接受。在本文中，我们提出了一种新的集成方法：BatchEnsemble，其计算和内存成本明显低于典型集成。 BatchEnsemble 在神经网络的每一层都将成员神经网络相互连接起来，集成成员的权重被描述为一个共享权重矩阵 W∈Rn×mW \in \mathbb{R}^{n \times m}W∈Rn×m 和 MMM 个成员 Rank-1 矩阵 Fi∈Rn×mF_{i} \in \mathbb{R}^{n \times m}Fi∈Rn×m 的 Hadamard 乘积。与典型集成方法不同，BatchEnsemble 不仅可以跨设备并行化（其中每个设备训练一个成员），而且还可以在一个设备内并行化（其中多个集成成员同时更新给定的 mini-batch ）。在 CIFAR-10、CIFAR-100、WMT14 EN-DE/EN-FR 翻译等任务和分布外任务中，BatchEnsemble 均产生了较典型集成方法更具 ...

混合密度网络

置顶|发表于2023-01-01|BayesNN单一确定性神经网络

comment:: 本文提出了一种利用神经网络来生成混合模型的方法，理论上在训练样本支撑下，能够模拟任意分布。摘要最小化均方误差、交叉熵等损失函数，会使神经网络输出一个接近目标数据的、以输入向量为条件的条件均值（即以均值作为输出的点估计）。对于分类问题，神经网络的输出为均值向量，其中的每个元素均代表了相应类别的后验预测概率，我们可以选择其中最优者作为最终决策；但当目标变量为连续型变量时，神经网络输出只有一个条件均值，仅能够提供对其属性的有限描述。特别是当神经网络存在多个可能的映射输出时（如一个输入对应多个输出的某混合模型）问题更明显，因为此时输出的均值不对应正确的值，甚至压根儿没有任何意义。在本文中，我们介绍了一种新的网络模型，该模型将传统神经网络与混合密度模型结合，形成的完整系统被称为混合密度网络（Mixture Density Network）。理论上，任意概率分布都可以通过多个基础概率分布（如高斯）混合而成，因此本文提出的模型原则上可以表示任意以输入向量为条件的概率分布，就像传统神经网络可以表示任意函数一样(pdf)。注：名称被起为密度网络，显然特指目 ...

从损失景观视角看深度集成

置顶|发表于2023-01-01|BayesNN深度集成

【摘要】深度集成已被经验证明是一种提高深度学习模型的准确性、不确定性和分布外鲁棒性的有前途的方法。虽然深度集成在理论上是由自举驱动的，但仅通过随机初始化训练的非自举集成在实践中也表现良好，这表明可能存在其他解释为什么深度集成运行良好。学习网络参数分布的贝叶斯神经网络在理论上受到贝叶斯原理的良好推动，但在实践中表现不如深度集成，尤其是在数据集转移的情况下。理论与实践之间存在这种差距的一种可能解释是，流行的可扩展变分贝叶斯方法倾向于关注单一模式，而深度集成倾向于探索函数空间中的多种模式。我们以最近关于理解神经网络损失情况的工作为基础，并添加我们自己的探索来衡量预测空间中函数的相似性，从而研究这一假设。我们的结果表明，随机初始化探索完全不同的模式，而沿着优化轨迹的函数或从其子空间中采样的函数在单个模式预测方面聚集，同时经常在权重空间中显著偏离。发展多样性-准确性平面的概念，我们表明随机初始化的去相关能力是流行的子空间采样方法无法比拟的。最后，我们评估了集成、基于子空间的方法和基于子空间的方法的集成的相对效果，实验结果验证了我们的假设。【原文】 Fort, S., Hu, H ...

深度集成方法(Deep Ensembles)

置顶|发表于2022-12-31|BayesNN深度集成

【摘要】深度神经网络是强大的黑盒预测器，最近在广泛的任务中取得了令人印象深刻的性能。量化神经网络中的预测不确定性是一个具有挑战性但尚未解决的问题。贝叶斯神经网络能够学习权重分布，是目前估计预测不确定性的最先进技术；但其需要对训练过程进行重大修改，并且与标准（非贝叶斯）神经网络相比，计算成本很高。在本文中，我们提出了贝叶斯神经网络的替代方案：深度集成。该方案易于实现、易于并行化并产生高质量的预测不确定性估计。通过一系列关于分类和回归基准的实验，我们证明它能够产生校准良好的不确定性估计，并且与贝叶斯神经网络一样好甚至更好。最后，我们评估了测试样本（类别已知或未知）的预测不确定性，结果表明我们的方法能够在未知类上表达出更高程度的不确定性，这与y现有方法对未知类别也做出过度自信的预测相比，存在明显改进。【原文】 Lakshminarayanan, B., Pritzel, A. and Blundell, C. (2017) ‘Simple and Scalable Predictive Uncertainty Estimation using Deep Ens ...