西山晴雪的知识笔记

发表于2023-01-02|BayesNN单一确定性神经网络

comment:: 利用损失函数不同的两次深度密度神经网络训练，分别预测均值网络和预测方差网络，进而对于每一个新输入都会得到两个输出。理论上，方差较大的那个对应于分布外，而方差小的那个对应分布内。由于训练方差神经网络需要的样本事实上并不存在，因此作者先在分布内训练数据集基础上得到的因子分析模型，然后对该模型进行适当改造后，用于人工合成分布外样本。试验表明，在分布外数据检测方面性能优于 MC Dropout 和高斯过程。摘要 (pdf) 英语口语水平的自动评估比较重要。自动化评估系统需要处理大量候选人和复杂的技能水平，但其中一些候选人可能与训练数据集差异非常大，从而破坏了系统预测成绩的有效性。对于高风险测试，要求系统不仅应当准确评估，而且应当能够给出其预测的不确定性，以便人类介入分级结果的决策。本文调研了高斯进程（GP）分级系统，其效果不错，但不具备大数据集的可扩展性。MC Dropout 可用于深度神经网络（DNN）的不确定性估计，但无法区分分布外的样本。本文提出了一种基于深度密度网络（DDN）的新方法来产生不确定性，并将其与 MC Dropou 和 GP 进行了比 ...

谱归一化高斯过程（SNGP ）

发表于2023-01-02|BayesNN单一确定性神经网络

【摘要】贝叶斯神经网络和深度集成是估计深度学习模型预测不确定性的主要方法。但由于内存和推断成本较高，它们在实时、工业规模应用中的实用性受到较大限制。这促使我们研究只需要一个深度神经网络 (DNN) 的高质量不确定性估计的原则性方法。通过将不确定性量化形式化为一个极小极大学习问题，我们首先选择距离感知（即模型正确量化测试样本与训练数据流形之间距离的能力）作为 DNN 实现的必要条件高质量（即极小极大最优）不确定性估计。然后，提出了谱归一化高斯过程（SNGP），这是一种通过在训练期间添加权重归一化步骤并将输出层替换为高斯过程而形成的提高现代 DNN 距离感知能力的简单方法。在一系列视觉和语言理解任务以及现代架构（Wide-ResNet 和 BERT）上，SNGP 在预测、校准和分布外检测方面与深度集成具有竞争力，并且优于其他单一确定性模型方法。可在https://github.com/google/uncertainty-baselines/tree/master/baselines 获取代码。【原文】 Liu, J.Z. et al. (2020) ‘Simple a ...

先验网络

发表于2023-01-02|BayesNN单一确定性神经网络

comment:: 一种利用神经网络来推断分类任务中不确定性的方法，其主要特点在于从理论上对贝叶斯公式进行了扩展，将原先隐式的分布不确定性显式化，通过对模型参数的边缘化，首先得到分布不确定性的估计，而后通过对分布不确定性的边缘化，得到预测分布。 1 概述 1.1 研究背景 Bayesian Neural Networks have been computationally more demanding and conceptually more complicated. Monte-Carlo Dropout using an ensemble of multiple stochastic forward passes and computing the mean and spread of the ensemble. Deep Ensembles yields competitive uncertainty estimates to MC dropout Another class of approaches involves explicitly trai ...

混合密度网络

发表于2023-01-01|BayesNN单一确定性神经网络

comment:: 本文提出了一种利用神经网络来生成混合模型的方法，理论上在训练样本支撑下，能够模拟任意分布。摘要最小化均方误差、交叉熵等损失函数，会使神经网络输出一个接近目标数据的、以输入向量为条件的条件均值（即以均值作为输出的点估计）。对于分类问题，神经网络的输出为均值向量，其中的每个元素均代表了相应类别的后验预测概率，我们可以选择其中最优者作为最终决策；但当目标变量为连续型变量时，神经网络输出只有一个条件均值，仅能够提供对其属性的有限描述。特别是当神经网络存在多个可能的映射输出时（如一个输入对应多个输出的某混合模型）问题更明显，因为此时输出的均值不对应正确的值，甚至压根儿没有任何意义。在本文中，我们介绍了一种新的网络模型，该模型将传统神经网络与混合密度模型结合，形成的完整系统被称为混合密度网络（Mixture Density Network）。理论上，任意概率分布都可以通过多个基础概率分布（如高斯）混合而成，因此本文提出的模型原则上可以表示任意以输入向量为条件的概率分布，就像传统神经网络可以表示任意函数一样(pdf)。注：名称被起为密度网络，显然特指目 ...