预测模型概览
基于该评分规则的最小化负对数损失 ( $\text{NLL}$ )方法,应该会产生良好校准的输出类概率。但在实践中,对数损失往往会过分强调概率分布的尾部。 一、问题提出绝大多数机器学习都比较关注解决一个单纯的问题:从标记训练集 $\mathcal{D} = {(\boldsymbol{x}_n, \boldsymbol{y}_n), n = 1:N}$ 中学习得到某个函数 $f$,使其能够从未来的新输入 $\boldsymbol{x}$ 中预测输出 $\boldsymbol{y}$。 其中,$\boldsymbol{x}_n \in \mathcal{X} \subseteq \mathbb{R}^D$, $\boldsymbol{y}_n \in \mathcal{Y} \subseteq \mathbb{R}^C$ 。 我们可以使用形式为 $p(\boldsymbol{y}|f(\boldsymbol{x}))$ 的条件概率模型,对给定输入时正确输出的不确定性建模。 当 $\mathcal{Y}$ 是一组离散标签时,此类模型(在 ML...
生成模型概览
〖摘要〗生成模型(Generative Model)是概率统计和机器学习中的一类重要模型,泛指一系列用于随机生成可观测数据的模型。生成模型应用十分广泛,可以用于对不同类型的数据建模,如图像、文本、声音等。如果假设上述某类型的数据对象都服从一个未知分布,则生成模型通常希望通过一些观测样本来学习(估计)该分布,并能够利用该分布随机地生成未观测过的新样本。生成模型有很多种,本文是此类模型的一个简单概览,其中大部分内容来自 Murphy 的《Machine Learning: Advanced Topics》第 20 章。 〖参考〗 J. M. Tomczak, Deep Generative Modeling. ch.1 / Murphy, 《Machine Learning: Advanced Topics》ch. 20 / Deep Generative Modelling: A Comparative Review of VAEs, GANs, Normalizing Flows, Energy-Based and Autoregressive...
发现模型概览
发现模型概览〖摘要〗 在很多模型假设中存在各种形式的隐变量和隐结构,其目的是使高维数据能够得到足够地解释,以便发现或挖掘隐藏在可观测数据深层的知识或信息。我们将此类模型称为 发现模型 或者 广义隐变量模型。本文是此类模型的一个总揽,大部分内容摘自 Murphy 的《机器学习:高级主题》的第 27 章。 问题提出发现模型假设我们能够观测到的数据 $\boldsymbol{x}$ 是由某些底层的潜在因素 $\boldsymbol{z}$ ( 通常是低维的 )导致,并且通常 $\boldsymbol{z}$ 代表了世界的某种 “真实” 状态。至关重要的是,这些潜在因素通常被认为对模型的最终用户有意义 ( 也就是说,评估此类模型需要领域专业知识,具有可解释性 )。 我们的目的是通过对可观测数据 $\boldsymbol{x}$ 的处理,得到潜在因素 $\boldsymbol{z}$ 的底层作用机理, 进而能够给可观测数据的生成作出一个合理的解释。 这种反向建模方法广泛用于科学和工程中,其中 $\boldsymbol{z}$ 代表了自然界中待估计的潜在状态,而...
决策任务索引帖
待完善 #refplus, #refplus li{ padding:0; margin:0; list-style:none; }; document.querySelectorAll(".refplus-num").forEach((ref) => { let refid = ref.firstChild.href.replace(location.origin+location.pathname,''); let refel = document.querySelector(refid); let refnum = refel.dataset.num; let ref_content = refel.innerText.replace(`[${refnum}]`,''); tippy(ref, { content:...
决策模型概览
决策模型概览〖摘要〗 在很多模型假设中,存在各种形式的隐变量和隐结构,其目的是使高维数据能够得到足够地解释,以发现或挖掘隐藏在可观测数据深层的知识或信息。我们可以将此类模型暂时称为 发现模型 或者 广义隐变量模型。本文是此类模型的一个总揽,大部分内容摘自 Murphy 的《机器学习:高级主题》的第 27 章。 在本部分中,我们专注于能够为 问题提出发现模型假设我们能够观测到的数据 $\boldsymbol{x}$ 是由某些底层的潜在因素 $\boldsymbol{z}$ ( 通常是低维的 )导致,并且通常 $\boldsymbol{z}$ 代表了世界的某种 “真实” 状态。至关重要的是,这些潜在因素通常被认为对模型的最终用户有意义 ( 也就是说,评估此类模型需要领域专业知识,具有可解释性 )。 我们的目的是通过对可观测数据 $\boldsymbol{x}$ 的处理,得到潜在因素 $\boldsymbol{z}$ 的底层作用机理, 进而能够给可观测数据的生成作出一个合理的解释。 这种反向建模方法广泛用于科学和工程中,其中 $\boldsymbol{z}$...
🔥 神经网络中的不确定性研究综述
【摘 要】 在过去十年中,神经网络几乎触及了每一个科学领域,并成为各种现实世界应用的关键部分。由于越来越多的传播和使用,人们对神经网络预测结果的信心也变得越来越重要。但基础的神经网络要么无法提供不确定性估计,要么存在过于自信或信心不足的问题。为了克服这个问题,许多研究人员致力于理解和量化神经网络中的预测不确定性。前人已经确定了不同类型和来源的不确定性,并提出了各种估计和量化神经网络中不确定性的方法。本文全面概述了神经网络中的不确定性估计,回顾了该领域的最新进展,突出了当前的挑战,并确定了潜在的研究机会。它旨在为任何对神经网络中的不确定性估计感兴趣的人提供一个宽泛的概述和介绍,而不预先假定读者具备该领域的先验知识。为此,论文首先对不确定性来源这一关键因素进行了全面介绍,并将其分为(可还原的) 模型不确定性 和(不可还原的) 数据不确定性 。介绍了基于单一确定性神经网络、贝叶斯神经网络、神经网络集成、测试时数据增强...
➀ 隐变量模型概览
隐变量模型初探【摘要】隐变量模型常用于揭示计量或统计数据中的一些无法被直接观测到的规律或现象。例如:揭示不同原因导致的异质性、解释可观测变量中的误差构成等。 【作者】Francesco Bartolucci,意大利佩鲁贾大学 【原文】http://www.econ.upf.edu/~michael/latentvariables/ p{text-indent:2em;2} 0 引言在本部分中,我们专注于能够创建高维数据的可解释表示的模型:隐变量模型。 问题提出隐变量模型假设观测到的数据 $\boldsymbol{x}$ 是由某些底层的潜在因素 $\boldsymbol{z}$ (通常是低维的)导致,并且通常 $\boldsymbol{z}$ 代表了世界的某种 “真实” 状态。至关重要的是,这些潜在因素被认为对模型的最终用户有意义 (也就是说,评估此类模型需要领域专业知识)。我们的目的是通过对可观测数据 $\boldsymbol{x}$ 的处理,得到潜在因素 $\boldsymbol{z}$ 的底层作用机理,...