地球系统科学中的神经地球系统建模
【摘 要】 地球系统模型 (ESM) 是量化地球物理状态并预测未来可能发生的变化的主要工具。然而,近年来,人工智能 (AI) 方法越来越多地用于增强甚至取代经典的地球系统模型任务,这让人们对人工智能能够解决气候科学的一些重大挑战产生了希望。在此观点中,我们调查了过程模型和 AI 在地球系统和气候研究中的最新成就和局限性,并提出了一种方法论转变,其中深度神经网络和地球系统模型被区分为单独的方法,并重新组合为学习、自我验证和可解释的地球系统模型-神经网络混合体。沿着这条道路,我们创造了术语 神经地球系统建模。我们研究了神经地球系统建模的并发潜力和陷阱,并讨论了人工智能是否可以支持地球系统模型甚至最终使它们过时的悬而未决的问题。 【原 文】 Irrgang, C. et al. (2021) ‘Towards neural Earth system modelling by integrating artificial intelligence in Earth system science’, Nature Machine Intelligence, 3(8), pp....
预测模型概览
基于该评分规则的最小化负对数损失 ( $\text{NLL}$ )方法,应该会产生良好校准的输出类概率。但在实践中,对数损失往往会过分强调概率分布的尾部。 一、问题提出绝大多数机器学习都比较关注解决一个单纯的问题:从标记训练集 $\mathcal{D} = {(\boldsymbol{x}_n, \boldsymbol{y}_n), n = 1:N}$ 中学习得到某个函数 $f$,使其能够从未来的新输入 $\boldsymbol{x}$ 中预测输出 $\boldsymbol{y}$。 其中,$\boldsymbol{x}_n \in \mathcal{X} \subseteq \mathbb{R}^D$, $\boldsymbol{y}_n \in \mathcal{Y} \subseteq \mathbb{R}^C$ 。 我们可以使用形式为 $p(\boldsymbol{y}|f(\boldsymbol{x}))$ 的条件概率模型,对给定输入时正确输出的不确定性建模。 当 $\mathcal{Y}$ 是一组离散标签时,此类模型(在 ML...
生成模型概览
〖摘要〗生成模型(Generative Model)是概率统计和机器学习中的一类重要模型,泛指一系列用于随机生成可观测数据的模型。生成模型应用十分广泛,可以用于对不同类型的数据建模,如图像、文本、声音等。如果假设上述某类型的数据对象都服从一个未知分布,则生成模型通常希望通过一些观测样本来学习(估计)该分布,并能够利用该分布随机地生成未观测过的新样本。生成模型有很多种,本文是此类模型的一个简单概览,其中大部分内容来自 Murphy 的《Machine Learning: Advanced Topics》第 20 章。 〖参考〗 J. M. Tomczak, Deep Generative Modeling. ch.1 / Murphy, 《Machine Learning: Advanced Topics》ch. 20 / Deep Generative Modelling: A Comparative Review of VAEs, GANs, Normalizing Flows, Energy-Based and Autoregressive...
发现模型概览
发现模型概览〖摘要〗 在很多模型假设中存在各种形式的隐变量和隐结构,其目的是使高维数据能够得到足够地解释,以便发现或挖掘隐藏在可观测数据深层的知识或信息。我们将此类模型称为 发现模型 或者 广义隐变量模型。本文是此类模型的一个总揽,大部分内容摘自 Murphy 的《机器学习:高级主题》的第 27 章。 问题提出发现模型假设我们能够观测到的数据 $\boldsymbol{x}$ 是由某些底层的潜在因素 $\boldsymbol{z}$ ( 通常是低维的 )导致,并且通常 $\boldsymbol{z}$ 代表了世界的某种 “真实” 状态。至关重要的是,这些潜在因素通常被认为对模型的最终用户有意义 ( 也就是说,评估此类模型需要领域专业知识,具有可解释性 )。 我们的目的是通过对可观测数据 $\boldsymbol{x}$ 的处理,得到潜在因素 $\boldsymbol{z}$ 的底层作用机理, 进而能够给可观测数据的生成作出一个合理的解释。 这种反向建模方法广泛用于科学和工程中,其中 $\boldsymbol{z}$ 代表了自然界中待估计的潜在状态,而...
决策任务索引帖
待完善 #refplus, #refplus li{ padding:0; margin:0; list-style:none; }; document.querySelectorAll(".refplus-num").forEach((ref) => { let refid = ref.firstChild.href.replace(location.origin+location.pathname,''); let refel = document.querySelector(refid); let refnum = refel.dataset.num; let ref_content = refel.innerText.replace(`[${refnum}]`,''); tippy(ref, { content:...
决策模型概览
决策模型概览〖摘要〗 在很多模型假设中,存在各种形式的隐变量和隐结构,其目的是使高维数据能够得到足够地解释,以发现或挖掘隐藏在可观测数据深层的知识或信息。我们可以将此类模型暂时称为 发现模型 或者 广义隐变量模型。本文是此类模型的一个总揽,大部分内容摘自 Murphy 的《机器学习:高级主题》的第 27 章。 在本部分中,我们专注于能够为 问题提出发现模型假设我们能够观测到的数据 $\boldsymbol{x}$ 是由某些底层的潜在因素 $\boldsymbol{z}$ ( 通常是低维的 )导致,并且通常 $\boldsymbol{z}$ 代表了世界的某种 “真实” 状态。至关重要的是,这些潜在因素通常被认为对模型的最终用户有意义 ( 也就是说,评估此类模型需要领域专业知识,具有可解释性 )。 我们的目的是通过对可观测数据 $\boldsymbol{x}$ 的处理,得到潜在因素 $\boldsymbol{z}$ 的底层作用机理, 进而能够给可观测数据的生成作出一个合理的解释。 这种反向建模方法广泛用于科学和工程中,其中 $\boldsymbol{z}$...
🔥 神经网络中的不确定性研究综述
【摘 要】 在过去十年中,神经网络几乎触及了每一个科学领域,并成为各种现实世界应用的关键部分。由于越来越多的传播和使用,人们对神经网络预测结果的信心也变得越来越重要。但基础的神经网络要么无法提供不确定性估计,要么存在过于自信或信心不足的问题。为了克服这个问题,许多研究人员致力于理解和量化神经网络中的预测不确定性。前人已经确定了不同类型和来源的不确定性,并提出了各种估计和量化神经网络中不确定性的方法。本文全面概述了神经网络中的不确定性估计,回顾了该领域的最新进展,突出了当前的挑战,并确定了潜在的研究机会。它旨在为任何对神经网络中的不确定性估计感兴趣的人提供一个宽泛的概述和介绍,而不预先假定读者具备该领域的先验知识。为此,论文首先对不确定性来源这一关键因素进行了全面介绍,并将其分为(可还原的) 模型不确定性 和(不可还原的) 数据不确定性 。介绍了基于单一确定性神经网络、贝叶斯神经网络、神经网络集成、测试时数据增强...
蒙特卡洛方法原理
〖摘要〗贝叶斯统计需要在贝叶斯定理基础上,通过参数先验和数据似然对参数的后验概率分布作出推断。从推断精度上区分,贝叶斯推断方法大致包含精确推断和近似推断两大类,其中精确推断常见有变量消除法(Variable Elimination, VE)和信念传播法(Belief Propagation, BP);而近似推断方法主要是蒙特卡洛法(Mente Carlo, MC)和变分近似推断法(Variational Inference,VI)。蒙特卡洛方法是一种以概率统计理论为指导的重要数值计算方法。它使用随机数来解决随机变量(或随机函数)期望值积分求解、仿真模拟等非常棘手的计算问题,特别适用于没有明确解析形式的复杂概率分布。蒙特卡洛方法中最为核心的部分是如何在给定一个复杂分布时,按照概率随机地、高效地获得样本,即采样方法问题。 〖原文〗蒙特卡洛方法数学基础、蒙特卡洛方法实践 1...
🔥 变分推断方法索引帖
【摘 要】 本文为变分推断方法的索引贴,按照变分推断方法发展的几个里程碑结点列出了相关经典文献。 1 综述类Zhang 2018 年的 Advances in Variational Inference: 变分推断是概率模型中实现近似推断的主要方法之一,基于随机采样的 MCMC 方法在时间复杂度、空间复杂度和收敛可信度方面均不太适用于大型模型(如神经网络)和大规模数据集,而变分推断方法由于将 “估计分布的问题” 转换成了 “寻求具有最优参数的近似分布问题”,进而使推断速度得到了极大提升,而且能够和随机梯度等大样本量结合,是神经网络中寻求不确定性解常用的一种方法。本文介绍了变分推断的核心思想,并概述了迄今为止最主要的变分推断方法。 2 历久弥新的变分推断 – 平均场变分推断平均场(MeanField )变分推断:可参考 Blei 2017 年的 《Variational Inference: A Review for Statisticians》一文,更深入的论文参考 Wainwright 2008 年的 《Graphical models, exponential...
👍 变分推断方法综述
【摘要】变分推断是概率模型中实现近似推断的主要方法之一,基于随机采样的 MCMC 方法在时间复杂度、空间复杂度和收敛可信度方面均不太适用于大型模型(如神经网络)和大规模数据集,而变分推断方法由于将 “估计分布的问题” 转换成了 “寻求具有最优参数的近似分布问题”,进而使推断速度得到了极大提升,而且能够和随机梯度等大样本量结合,是神经网络中寻求不确定性解常用的一种方法。本文介绍了变分推断的核心思想,并概述了迄今为止最主要的变分推断方法。 【原 文】 C. Zhang, J. Bütepage, H. Kjellström and S. Mandt, “Advances in Variational Inference,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 41, no. 8, pp. 2008-2026, 1 Aug. 2019, doi: 10.1109/TPAMI.2018.2889774. 🔔 ...