GeoAI 中的位置编码:方法和应用
【阅读建议】 本文是空间位置嵌入的第一篇比较全面的综述,涉及新概念、新方法和未来可能的新应用,比较有想象空间。但阅读后感觉将必要性简单地表述为机器学习的需要,似乎并不充分(第 2 节);另外该概念到底带来了那些提升、对未来哪些冲击、影响和改变,似乎可以更进一步提炼,目前尚难以感觉到值得深入研究的价值。
【原文摘要】 地球科学对人工智能模型的共同需求,是在潜在的嵌入空间中表示点、线、多边形、网络、栅格等多种类型的空间数据,以便能够很容易地将这些数据融入到深度学习模型中去。一个基本做法是通过编码过程将位置转换到嵌入空间中,而这种嵌入表示对于下游机器学习模型(例如支持向量机和神经网络)来说是学习友好的,我们将此过程称为位置编码。目前,对于位置编码的概念、潜在应用以及需要解决的关键挑战,尚缺乏系统的回顾,而本文旨在填补这一空白。本文首先提供了位置编码的形式化定义,并从机器学习角度讨论了位置编码对于 GeoAI 研究的必要性,然后对位置编码研究的现状进行了较为全面地调查和讨论。依据输入和编码方法,我们将位置编码模型分为了不同类别,并根据其是否参数模型、多尺度性、距离保持和方向感知等性 ...
证据下界(ELBO)的概念解析
在变分贝叶斯方法中, 证据下界 (通常缩写为 ELBO ,有时也称为 变分下界 [1]或 负变分自由能 )是一个关于观测数据对数似然的常用下界。
1 术语和符号
设 XXX 和 ZZZ 为随机变量,其联合分布为 pθ(X,Z)p_\theta(X,Z)pθ(X,Z)(简写为 pθp_{\theta}pθ ),pθ(X)p_{\theta}(X)pθ(X) 是 XXX 的边缘分布,pθ(Z∣X)p_{\theta}(Z \mid X)pθ(Z∣X) 是给定 XXX 时 ZZZ 的条件分布。
对于 XXX 的任意样本实现 x∼pθx \sim p_{\theta}x∼pθ 和任何分布 qϕq_{\phi}qϕ ,有
lnpθ(x)≥Ez∼qϕ[lnpθ(x,z)qϕ(z)].\ln p_{\theta}(x) \geq \mathbb {E}_{z \sim q_{\phi }} \left[\ln{\frac{p_{\theta}(x,z)}{q_{\phi}(z)}}\right].
lnpθ(x)≥Ez∼qϕ[lnqϕ(z)pθ(x,z)].
...
🔥 深度组合空间模型
【摘 要】 具有非平稳和各向异性协方差结构的空间过程通常用于建模、分析和预测复杂的环境现象。这些过程通常可以表示为在扭曲空间域上具有平稳和各向同性协方差结构的过程。然而,翘曲函数通常难以拟合并且不受限于单射,经常导致 “空间折叠” 。在这里,我们建议通过深度学习框架中的多个元素单射函数的组合来建模单射翘曲函数。我们考虑两种情况;首先,当这些函数知道一些需要估计的权重时,其次,当每层中的权重是随机的时。受深度学习和深度高斯过程的最新方法和技术进步的启发,我们采用近似贝叶斯方法使用图形处理单元对这些模型进行推断。通过一维和二维的模拟研究,我们表明深度成分空间模型可以快速拟合,并且能够提供比类似复杂度的其他深度随机模型更好的预测和不确定性量化。我们还展示了他们使用 Aqua 卫星上 MODIS 仪器的辐射对非平稳、各向异性空间数据进行建模的非凡能力。
【原 文】 Zammit-Mangion, A. et al. (2022) ‘Deep compositional spatial models’, Journal of the American Statistical Ass ...
🔥 可扩展高斯过程索引贴
【摘 要】高斯过程的可扩展性问题起步本世纪初,主要是随着数据条件的优化而牵引出来的问题。其本质是核矩阵(或协方差矩阵)的 “大 N 问题”,导致 O(n3)\mathcal{O}(n^3)O(n3) 的计算复杂度核 O(n2)\mathcal{O}(n^2)O(n2) 的存储复杂度。 本文梳理了目前的主要应对方法,其中部分方法和高斯过程推断方法 有很大关系,因此两者之间会存在一些交叉。
1 综述类
Liu 2020 年的 可扩展高斯过程综述: 高斯过程回归具有数据规模的三次方的计算复杂度。为了在保持理想预测质量同时,能够提高扩展性,业界已经提出了各种可扩展高斯过程。本文是对可扩展高斯过程的一篇回顾文章,主要按照两个类别梳理了可扩展高斯过程:一是提炼完整数据的全局近似方法,二是划分数据以进行子空间学习的局部近似方法。对于全局近似,主要关注了稀疏近似,包括改进先验但执行精确推断的先验近似、保留精确先验但执行近似推断的后验近似、利用协方差矩阵中特定结构的结构化稀疏近似。对于局部近似,主要突出了专家混合和专家乘积两种方法,这些专家方法对多个局部专家进行模型平均以提高预测。本文还介绍 ...
🔥 神经网络高斯过程索引贴
【摘 要】 高斯过程具有不确定性估计能力,而(深度)神经网络具有灵活的万能逼近能力。因此,如何将神经网络与高斯过程很好地结合(一方面增强神经网络的不确定性量化能力和可解释性,另一方面有效解决高斯过程的可扩展性问题),已经成为最近 5 - 10 年比较热门的研究领域。本文对相关文献进行了梳理,大致分为四种类型: “神经网络与高斯过程的组合(NN + GP)”、 “高斯过程的神经网络实现(NN Is GP)”、 “高斯过程核的神经网络训练(NN GP Training)”、 “神经网络的高斯过程视角(Interprete NN with GP)”。
1 综述类
暂无。
2 神经网络与高斯过程的组合( NN + GP )
Damianou 2013 年的 《深度高斯过程》 : 首次尝试神经网络与高斯过程的结合,提出了使用多个等效于高斯过程的神经网络层堆叠形成一种新型的深度信念网络(本质是特征学习,采用逐层训练策略)模型,并称之为深度高斯过程,该团队还给出无限多次组合后的核退化形式。
Vinyals 等 2016 年的 《匹配神经网络》: Matching network ...
🔥 空间统计深度学习索引帖
1 高斯过程(场)与深度学习的结合
参见 《神经网络高斯过程索引贴》。
2 高斯马尔可夫随机场与深度学习的结合
Sidén 2020 年的 《深度马尔可夫随机场》: 高斯马尔可夫随机场 (GMRF) 是一种广泛应用于空间统计和相关领域的概率图模型,用于模拟空间结构的依赖性。我们在 GMRF 和卷积神经网络 (CNN) 之间建立了正式联系。常见的 GMRF 是生成模型的特例,其中从数据到潜在变量的逆映射由 1 层线性 CNN 给出。这种连接使我们能够将 GMRF 推广到多层 CNN 架构,以一种有利于计算缩放的方式有效地增加相应 GMRF 的阶数。我们描述了如何使用成熟的工具(例如 autodiff 和变分推理)来简单有效地推理和学习深度 GMRF。我们展示了所提出模型的灵活性,并表明它在预测和预测不确定性方面优于卫星温度数据集上的最新技术。
3 空间统计与深度学习的结合–综述
Wikle 2022 年的 《空间数据和时空数据的统计深度学习》: 近年来,深度神经网络模型变得无处不在,并已应用于几乎所有科学、工程和工业领域。这些模型对于在空间(例如,图像)和时间(例如,序列)中 ...
第8章大型数据集的近似方法
【摘 要】高斯过程作为一种用于预测的非参数模型,可以用于回归任务,也可以用于分类任务。高斯过程面临的最大问题在于,当面临大数据时,其计算复杂度为 O(n3)\mathcal{O}(n^3)O(n3),内存复杂度为 O(n2)\mathcal{O}(n^2)O(n2),这使其在新形势下的使用非常困难。本文对2006年之前的主要大数据的高斯过程处理方法进行了综述,可以作为了解该方向工作的基础。《机器学习中的高斯过程》一书是高斯过程研究领域的扛鼎之作,本文主要节选自该书的第八章。
【原 文】 Rasmussen, C.E. and Williams, C.K. (2006), Chapter 8 of Gaussian processes for machine learning. Cambridge, Mass: MIT press Cambridge, MA (3).
正如我们在前面的章节中看到的,高斯过程预测的一个重要问题是它的计算规模通常为 \mamthcal{O}(n^3)。对于大型问题(例如 n>10,000n > 10,000n>10,000),存 ...
Transformer 神经过程:通过序列建模进行不确定性感知元学习
【摘 要】 神经过程 (NPs) 是一类流行的元学习方法。与高斯过程 (GP) 类似,神经过程定义函数的分布并可以估计其预测中的不确定性。然而,与 GP 不同,神经过程及其变体存在欠拟合问题,并且通常具有难以处理的似然,这限制了它们在顺序决策中的应用。我们提出了 Transformer Neural Processes (TNPs),这是神经过程家族的新成员,它将不确定性感知元学习转化为序列建模问题。我们通过基于自回归似然的目标来学习 TNP,并使用一种新颖的基于 transformer 的架构对其进行实例化。模型架构尊重问题结构固有的归纳偏差,例如对观测到的数据点的不变性和对未观测到的点的等变性。我们进一步研究了 transformer 神经过程框架内的旋钮,这些旋钮在解码分布的表现力与额外计算之间进行了权衡。根据经验,我们表明 transformer 神经过程在各种基准问题上实现了最先进的性能,在元回归、图像补全、上下文多臂老虎机和贝叶斯优化方面优于所有以前的神经过程变体。
【原 文】 Nguyen, T. and Grover, A. (2023) ‘Transfor ...
无题
title: 扩散模型概览
description: 扩散模型概览
author: 西山晴雪
mathjax: true
categories:
生成任务
扩散模型
tags:
生成任务
神经网络
生成模型
扩散模型
abbrlink: 3b7358a6
date: 2022-10-10 10:00:00
〖摘要〗扩散模型(Diffusion Models, DM )的迅速崛起是过去几年机器学习领域最大的发展之一。扩散模型是一种生成模型,2020 年以来发布的一些开创性论文,体现了其强大能力,例如:在图像合成领域已经击败了 GAN,实现了 SOTA。鉴于近年扩散模型的成功浪潮,许多机器学习从业者对其内部运作感兴趣。在本文中,我们将研究扩散模型的理论基础,然后演示如何在 PyTorch 中使用扩散模型生成图像。本文包括初学者需要了解的、有关扩散模型的大部分信息。
〖原文〗AseemblyAI’s Blog
〖参考〗Understanding Diffusion Models: A Unified Perspective / What are Diffusion ...
无题
# 第 0 章 初始化
本书的目的:提出一套能够让我们从理论上分析实际深度神经网络的原理和方法。主要包含两点:
在理论上为什么深度神经网络可以实现其目标?
我们如何能够在实践中通过这些理论指导来实现目标?
0.1 有效理论
(1)问题的提出
虽然现代深度学习模型是由看似无数的基本计算组件构建的,但解释神经网络从低级组件如何计算得到函数值的的第一性原理微观描述还是易于理解的。这种微观描述是将输入通过多层组件转换为输出的一组指令,不过这些组件在训练过程中需要精细地调优,而一个系统需要掌握特定的调优知识才能产生有用的输出。
第一性原理(First principle):在哲学与逻辑学领域,指不能从任何其他命题或假设推导出来的基本命题或假设,不能被省略或删除,也不能被违反,最早由亚里士多德提出。在数学中,第一原理被称为公理或假设。在物理学和其他科学中,如果某项理论工作直接从已建立的科学水平开始,并且不做诸如经验建模和参数拟合等假设,则可以称其来自第一性原理。例如某个理论利用薛定谔方程在一些近似方法下求解了电子结构,而不是利用实验数据得到拟合参数,则可称其来自第一性原理。
不 ...