地统计学中的贝叶斯深度学习
【摘 要】 地球科学家越来越多地处理“大数据”。对于涉及空间建模和制图的应用程序,克里金法的变体——南非采矿工程师 Danie Krige 开发的空间插值技术——长期以来一直被视为成熟的地质统计方法。然而,克里金法及其变体(例如回归克里金法,其中辅助变量或这些变量的导数作为协变量包含在内)是相对受限的模型,并且缺乏深度神经网络在过去十年左右为我们提供的功能。其中最主要的是特征学习:学习过滤器以识别网格数据(例如图像)中特定于任务的模式的能力。在这里,我们通过展示深度神经网络如何自动学习点采样目标变量和网格化辅助变量(例如遥感提供的辅助变量)之间的复杂关系,展示了地统计学背景下特征学习的力量,并在此过程中产生所选目标变量的详细地图。同时,为了满足需要良好校准概率的决策者的需求,我们展示了如何通过称为蒙特卡洛 Dropout 的贝叶斯近似从深度神经网络获得任意和认知不确定性估计。在我们的示例中,我们根据点采样观测生成全国范围的概率地球化学图,并使用地形高程网格提供的辅助数据。与传统的地质统计方法不同,辅助变量网格被原始输入到我们的深度神经网络中。无需提供导数(例如倾斜角、地形情况下的粗糙度),因为深度神经网络能够根据需要学习这些以及任意更复杂的导数来优化预测。我们希望我们的积极成果能够提高人们对贝叶斯深度学习及其特征学习能力在不确定性很重要的大规模地统计应用中的适用性的认识。
【原 文】 Kirkwood, C., Economou, T. and Pugeault, N. (2020) ‘Bayesian deep learning for mapping via auxiliary information: a new era for geostatistics?’ arXiv. Available at: http://arxiv.org/abs/2008.07320 (Accessed: 11 December 2022).
地图对于我们了解地球及其过程很重要,但通常情况下我们无法在空间的每个点直接观察到我们感兴趣的变量。出于这个原因,我们必须使用模型来填补空白。为了支持不确定性下的决策制定,统计模型是可取的 1. 克里金法(原始地质统计模型 2)基于目标变量的空间自相关提供点观测值之间的平滑插值 3。但是,通常可以获得其他信息来源。遥感 4,5 的兴起提供了我们在这里认为是辅助变量(例如地形高程、光谱图像、地下地球物理学)的易于访问的网格。这些是我们不直接感兴趣但可能包含与我们感兴趣的变量相关的信息的变量的完整地图。如何最好地从用于地质统计建模任务的辅助变量网格中提取此类信息仍然是一个悬而未决的问题,但通常涉及使用手动设计的过滤器进行反复试验以提取具有尽可能多的解释力的特征 6,7,8,9 ,10,11,12(例如推导坡度角作为解释滑坡敏感性的特征 13)。在这里,我们提出了一个使用贝叶斯深度学习的端到端地质统计建模框架,它将信息提取问题定义为一个优化问题 14,这样做消除了手动特征工程和特征选择步骤的需要。
我们的双分支深度神经网络架构——用于特征学习的卷积层与用于平滑插值的致密层相结合——将深度学习的优势带入地质统计应用,我们这样做不会牺牲不确定性估计:我们的方法估计任意和认知不确定性(通过 Monta Carlo dropout15) 以提供理论上有根据的预测分布作为输出。我们的工作汇集了机器学习 16,17、遥感 18,19 和贝叶斯地质统计学 20,21 领域的想法,并将它们统一在一个通用框架中以解决“大数据”地质统计建模任务,其中网格辅助变量可用支持点采样目标变量的插值。据我们所知,我们的框架是第一个在地理空间回归任务的背景下提供经过良好校准的概率输出和自动特征学习的框架。通过使用神经网络,我们还确保我们的框架可扩展到最大的问题。
虽然我们在这里提出的框架是新的,但它也可以看作是一系列先前工作的统一和概括。在 Krizhevsky 等人的突破性工作之后,深度学习 22——使用深度神经网络的机器学习——在过去十年中在科学界得到了越来越多的采用。 16 人通过使用深度神经网络自动学习信息特征(而不是手动推导出它们),在图像分类方面取得了新的技术水平。深度学习已在遥感领域得到广泛采用 18,19,23,2
然而,难以从深度神经网络 25 获得可靠的不确定性估计,这意味着深度学习尚未广泛用于不确定性重要的应用。一些作者在地质统计背景下应用了特征学习 26,27,28,29(主要用于数字土壤制图),但只有一个 - Wadoux 28 - 能够提供不确定性估计(尽管这些是通过归纳方法实现的,并且发现分散不足)。在这里,我们使用一种有理论基础且实际有效的方法来估计不确定性:Monte Carlo dropout 作为贝叶斯近似,正如 Gal 和 Ghahramani 15 所设想的那样。作者知道它在遥感中的一个先前使用实例:用于 Kampffmeyer 等人的语义分割任务。 30. 因此,虽然我们工作背后的不同概念可能已经为一些读者所熟悉,但我们认为现在是时候将它们结合起来,并将贝叶斯深度学习作为大数据地质统计学的通用解决方案,我们希望通过我们展示的方法论来展示贝叶斯深度学习将来得到广泛应用。
特征学习,用于地质统计学
地质统计学的核心领域是点观测的空间插值,以生成二维或三维的连续地图。克里金法是南非采矿工程师 Danie Krige 31 构想的现在无处不在的地质统计技术,最初仅考虑观测值的位置和空间自相关,以便产生平滑的插值,如果没有其他信息可用,该插值可以被认为是最佳的 32。当其他信息可用时(由于遥感,如今这种情况很常见),追求最佳空间插值变得更加复杂。普通克里金法的扩展,即回归克里金法,允许将协变量包含在模型中:插值输出的平均值能够作为相应位置处的协变量值的线性函数变化 33,34。举一个说明性的例子,在地表气温数据的插值中将高程作为协变量包含在内,可以预期会产生反映基础高程图的地图,即其平均函数是高程的线性函数。然而,这很快将我们带到了回归克里金法的极限:如果高程的线性函数不能像某些高程的非线性函数那样对地表气温提供那么多的解释力怎么办?什么非线性高程函数是最佳的?同时,如果我们也有风向可用作协变量会怎么样。地表气温的最佳预测指标难道不是不仅考虑了海拔高度或风向,还考虑了它们如何相互作用,从山上流下来的空气预计会更冷吗?我们很快发现自己进入了特征工程和特征选择领域,这是一个假设和反复试验的世界,这已成为传统地质统计建模过程中必要但不切实际的步骤。
深度神经网络的决定性优势在于它们能够自行学习特征,这归功于其层次结构,其中每一层的输出(乘以非线性激活函数)为下一层提供输入。通过误差梯度的反向传播,神经网络可以根据需要自动学习输入变量的非线性变换及其相互作用,以最大限度地减少损失。还表明,在无限宽度(无限节点数)的限制下,神经网络层在数学上等同于高斯过程35,它本身与 Danie Krige 以不同名称构想的相同平滑插值器。因此,神经网络是非常有能力的空间插值器也就不足为奇了。然而,我们的深度神经网络将这些空间能力与从辅助变量网格中学习自身特征的独特能力相结合。我们通过使用卷积层有效地实现了这一点——可训练的滤波器通过网格数据来导出新的特征,其方式类似于边缘检测滤波器如何从照片中导出边缘 36。通过堆叠卷积层,特征的复杂性和规模可以推导出增加,以及神经网络 37 的接受域的大小,这允许学习更长期的依赖结构。在我们的示例中,我们使用来自 NASA 的航天飞机雷达地形测绘任务 38 的高程数据作为我们的网格化辅助变量。我们的目标变量是英国地质调查局 39 收集的河流沉积物中钙的(对数转换)浓度。我们选择钙是因为它具有相对较高的流动性,因此对地形地貌的复杂依赖性,其学习为我们的深度神经网络的特征学习能力。
通过 MC dropout 估计不确定性
神经网络往往是确定性的:通过反向传播训练以收敛于一组使损失函数最小化的权重。在大多数神经网络中,这些最终权重是固定的,没有分布,这意味着无法估计这些权重或神经网络表示的整体函数(或学习模型)的不确定性。自然过程不可避免地涉及不确定性,我们应该对这些不确定性进行量化,以提供适用于决策支持 40,41 的经过良好校准的概率预测,这是正确的。任意不确定性,过程中自然随机性引起的不确定性,可以通过使用参数分布作为神经网络的输出来解释。在我们的例子中,我们的深度神经网络输出两个参数——高斯分布的均值 (μ) 和方差 (σ2)。然而,这种输出分布本身并不能帮助我们估计模型本身形式的不确定性——认知不确定性。为此,需要在神经网络权重上进行分布,为此我们使用 Yarin Gal15 提出的蒙特卡洛丢弃法。这种方法将伯努利先验置于权重之上,这意味着对于训练和预测的每次迭代,神经网络的每个节点都有可能被关闭或退出。节点退出的概率或速率是一个可调的超参数。虽然伯努利先验对于单个参数来说似乎“不切实际”——为什么参数只以固定概率存在? — Monte Carlo dropout 对整个网络的总体影响是将我们的单个神经网络变成一个几乎无限的独立整体。丢弃节点的每个不同配置都实现了来自集成的不同功能(或模型)。
dropout 率与我们期望在从集合中提取的不同函数之间看到的方差有关——它作为函数的先验。即使在固定丢失率的约束下,神经网络也能够在训练过程中局部调整其认知不确定性。这与手动调整辍学率(以最大限度地减少评估集的损失)相结合,使我们的神经网络能够产生适合决策支持的经过良好校准的后验预测分布。
在地球化学测绘中的应用
我们将贝叶斯深度神经网络应用于绘制整个英国河流沉积物钙浓度的任务,作为 log(氧化钙)。该数据集包含 109201 个点采样钙观测值 39,我们将其随机分成 10 份,其中一份留作最终测试数据集(我们从中报告我们的预测准确性和校准结果),一份用作评估在神经网络训练期间设置(以监控样本外数据的损失,以指导超参数调整),其余八折用作训练集。我们使用 NASA 的航天飞机雷达地形任务高程数据 38 作为我们的网格化辅助变量。我们为每个钙观测附加了以观测为中心的周围地形的 32x32 单元格图像。我们使用 250m 的网格单元大小,这意味着神经网络有一个 8x8km 的方形窗口,以每个观察为中心,从中学习其地形特征。为了便于地形特征的学习,我们对每张32x32的像元图像进行归一化处理,使中心点处于零高程。然后纯粹根据样本站点而不是绝对海拔来学习特征。然而,绝对高程以及东向和北向被明确提供为神经网络的第二个输入(在卷积层之后 - 参见图 1),以便为网络提供地理空间中整体位置的意识以及意识当地地形。当评估集的预测性能不再提高时(表明我们的后验预测分布已经收敛到真实数据分布的良好近似值),我们使用提前停止来训练我们的神经网络适当数量的 epochs。这往往发生在大约 250 个时期。请注意,所有结果都在第三个数据集(测试数据集)上报告,该数据集在训练期间根本没有使用。
结果与讨论
我们的贝叶斯深层神经网络生成的国家尺度地球化学图非常详细,似乎已经成功地捕获了我们的目标变量:河流沉积物钙浓度和我们的辅助变量网格:地形海拔(图 2)之间的复杂关系。如果细节与良好的预测性能不相符,那么单独的细节将一文不值,但我们对保留测试数据的结果——在模型训练和超参数调整过程中看不到——非常令人鼓舞:在确定性意义上,我们的平均预测贝叶斯深度神经网络解释了我们目标变量中 72% 的方差。网络在概率意义上的性能不太容易用单个数字来概括,但是预测分布与保留测试集上的真实分布的比较(图 5)表明校准良好的拟合 42。我们还使用两个适当的评分规则 43 衡量了性能:连续排名概率评分 (CRPS) 和对数评分,尽管这些在未来与其他模型的比较中最有用。我们通过评估预测区间的覆盖范围进一步审视校准质量,发现分别有 94.9%、70.2% 和 50.1% 的观测值落在 95%、70% 和 50% 的预测区间内。在相对较大的测试集(10920 个观测值)上,这种精确覆盖有力地证明了我们的贝叶斯深度神经网络正在输出可靠的概率 44,因此适用于支持不确定性下的决策制定。
我们使用穿过地图的南北剖面线可视化深度神经网络的概率能力(图 4)。这样做时,我们可以看到神经网络能够根据需要独立捕获认知和任意不确定性,以最大限度地减少损失。尽管 Monte Carlo 丢失率固定,但均值的可信区间在空间上有所不同,这表明神经网络能够捕捉认知不确定性中的空间变异性。同样,任意不确定性也会根据需要在空间上发生变化,并且在北向 600000 米以南最大,尽管该地区的认知不确定性较低。通过输出完整的预测分布,贝叶斯深度学习方法可以为各种问题 45,46 提供概率答案。例如,任何位置的超出概率都可以简单地计算为概率质量超过任何选定阈值的比例。
我们放大国家比例尺地图,并在图 3 中可视化预测不确定性。查看这个更精细比例尺的确定性平均地图,并将其与相同范围的高程图进行比较,更详细地揭示了我们的深度卷积神经网络的非凡能力神经网络从头开始学习目标变量的分布与地形特征相关的复杂方式。同样程度的复杂性反映在不确定性图中,并表明除了经过非常好的校准(图 5)之外,我们的贝叶斯神经网络在如何对不确定性进行建模方面也非常具体和精确,这是可取的。
我们的深度神经网络能够产生如此具体和详细的输出,因为它不仅在地理空间中插值——如在传统的地质统计模型中——而且在地形纹理空间中插值。这对映射任务具有重要意义。在传统的地质统计模型中,在观测的地理范围之外做出的任何预测都将被视为外推,并且可能具有很高的误差和不确定性 47。在我们的案例中,由于我们的神经网络在混合空间中工作,因此预测将是在地理上被认为是样本外的,在地形特征方面仍然可以在样本内。因此,像我们这样的基于深度学习的地质统计方法有可能在观测的地理范围之外做出明智的预测,利用目标变量和辅助变量网格之间的关系强度,而不是单纯的空间关系。这对“深度地质统计学”时代的最佳样本设计有影响,我们将讨论留待未来的工作,而不是说在这个新时代,样本设计应该考虑混合空间的两个方面:地理空间和地形特征空间。
在混合空间中进行插值的能力对矿物勘探等应用具有重要意义,在这些应用中,获得对未勘探区域的合理预测是新发现的关键驱动力 48。在我们的示例中,我们在其中训练神经网络的地球化学数据集fact 没有对爱尔兰共和国的观察,但对该地区(图 2 中爱尔兰岛南部三分之二)的预测在主观上似乎与对任何其他地区的预测一样合理。将来根据爱尔兰地球化学数据评估这些预测将很有趣,以便进一步研究贝叶斯深度学习在区域外地球化学勘探中的能力。
河流过程对钙的影响可能是地图中捕捉到的最显着的地形相关影响,钙的下坡“冲刷”清晰可见。这表明我们的神经网络已经能够通过实例学习复杂的物理过程。作者不知道在这项地球化学绘图任务中没有其他方法可以与我们的贝叶斯深度学习方法的能力相匹敌。数值模型可能能够更准确地表示物理过程,但在这里几乎不可能进行参数化,并且无论如何都很难准确量化不确定性。相反,传统的地质统计建模方法(如回归克里金法)在量化不确定性方面可能做得很好,但在特征学习方面没有能力。一种称为地形克里金法49 的方法专门用于在河流网络上进行插值,但这无法在手动指定的河流网络之外生成预测,因此在一般地图绘制应用中的用途有限。因此,我们假设我们在这里展示的贝叶斯深度学习架构代表了与以前的地统计方法相比在能力上真正的一步变化,我们鼓励采用它作为“大数据”地统计问题的新的通用解决方案。
数据可用性重现这项研究的代码可在 https://github.com/charliekirkwood/deepgeostat 获得,包括通过 R 中的栅格包下载 NASA 的 SRTM 高程数据的功能。但是,我们无法提供对我们的河流沉积物的开放访问地球化学目标变量数据集,但是出于学术研究目的,读者可以通过 https://www.bgs.ac.uk/enquiries/home.html 或通过电子邮件向 enquiries@bgs.ac 请求访问英国地质调查局的该数据集。英国。
地图对于我们了解地球及其过程很重要,但通常情况下我们无法在空间的每个点直接观察到我们感兴趣的变量。出于这个原因,我们必须使用模型来填补空白。为了支持不确定性下的决策制定,统计模型是可取的 1. 克里金法(原始地统计模型 2)基于目标变量的空间自相关提供点观测值之间的平滑插值 3。但是,通常可以获得其他信息来源。遥感 4,5 的兴起提供了我们在这里认为是辅助变量(例如地形高程、光谱图像、地下地球物理学)的易于访问的网格。这些是我们不直接感兴趣但可能包含与我们感兴趣的变量相关的信息的变量的完整地图。如何最好地从用于地统计建模任务的辅助变量网格中提取此类信息仍然是一个悬而未决的问题,但通常涉及使用手动设计的过滤器进行反复试验以提取具有尽可能多的解释力的特征 6,7,8,9 ,10,11,12(例如推导坡度角作为解释滑坡敏感性的特征 13)。在这里,我们提出了一个使用贝叶斯深度学习的端到端地质统计建模框架,它将信息提取问题定义为一个优化问题 14,这样做消除了手动特征工程和特征选择步骤的需要。
我们将贝叶斯深度神经网络应用于绘制整个英国河流沉积物钙浓度的任务,作为 log(氧化钙)。该数据集包含 109201 个点采样钙观测值 39,我们将其随机分成 10 份,其中一份留作最终测试数据集(我们从中报告我们的预测准确性和校准结果),一份用作评估在神经网络训练期间设置(以监控样本外数据的损失,以指导超参数调整),其余八折用作训练集。我们使用 NASA 的航天飞机雷达地形任务高程数据 38 作为我们的网格化辅助变量。我们为每个钙观测附加了以观测为中心的周围地形的 32x32 单元格图像。我们使用 250m 的网格单元大小,这意味着神经网络有一个 8x8km 的方形窗口,以每个观察为中心,从中学习其地形特征。为了便于地形特征的学习,我们对每张32x32的像元图像进行归一化处理,使中心点处于零高程。然后纯粹根据样本站点而不是绝对海拔来学习特征。然而,绝对高程以及东向和北向被明确提供为神经网络的第二个输入(在卷积层之后 - 参见图 1),以便为网络提供地理空间中整体位置的意识以及意识当地地形。当评估集的预测性能不再提高时(表明我们的后验预测分布已经收敛到真实数据分布的良好近似值),我们使用提前停止来训练我们的神经网络适当数量的 epochs。这往往发生在大约 250 个时期。请注意,所有结果都在第三个数据集(测试数据集)上报告,该数据集在训练期间根本没有使用。
虽然我们在这里提出的框架是新的,但它也可以看作是一系列先前工作的统一和概括。在 Krizhevsky 等人的突破性工作之后,深度学习 22——使用深度神经网络的机器学习——在过去十年中在科学界得到了越来越多的采用。 16 人通过使用深度神经网络自动学习信息特征(而不是手动推导出它们),在图像分类方面取得了新的技术水平。深度学习已在遥感领域得到广泛采用 18,19,23,2
然而,难以从深度神经网络 25 获得可靠的不确定性估计,这意味着深度学习尚未广泛用于不确定性重要的应用。一些作者在地统计背景下应用了特征学习 26,27,28,29(主要用于数字土壤制图),但只有一个 - Wadoux 28 - 能够提供不确定性估计(尽管这些是通过归纳方法实现的,并且发现分散不足)。在这里,我们使用一种有理论基础且实际有效的方法来估计不确定性:Monte Carlo dropout 作为贝叶斯近似,正如 Gal 和 Ghahramani 15 所设想的那样。作者知道它在遥感中的一个先前使用实例:用于 Kampffmeyer 等人的语义分割任务。 30. 因此,虽然我们工作背后的不同概念可能已经为一些读者所熟悉,但我们认为现在是时候将它们结合起来,并将贝叶斯深度学习作为大数据地统计学的通用解决方案,我们希望通过我们展示的方法论来展示贝叶斯深度学习将来得到广泛应用。
特征学习,用于地统计学
地统计学的核心领域是点观测的空间插值,以生成二维或三维的连续地图。克里金法是南非采矿工程师 Danie Krige 31 构想的现在无处不在的地统计技术,最初仅考虑观测值的位置和空间自相关,以便产生平滑的插值,如果没有其他信息可用,该插值可以被认为是最佳的 32。当其他信息可用时(由于遥感,如今这种情况很常见),追求最佳空间插值变得更加复杂。普通克里金法的扩展,即回归克里金法,允许将协变量包含在模型中:插值输出的平均值能够作为相应位置处的协变量值的线性函数变化 33,34。举一个说明性的例子,在地表气温数据的插值中将高程作为协变量包含在内,可以预期会产生反映基础高程图的地图,即其平均函数是高程的线性函数。然而,这很快将我们带到了回归克里金法的极限:如果高程的线性函数不能像某些高程的非线性函数那样对地表气温提供那么多的解释力怎么办?什么非线性高程函数是最佳的?同时,如果我们也有风向可用作协变量会怎么样。地表气温的最佳预测指标难道不是不仅考虑了海拔高度或风向,还考虑了它们如何相互作用,从山上流下来的空气预计会更冷吗?我们很快发现自己进入了特征工程和特征选择领域,这是一个假设和反复试验的世界,这已成为传统地统计建模过程中必要但不切实际的步骤。
深度神经网络的决定性优势在于它们能够自行学习特征,这归功于其层次结构,其中每一层的输出(乘以非线性激活函数)为下一层提供输入。通过误差梯度的反向传播,神经网络可以根据需要自动学习输入变量的非线性变换及其相互作用,以最大限度地减少损失。还表明,在无限宽度(无限节点数)的限制下,神经网络层在数学上等同于高斯过程35,它本身与 Danie Krige 以不同名称构想的相同平滑插值器。因此,神经网络是非常有能力的空间插值器也就不足为奇了。然而,我们的深度神经网络将这些空间能力与从辅助变量网格中学习自身特征的独特能力相结合。我们通过使用卷积层有效地实现了这一点——可训练的滤波器通过网格数据来导出新的特征,其方式类似于边缘检测滤波器如何从照片中导出边缘 36。通过堆叠卷积层,特征的复杂性和规模可以推导出增加,以及神经网络 37 的接受域的大小,这允许学习更长期的依赖结构。在我们的示例中,我们使用来自 NASA 的航天飞机雷达地形测绘任务 38 的高程数据作为我们的网格化辅助变量。我们的目标变量是英国地质调查局 39 收集的河流沉积物中钙的(对数转换)浓度。我们选择钙是因为它具有相对较高的流动性,因此对地形地貌的复杂依赖性,其学习为我们的深度神经网络的特征学习能力。
通过 MC dropout 估计不确定性
我们的贝叶斯深层神经网络生成的国家尺度地球化学图非常详细,似乎已经成功地捕获了我们的目标变量:河流沉积物钙浓度和我们的辅助变量网格:地形海拔(图 2)之间的复杂关系。如果细节与良好的预测性能不相符,那么单独的细节将一文不值,但我们对保留测试数据的结果——在模型训练和超参数调整过程中看不到——非常令人鼓舞:在确定性意义上,我们的平均预测贝叶斯深度神经网络解释了我们目标变量中 72% 的方差。网络在概率意义上的性能不太容易用单个数字来概括,但是预测分布与保留测试集上的真实分布的比较(图 5)表明校准良好的拟合 42。我们还使用两个适当的评分规则 43 衡量了性能:连续排名概率评分 (CRPS) 和对数评分,尽管这些在未来与其他模型的比较中最有用。我们通过评估预测区间的覆盖范围进一步审视校准质量,发现分别有 94.9%、70.2% 和 50.1% 的观测值落在 95%、70% 和 50% 的预测区间内。在相对较大的测试集(10920 个观测值)上,这种精确覆盖有力地证明了我们的贝叶斯深度神经网络正在输出可靠的概率 44,因此适用于支持不确定性下的决策制定。
我们放大国家比例尺地图,并在图 3 中可视化预测不确定性。查看这个更精细比例尺的确定性平均地图,并将其与相同范围的高程图进行比较,更详细地揭示了我们的深度卷积神经网络的非凡能力神经网络从头开始学习目标变量的分布与地形特征相关的复杂方式。同样程度的复杂性反映在不确定性图中,并表明除了经过非常好的校准(图 5)之外,我们的贝叶斯神经网络在如何对不确定性进行建模方面也非常具体和精确,这是可取的。
在地球化学测绘中的应用
Kirkwood 2020 年的 《地统计学中的贝叶斯深度学习》: 地球科学家越来越多地处理“大数据”。对于涉及空间建模和制图的应用程序,克里金法的变体——南非采矿工程师 Danie Krige 开发的空间插值技术——长期以来一直被视为成熟的地统计方法。然而,克里金法及其变体(例如回归克里金法,其中辅助变量或这些变量的导数作为协变量包含在内)是相对受限的模型,并且缺乏深度神经网络在过去十年左右为我们提供的功能。其中最主要的是特征学习:学习过滤器以识别网格数据(例如图像)中特定于任务的模式的能力。在这里,我们通过展示深度神经网络如何自动学习点采样目标变量和网格化辅助变量(例如遥感提供的辅助变量)之间的复杂关系,展示了地统计学背景下特征学习的力量,并在此过程中产生所选目标变量的详细地图。同时,为了满足需要良好校准概率的决策者的需求,我们展示了如何通过称为蒙特卡洛丢失的贝叶斯近似从深度神经网络获得任意和认知不确定性估计。在我们的示例中,我们根据点采样观测生成全国范围的概率地球化学图,并使用地形高程网格提供的辅助数据。与传统的地统计方法不同,辅助变量网格被原始输入到我们的深度神经网络中。无需提供导数(例如倾斜角、地形情况下的粗糙度),因为深度神经网络能够根据需要学习这些以及任意更复杂的导数来优化预测。我们希望我们的积极成果能够提高人们对贝叶斯深度学习及其特征学习能力在不确定性很重要的大规模地质统计应用中的适用性的认识。
结果与讨论
我们的贝叶斯深层神经网络生成的国家尺度地球化学图非常详细,似乎已经成功地捕获了我们的目标变量:河流沉积物钙浓度和我们的辅助变量网格:地形海拔(图 2)之间的复杂关系。如果细节与良好的预测性能不相符,那么单独的细节将一文不值,但我们对保留测试数据的结果——在模型训练和超参数调整过程中看不到——非常令人鼓舞:在确定性意义上,我们的平均预测贝叶斯深度神经网络解释了我们目标变量中 72% 的方差。网络在概率意义上的性能不太容易用单个数字来概括,但是预测分布与保留测试集上的真实分布的比较(图 5)表明校准良好的拟合 42。我们还使用两个适当的评分规则 43 衡量了性能:连续排名概率评分 (CRPS) 和对数评分,尽管这些在未来与其他模型的比较中最有用。我们通过评估预测区间的覆盖范围进一步审视校准质量,发现分别有 94.9%、70.2% 和 50.1% 的观测值落在 95%、70% 和 50% 的预测区间内。在相对较大的测试集(10920 个观测值)上,这种精确覆盖有力地证明了我们的贝叶斯深度神经网络正在输出可靠的概率 44,因此适用于支持不确定性下的决策制定。
我们使用穿过地图的南北剖面线可视化深度神经网络的概率能力(图 4)。这样做时,我们可以看到神经网络能够根据需要独立捕获认知和任意不确定性,以最大限度地减少损失。尽管 Monte Carlo 丢失率固定,但均值的可信区间在空间上有所不同,这表明神经网络能够捕捉认知不确定性中的空间变异性。同样,任意不确定性也会根据需要在空间上发生变化,并且在北向 600000 米以南最大,尽管该地区的认知不确定性较低。通过输出完整的预测分布,贝叶斯深度学习方法可以为各种问题 45,46 提供概率答案。例如,任何位置的超出概率都可以简单地计算为概率质量超过任何选定阈值的比例。
可以使用机器学习算法的输出来驱动子模型,而不是离线模拟中的另一个(可能有偏差的)子模型。这有助于将源自感兴趣子模块的模型错误与耦合子模块的错误分开。因此,这简化并减少了模型参数校准或观测到的系统状态变量的同化中的偏差和不确定性。
我们的深度神经网络能够产生如此具体和详细的输出,因为它不仅在地理空间中插值——如在传统的地统计模型中——而且在地形纹理空间中插值。这对映射任务具有重要意义。在传统的地统计模型中,在观测的地理范围之外做出的任何预测都将被视为外推,并且可能具有很高的误差和不确定性 47。在我们的案例中,由于我们的神经网络在混合空间中工作,因此预测将是在地理上被认为是样本外的,在地形特征方面仍然可以在样本内。因此,像我们这样的基于深度学习的地质统计方法有可能在观测的地理范围之外做出明智的预测,利用目标变量和辅助变量网格之间的关系强度,而不是单纯的空间关系。这对“深度地统计学”时代的最佳样本设计有影响,我们将讨论留待未来的工作,而不是说在这个新时代,样本设计应该考虑混合空间的两个方面:地理空间和地形特征空间。
在混合空间中进行插值的能力对矿物勘探等应用具有重要意义,在这些应用中,获得对未勘探区域的合理预测是新发现的关键驱动力 48。在我们的示例中,我们在其中训练神经网络的地球化学数据集fact 没有对爱尔兰共和国的观察,但对该地区(图 2 中爱尔兰岛南部三分之二)的预测在主观上似乎与对任何其他地区的预测一样合理。将来根据爱尔兰地球化学数据评估这些预测将很有趣,以便进一步研究贝叶斯深度学习在区域外地球化学勘探中的能力。
河流过程对钙的影响可能是地图中捕捉到的最显着的地形相关影响,钙的下坡“冲刷”清晰可见。这表明我们的神经网络已经能够通过实例学习复杂的物理过程。作者不知道在这项地球化学绘图任务中没有其他方法可以与我们的贝叶斯深度学习方法的能力相匹敌。数值模型可能能够更准确地表示物理过程,但在这里几乎不可能进行参数化,并且无论如何都很难准确量化不确定性。相反,传统的地统计建模方法(如回归克里金法)在量化不确定性方面可能做得很好,但在特征学习方面没有能力。一种称为地形克里金法49 的方法专门用于在河流网络上进行插值,但这无法在手动指定的河流网络之外生成预测,因此在一般地图绘制应用中的用途有限。因此,我们假设我们在这里展示的贝叶斯深度学习架构代表了与以前的地统计方法相比在能力上真正的一步变化,我们鼓励采用它作为“大数据”地统计问题的新的通用解决方案。
数据可用性重现这项研究的代码可在 https://github.com/charliekirkwood/deepgeostat 获得,包括通过 R 中的栅格包下载 NASA 的 SRTM 高程数据的功能。但是,我们无法提供对我们的河流沉积物的开放访问地球化学目标变量数据集,但是出于学术研究目的,读者可以通过 https://www.bgs.ac.uk/enquiries/home.html 或通过电子邮件向 enquiries@bgs.ac 请求访问英国地质调查局的该数据集。
参考文献
- [1] James O Berger. Statistical Decision Theory and Bayesian Analysis. Springer Science & Business Media, 1985.
- [2] Noel Cressie. The origins of kriging. Mathematical geology, 22(3):239–252, 1990.
- [3] Michael L Stein. Interpolation of Spatial Data: Some Theory for Kriging. Springer Science & Business Media, 1999.
- [4] VL Mulder, S De Bruin, Michael E Schaepman, and TR Mayr. The use of remote sensing in soil and terrain mapping—a review. Geoderma, 162(1-2): 1–19, 2011.
- [5] Ismael Colomina and Pere Molina. Unmanned aerial systems for photogrammetry and remote sensing: A review. ISPRS Journal of photogrammetry and remote sensing, 92:79–97, 2014.
- [6] JA Ruiz-Arias, D Pozo-Vázquez, FJ SantosAlamillos, V Lara-Fanego, and J Tovar-Pescador. A topographic geostatistical approach for mapping monthly mean values of daily global solar radiation: A case study in southern spain. Agricultural and forest meteorology, 151(12):1812–1822, 2011.
- [7] Laura Poggio, Alessandro Gimona, and Mark J Brewer. Regional scale mapping of soil properties and their uncertainty with a large number of satellitederived covariates. Geoderma, 209:1–14, 2013.
- [8] Benoit Parmentier, Brian McGill, Adam M Wilson, James Regetz, Walter Jetz, Robert P Guralnick, MaoNing Tuanmu, Natalie Robinson, and Mark Schildhauer. An assessment of methods and remote-sensing derived covariates for regional predictions of 1 km daily maximum air temperature. Remote Sensing, 6 (9):8639–8670, 2014.
- [9] Charlie Kirkwood, Mark Cave, David Beamish, Stephen Grebby, and Antonio Ferreira. A machine learning approach to geochemical mapping. Journal of Geochemical Exploration, 167:49–61, 2016.
- [10] Charlie Kirkwood. A dropout-regularised neural network for mapping arsenic enrichment in sw england using mxnet. NERC open research archive, 2016.
- [11] Dylan M Young, Lauren E Parry, Duncan Lee, and Surajit Ray. Spatial models with covariates improve estimates of peat depth in blanket peatlands. PLoS ONE, 13(9), 2018.
- [12] Sushil Lamichhane, Lalit Kumar, and Brian Wilson. Digital soil mapping algorithms and covariates for soil organic carbon mapping and their implications: A review. Geoderma, 352:395–413, 2019.
- [13] Ahmed Mohamed Youssef, Hamid Reza Pourghasemi, Zohre Sadat Pourtaghi, and Mohamed M Al-Katheeri. Landslide susceptibility mapping using random forest, boosted regression tree, classification and regression tree, and general linear models and comparison of their performance at wadi tayyah basin, asir region, saudi arabia. Landslides, 13(5):839–856, 2016.
- [14] Ravid Shwartz-Ziv and Naftali Tishby. Opening the black box of deep neural networks via information. arXiv preprint arXiv:1703.00810, 2017.
- [15] Yarin Gal and Zoubin Ghahramani. Dropout as a bayesian approximation: Representing model uncertainty in deep learning. In international conference on machine learning, pages 1050–1059, 2016.
- [16] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems, pages 1097–1105, 2012.
- [17] Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. Dropout: a simple way to prevent neural networks from overfitting. The journal of machine learning research, 15 (1):1929–1958, 2014.
- [18] Liangpei Zhang, Lefei Zhang, and Bo Du. Deep learning for remote sensing data: A technical tutorial on the state of the art. IEEE Geoscience and Remote Sensing Magazine, 4(2):22–40, 2016.
- [19] Xiao Xiang Zhu, Devis Tuia, Lichao Mou, Gui-Song Xia, Liangpei Zhang, Feng Xu, and Friedrich Fraundorfer. Deep learning in remote sensing: A comprehensive review and list of resources. IEEE Geoscience and Remote Sensing Magazine, 5(4):8–36, 2017.
- [20] Mark S Handcock and Michael L Stein. A bayesian analysis of kriging. Technometrics, 35(4):403–410, 1993.
- [21] Jürgen Pilz and Gunter Spöck. Why do we need and how should we implement bayesian kriging methods. Stochastic Environmental Research and Risk Assessment, 22(5):621–632, 2008.
- [22] Yann LeCun, Yoshua Bengio, and Geoffrey Hinton. Deep learning. nature, 521(7553):436–444, 2015.
- [23] Tongwen Li, Huanfeng Shen, Qiangqiang Yuan, Xuechen Zhang, and Liangpei Zhang. Estimating ground-level pm2. 5 by fusing satellite and station observations: a geo-intelligent deep learning approach. Geophysical Research Letters, 44(23):11–985, 2017.
- [24] Renguang Zuo, Yihui Xiong, Jian Wang, and Emmanuel John M Carranza. Deep learning and its application in geochemical mapping. Earth-science reviews, 192:1–14, 2019.
- [25] Alex Kendall and Yarin Gal. What uncertainties do we need in bayesian deep learning for computer vision? In Advances in neural information processing systems, pages 5574–5584, 2017.
- [26] José Padarian, Budiman Minasny, and Alex B McBratney. Using deep learning for digital soil mapping. Soil, 5(1):79–89, 2019.
- [27] Alexandre M JC Wadoux, José Padarian, and Budiman Minasny. Multi-source data integration for soil mapping using deep learning. Soil, 5(1):107–119, 2019.
- [28] Alexandre MJ-C Wadoux. Using deep learning for multivariate mapping of soil with quantified uncertainty. Geoderma, 351:59–70, 2019.
- [29] Charlie Kirkwood. Deep covariate-learning: optimising information extraction from terrain texture for geostatistical modelling applications. arXiv preprint arXiv:2005.11194, 2020.
- [30] Michael Kampffmeyer, Arnt-Borre Salberg, and Robert Jenssen. Semantic segmentation of small objects and modeling of uncertainty in urban remote sensing images using deep convolutional neural networks. In Proceedings of the IEEE conference on computer vision and pattern recognition workshops, pages 1–9, 2016.
- [31] Daniel G Krige. A statistical approach to some basic mine valuation problems on the witwatersrand. Journal of the Southern African Institute of Mining and Metallurgy, 52(6):119–139, 1951.
- [32] Georges Matheron. Traité de géostatistique appliquée. 1 (1962), volume 1. Editions Technip, 1962.
- [33] Carol A Gotway and Alan H Hartford. Geostatistical methods for incorporating auxiliary information in the prediction of spatial variables. Journal of Agricultural, Biological, and Environmental Statistics, pages 17–39, 1996.
- [34] Tomislav Hengl, Gerard BM Heuvelink, and David G Rossiter. About regression-kriging: From equations to case studies. Computers & geosciences, 33(10): 1301–1315, 2007.
- [35] Radford M Neal. Priors for infinite networks. In Bayesian Learning for Neural Networks, pages 2953. Springer, 1996.
- [36] Yushi Chen, Lin Zhu, Pedram Ghamisi, Xiuping Jia, Guoyu Li, and Liang Tang. Hyperspectral images classification with gabor filtering and convolutional neural network. IEEE Geoscience and Remote Sensing Letters, 14(12):2355–2359, 2017.
- [37] Wenjie Luo, Yujia Li, Raquel Urtasun, and Richard Zemel. Understanding the effective receptive field in deep convolutional neural networks. In Advances in neural information processing systems, pages 48984906, 2016.
- [38] Jakob J Van Zyl. The shuttle radar topography mission (srtm): a breakthrough in remote sensing of topography. Acta Astronautica, 48(5-12):559–565, 2001.
- [39] CC Johnson, N Breward, EL Ander, and L Ault. Gbase: baseline geochemical mapping of great britain and northern ireland. Geochemistry: exploration, environment, analysis, 5(4):347–357, 2005.
- [40] Charles Yoe. Principles of risk analysis: decision making under uncertainty. CRC press, 2011.
- [41] Craig R Fox and Gülden Ülkümen. Distinguishing two dimensions of uncertainty. Perspectives on thinking, judging, and decision making, 14, 2011.
- [42] Tilmann Gneiting, Fadoua Balabdaoui, and Adrian E Raftery. Probabilistic forecasts, calibration and sharpness. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 69(2):243–268, 2007.
- [43] Tilmann Gneiting and Adrian E Raftery. Strictly proper scoring rules, prediction, and estimation. Journal of the American statistical Association, 102(477): 359–378, 2007.
- [44] Tilmann Gneiting and Matthias Katzfuss. Probabilistic forecasting. Annual Review of Statistics and Its Application, 1:125–151, 2014.
- [45] Gavin C Cawley, Gareth J Janacek, Malcolm R Haylock, and Stephen R Dorling. Predictive uncertainty in environmental modelling. Neural networks, 20(4): 537–549, 2007.
- [46] Charlie Kirkwood, Theo Economou, Henry Odbert, and Nicolas Pugeault. A framework for probabilistic weather forecast post-processing across models and lead times using machine learning. Philosophical Transactions of the Royal Society of London: Series A, 2020.
- [47] Andre G Journel and ME Rossi. When do we need a trend model in kriging? Mathematical Geology, 21 (7):715–739, 1989.
- [48] Floyd F Sabins. Remote sensing for mineral exploration. Ore geology reviews, 14(3-4):157–183, 1999.
- [49] G Laaha, JO Skøien, and G Blöschl. Spatial prediction on river networks: comparison of top-kriging with regional regression. Hydrological Processes, 28 (2):315–324, 2014.
- [50] Robert J. Hijmans. raster: Geographic Data Analysis and Modeling, 2017. URL https://CRAN. R-project.org/package=raster. R package version 2.6-7.
- [51] R Core Team. R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria, 2020. URL https: //www.R-project.org/.
- [52] Martín Abadi, Paul Barham, Jianmin Chen, Zhifeng Chen, Andy Davis, Jeffrey Dean, Matthieu Devin, Sanjay Ghemawat, Geoffrey Irving, Michael Isard, et al. Tensorflow: A system for large-scale machine learning. In 12th {USENIX} symposium on operating systems design and implementation ({OSDI} 16), pages 265–283, 2016.