【摘 要】 地球系统模型 (ESM) 是量化地球物理状态并预测未来可能发生的变化的主要工具。然而,近年来,人工智能 (AI) 方法越来越多地用于增强甚至取代经典的地球系统模型任务,这让人们对人工智能能够解决气候科学的一些重大挑战产生了希望。在此观点中,我们调查了过程模型和 AI 在地球系统和气候研究中的最新成就和局限性,并提出了一种方法论转变,其中深度神经网络和地球系统模型被区分为单独的方法,并重新组合为学习、自我验证和可解释的地球系统模型-神经网络混合体。沿着这条道路,我们创造了术语 神经地球系统建模
【原 文】 Irrgang, C. et al. (2021) ‘Towards neural Earth system modelling by integrating artificial intelligence in Earth system science’, Nature Machine Intelligence, 3(8), pp. 667–674. Available at: https://doi.org/10.1038/s42256-021-00374-3.
1 引言
地球系统模型 (ESM)
[1] 将地球系统不同子系统的过程模型组合成一个集成的数值模型,对于时间 $t$ 的耦合系统的给定状态,可以预测时间 $t+1$ 的系统状态。各个模型组成部分或模块描述了子系统,包括大气、海洋、碳循环和其他生物地球化学循环、辐射过程,以及陆地表面和植被过程以及海洋生态系统。然后,这些模块由动态耦合器组合,以获得每个时间步长的完整系统的一致状态。
包括越来越多的过程,以及不断提高的空间分辨率,导致了综合地球系统模型的发展,以分析和预测地球系统的状态。从 1990 年政府间气候变化专门委员会(IPCC)第一次评估报告到第五阶段气候模式比对项目(CMIP5)[2]和 2014 年 IPCC 第五次评估报告,空间分辨率从 500 公里左右提高到高达 70 公里。相应地,CMIP 结果表明,在 20 年的过程中,模型在重现地球系统关键特征方面的准确性有了很大提高,例如自 20 世纪下半页仪器数据可用以来,全球平均温度的演变,或当今温度或降水的平均空间分布[3][4]。
由于新型人工智能 (AI) 工具的出现,地球系统模型可能会失去其重要性的一些挑衅性想法,在科学界引发了热议和谨慎态度。
- 一方面,已经开发出深度神经网络,以补充并旨在匹配各种应用中过程模型的能力,从数值天气预报到气候研究。
- 另一方面,大多数神经网络都是在简化条件下针对孤立应用进行训练的,缺乏真正的过程知识。
无论如何,来自 `地球系统观测 (ESO)` 的每天不断增加的数据流、不断增加的计算资源以及强大的 AI 工具的可用性和可访问性,导致了许多旨在解决当前地球系统模型长期存在问题的创新性发展。
在下文中,我们调查了过程模型和人工智能在地球和气候研究中的现状、近期成就和公认的局限性。在这项调查的基础上,我们概述了即将发生的方法论转变,以下称为 `神经地球系统建模 (NESYM)`,旨在将 AI 深入且可解释地集成到地球系统建模中。我们讨论了这种方法的新挑战,并强调了相关社区之间跨学科合作的必要性。
## 2 地球系统建模和地球系统观测概述
对于地球系统的某些部分,原始物理运动方程是明确已知的,例如描述大气和海洋流体动力学的 Navier-Stokes 方程 (`图 [1]`)。在实际工作中,不可能对所有相关动力学尺度都进行数值求解,必须进行近似。例如,大气和海洋的流体动力学方程集成在离散空间网格上,所有在网格分辨率下运行的过程,都必须参数化以确保对系统的封闭描述。由于地球物理流体动力学的多尺度性质意味着亚网格尺度过程与模型解析的更大尺度相互作用,亚网格尺度过程的(随机)参数化是气候模型非常重要且不可避免的一部分[5][6][7]。
> **图 1**:地球系统组件从知识集群角度的符号表示。 箭头指示集群之间在地球物理过程和耦合机制方面的信息交换(示例性的)。机器学习可以根据集群应用接管不同的任务。例如: 在过程知识匮乏的情况下进行数据探索和分析(绿色集群); 通过改进过程模型中不充分的参数化和其他简化来增强地球系统模型(蓝色集群); 仿真和加速众所周知的基于过程的模拟(橙色集群); 应用于耦合机制和交互过程(箭头),利用相邻的集群作为训练数据池。
对于地球系统的其他部分,原始运动方程(例如 navier-stokes 方程)并不存在。从本质上讲,这源于地球系统的复杂性,其中许多在宏观层面出现的现象,不容易从微观尺度推断出来,此现象可能会或可能不会被很好地理解。一个典型的例子是生态系统和控制大部分陆表植被覆盖的生理过程,以及它们与大气、碳循环和其他地球化学循环的相互作用。对于这些情况,必须根据潜在关键过程的参数化进行近似。
(1)评估地球系统模型的一个关键量是平衡气候敏感性,定义为大气 Co2 瞬时加倍导致的平衡全球平均温度升高量(参考 [9] )。当前的地球系统模型中仍然存在较大的平衡气候敏感性范围。从 cmip5 到 cmip6,可能的平衡气候敏感性范围已从 $2.1-4.7°c$ 扩大到 $1.8-5.6°c$(参考文献 [10][11])。减少这些不确定性从而减少未来气候预测的不确定性,是地球系统模型发展的主要挑战之一。
(2)理论和古气候数据都表明,地球系统的几个子系统可以突然改变自身状态以响应被施加的逐渐变化 [12][13]。人们担心当前的地球系统模型无法预测未来气候突变,因为不到两个世纪的仪器时代没有经历过类似变化,同时相关时间的长度(观测周期)也无法支持针对此类事件的古气候数据模型验证[14]。在广泛的搜寻中,在 cmip5 模型的未来预测中发现了许多相对突然的转变 [15],但由于这些罕见的高风险事件的性质,地球系统模型预测它们的准确性仍未得到检验。
(3)目前的地球系统模型尚不适合评估 Co2 去除技术的功效或环境影响,这些技术被认为是实现《巴黎协定》[16]途径中的关键缓解方案。此外,地球系统模型无法充分代表关键的环境过程,例如碳循环、水和养分可用性或土地利用与气候之间的相互作用。这可能会影响基于陆地的缓解方案的有效性,这些方案依赖于诸如具有碳捕获和储存的生物质能或基于自然的气候解决方案等行动[17][18]。
- 基于梯度的优化代表了当前效率和准确性的最先进技术水平,但需要耗时的设计,并为每个模型运行量身定制的伴随计算例程。
- 基于集成的卡尔曼滤波方案是无梯度的,但会产生不真实的输出,并且依赖于经常无法满足的严格统计假设,从而导致偏差和过度自信的预测[23]。
- 当代地球系统模型数据同化的主要问题是 (1) 非线性动力学和非高斯误差预算与许多地球系统模型组件的高维度相结合[24][25][26], (2) 在耦合系统中发现的不同时空尺度上选择对管理过程的适当约束[27][28]。
地球系统观测涵盖了广泛的时空尺度和类型,从几厘米到几万公里,从几秒、几十年到几千年。观测类型从不规则时间和空间的现场测量到基于全球卫星的数据场。然而,可用的观测数据池在时间和空间上仍然存在巨大差距,由于数据分辨率不足、观测时间太短以及地球系统的大部分未被观测到的部分(如深海),目前尚无法构建一个由历史观测驱动的耦合地球系统的完整图景。这些复杂特征的组合使地球系统观测既具有挑战性又对 AI 应用特别感兴趣。
## 3 从基于机器学习的数据探索到 “学习物理”
与其他研究分支相比[29][30][31][32],机器学习在地球和气候科学中的使用仍处于起步阶段。尽管当前的机器学习应用主要存在于探索性研究中,距离实际应用还很遥远,但预计会对研究以及超级计算行业产生深远影响[33]。一个关键的观察是来自计算机视觉和自动图像分析的机器学习概念可以同构地转移到地球系统观测图像和时间序列 [34][35]。早在 1990 年代,先驱性研究就证明了机器学习在遥感数据分析、分类任务和参数反演 [36][37][38][39] 以及气候模型模拟方面的可行性[40]。然而,地球和气候科学中 AI 技术大爆发仅仅是过去 5 年才开始的事情,并将在未来几十年内持续发展。
机器学习已应用于各种空间和时间尺度,从短期区域天气预报到全球气候现象。目前,已经在开发纯数据驱动的天气预报网络方面取得了相当大的进展,旨在探索能够替代 “过程模型预报” 的方法,或模拟和加速天气预报系统的计算要求高的组件,例如重力波阻力的参数化和模拟云过程。但是, **当前全球数据驱动的机器学习天气预报模型的分辨率远低于最先进的过程模型,并且可用训练数据的缺乏可能会成为缩小此差距的障碍**。
不过,在这种情况下,用于 **仿真任务** 和 **加速任务** 的机器学习可以发挥更重要的作用(`图 [1]` 中的橙色知识集群),特别是在百亿亿次级计算场景以及解决相关计算挑战和瓶颈时。机器学习促进了提高自然灾害可预测性的迫切需要,例如,通过 **揭示全球极端降雨远程连接** 、 **改进厄尔尼诺/南方振荡的长期预报**等。基于机器学习的图像填充技术可用于重建缺失的气候信息,从而纠正以前的全球温度记录。此外,机器学习还用于分析气候数据集,以从自然气候变率中提取特定的驱动信号,或预测集群天气模式。在这些应用中,机器学习工具充当高度专业化的代理(agents),有助于以自动化方式发现和分类模式,这对于目前仅通过物理定律或参数化进行有限描述的可观测过程而言,特别有用(`图 [1]` 中的绿色知识集群)。
将机器学习的概念 “应用于物理盲数据分析,甚至作为地球系统模型的替代或扩展方法” 的思潮,最近才开始逐步形成。科学家们开始追求利用机器学习方法来学习地球和气候物理学方面的目标,或者至少合理地将因果关系联系起来。“机器学习与基于过程建模相结合” 与以往地球系统观测数据探索之间存在本质区别( `图[1]` 中的蓝色知识集群)。将机器学习从纯粹的 “诊断驱动用途” 提升到 “地球物理过程预测”,对于帮助气候变化研究和制定缓解策略也至关重要。
按照这种推理, **可以使用过程模型数据对机器学习方法进行训练,以继承特定的地球物理因果关系,甚至可以模拟和加速整个正向模拟**。例如,机器学习已与地球系统模型和地球系统观测结合使用,反演太空海洋磁场观测以确定全球海洋热含量。同样,神经网络已经用大陆水文学模型进行了训练,可以从卫星重力测量中恢复了高分辨率陆地水储存。机器学习在扩大分布不均的碳通量测量以改进全球碳监测系统方面也发挥着重要作用。气旋相关技术与机器学习相结合来测量生态系统与大气之间的 CO2 净生态系统交换,为研究生态系统对气候变化的响应提供了独特的机会。机器学习已成功应用于表示亚网格级过程和地球系统模型的其他参数化,前提是有足够的训练数据可用。因此,神经网络被应用于近似海洋模型中的湍流过程和气候模型中的大气子网格过程。在这里,可以实现大量的计算节省,释放资源。这些资源反过来可用于改进模型模拟,例如,通过增加集成大小或提高数值模型的分辨率。
尽管一些训练有素的机器学习工具和简单的混合工具已经显示出比传统的过程模型更高的预测能力,但仅仅触及了未来给中新可能性和新科学挑战的浅层。到目前为止,机器学习、地球系统模型和地球系统观测在很大程度上是独立的工具。然而,我们已经了解到,`物理感知机器学习` 和 `模型-神经网络混合体` 等方法,为解决纯过程模型所缺乏的可靠性问题提供了巨大的好处。
## 4 过程模型与人工智能的融合
将过程模型和机器学习模型混合的想法并不新鲜,但随着最近的进展,人们对机器学习如何增强过程模型的理解也得到了发展。长期目标是 “将最近发现的机器学习优势持续整合到地球系统科学的过程知识来源中”(`图 [2]`)。但是,这种演变并非没有方法论的警示,需要仔细研究。为了可比性,我们区分了 `弱耦合 NESYM 混合体`(其中地球系统模型或 AI 技术从彼此的信息中获益)和 `强耦合 NESYM 混合体`(其中完全耦合的模型-神经网络组合动态交换信息)。
> **图 2:地球系统模型和 AI 向 NESYM 融合过程的连续阶段。 图中左右两个分支可视化了当前构建弱耦合混合体的努力和目标(蓝色和黄色),这些努力和目标在可解释人工智能 XAI 的支持下趋向于强耦合混合体。文中提供了弱耦合和强耦合的更多细节。**
弱混合体的新兴发展主要是由解决先前描述的地球系统模型限制的目标驱动的,特别是未解决和亚网格级过程(`图 [2]` 的左分支)。在使用来自解析感兴趣过程的高分辨率模型的模拟数据或相关地球系统观测数据进行仔细训练后,神经网络可以模拟此类过程。下一个方法里程碑将是将此类经过训练的神经网络集成到地球系统模型中以供操作使用。最初的测试表明,AI 技术的选择(例如,神经网络与随机森林)似乎对于学习参数化方案的实施至关重要,因为它们会大大降低地球系统模型的数值稳定性。因此,不仅重要的是要确定如何训练神经网络来解决地球系统模型限制,而且重要的是如何在模型物理环境中稳定这种基于机器学习的方案,以及如何评估和解释它们对过程模拟的影响。基于机器学习的参数化方法的局限性可能因不同问题或使用的模型而有很大差异,因此,应针对每个学习任务单独考虑。尽管如此,已经提出了一些想法来稳定机器学习参数化,例如,通过神经网络和特定网络架构中的自定义损失函数或通过优化高分辨率模型训练数据来增强物理一致性。此外,还提出了一个地球系统模型蓝图,其中可以通过搜索地球系统模型、观测和高分辨率模拟之间的统计测量的最佳拟合来确定学习参数化。虽然这不是严格应用机器学习,但该方法非常适合探索适用于平滑气候解决方案的参数化,避免了基于集成的卡尔曼滤波技术的问题。在此背景下,已经做出进一步的努力来增强地球系统模型,不是直接使用机器学习,而是结合数据同化系统。例如,已经研究了用机器学习模拟卡尔曼滤波器方案,提出了一种基于机器学习的大气驱动不确定性估计,用作数据同化中的误差协方差信息,并提出了用于 nudged hindcasts 的机器学习,以及其他类型的卡尔曼网络混合。尽管已证明将数据同化和机器学习相结合的潜力,但应该强调的是,当前数据同化的许多挑战也需要针对各自的机器学习方法来解决,例如模型和观测不确定性的稳健量化以及稀疏观测的最佳使用。
数据同化(data assimilation)是指在考虑数据时空分布以及观测场和背景场误差的基础上,在数值模型的动态运行过程中融合新的观测数据的方法。它是在过程模型的动态框架内,通过数据同化算法不断融合时空上离散分布的不同来源和不同分辨率的直接或间接观测信息来自动调整模型轨迹,以改善动态模型状态的估计精度,提高模型预测能力。 [1] 数据同化是一种最初来源于数值天气预报,为数值天气预报提供初始场的数据处理技术,已广泛应用于大气海洋领域。
按数据同化算法与模型之间的关联机制,数据同化算法大致可分为顺序数据同化算法和连续数据同化算法两大类。 连续数据同化算法定义一个同化的时间窗口T,利用该同化窗口内的所有观测数据和模型状态值进行最优估计,通过迭代而不断调整模型初始场,最终将模型轨迹拟合到在同化窗口周期内获取的所有观测上,如三维变分和四维变分算法等。 顺序数据同化算法又称滤波算法,包括预测和更新两个过程。预测过程根据t时刻状态值初始化模型,不断向前积分直到有新的观测值输入,预测t+1时刻模型的状态值;更新过程则是对当前t+1时刻的观测值和模型状态预测值进行加权,得到当前时刻状态最优估计值。根据当前t+1时刻的状态值对模型重新初始化,重复上述预测和更新两个步骤,直到完成所有有观测数据时刻的状态预测和更新,常见的算法有集成卡尔曼滤波和粒子滤波算法等。
可以用卡尔曼滤波器来比喻数据同化过程。其中 “分析” 步骤类似于观测值与它的预估值的作差;预报步骤则相当于系统状态的最优估计。数据同化与最优控制过程之不同在于,其自由度数量庞大,根本无法得到其协方差矩阵。 数据同化常用于涉及大规模时效性数据处理的过程,如现代天气预报。
