🔥 大规模点参考数据统计分析方法索引帖
〖摘 要〗 个人用于整理大规模点参考数据时空统计分析方法的汇总帖,大致分为克里金法和贝叶斯建模、高斯过程及其推断理论、大 n 问题及其对策、并行化策略和方法、与深度学习的结合等部分。目前主要兴趣点在大规模点参考数据的高效计算方法和统计深度学习方面。
1 基础地统计方法
(1)克里金法及经验估计
克里金方法发源于 1940 年代的地统计学领域,主要用于解决插值问题,因 Krige 1960 年的一篇硕士论文而命名。在 1990s 年代,克里金法在贝叶斯推断背景下被重新表述,并被称为 高斯过程回归,而相关函数(在克里金法中是半变异函数)的选择,则被视为一个机器学习问题。
- 自编的《点参考数据及克里金法》 : 介绍了传统地统计学的克里金方法,其本质上就是高斯过程,只是提供了一套以变异函数和克里金预测为核心的独立技术体系。
- Gelfand (2017)的 《点参考数据贝叶斯建模综述》 : 系统地从贝叶斯建模角度重温了地统计方法,除简述克里金法外,还包括贝叶斯分层建模方法、大 N 问题的处理等介绍性文字。
2 高斯过程及其推断
从权重视角来看,高斯过程是多元高斯分布向无限维随机变量的推广,而从函数视角来看,高斯过程一个函数的概率分布。从函数视角更容易与贝叶斯法则解释高斯过程的推断过程:从一个先验高斯过程(先验的函数分布)开始,根据观测数据更新函数,最终得到一个后验高斯过程(后验的函数分布)。
参见 《高斯过程索引帖》: 介绍了高斯过程基本原理,特别针对大数据问题给出了可扩展高斯过程的相关综述和关键文献列表,并按照 基本原理、 模型推断、 可扩展高斯过程、 神经网络高斯过程、 计算机实验与模拟 等组进行了分别介绍。
参见 《高斯过程推断方法索引贴》:单独对高斯过程推断方法这一部分进行了总结。
3 大规模空间点参考数据数据
大规模点参考数据的处理方法大多发展自可扩展高斯过程的相关方法,如 Heaton 等 2019、Huang 等 2021 组织的空间评测活动中,主要的参赛作品大多采用高斯过程领域的 近似似然方法、 降秩方法、 稀疏核矩阵方法、 稀疏精度矩阵方法 等,还有一些特殊的其他方法。
3.1 近似似然方法
参见 《可扩展高斯过程索引贴》 中 第 3.1 节
的内容
3.2 降秩方法
参见 《可扩展高斯过程索引贴》 中 第 3.5 节
的内容
在地统计领域,地统计学家结合自身特点提出了一些专业性方案,较为出名的有:
- 离散过程卷积(Higdon 2002;Lemos 和 Sansó 2009)
- Cressie 2008 年的 《固定秩克里金法》(Cressie 和 Johannesson 2008;Kang 和 Cressie 2011 年;Katzfuss 和 Cressie 2011 年;Zammit-Mangion 等 2021 ):充分利用了基函数展开,将 $n \times n$ 的协方差矩阵问题,转化为基函数系数的 $r \times r$ 协方差矩阵问题。
- Banerjee 2008 年的 《高斯预测过程法》(Banerjee 等 2008 年;Finley 等 2009 年)
相关软件参见:
3.3 稀疏核矩阵方法
参见 《可扩展高斯过程索引贴》 中 第 3.3 节
的内容
3.4 稀疏精度矩阵方法
参见 《可扩展高斯过程索引贴》 中 第 3.4 节
的内容
3.5 其他方法
🔥 Nychka 2015 年的 《格子克里金法》(Nychka 等 2015 年):作者自己认为是固定秩克里金法和高斯马尔可夫随机场方法的一种结合。该方法将一个空间过程该分解为多个分辨率上的子过程之和,对于每一个子过程,利用 KL 展开构建随机过程的正交基函数表示(类似于固定秩的克里金法,但固定秩克里金法并不要求基函数正交); 由于 KL 展开的基系数是随机变量,因此作者为其引入了高斯马尔可夫随机场模型做近似。
🔥 Datta 等 2016 年的 《最近邻高斯过程》:既将类似于 Vecchia 的似然近似方法应用于隐过程变量,又考虑了稀疏归纳,可以被视为一种局部和全局混合的方法。
🔥 Katzfuss 等 2017 年的 《多分辨率近似》
谱域转换法(Fuentes 2007)
元克里金(Meta Krigging)
4 并行化方法
Paciorek 等 (2015)[65] 表明 式 (1) 可以使用并行计算计算
Katzfuss 和 Hammerling (2017)[50] 以及 Katzfuss (2017)[47] 开发了一种适用于分布式计算的基函数方法。
Barbian 和 Assunção (2017)[4] 以及 Guhaniyogi 和 Banerjee (2018)[36] 建议将数据划分为大量子集后,并行地对子集进行推断,然后再组合推断。
5 大规模时空点参考数据
6 相关软件汇总
Update:
下面是一些软件包主要支撑的模型:
LatticeKrig : 美国国家大气研究中心 Nychka 等实现了 LatticeKrig 模型,该模型采用 Wendland 基函数(具有紧凑支撑)对空间过程进行分解,并基于高斯马尔可夫假设构造随机基函数系数的稀疏精度矩阵,从而大幅提升计算效率,支持大量基函数的使用($>10,000$);缺点是无法满足精细尺度过程变化,重构的空间过程最精细尺度局限于所用基函数的最精细分辨率。
INLA: 英国巴斯大学 Lindgren、Rue 等提出的一个用于模型拟合和预测的通用软件包,空间统计是其一种应用场景。它通过使用高斯马尔可夫随机场 (GMRF) 来近似随机偏微分方程 (SPDE),其优点是能够拟合具有 Matérn 类协方差函数的高斯过程。具体来说,使用三角形 “帐篷” 基函数对空间过程进行分解,基于高斯马尔可夫假设构造随机基函数系数的稀疏精度矩阵。可以看出,此模型与 LatticeKrig 模型具有很多相同特征。INLA 的一个关键优势是:包含大量可用的近似推断机制和似然模型,一旦构建了空间或时空模型,就可以很方便的使用它们。
spBayes: 基于美国明尼苏达大学的 Banerjee 等提出的 预测过程方法,其基函数根据假设的协方差函数构造。美国密歇根州立大学的 Finley 等 spBayes 允许多元空间或时空过程,并使用马尔可夫链蒙特卡罗 (MCMC) 进行贝叶斯推断,从而允许使用各种似然模型。由于其基函数是基于参数化协方差模型构造的,所以参数的先验会导致每次 MCMC 迭代中都会生成新的基函数,进而减慢计算速度,因此通常将预测过程中使用的节点数选择得较小,但这又会限制其模拟更精细尺度的能力。
FRK:以美国俄亥俄州立大学的 Cressie 等提出的固定秩克里金法 为基础,同样采用基函数分解方式,但对对基函数没有正交要求。传统的 FRK 方法不对随机基系数的协方差矩阵做任何结构假设,所以结果是非平稳空间模式;澳大利亚卧龙岗大学的 Zammit-Mangion 等 对其进行了适当改进,增加了对参数化结构的支持。在该方法中,所有观测的足印都被转换为基础空间离散网格单元的集合,并由此形成了一套完整的参数估计和空间预测方法。
spNNGP:理论模型为美国加州大学洛杉矶分校 Datta 等的 最近邻高斯过程
MRA: 理论模型为美国德州农工大学 Katzfuss 等的 多分辨率近似
ExaGeoStatR : 沙特阿卜杜拉国王科技大学 (KAUST) 开发的高斯过程软件包,支持精确和近似高斯过程计算和各种并行计算环境。