西山晴雪的知识笔记

置顶|发表于2021-09-15|预测任务非参数模型

〖摘要〗高斯过程 Gaussian Processes 是概率论和数理统计中随机过程的一种，是多元高斯分布的扩展，被应用于机器学习、信号处理等领域。本文对高斯过程进行公式推导、原理阐述、可视化以及代码实现，介绍了以高斯过程为基础的高斯过程回归基本原理、超参优化、高维输入等问题。〖参见〗《高斯过程的可视化探索》；《稀疏高斯过程及其推断》；《深度高斯过程》 p{text-indent:2em;} 1 支持向量机 #refplus, #refplus li{ padding:0; margin:0; list-style:none; }； document.querySelectorAll(".refplus-num").forEach((ref) => { let refid = ref.firstChild.href.replace(location.origin+location.pathname,''); ...

🔥 稀疏高斯过程及其变分推断

置顶|发表于2022-12-20|高斯过程可扩展性模型推断

〖摘要〗高斯过程（Gaussian Processes,高斯过程）为贝叶斯推断提供了一个数学上优雅的框架，可以为大量问题提供原则性的不确定性估计。例如，对于某些具有高斯似然的回归问题，高斯过程模型具有封闭形式的后验。然而，后验高斯过程（高斯过程的后验依然是一个高斯过程分布，此处将之简称为后验高斯过程）的计算复杂度与训练样本数量成立方关系，并且所有训练样本均需要在内存中存储。为克服这些问题，已经提出了使用伪训练样本（也称为或）来获取近似后验高斯过程的方法 – 稀疏高斯过程（Sparse Gaussian Processes）。用户可以自己定义伪训练样本的数量，进而控制计算和内存复杂度。在一般情况下，稀疏高斯过程无法得到封闭解，必须求助于近似推断。在此情况下，变分推断是近似推断的一种选择。变分方法将贝叶斯推断问题转化为优化问题，通过最大化对数边缘似然下界（ ELBO\mathbb{ELBO}ELBO ）的方法，得到近似的后验分布。变分推断为构建强大且多功能的框架铺平了道路，在其训练过程中，伪训练样本与（先验和似然的）超参数一起，被视为待优化的参数。该框架可以扩展到更为广 ...

点参考数据及克里金法

置顶|发表于2022-02-01|GeoAI点参考数据空间数据建模

【阅读建议】点参考数据的空间预测和模拟问题，大致有传统克里金法和目前应用比较广泛的基于似然的方法。本文主要介绍源于地统计学的传统克里金方法，一来掌握空间统计中的基础方法，二来便于与后面几篇文章中提到的高斯过程之间建立联系。克里金方法在对空间随机场作出本征平稳假设的情况下，利用参数化的变异函数对不同位置处随机变量的偏差之间存在的空间结构（相关性）进行建模，利用有限样本点的最大似然求解最优参数，并将其用于预测任务。【引文信息】 [1] 史舟，李艳编，地统计学在土壤学中的应用. Beijing: Zhong guo nong ye chu ban she， 2006. [2] 王政权，地统计学及在生态学中的应用. Bei jing: Ke xue chu ban she， 1999. 1 引言空间数据的获取通常具有一定的成本，是进行空间分析的基础与起源。为了提高研究结论的精度，我们希望能够获取研究区域内更多、更全面的精确空间属性数据信息。然而，在实际研究工作中，由于人力成本、资源等外部条件限制，我们无法对全部未知区域加以采样与测量，而往往只能得到研究区域内有限数量 ...

【面元数据】之数据模型篇

置顶|发表于2021-02-01|GeoAI面元数据

【阅读建议】空间数据集通常被分为三种类型：面元数据、面元数据和点模式数据，本文重点介绍面元数据的形式化定义。【引文信息】 p{text-indent:2em} 按照惯例，通常将空间数据集分为三种基本类型：点参考数据 (Point-referenced data) 其中 $$Y(s)$$ 是位置 $$\mathbf{s} \in \mathit{R}^r$$ 处的随机向量，其中 $$\mathbf{s}$$ 在 $$\mathit{R}^r$$ 的一个固定子集 $$D$$ 上连续变化，具有 $$r$$ 维矩形的正体积；面元数据（Areal data）其中 $$D$$ 依然是 $$\mathit{R}^r$$ 的一个固定子集，具有规则或不规则的形状，不过现在 $$D$$ 被划分为有限数量的、具有明确边界的面元；点模式数据（Point pattern data） D$$ 本身是随机的；其索引的集合 (Index set) 给出了作为空间点模式的随机事件的位置。 $$Y(s)$$ 本身对于所有 $$s \in D$$ 可以简单地等于 $$1$$ （表示 ...

【点模式数据】之数据模型篇

置顶|发表于2021-02-01|GeoAI点模式数据

【阅读建议】空间数据集通常被分为三种类型：点模式数据、点模式数据和点模式数据，本文重点介绍点模式数据的形式化定义。【引文信息】 p{text-indent:2em} 按照惯例，通常将空间数据集分为三种基本类型：点参考数据 (Point-referenced data) 其中 Y(s)Y(s)Y(s) 是位置 s∈Rr\mathbf{s} \in \mathit{R}^rs∈Rr 处的随机向量，其中 s\mathbf{s}s 在 Rr\mathit{R}^rRr 的一个固定子集 DDD 上连续变化，具有 rrr 维矩形的正体积；点模式数据（Areal data）其中 DDD 依然是 Rr\mathit{R}^rRr 的一个固定子集，具有规则或不规则的形状，不过现在 DDD 被划分为有限数量的、具有明确边界的点模式；点模式数据（Point pattern data） DDD 本身是随机的；其索引的集合 (Index set) 给出了作为空间点模式的随机事件的位置。 Y(s)Y(s)Y(s) 本身对于所有 s∈Ds \in Ds∈D 可以简单地等于 ...

地理加权回归模型

置顶|发表于2022-11-10|GeoAI空间变系数模型

〖摘要〗空间异质性是地理学第二定律的核心。从地理信息科学角度，空间异质性主要包含两种类型，一是随空间变化，空间某些变量之间的关系发生了明显变化；二是随空间变化，空间某些变量的统计量（如：均值、方差）会出现平稳或者不平稳的变化。地理加权回归是空间计量学、地理空间统计学中为研究第一种空间异质性（即变量间关系的空间异质性）而提出的工具，在多元变量的空间插值或预测等方面具有重要作用。本文为相关原理的基本介绍。〖原文〗 Yamagata, Y. and Seya, H. (eds) (2020) Spatial analysis using big data: methods and urban applications. London, United Kingdom ; San Diego, CA: Academic Press, an imprint of Elsevier (Spatial econometrics and spatial statistics). Chapter 6 1 引言 1.1 全局空间最小二乘回归的问题在地学空间分析中，nnn 组观测数据通常 ...

快速地理加权回归 (FastGWR)

置顶|发表于2023-01-11|GeoAI空间变系数模型

〖摘要〗地理加权回归 (GWR) 是一种广泛使用的工具，用于探索地理空间过程的空间异质性。 GWR 计算特定位置的参数估计值，这使得其校准过程需要大量计算。当前开源 GWR 软件可以处理的最大数据点数是标准桌面上的大约 15,00015,00015,000 个观测值。在大数据时代，这严重限制了 GWR 的使用。为了克服这一限制，我们提出了一种高度可扩展的开源 FastGWR 实现，该实现基于 Python 和消息传递接口 (MPI)，可扩展到数百万个观测值的数量级。 FastGWR 优化内存使用以及并行化以显著提高性能。为了说明 FastGWR 的性能，对来自洛杉矶市 Zillow 数据集的大约 130130130 万个单户住宅物业进行了特征房价模型校准，这是将 GWR 应用于这种规模的数据集的首次尝试。结果表明，随着高性能计算 (HPC) 环境中内核数量的增加，FastGWR 呈线性扩展。它还优于当前可用的开源 GWR 软件包，在标准桌面上速度大幅降低——最高可达数千倍。【原文】 Li, Z. et al. (2019) ‘Fast Geographically ...

多尺度地理加权回归

置顶|发表于2022-11-15|GeoAI空间变系数模型

其中 nnn 表示样本大小，σ^\hat{\sigma}σ^ 定义为误差项的标准差，tr⁡(S)\operatorname{tr}(\boldsymbol{S})tr(S) 是帽子矩阵的迹。选定带宽后，可以进一步计算权重，并在每个校准位置拟合 GWR 模型，以获得一组局部系数。通过取每个校准位置的局部 R2R^{2}R2 的平均值，可以获得 GWR 模型的总体 R2R^{2}R2 值。【原文】 Fotheringham, A. Stewart and Yang, Wenbai and Kang, Wei. Multiscale Geographically Weighted Regression (MGWR) 2017. Annals of the American Association of Geographers , Vol. 107, No. 6 p. 1247-1265. 【阅后感】本文作者是地理加权回归方法的提出者之一，也是《地理加权回归：空间可变关系的分析》一书的作者。在提出地理加权回归十余年后，作者发现原来的方法对于尺度缺乏建模能力（即解释变量可能来 ...

一种地理加权人工神经网络 -- GWANN

置顶|发表于2021-05-14|GeoAI空间变系数模型

一种地理加权人工神经网络【摘要】虽然最近的发展在许多方向上扩展了地理加权回归( GWR )，但通常假设因变量和自变量之间的关系是线性的。然而，在实践中，变量往往是非线性关联的。为解决该问题，荷兰乌特勒支大学 Hagenauer 等提出了一种地理加权人工神经网络( GWANNGWANNGWANN )。 GWANNGWANNGWANN 将地理加权与人工神经网络相结合，能够在无假设情况下以数据驱动方式学习复杂的非线性关系。通过已知空间特征的合成数据和真实世界案例研究，作者将 GWANNGWANNGWANN 和 GWR 进行了比较。合成数据的结果表明，当数据之间关系是非线性且空间方差较大时， GWANNGWANNGWANN 算法的性能要好于 GWR 算法，而基于真实数据的结果表明， GWANNGWANNGWANN 算法在实际应用中也可以取得更好的性能。【原文】 Hagenauer, J. and M. Helbich ( 2021 ). “A geographically weighted artificial neural network.” International ...

利用合成地图为历史地图文本检测生成无限训练数据

置顶|发表于2022-10-27|GeoAIGeoAI

【摘要】许多历史地图页可公开用于需要长期历史地理数据的研究。这些地图的制图设计包括地图符号和文字标签的组合。从地图图像中自动读取文本标签可以大大加快地图解释速度，并有助于生成描述地图内容的丰富元数据。已经提出了许多文本检测算法来自动定位地图图像中的文本区域，但大多数算法都是在域外数据集（例如风景图像）上训练的。训练数据决定了机器学习模型的质量，而在地图图像中手动标注文本区域既费力又费时。另一方面，现有的地理数据源，例如 OpenStreetMap (OSM)，包含机器可读的地图图层，这使我们可以轻松地分离出文本图层并获得文本标签注释。但是，OSM 地图瓦片和历史地图之间的制图风格明显不同。本文提出了一种自动生成无限量带注释的历史地图图像的方法，用于训练文本检测模型。我们使用样式转换模型将当代地图图像转换为历史样式并在其上放置文本标签。我们表明，最先进的文本检测模型（例如 PSENet）可以从合成历史地图中受益，并在历史地图文本检测方面取得显著改进。【原文】Zekun Li, Runyu Guan, Qianmu Yu, Yao-Yi Chiang, and Crai ...