西山晴雪的知识笔记

发表于2022-11-18|GeoAI点参考数据空间数据建模

【摘要】空间数据集通常被分为三种类型：点参考数据、面元数据和点模式数据，本文重点介绍点参考数据的建模基础–空间随机场，讨论了空间随机场的一些基本假设和性质，及其形式化定义。【原文】 O. Schabenberger and C. A. Gotway, Chapter 2，Statistical methods for spatial data analysis. Boca Raton: Chapman & Hall/CRC, 2005. 1 随机过程与随机场（1）随机过程与随机场随机过程是随机变量族或集合，其成员可以根据某种度量来识别或索引。例如：时间序列 Y(t)，t=t1,…,tnY (t)，t = t_1,\ldots,t_nY(t)，t=t1,…,tn 由观测该序列的时间点 t1,…,tnt_1,\ldots,t_nt1,…,tn 索引。空间过程也是随机变量的集合，只是其中的随机变量由包含空间坐标 s=[s1,s2,⋅⋅⋅,sd]′\mathbf{s} =[s_1,s_2, ···,s_d]^\primes=[s1,s2,⋅⋅⋅ ...

多尺度地理加权回归

发表于2022-11-15|GeoAI空间变系数模型

其中 nnn 表示样本大小，σ^\hat{\sigma}σ^ 定义为误差项的标准差，tr⁡(S)\operatorname{tr}(\boldsymbol{S})tr(S) 是帽子矩阵的迹。选定带宽后，可以进一步计算权重，并在每个校准位置拟合 GWR 模型，以获得一组局部系数。通过取每个校准位置的局部 R2R^{2}R2 的平均值，可以获得 GWR 模型的总体 R2R^{2}R2 值。【原文】 Fotheringham, A. Stewart and Yang, Wenbai and Kang, Wei. Multiscale Geographically Weighted Regression (MGWR) 2017. Annals of the American Association of Geographers , Vol. 107, No. 6 p. 1247-1265. 【阅后感】本文作者是地理加权回归方法的提出者之一，也是《地理加权回归：空间可变关系的分析》一书的作者。在提出地理加权回归十余年后，作者发现原来的方法对于尺度缺乏建模能力（即解释变量可能来 ...

贝叶斯分层模型

发表于2022-11-13|GeoAI空间贝叶斯方法空间建模思维

【摘要】本文简要介绍了贝叶斯分层建模方法的概念、优势和局限性。【原文】 N. Cressie, chapter 2, Statistics for spatio-temporal data. 2011. 核心内容快速浏览（1）贝叶斯全概率公式贝叶斯全概率公式允许将随机变量的联合分布分解为一系列条件分布： [A,B,C]=[A∣B,C][B∣C][C][A, B, C] = [A | B, C][B | C][C] [A,B,C]=[A∣B,C][B∣C][C] 其中 “[⋅][ \cdot ][⋅]” 用于表示概率分布；例如，[A,B,C][A, B, C][A,B,C] 是随机变量 AAA、BBB 和 CCC 的联合分布，而 [A∣B,C][A | B, C][A∣B,C] 是给定 BBB 和 CCC 时 AAA 的条件分布。（2）Berlinear 的贝叶斯分层模型 (BHM) 范式 Mark Berliner （Berliner，1996）是最早使用贝叶斯全概率公式分解来为复杂过程建模的人。也就是说，联合分布 [data,process,parameter ...

地理加权回归模型

发表于2022-11-10|GeoAI空间变系数模型

〖摘要〗空间异质性是地理学第二定律的核心。从地理信息科学角度，空间异质性主要包含两种类型，一是随空间变化，空间某些变量之间的关系发生了明显变化；二是随空间变化，空间某些变量的统计量（如：均值、方差）会出现平稳或者不平稳的变化。地理加权回归是空间计量学、地理空间统计学中为研究第一种空间异质性（即变量间关系的空间异质性）而提出的工具，在多元变量的空间插值或预测等方面具有重要作用。本文为相关原理的基本介绍。〖原文〗 Yamagata, Y. and Seya, H. (eds) (2020) Spatial analysis using big data: methods and urban applications. London, United Kingdom ; San Diego, CA: Academic Press, an imprint of Elsevier (Spatial econometrics and spatial statistics). Chapter 6 1 引言 1.1 全局空间最小二乘回归的问题在地学空间分析中，nnn 组观测数据通常 ...

利用合成地图为历史地图文本检测生成无限训练数据

发表于2022-10-27|GeoAIGeoAI

【摘要】许多历史地图页可公开用于需要长期历史地理数据的研究。这些地图的制图设计包括地图符号和文字标签的组合。从地图图像中自动读取文本标签可以大大加快地图解释速度，并有助于生成描述地图内容的丰富元数据。已经提出了许多文本检测算法来自动定位地图图像中的文本区域，但大多数算法都是在域外数据集（例如风景图像）上训练的。训练数据决定了机器学习模型的质量，而在地图图像中手动标注文本区域既费力又费时。另一方面，现有的地理数据源，例如 OpenStreetMap (OSM)，包含机器可读的地图图层，这使我们可以轻松地分离出文本图层并获得文本标签注释。但是，OSM 地图瓦片和历史地图之间的制图风格明显不同。本文提出了一种自动生成无限量带注释的历史地图图像的方法，用于训练文本检测模型。我们使用样式转换模型将当代地图图像转换为历史样式并在其上放置文本标签。我们表明，最先进的文本检测模型（例如 PSENet）可以从合成历史地图中受益，并在历史地图文本检测方面取得显著改进。【原文】Zekun Li, Runyu Guan, Qianmu Yu, Yao-Yi Chiang, and Crai ...

2021 年GeoAI 研讨会总结

发表于2022-10-27|GeoAI概览

【摘要】许多历史地图页可公开用于需要长期历史地理数据的研究。这些地图的制图设计包括地图符号和文字标签的组合。从地图图像中自动读取文本标签可以大大加快地图解释速度，并有助于生成描述地图内容的丰富元数据。已经提出了许多文本检测算法来自动定位地图图像中的文本区域，但大多数算法都是在域外数据集（例如风景图像）上训练的。训练数据决定了机器学习模型的质量，而在地图图像中手动标注文本区域既费力又费时。另一方面，现有的地理数据源，例如 OpenStreetMap (OSM)，包含机器可读的地图图层，这使我们可以轻松地分离出文本图层并获得文本标签注释。但是，OSM 地图瓦片和历史地图之间的制图风格明显不同。本文提出了一种自动生成无限量带注释的历史地图图像的方法，用于训练文本检测模型。我们使用样式转换模型将当代地图图像转换为历史样式并在其上放置文本标签。我们表明，最先进的文本检测模型（例如 PSENet）可以从合成历史地图中受益，并在历史地图文本检测方面取得显著改进。【原文】 Lunga, D., Hu, Y., Newsam, S., Gao, S., Martins, B., Ya ...

常见概率分布

发表于2022-03-20|基础理论知识概率与统计

机器学习和深度学习中常用的概率统计知识 In Bayesian influence, probability distributions are heavily used to make intractable problems solvable. After discussing the normal distribution, we will cover other basic distributions and more advanced ones including Beta distribution, Dirichlet distribution, Poisson Distribution, and Gamma distribution. We will also discuss topics including the Conjugate prior, Exponential family of distribution, and Method of Moments. 1 离散型分布伯努利分布 The Bernoulli distribution is a ...

🔥 空间表征学习综述文章

发表于2022-03-15|GeoAI位置嵌入

【摘要】无监督文本编码模型最近推动了自然语言处理的实质性进展。其关键思想是使用神经网络将文本中的词转换为基于单词位置及其上下文的向量空间表示（词嵌入），进而用于下游任务的端到端训练。我们在空间分析中看到了惊人的相似情况，即空间分析侧重于将地理对象（如：POI点）的绝对位置和空间上下文纳入模型。一个通用的空间表征模型对于许多任务都是有价值的。然而，迄今为止，除了简单地将离散化或前馈网络应用于坐标之外，还没有这样通用的模型存在，并且很少有努力对具有非常不同特征的分布进行联合建模，而这些特征经常出现在地理信系统数据中。神经科学领域诺贝尔奖得主的研究表明，哺乳动物的网格细胞（Grid Cell）提供了一种多尺度、周期性的位置编码表示，对于动物识别位置和寻找路径至关重要。因此，我们提出了一个称为 Space2Vec 的空间表征学习模型来编码地点（Place）的绝对位置和空间关系。我们对两个不同任务在两个真实世界的地理数据上进行实验：1）在给定位置和上下文的情况下预测 POI 点的类型；2）利用POI点的地理位置进行图像分类。结果表明，由于Space2Vec具有多尺度表示能力， ...

GeoAI 中的位置编码：方法和应用

发表于2022-03-15|GeoAI位置嵌入

【阅读建议】本文是空间位置嵌入的第一篇比较全面的综述，涉及新概念、新方法和未来可能的新应用，比较有想象空间。但阅读后感觉将必要性简单地表述为机器学习的需要，似乎并不充分（第 2 节）；另外该概念到底带来了那些提升、对未来哪些冲击、影响和改变，似乎可以更进一步提炼，目前尚难以感觉到值得深入研究的价值。【原文摘要】地球科学对人工智能模型的共同需求，是在潜在的嵌入空间中表示点、线、多边形、网络、栅格等多种类型的空间数据，以便能够很容易地将这些数据融入到深度学习模型中去。一个基本做法是通过编码过程将位置转换到嵌入空间中，而这种嵌入表示对于下游机器学习模型（例如支持向量机和神经网络）来说是学习友好的，我们将此过程称为位置编码。目前，对于位置编码的概念、潜在应用以及需要解决的关键挑战，尚缺乏系统的回顾，而本文旨在填补这一空白。本文首先提供了位置编码的形式化定义，并从机器学习角度讨论了位置编码对于 GeoAI 研究的必要性，然后对位置编码研究的现状进行了较为全面地调查和讨论。依据输入和编码方法，我们将位置编码模型分为了不同类别，并根据其是否参数模型、多尺度性、距离保持和方向感知等性 ...

一种地理加权人工神经网络 -- GWANN

发表于2021-05-14|GeoAI空间变系数模型

一种地理加权人工神经网络【摘要】虽然最近的发展在许多方向上扩展了地理加权回归( GWR )，但通常假设因变量和自变量之间的关系是线性的。然而，在实践中，变量往往是非线性关联的。为解决该问题，荷兰乌特勒支大学 Hagenauer 等提出了一种地理加权人工神经网络( GWANNGWANNGWANN )。 GWANNGWANNGWANN 将地理加权与人工神经网络相结合，能够在无假设情况下以数据驱动方式学习复杂的非线性关系。通过已知空间特征的合成数据和真实世界案例研究，作者将 GWANNGWANNGWANN 和 GWR 进行了比较。合成数据的结果表明，当数据之间关系是非线性且空间方差较大时， GWANNGWANNGWANN 算法的性能要好于 GWR 算法，而基于真实数据的结果表明， GWANNGWANNGWANN 算法在实际应用中也可以取得更好的性能。【原文】 Hagenauer, J. and M. Helbich ( 2021 ). “A geographically weighted artificial neural network.” International ...