点参考数据及克里金法
【阅读建议】 点参考数据的空间预测和模拟问题,大致有传统克里金法和目前应用比较广泛的基于似然的方法。本文主要介绍源于地统计学的传统克里金方法,一来掌握空间统计中的基础方法,二来便于与后面几篇文章中提到的高斯过程之间建立联系。克里金方法在对空间随机场作出本征平稳假设的情况下,利用参数化的变异函数对不同位置处随机变量的偏差之间存在的空间结构(相关性)进行建模,利用有限样本点的最大似然求解最优参数,并将其用于预测任务。 【引文信息】 [1] 史舟, 李艳编, 地统计学在土壤学中的应用. Beijing: Zhong guo nong ye chu ban she, 2006. [2] 王政权, 地统计学及在生态学中的应用. Bei jing: Ke xue chu ban she, 1999. 1...
【面元数据】之数据模型篇
【阅读建议】 空间数据集通常被分为三种类型:面元数据、面元数据和点模式数据,本文重点介绍面元数据的形式化定义。 【引文信息】 p{text-indent:2em} 按照惯例,通常将空间数据集分为三种基本类型: 面元数据 (Point-referenced data) 其中 $$Y(s)$$ 是位置 $$\mathbf{s} \in \mathit{R}^r$$ 处的随机向量,其中 $$\mathbf{s}$$ 在 $$\mathit{R}^r$$ 的一个固定子集 $$D$$ 上 连续变化,具有 $$r$$ 维矩形的正体积; 面元数据(Areal data) 其中 $$D$$ 依然是 $$\mathit{R}^r$$ 的一个固定子集,具有规则或不规则的形状,不过现在 $$D$$ 被 划分 为有限数量的、具有明确边界的面元; 点模式数据(Point pattern data) $$D$$ 本身是随机的;其索引的集合 (Index set) 给出了作为空间点模式的随机事件的位置。 $$Y(s)$$ 本身对于所有 $$s \in D$$ 可以简单地等于 $$1$$...
【点模式数据】之数据模型篇
【阅读建议】 空间数据集通常被分为三种类型:点模式数据、点模式数据和点模式数据,本文重点介绍点模式数据的形式化定义。 【引文信息】 p{text-indent:2em} 按照惯例,通常将空间数据集分为三种基本类型: 点模式数据 (Point-referenced data) 其中 $Y(s)$ 是位置 $\mathbf{s} \in \mathit{R}^r$ 处的随机向量,其中 $\mathbf{s}$ 在 $\mathit{R}^r$ 的一个固定子集 $D$ 上 连续变化,具有 $r$ 维矩形的正体积; 点模式数据(Areal data) 其中 $D$ 依然是 $\mathit{R}^r$ 的一个固定子集,具有规则或不规则的形状,不过现在 $D$ 被 划分 为有限数量的、具有明确边界的点模式; 点模式数据(Point pattern data) $D$ 本身是随机的;其索引的集合 (Index set) 给出了作为空间点模式的随机事件的位置。 $Y(s)$ 本身对于所有 $s \in D$ 可以简单地等于 $1$...
地理加权回归模型
〖摘 要〗 空间异质性是地理学第二定律的核心。从地理信息科学角度,空间异质性主要包含两种类型,一是随空间变化,空间某些变量之间的关系发生了明显变化;二是随空间变化,空间某些变量的统计量(如:均值、方差)会出现平稳或者不平稳的变化。地理加权回归是空间计量学、地理空间统计学中为研究第一种空间异质性(即变量间关系的空间异质性)而提出的工具,在多元变量的空间插值或预测等方面具有重要作用。本文为相关原理的基本介绍。 〖原 文〗 Yamagata, Y. and Seya, H. (eds) (2020) Spatial analysis using big data: methods and urban applications. London, United Kingdom ; San Diego, CA: Academic Press, an imprint of Elsevier (Spatial econometrics and spatial statistics). Chapter 6 1 引言1.1 全局空间最小二乘回归的问题在地学空间分析中,$n$...
快速地理加权回归 (FastGWR)
〖摘 要〗 地理加权回归 (GWR) 是一种广泛使用的工具,用于探索地理空间过程的空间异质性。 GWR 计算特定位置的参数估计值,这使得其校准过程需要大量计算。当前开源 GWR 软件可以处理的最大数据点数是标准桌面上的大约 $15,000$ 个观测值。在大数据时代,这严重限制了 GWR 的使用。为了克服这一限制,我们提出了一种高度可扩展的开源 FastGWR 实现,该实现基于 Python 和消息传递接口 (MPI),可扩展到数百万个观测值的数量级。 FastGWR 优化内存使用以及并行化以显著提高性能。为了说明 FastGWR 的性能,对来自洛杉矶市 Zillow 数据集的大约 $130$ 万个单户住宅物业进行了特征房价模型校准,这是将 GWR 应用于这种规模的数据集的首次尝试。结果表明,随着高性能计算 (HPC) 环境中内核数量的增加,FastGWR 呈线性扩展。它还优于当前可用的开源 GWR 软件包,在标准桌面上速度大幅降低——最高可达数千倍。 【原 文】 Li, Z. et al. (2019) ‘Fast Geographically Weighted...
多尺度地理加权回归
其中 $n$ 表示样本大小,$\hat{\sigma}$ 定义为误差项的标准差,$\operatorname{tr}(\boldsymbol{S})$ 是帽子矩阵的迹。选定带宽后,可以进一步计算权重,并在每个校准位置拟合 GWR 模型,以获得一组局部系数。通过取每个校准位置的局部 $R^{2}$ 的平均值,可以获得 GWR 模型的总体 $R^{2}$ 值。 【原 文】 Fotheringham, A. Stewart and Yang, Wenbai and Kang, Wei. Multiscale Geographically Weighted Regression (MGWR) 2017. Annals of the American Association of Geographers , Vol. 107, No. 6 p. 1247-1265. 【阅后感】 ...
一种地理加权人工神经网络 -- GWANN
一种地理加权人工神经网络【摘 要】 虽然最近的发展在许多方向上扩展了地理加权回归( GWR ),但通常假设因变量和自变量之间的关系是线性的。然而,在实践中,变量往往是非线性关联的。为解决该问题,荷兰乌特勒支大学 Hagenauer 等提出了一种地理加权人工神经网络( $GWANN$ )。 $GWANN$ 将地理加权与人工神经网络相结合,能够在无假设情况下以数据驱动方式学习复杂的非线性关系。通过已知空间特征的合成数据和真实世界案例研究,作者将 $GWANN$ 和 GWR 进行了比较。合成数据的结果表明,当数据之间关系是非线性且空间方差较大时, $GWANN$ 算法的性能要好于 GWR 算法,而基于真实数据的结果表明, $GWANN$ 算法在实际应用中也可以取得更好的性能。 【原 文】 Hagenauer, J. and M. Helbich ( 2021 ). “A geographically weighted artificial neural network.” International Journal of Geographical Information...
利用合成地图为历史地图文本检测生成无限训练数据
【摘 要】 许多历史地图页可公开用于需要长期历史地理数据的研究。这些地图的制图设计包括地图符号和文字标签的组合。从地图图像中自动读取文本标签可以大大加快地图解释速度,并有助于生成描述地图内容的丰富元数据。已经提出了许多文本检测算法来自动定位地图图像中的文本区域,但大多数算法都是在域外数据集(例如风景图像)上训练的。训练数据决定了机器学习模型的质量,而在地图图像中手动标注文本区域既费力又费时。另一方面,现有的地理数据源,例如 OpenStreetMap (OSM),包含机器可读的地图图层,这使我们可以轻松地分离出文本图层并获得文本标签注释。但是,OSM 地图瓦片和历史地图之间的制图风格明显不同。本文提出了一种自动生成无限量带注释的历史地图图像的方法,用于训练文本检测模型。我们使用样式转换模型将当代地图图像转换为历史样式并在其上放置文本标签。我们表明,最先进的文本检测模型(例如 PSENet)可以从合成历史地图中受益,并在历史地图文本检测方面取得显著改进。 【原 文】Zekun Li, Runyu Guan, Qianmu Yu, Yao-Yi Chiang, and...
GeoAI 中的位置编码:方法和应用
【阅读建议】 本文是空间位置嵌入的第一篇比较全面的综述,涉及新概念、新方法和未来可能的新应用,比较有想象空间。但阅读后感觉将必要性简单地表述为机器学习的需要,似乎并不充分(第 2 节);另外该概念到底带来了那些提升、对未来哪些冲击、影响和改变,似乎可以更进一步提炼,目前尚难以感觉到值得深入研究的价值。 【原文摘要】 地球科学对人工智能模型的共同需求,是在潜在的嵌入空间中表示点、线、多边形、网络、栅格等多种类型的空间数据,以便能够很容易地将这些数据融入到深度学习模型中去。一个基本做法是通过编码过程将位置转换到嵌入空间中,而这种嵌入表示对于下游机器学习模型(例如支持向量机和神经网络)来说是学习友好的,我们将此过程称为位置编码。目前,对于位置编码的概念、潜在应用以及需要解决的关键挑战,尚缺乏系统的回顾,而本文旨在填补这一空白。本文首先提供了位置编码的形式化定义,并从机器学习角度讨论了位置编码对于 GeoAI...
无标题
title: 扩散模型概览description: 扩散模型概览author: 西山晴雪mathjax: truecategories: - - 生成任务 - 扩散模型tags: - 生成任务 - 神经网络 - 生成模型 - 扩散模型abbrlink: 3b7358a6date: 2022-10-10 10:00:00〖摘要〗扩散模型(Diffusion Models, DM )的迅速崛起是过去几年机器学习领域最大的发展之一。扩散模型是一种生成模型,2020 年以来发布的一些开创性论文,体现了其强大能力,例如:在图像合成领域已经击败了 GAN,实现了 SOTA。鉴于近年扩散模型的成功浪潮,许多机器学习从业者对其内部运作感兴趣。在本文中,我们将研究扩散模型的理论基础,然后演示如何在 PyTorch 中使用扩散模型生成图像。本文包括初学者需要了解的、有关扩散模型的大部分信息。 〖原文〗AseemblyAI’s Blog 〖参考〗Understanding Diffusion Models: A Unified Perspective / What...