空间统计学概论
空间统计学概论
1 统计学的两大流派
(1)频率学派
认为模型的待估计参数是一个未知的常数,而样本是随机的,通过对随机样本的分析,可以计算获得参数的值。
-
基本思想(对事件建模)
- 「随机事件本身具有某种客观的随机性」,需要研究一系列工具来刻画「事件」本身
- 事件A在独立重复试验中发生的频率趋于极限 ,那么极限 就是该事件的概率
-
参数估计时
- 主要是对模型做假设,但不对参数的分布做假设
- 求参数符合样本的最优化解,通过正则化解决过拟合问题
- 如:极大似然估计、最小交叉熵、最小二乘估计…
-
预测时
- 预测的结果:参数支持下确定的结果
- 结果不确定性的量化:通过方差来量化不确定性
-
核心体现为最优化问题
- 需要通过最优化算法求得参数的数值解
-
代表性模型
- SVM等各种统计机器学习方法、前馈神经网络…
(2)贝叶斯学派
认为模型的待估计参数是一个随机变量,而样本是固定的,通过对样本的学习不断更新经验,能够使对参数的分布认识更准确。
-
基本思想(对人的知识建模)
- 「随机事件」是因「观察者」知识状态中尚未包含该事件的结果而导致,需要通过观察证据来推断该事件的结果
- 即同一事件,对于「知情者」而言时确定事件,对于不知情者而言是「随机事件」
- 需要构建一套比较完备的框架用来描述最能服务于理性推断这一目的的「猜的过程」
-
参数估计
- 既需要对模型做出假设,也需要对参数分布做出假设
- 由参数的先验分布更新得到参数的后验分布,如:最大后验估计。
-
预测
- 预测的结果是:参数分布下预期结果的期望。
- 通过计算后验分布来量化不确定性
-
核心体现为积分问题
- 计算后验分布时需要求解联合概率分布P(X),而P(X)的求解难度很大,通常通过抽样和积分实现
-
代表性模型
- 朴素贝叶斯分类器、隐马尔可夫模型、深度信念网络等有向图(贝叶斯网络)模型
- 最大熵模型、条件随机场、玻尔兹曼机、受限玻尔兹曼机等无向图(马尔可夫网络)模型…
(3)两者的区别
- 区别1:通常贝叶斯估计需要对参数(视为隐变量)的分布做先验假设;而频率派不需要做参数的概率分布假设。
- 区别2:频率派方法通过评估方差(求差异)来量化模型参数点估计的不确定性;而贝叶斯派通过在模型参数的先验分布假设下,对不同采样做积分(求概率)来量化不确定性。
- 区别3:频率派使用p值做检验,而贝叶斯派用贝叶斯因子
(4)两者的优缺点
- 贝叶斯方法通常在有限的训练数据下泛化良好,但当训练样本大时受制于计算开销
- 贝叶斯方法需对模型参数做先验分布假设,可能是人类主观判断影响预测的一个源头
2 空间统计的常用假设
(1)空间数据的统计视角
-
理解空间数据可抽象为一种随机过程
- 所有空间对象或特征一起构成一个空间随机过程
- 空间数据是对论域内所有或部分空间对象(或特征)的一次采样
- 当随机变量是向量形式时,可以视为多变量的空间随机过程
-
理解研究随机过程通常需要做一些基本假设
- 利用统计学方法研究随机过程,通常需要做一些基本的假设,概率模型的建立受假设约束
-
理解空间随机过程有一些自身独特的假设
- 空间相关性假设
- 空间异质性假设
- 各向异性假设
(2)为什么要做假设?
如果不做一些前提假设,随机过程就真地变成了“随机”模型了,导致无法建立模型。为了建模方便,通常会将根据随机过程的特点,将其纳入一个假设框架范围内进行建模、估计和预测。
(3)几种常见的假设
-
事件独立性假设
-
论域内随机变量之间相互是否独立?常见假设如:
- 独立性假设:相互之间独立
-
-
齐次马尔可夫假设:相互之间遵循同样阶次的依赖关系,如:一阶马尔可夫假设会假设随机变量仅仅和直接邻居相关,而二阶马尔可夫假设则假设随机变量和邻居的邻居也可以相关
- 条件独立假设:某些随机变量的集合A,在随机变量C发生的情况下,与随机变量B相互独立
- … -
概率分布假设
-
论域内的随机变量是否呈某种概率分布:常见假设如:
- 0均值高斯分布:假设模型参数(待估随机变量)呈高斯分布,且均值为0
-
-
等方差高斯分布:假设模型参数(待估随机变量)呈高斯分布,且不同参数的统计方差相同
- 变方差高斯分布:假设模型参数(待估随机变量)呈高斯分布,且不同参数的统计方差不同
- … -
平稳性假设
-
论域内的随机变量之间或者随机变量的概率分布函数间是否存在特定的关系?
-
强平稳性假设:所有随机变量具有同样的概率分布,例如:高斯分布假设中具有相同的均值,相同的协方差(与具体位置无关)
-
弱平稳性假设(二阶平稳性假设):所有随机变量具有相似的概率分布,例如:高斯分布假设中,其均值相同,但任意两个随机变量的协方差(二阶矩)仅和它们之间的距离及方向有关(但与具体位置无关)
-
-
-
各向同性假设
-
随机变量的联合概率分布是否和方向有关?
-
。。。
-
(4)以线性回归为例
-
随机抽样假设
- 变量是通过对总体的随机抽样产生的
-
变量独立假设
- 自变量之间没有明确的线性关系
-
线性关系假设
- 因变量是自变量和误差项的线性函数
-
误差项条件零均值假设
- 误差项的均值为0
-
误差项同方差假设
- 误差项的方差为一个固定不变的值,且不受自变量影响
3 空间统计的三大问题
(1)空间相关性问题
-
原因:
-
虽然上述假设空间随机变量相互独立,但实际中随机变量在空间上的依赖性普遍存在
-
地理学第一定律:“万物皆相关,越近相关性越大”
- 如何量化空间相关性?
- 空间相关性体现出何种模式?
(2)空间异质性问题
-
原因:
-
虽然空间随机过程被假设为平稳随机过程,但实际中非平稳性普遍存在
- 随着空间变化,随机变量间的关系也可能出现变化
-
地理学第二定理:“空间异质性”
-
总体特征
- 研究范围越小,空间异质性越弱,研究范围越大,空间异质性越突出
-
常见类型1:不同地区,特征之间的关系发生了变化
- 例1:不同地区中,多元随机变量或特征之间的因果关系明显不同
- 地理加权回归、其他特定空间机制等
-
常见类型2:不同地区,概率分布特性发生了变化(如方差不同)
- 例2:不同地区中,某个随机变量或特征的方差出现显著不同
- 处理方法:克里金法
-
(3)空间各向异性问题
-
实际中各向异性普遍存在,并且对任务可能产生比较大的影响
- 实际这方面研究较少
4 空间统计的常见任务
(1)空间模式分析
(2)空间插值任务
(3)空间预测任务
空间预测是指给定某些随机变量的情况下,预测出其他随机变量的值或者分布。从这个意义上来说,空间插值任务属于空间预测任务的范畴,但空间插值任务更多是指一种自回归任务,即通过因变量来预测因变量。空间预测还涉及到通过其他自变量来预测因变量的问题,例如:通过某个空间单位内其他随机(自)变量来预测本单位的某个因变量;如果存在空间交互效应,则可能需要通过相邻空间单位内其他自变量来预测本单位的因变量等。
与传统统计机器学习类似,空间预测任务也可以根据因变量的类型,空间回归任务和空间分类任务。
(4)空间聚类任务
无样本参与下的聚类任务
有样本参与下的空间聚类任务
(5)因子分析任务
5 空间数据的统计模型
从统计学意义上,通常把空间想象解释为随机过程,而空间数据是随机过程的一次观测值。
5.1 空间过程与空间数据
(1)空间过程
令 为实数的整体,令 $ \mathbf{s} \in \Re^{d}$ 是维数为 (通常是 $ d = 2 $ 或 )的欧式空间中一个位置,并令$ \mathbf{Y}(\mathbf{s})$ 是位置 处的随机变量(可能是多维变量)。则**空间过程**被定义为集合 $ { \mathbf{Y}(\mathbf{s}):\mathbf{s} \in D } \left(D \subset \Re ^ {d} \right)$ , 对应于二维空间坐标,$ d = 3 $ 对应于三维空间。
(2)空间数据
**空间数据**是对空间过程 的一次观测,其中,位置 处的观测值为 。
5.2 统计学意义下的空间数据类型
根据上述“空间过程是由多个空间位置对应的随机变量构成的集合”、“空间数据是空间随机过程的一次观测值”的定义,可以从统计学意义上,将常见的空间数据分为以下三类:
(1)点数据
- 数学定义: 空间点数据 $ \mathbf{y(s)}$ 是从空间过程 获得的实现值,其中 在一个连续的固定空间域 内
- 另外一种理解:空间为连续的场或面,例如:海拔、DEM等
- 英文:Geostatistical Data, Point-Referenced Data
- 点参考数据是**“地统计学”** 研究的重点对象,因此也可称为“地统计数据”
(2)面元数据
- 数学定义:空间面元数据 是从空间过程 获得的实现值,其中 在固定域 的可数子域上变化。
- 另外一种理解:规则的或不规则的面形状数据,例如,按行政区划收集的社会经济数据、像素级卫星遥感图像数据。
- 英文:Areal Data,Lattice Data
- 面元数据是**“空间计量经济学”、“定量地理学”** 等研究的重点对象
(3)点模式数据
- 数学定义:空间点模式数据 是从空间过程 获得的实现值,空间过程 与随机事件发生的位置 相关,但是 本身是随机的。
- 重要区别:与前两种数据类型最大的不同在于,点模式数据将变量的位置视为随机,而前两者将变量的值视为随机。
- 另一种理解:事件数据,如:犯罪案件等。
- 英文:Point Pattern Data
- 点模式数据是“空间计量经济学”、“定量地理”、“城市规划”、“政府管理”等领域研究的重点对象
6 点参考(地统计)数据
(1)分析对象:点参考数据
- 常用于地统计学
(2)常用假设
- 随机过程假设、高斯分布假设、弱平稳性假设
(3)三性讨论
-
空间相关性
-
引入协方差和变异函数处理空间相关性问题
- 这种相关性由变异函数定义
-
-
变异函数表示了随机场中任意两点之间的变异情况
-
空间异质性
- 引入各种回归模型,或对随机变量的方差建立模型
-
空间各向异性
- 分方向计算变异函数,得到各向异性的表征
(4)常用探索性分析工具
- 均值、方差、等值线、散点图、盒图
- 方向变异函数图、玫瑰图、经验变异函数等值线图
(5)主要空间统计任务
- 空间插值
- 克里金空间预测模型:克里金(Krigging)插值
- 传统空间预测模型:径向基函数、IDW、核密度…
(6)传统统计任务
- 多变量回归分析
- 主成分分析
- 聚类分析
(7)常用软件
- SGeMS、ISATIS、ArcGIS
(8)推荐阅读
- 空间统计部分见《地统计学》、传统多元统计部分见《多元统计》
7 面元数据
(1)分析对象
面元数据,部分方法适用于点参考数据
(2)常用假设
- 基于随机过程假设、高斯分布假设、弱平稳性假设
- 检验(如果上述假设不存在,则“事出无常必有因”)
(3)三性讨论
-
空间相关性(基于距离)
-
引入莫兰指数等对空间依赖的程度进行量化
- 全局莫兰指数、吉尔里指数和局部莫兰指数
-
引入空间权重矩阵处理空间相关性
- 所有面元两两之间的某种距离,通常代表两者之间单向的影响程度
- 权重值设定的合理性问题和自动化问题
-
-
空间异质性(基于位置)
- 引入地理加权回归处理空间异质性
-
空间各向异性
- 分方向讨论自相关性
(4)常用探索性分析工具
-
可视化探索工具
-
基于面元绘制的分阶图
-
空间自相关性探索工具
-
目的:测量面元间的空间相关性,用于判断面数据存在何种分布模式(空间随机分布、空间离散分布、空间聚集分布)
-
全局指数
-
全局Moran’s I 莫兰指数
- 相邻单元数据值和平均值之间关系的比较 - 值域是-1到1之间,0表示随机分布,1表示完全地正相关,而-1表示完全地负相关
-
-
全局Geary’s C指数
- 相邻单元本身数据值之间关系的直接比较
- 值域在0到2之间,其中0表示完全地正相关,而2表示完全地负相关,1表示随机分布 - Getis-Ord G指数
- 冷热点量化指数,至于在-1到+1之间,趋向于+1表示存在热点,趋向于-1表示存在冷点
- 相邻单元本身数据值之间关系的直接比较
-
局部指数
- 局部Moran’s I莫兰指数
-
各向异性探索工具
-
方向协方差图
-
空间滤波器(Smoother)
-
目的
- 用于面元数据的平滑处理
-
主要滤波器
-
(5)主要任务模型
-
空间模式分析
-
冷热点(聚类)分析
-
Anselin Local Moran’s I
- 仅仅一个孤立的高值不会构成热点,说白了就是,单个要素以及它的邻居都是高值才算是热点
-
Getis-Ord Gi*
- 识别具有统计学上的显著性的空间异常值
-
-
空间回归模型
-
目的:根据样本在空间条件约束下,判断在空间约束下不同随机变量(属性)间的因果关系
-
空间同质性
- 不同随机变量之间的因果关系(模型参数),在空间上不会因为位置的变化而表现不一致
-
经典回归模型
- y=X*β + ε
-
引入空间权重矩阵模型
-
自变量空间滞后模型:用自变量的空间滞后反映空间依赖
- y=Xβ + WX*θ + ε
-
空间误差模型:用误差项的空间滞后反映空间依赖
- y=Xβ + μ; μ = λW*μ + ε
-
空间滞后模型:用因变量的空间滞后反映空间依赖
- y=ρWy + X*β + ε
-
广义嵌套空间模型:
- y=ρWy + Xβ +WXθ + μ ; μ = λW2*μ + ε
-
-
-
空间异质性
- 不同随机变量之间的关系,受空间结构或关系影响(即存在空间依赖)
-
主要模型
-
地理加权回归(GWR)
-
将坐标信息纳入回归模型,空间上每个位置的模型参数均不同,而且整体上表现为平滑曲面
- y=X*β(μ,v) + ε
-
半参数地理加权回归
-
将GWR中的所有变量分为两类:局部变量和全局变量
-
-
-
-
传统属性预测模型
(6)常用软件
- GeoDa、GWR4、PySAL
(7)推荐阅读
- 空间计量经济学(主要为横截面数据,非面板数据)、空间统计学
8 点模式数据
(1)分析对象
点模式数据,又可分为三种子类型:
-
未标记的点模式数据
- 不区分点的类型,主要任务是用统计学方法理解和描述点之间的交互,以解释点位置间的交互作用
-
有分类标记的点模式数据
- 点数据分为几类,主要任务是用统计学方法解释不同类型点之间的相关性,以及空间尺度、范围对相关性的影响
-
有数量标记的点模式数据
- 点数据不仅有类别还是数值变量,主要任务是用统计学方法解释不同数值点之间的相关性,以及空间尺度、范围对相关性的影响
(2)常用假设
-
完全空间随机性假设(CSR)
-
随机过程假设
- 研究区域中的每一个事件是以等概率发生在区域的任意位置上的, 并且独立于空间位置和其他的事件
-
泊松分布假设
- 面积为|A|的平面区域A中的事件数量服从均值为 λ|A|的泊松分布(λ表示强度,每个单区域内的事件数量);
-
-
检验
- 如果不满足上述假设,则“事出无常必有因”,表明存在某种机制或成因导致了事件模式的出现,我们需要探索它的成因
(3)基本问题
-
点的分布属于哪种模式(有助于探索模式成因)
-
空间点是随机分布的
-
空间点是非随机分布的
- 空间点是离散(均匀)分布的
- 空间点是聚集分布的
-
-
不同类型的点模式之间是否存在关系?存在什么关系?
- 例如:商场的分布是否影响了餐饮的分布
-
不同时间的点模式之间存在什么关系
(4)常用探索性工具
-
点模式的基本统计量
-
位置估计
- 平均中心
- 加权平均中心
- 中位数中心
- 最小距离中心
-
方向性
- 圆概率误差
- 标准差椭圆
-
-
基于密度的点模式分析工具(总体趋势)
-
样方计数
- 将研究的区域划分为规则的正方形网格区域,统计落入每个网格中点的数量,并与CSR假设作比较
-
核密度估计
- 研究区域中每个点都有事件密度,通过核函数在样本点基础上生成光滑的密度直方图
-
-
基于距离的点模式分析工具(局部效应)
-
常见工具
-
最近邻指数
- 用最邻近的点对之间的距离描述分布模式,然后与已知模式(如随机模式)间平均距离做比较
-
Getis-Ord Gi*
- 识别具有统计学上的显著性的空间异常值
-
Anselin Local Moran’s I
- 仅仅一个孤立的高值不会构成热点,说白了就是,单个要素以及它的邻居都是高值才算是热点
-
F函数、K函数…
-
-
基于模拟仿真的点模式分析工具
- 蒙特卡洛方法、边界模拟法…
(5)推荐阅读
- Statistical Analysis and Modelling of Spatial Point Patterns (Statistics in Practice) (2008)