西山晴雪的知识笔记

置顶|发表于2023-01-02|贝叶斯统计统计推断MCMC

1. 蒙特卡洛原理《蒙特卡洛方法原理》 2. 基础的随机采样方法《直接采样、拒绝采样与重要性采样》 3. 马尔可夫链门特卡罗（MCMC）方法《一篇文章读懂蒙特卡罗采样》 MCMC 采样方法编程实战 4. MCMC 的加速采样《主要的 MCMC 加速方法》专题：《哈密顿蒙特卡洛(HMC)方法》《不调头采样（NUTS）方法》《模拟退火》 5. 序贯蒙特卡洛（SMC）方法《卡尔曼滤波》：基于高斯似然假设和线性系统假设，后验概率分布具有封闭形式，本身不需要蒙特卡洛方法。在此主要用于和粒子滤波进行比较。《序贯蒙特卡洛与粒子滤波》：非高斯似然、非线性等更为复杂的系统，后验概率分布没有封闭形式解，因此只能通过蒙特卡洛模拟的方式近似后验概率分布。序贯蒙特卡罗方法为复杂动态系统的粒子滤波奠定了基础。 6. 可扩展的蒙特卡洛方法随机梯度 MCMC 推断（ SGMCMC ）: 当数据规模较大时，蒙特卡洛方法能否适用？在大数据分析场景中，这个问题困扰了很多人。 #refplus, #refplus li{ padding:0; ...

🔥 点参考数据模型索引帖

置顶|发表于2030-05-10|GeoAI点参考数据

1 空间过程及平稳性假设《随机过程与随机场》：将空间表面（Surface）视为空间随机过程的一次实现，并将点参考数据视为空间表面的一次不完整观测，是研究点参考数据的基本假设。在此假设下，构成空间数据集的 nnn 个具有地理参考的观测值集合，并不代表大小为 nnn 的样本，而是代表了对一次随机实验的不完整观测，是一个来自 nnn 维分布的大小为 111 的样本。这种假设对于理解点参考数据的统计模型非常重要，也同时使传统基于重复观测的统计方法失效。本文介绍了这种假设以及相关的概念和知识。该文中还有部分关于空间连续性和可微性的讨论，之前认为不重要，但后来细品一下可能涉及点参考数据和面元数据之间的转换问题，将来有时间可以配合《随机偏微分方程方法: 高斯场和高斯马尔可夫随机场之间的明确联系》进一步理解。 2 经典克里金方法点参考数据及克里金法（2005） : 本文介绍了传统地统计学中的克里金方法。该方法发源于 1940 年代的地统计学领域，主要用于解决插值问题，因 Krige 1960 年的一篇硕士论文而命名。克里金法是一种基于高斯过程假设的经验估计和预测方法，建立 ...

测试

置顶|发表于2023-06-16|高斯过程概览

Combining heterogeneous spatial datasets with process-based spatial fusion models: A unifying framework Author links open overlay panelCraig Wang a, Reinhard Furrer a b, SNC Study Group Show more Outline Add to Mendeley Share Cite https://doi.org/10.1016/j.csda.2021.107240Get rights and content Under a Creative Commons license open access Abstract In modern spatial statistics, the structure of data has become more heterogeneous. Depending on the types of spatial data, different modeling st ...

👍 变分自编码器权威综述

置顶|发表于2023-05-18|贝叶斯统计变分推断生成任务变分自编码器

【摘要】变分自编码器为学习深度隐变量模型和相应的推断模型提供了一个原理框架。在本文工作中，我们介绍了变分自编码器和一些重要的扩展。【原文】 Diederik P. Kingma and Max Welling (2019), “An Introduction to Variational Autoencoders”, Foundations and Trends® in Machine Learning: Vol. 12: No. 4, pp 307-392. http://dx.doi.org/10.1561/2200000056 1 概述 1.1 动机（1）生成式建模与判别式建模机器学习的一个主要部分是生成与判别式建模。判别式建模的目标是在给定观测的情况下学习如何预测变量，而生成式建模的目标是解决更普遍的问题，即学习所有变量的联合分布。生成式模型模拟数据在现实世界中的生成方式。几乎每门科学都将 “建模” 理解为：作出理论假设，然后通过观测来检验这些理论以揭示这一生成过程。例如，当气象学家模拟天气时，他们使用高度复杂的偏微分式来表达天气的基本物理特性。或者当 ...

🔥 大规模点参考数据统计分析方法索引帖

置顶|发表于2023-05-10|GeoAI大数据专题

〖摘要〗个人用于整理大规模点参考数据时空统计分析方法的汇总帖，大致分为克里金法和贝叶斯建模、高斯过程及其推断理论、大 n 问题及其对策、并行化策略和方法、与深度学习的结合等部分。目前主要兴趣点在大规模点参考数据的高效计算方法和统计深度学习方面。 1 基础地统计方法（1）克里金法及经验估计克里金方法发源于 1940 年代的地统计学领域，主要用于解决插值问题，因 Krige 1960 年的一篇硕士论文而命名。在 1990s 年代，克里金法在贝叶斯推断背景下被重新表述，并被称为高斯过程回归，而相关函数（在克里金法中是半变异函数）的选择，则被视为一个机器学习问题。自编的《点参考数据及克里金法》 : 介绍了传统地统计学的克里金方法，其本质上就是高斯过程，只是提供了一套以变异函数和克里金预测为核心的独立技术体系。 Gelfand （2017）的《点参考数据贝叶斯建模综述》：系统地从贝叶斯建模角度重温了地统计方法，除简述克里金法外，还包括贝叶斯分层建模方法、大 N 问题的处理等介绍性文字。 2 高斯过程及其推断从权重视角来看，高斯过程是多元高斯分布向无限维随机变量 ...

🔥 高斯过程索引帖

置顶|发表于2023-05-09|高斯过程综述概览

1 高斯过程原理（1）基本原理 Rasmussen 等 2006 年经典书籍《机器学习中的高斯过程》节选第二章《高斯过程回归》 Rasmussen 等 2006 年经典书籍《机器学习中的高斯过程》节选第三章《高斯过程分类》（可以视为非高斯似然的一类，暂无中文稿） Wang 2020 年的高斯过程回归初步教程: 高斯过程回归模型因其表达方式的灵活性和内涵的不确定性预测能力而广泛用于机器学习应用中。本文解释了构建高斯过程的基本概念，包括多元正态分布、核、非参数模型、联合和条件概率等。然后，简明描述了高斯过程回归以及标准高斯过程回归算法的实现。除了标准高斯过程回归，本文还回顾了目前最先进的高斯过程算法软件包。 Gal Yarlin 2017 年的高斯过程精简版教程: 本文对高斯过程进行公式推导、原理阐述、可视化以及代码实现，介绍了以高斯过程为基础的高斯过程回归基本原理、超参优化、高维输入等问题。本文可以与上一篇文章相互参考，大部分内容具有雷同。（2）核（协方差）函数 Rasmussen 等 2006 年经典书籍《机器学习中的高斯过程》节选第四章《高斯过程的协 ...

空间数据的贝叶斯分层建模

置顶|发表于2023-05-01|GeoAI点参考数据空间数据建模

【摘要】由于空间数据的复杂性，使其统计建模非常困难。分层建模方法由于能够对模型进行分解，从而使建模和推断变得更具可操作性，因此在空间统计学领域得到快速应用和发展。而本文正是围绕空间数据的分层建模方法展开的。文中涉及通用分层建模方法、地统计中的分层建模、广义线性模型的分层建模等内容，以及相应的推断问题。本文内容摘自 Gelfand 的《空间统计手册》第七章。【原文】 Gelfand, A.E. et al. (2010)， Handbook of spatial statistics (chapter 7). CRC press. 7.1 简介在空间统计中，人们通常必须在存在复杂过程、多个数据源、参数化不确定性和不同程度的科学知识的情况下开发统计模型。人们可以从联合或条件的角度来处理这些复杂的问题。虽然从联合角度考虑过程可能很直观，但这种方法可能对统计建模提出严重挑战。例如，可能很难为相关空间数据集指定联合多元依赖结构。将此类联合分布分解为一系列条件模型可能会容易得多。例如，考虑以近地表环境空气温度为条件的近地表臭氧过程（尤其是在夏季）比同时考虑臭氧和温度过程更简单 ...

基于似然的的方法

置顶|发表于2023-05-01|GeoAI点参考数据空间插值

【摘要】在空间统计学中，点参考数据模型通常采用高斯过程（场）建模，而超参数的推断则主要有基于经验的矩量估计法和基于似然的统计推断方法。本文主要介绍基于似然的统计推断方法。文中涉及最大似然估计、受限最大似然估计、组合似然近似估计、渐进特性分析等内容。本文内容摘自 Gelfand 的《空间统计手册》第四章。【原文】 Gelfand, A.E. et al. (2010)， Handbook of spatial statistics (chapter 4). CRC press. 关于似然方法的基础资料见：参见普度大学机器人视觉实验室的《最大似然、最大后验与贝叶斯方法的区别》参见 Reid 等 2010 年的《似然函数与基于似然的推断》参见 Cousineau 等 2016 年《似然概念的扫盲帖》对非似然方法感兴趣的同学，可以阅读：参见《近似贝叶斯计算（ABC）索引贴》 4.1 概述上一章考虑了结合使用矩量法和最小二乘法来估计地质统计模型的参数（参见《点参考数据及克里金法》）。这些方法统称为 “经典地质统计学” ，通常不明确要求 ...

🔥 高斯过程基本原理索引帖

置顶|发表于2023-04-12|高斯过程基本原理

1 关于高斯过程的基本原理 1.1 连续型随机变量（只讨论高斯分布）参见 Rasmussen 等 2006 年经典书籍《机器学习中的高斯过程》节选第二章《高斯过程回归》参见 Gal Yarlin 2017 年的高斯过程精简版教程。此文对高斯过程进行公式推导、原理阐述、可视化以及代码实现，介绍了以高斯过程为基础的高斯过程回归基本原理、超参优化、高维输入等问题。此文可以与上一篇文章相互参考，大部分内容具有雷同。需要注意的是，Gal Yarlin 是神经网络不确定性量化方法 MC Dropout 的提出者。参见 Wang 2020 年的高斯过程回归初步教程。高斯过程回归模型因其表达方式的灵活性和内涵的不确定性预测能力而广泛用于机器学习应用中。此文解释了构建高斯过程的基本概念，包括多元正态分布、核、非参数模型、联合和条件概率等。然后，简明描述了高斯过程回归以及标准高斯过程回归算法的实现。除了标准高斯过程回归，此文还回顾了目前最先进的高斯过程算法软件包。 1.2 离散型随机变量类别型随机变量 (Categorical Random Variable）：参见 Ra ...

一种用于语义分割的大规模遥感场景数据集构建

置顶|发表于2023-04-12|GeoAI遥感数据

【摘要】随着深度学习在计算机视觉任务中的进步，它在其他领域的应用得到了推动。该技术已越来越多地应用于遥感图像的解译，显示出巨大的潜在经济和社会意义，例如自动绘制土地覆盖图。然而，该模型需要相当数量的样本进行训练，现在由于缺乏大规模数据集而受到不利影响。而且，标注样本是一项费时费力的工作，尚未建立适合深度学习的完整土地分类体系。这种限制阻碍了深度学习的发展和应用。为了满足遥感领域深度学习的数据需求，本研究开发了 JSsampleP，这是一个用于分割的大规模数据集，生成了 110,170 个数据样本，涵盖了中国江苏省内的各类场景。充分利用江苏现有地理国情数据集（GCD）和基础测绘数据集（BSMD），显著降低样本标注成本。此外，样品经过严格的清洁过程以确保数据质量。最后使用 U-Net 模型验证数据集的准确性，后续版本会不断优化。【原文】 Xu, L. et al. (2023) ‘A large-scale remote sensing scene dataset construction for semantic segmentation’, Internationa ...