平均场(MeanField )变分推断
暂空缺。
#refplus, #refplus li{
padding:0;
margin:0;
list-style:none;
};
document.querySelectorAll(".refplus-num").forEach((ref) => {
let refid = ref.firstChild.href.replace(location.origin+location.pathname,'');
let refel = document.querySelector(refid);
let refnum = refel.dataset.num;
let ref_content = refel.innerText.replace(`[${refnum}]`,'');
tippy(ref, {
content: ref_content, ...
MCMC 采样编程实战
MCMC 采样方法编程应用实战
【摘要】贝叶斯统计需要在贝叶斯定理基础上,通过参数先验和数据似然对参数的后验概率分布作出推断。从推断精度上区分,贝叶斯推断方法大致包含精确推断和近似推断两大类,其中精确推断常见有变量消除法(Variable Elimination, VE)和信念传播法(Belief Propagation, BP);而近似推断方法主要是马尔科夫链蒙特卡洛法(Mente Carlo, MCMC)和变分近似推断法(Variational Inference,VI),从原理上来说,前者属于随机性近似推断,而后者属于确定性近似推断。本文从概率编程角度,引导读者了解 MCMC 方法的使用过程,以便形成整体印象。
【原文】 MCMC sampling for dummies — While My MCMC Gently Samples (twiecki.io)
p{text-indent:2em;2}
引子
当谈论贝叶斯统计和概率编程时,通常会掩藏统计推断实际执行的细节,将其视为黑匣子。概率编程好处在于 “不必为构建模型而理解推断的工作原理”,但让使用者理解其原理肯定会 ...
一篇文章读懂 MCMC 方法
马尔可夫链蒙特卡洛( MCMC )采样
【摘要】传统的蒙特卡洛方法采用随机抽样的方式获得样本,其中大量随机抽取的样本要么被拒绝(拒绝采样)、要么被加权(重要性采样),样本效率不高。因此科学家在思考是否存在一种接受率为 100%100\%100% 的采样方法。马尔可夫链蒙特卡洛方法真是满足此要求的一种高效采样方法,它充分利用马尔可夫链的可逆性和平稳分布收敛特性,通过一段时间的老化后,所得到的样本能够实现 100%100\%100% 的接受率。
【原文】 MCMC and Gibbs Sampling
1 问题的提出
随机模拟(或者统计模拟)方法有一个很酷的别名是蒙特卡罗模拟(Monte Carlo Simulation)。这个方法始于20世纪40年代,和原子弹制造的曼哈顿计划密切相关,当时乌拉姆、冯.诺依曼、费米、费曼、Nicholas Metropolis 等, 在美国洛斯阿拉莫斯国家实验室研究裂变物质的中子连锁反应的时候,开始使用统计模拟的方法,并在最早的计算机上进行编程实现。
图 1: 随机模拟与计算机
现代的统计模拟方法最早由数学家乌拉姆提出,被 M ...
直接采样、拒绝采样与重要性采样
直接采样、拒绝采样与重要性采样
【摘要】蒙特卡洛(Monte Carlo method)是一种以概率统计理论为指导的重要数值计算方法。它使用随机数来解决随机变量(或随机函数)的期望值积分求解、仿真模拟等非常棘手的计算问题,特别适用于无解析形式的复杂概率分布。根据对蒙特卡洛方法的理解,会发现其中最为核心的部分是如何在给定一个复杂分布时,按照概率随机、高效地获得样本,即采样方法问题。本文将介绍其中最为基础和直觉的几种早期方法,分别是基于 CDF 的直接采样、拒绝采样和重要性采样。
1 直接采样
直接采样的思想是:计算机适合于随机的均匀采样,如果能够把任意概率分布的采样转化成对均匀分布的采样,就可以解决采样问题。
假设 yyy 服从某项分布 p(y)p(y)p(y),其累积分布函数( CDF )为 h(y)h(y)h(y),现有均匀分布的样本 z∼Uniform(0,1)z \sim \operatorname{Uniform}(0,1)z∼Uniform(0,1),令 z=h(y)z = h(y)z=h(y),即 y=h−1(z)y = h^{-1}(z)y=h−1(z),结 ...
0️⃣ 概率图模型简介
〖摘要〗概率图模型是机器学习的一个分支,它研究如何使用概率分布来描述世界并对其做出有用的预测。
〖原文〗Stanford’s CS228
〖参考〗
CMU 10-708 Slides
CMU 10-708 Notes
Jordan’s Textbook
Airoldi’s Tutorial
p{text-indent:2em}
1 简介
概率图模型是机器学习的一个分支,它研究如何使用概率分布来描述世界并对其做出有用的预测。
学习概率建模的原因有很多。
一方面,这是一个引人入胜的科学领域,有一个美丽的理论,它以惊人的方式连接了两个非常不同的数学分支:概率论和图论。概率建模也与哲学有着有趣的联系,尤其是因果关系问题。
同时,概率建模在机器学习和许多实际应用中得到广泛应用。这些技术可用于解决医学、语言处理、视觉和许多其他领域的问题。
这种优雅的理论与应用相结合,使概率图模型成为现代人工智能和计算机科学中最引人入胜的话题之一。2011 年图灵奖(被认为是计算机科学”“诺贝尔奖”)最近被授予 Judea Pearl 以表彰其在概率图建模领域的创立。
2 概念
但 ...
非结构化文本的地理定位
非结构化文本的地理定位
【摘要】根据前文介绍,地理信息抽取是构建地理知识图谱的核心,而对非结构文本的地理定位是地理信息抽取技术的核心。本文对非结构文本的地理定位研究现状进行了梳理。鉴于国内地理信息科学和计算机信息科学为两个学科,而地理定位属于跨学科、研究难度偏大的命题,国内比较深度或成体系的研究较少,因此本文主要针对国际相关研究情况。
【原文】
【DOI】
1. 文本中的地理引用
地理引用(Geoeferences)
文本中对位置的指称(形式上为文本片段)被称为地理引用,也称位置引用、位置标识、地理标签。
**地理引用的案例:**地理引用的形式多样,例如,以下形式都可以定位北京大学:
北京市海淀区颐和园路5号 – 北京大学的通信地址
北京大学 – 北京大学的地名
100871 – 北京大学的中国邮政编码
X8P4+Q8 – 北京大学的谷歌开放位置码
39.986913,116.3036799 – 北京大学的经纬度
此外,还有很多在专业领域编制的具有空间位置含义的编码,如:北京大学的不动产单元登记码、北京大学的城市管理网格码等,均 ...
地理知识图谱「 2 」-- 地理信息抽取技术
地理信息抽取–未来地理信息科学中的皇冠
摘要:
根据前文,地理知识图谱主要分为两个大的研究领域或流派,其中地理知识图谱以领域地理知识库建设为重点,其中利用地理信息抽取技术完善、丰化知识库内容是较为核心的技术点。本文是对地理信息抽取技术的概览,希望有助于对该技术方向的了解和把握。
1. 位置搜索对地理信息抽取的现实性需求
互联网领域中大部分信息搜索查询中明确包含地理搜索词
例如:以地名的形式(Gan等人,2008年;Aloteibi和Sanderson,2014年)
80%的互联网用户会利用位置搜索引擎获取本地商业服务、产品或其他领域知识
在移动应用蓬勃发展的当下,基于位置的知识服务成为核心功能
以用户当前或预测位置为基础提供实时地理知识图谱上下文信息(Reichenbacher等人,2016)。
2. 地理信息抽取的必要性
信息和知识服务的现状
搜索引擎领域:尽管在位置搜索上投入了大量资金,但大部分检索结果局限于商业目录中的信息
知识服务领域:大量领域知识有待于数字化、信息化,并最终转换为知识内容提供服务
机遇:
随着Web2.0/3 ...
地理知识图谱与地理空间语义网
地理知识图谱与地理空间语义网
地理知识图谱的确切概念很难完整定义,从目前技术发展脉络来看,国内外主要存在两个技术领域或流派:地理空间语义网和地理知识图谱。
1. 地理空间语义网
(1)参与研究的主要群体
地理空间信息科学领域的专家和团体
(2)研究重点
沿用语义网的理念,在开放世界假设基础上,面向地理空间数据的可共享、可交换、互操作性、人机共同认知和理解等问题展开研究
(3)主要研究内容
地理空间本体的设计和模式
地理空间数据服务向地理空间本体知识服务转换的方法
不同地理空间知识库之间的本体对齐和实体对齐方法
社会感知/传感器网络等新型地理空间感知器知识库的建立
地理空间本体库的推理
…
(4)代表性研究机构
暂略…
2. 地理知识图谱
(1)参与研究的主要群体
计算机信息科学领域的专家和团体
(2)研究重点
其沿用知识图谱的理念,面向地理空间知识图谱的构建、存储、丰化、推理和服务问题
(3)主要研究内容
领域地理空间图谱本体建模方法
*领域地理空间数据库存储和优化
非结构化文本领域知识的地理信息抽取
非结构化文本领域知识的自动地理编码
领域 ...
地理知识图谱awesome list
地理知识图谱相关研究领域总结
综述性文章和书籍
文章
(1)地理空间语义网
Janowicz, K. and Scheider, S., Pehle, T., and Hart, G. (2012): Geospatial Semantics and Linked Spatiotemporal Data - Past, Present, and Future (editorial). Semantic Web 3(4), pp. 321-332.
Janowicz, K. and Hitzler, P. (2012): The Digital Earth as Knowledge Engine (editorial). Semantic Web Journal, 3(3), pp. 213-221.
Janowicz, K. and Hitzler, P. (2015): Geospatial Semantic Web. The International Encyclopedia of Geography: People, the Earth, Environ ...
地理空间语义的六个主要研究领域
地理空间语义的六个主要研究领域
【摘要】
【原文】
【DOI】
一、地理空间语义的概念
1.1 基本概念
“understanding GIS contents, and capturing this understanding in formal theories.”
1.2 核心任务:理解地理信息系统的内容
(1)地理空间语义谁来理解地理空间语义?
(2)机器还是人?如果是人的话,地理空间语义的重点是人类对地理概念和空间关系的认知;
(3)如果是机器的话,则重点在分布式系统之间的语义互操作。
1.3 实现方式:采用形式化理论来捕获对地理信息系统内容的理解
(1)采用本体作为形式化声明来描述概念和关系
(2)用一阶逻辑/描述逻辑等形式化逻辑来定义本体内的概念和公理
1.4 地理空间语义的两个发展方向
趋势1:传统地理空间数据以结构化链接数据的形式组织、发布、抽取和重用
地理空间语义网
趋势2:半结构化、非结构化数据的地理语义抽取、时空模式分析
地理信息抽取、地理知识图谱、GeoAI
1.5 六个地理空间语义的研究领域
语义互操作性与本体
数字地名词典
2. ...