显著性检验
【通俗理解】显著性检验,T-test,P-value
源:https://www.cnblogs.com/hdu-zsk/p/6293721.html
1 前言
显著性检验:用于判定实验结果是否由随机误差导致,即用量化方法来判断实验结果能否被接受。
举例:
赵先生开了一家日用百货公司,该公司分別在郑州和杭州开设了分公司。现在存在下列数据作为两个分公司的销售额,集合中的每一个数代表着一年中某个月的公司销售:
郑州分公司 Z={23,25,26,27,23,24,22,23,25,29,30}$
杭州分公司 H={24,25,23,26,27,25,25,28,30,31,29}H=\{24,25,23,26,27,25,25,28,30,31,29\}H={24,25,23,26,27,25,25,28,30,31,29}
现在,赵先生想要知道两个公司的销售额是否有存在明显差异(郑州分公司销售额>杭州分公司销售额,抑成反之),以便对接下来公司的战略业务调整做出规划。
下属们知知道赵老板的难处,纷纷建议“只需要求平均值就知道哪个分公司的销售额更大了"。但是作为 ...
空间统计学概论
空间统计学概论
1 统计学的两大流派
(1)频率学派
认为模型的待估计参数是一个未知的常数,而样本是随机的,通过对随机样本的分析,可以计算获得参数的值。
基本思想(对事件建模)
「随机事件本身具有某种客观的随机性」,需要研究一系列工具来刻画「事件」本身
事件A在独立重复试验中发生的频率趋于极限 ppp ,那么极限 ppp 就是该事件的概率
参数估计时
主要是对模型做假设,但不对参数的分布做假设
求参数符合样本的最优化解,通过正则化解决过拟合问题
如:极大似然估计、最小交叉熵、最小二乘估计…
预测时
预测的结果:参数支持下确定的结果
结果不确定性的量化:通过方差来量化不确定性
核心体现为最优化问题
需要通过最优化算法求得参数的数值解
代表性模型
SVM等各种统计机器学习方法、前馈神经网络…
(2)贝叶斯学派
认为模型的待估计参数是一个随机变量,而样本是固定的,通过对样本的学习不断更新经验,能够使对参数的分布认识更准确。
基本思想(对人的知识建模)
「随机事件」是因「观察者」知识状态中尚未包含该事件的结果而导致,需要通过观察 ...
统计学中的假设检验和两类错误
我来尝试给你讲清统计学中的假设检验和两类错误
学习过统计的同学一定对“两类错误”不会陌生,但是否已经完全理清了其中的逻辑,想必要打一个问号了。希望我今天能“不辱使命”,用你听得懂的语言给你讲清楚这整套内容。
1 从玩色子看假设检验到底在干嘛
首先,两类错误是出现在假设检验过程中的,所以我们得先弄明白假设检验到底在做什么。简单举一个赌桌上的例子。看完周润发的《赌神》之后,朋友小金也来到赌场赌色子,一个色子,买单双号:1、3、5为单,2、4、6为双。小金玩了100把,但是就只有4次买中,气的小金直跺脚,直呼运气太背……
难道小金的运气就这么差吗?咱们回头看看,是否哪里有猫腻。你肯定已经想到,每一把小金就算瞎猜,也会有50%的可能性猜对,这样重复玩100把,平均而言有50把的机会能买中,现在他只买中4把,这怎么可能呢?那原因在哪?很简单,问题出在色子上,我们说平均会有50把买中是建立在一个假设上的:色子是均匀的,没有人动手脚。但现在的情况是,他确实只买中了4把,而如果色子是均匀的,那么这种情况发生的概率及其微小,接近0,概率接近0的事情一般在一次试验(这100把游戏)下是不可能 ...
空间表征学习之Space2Vec
空间表征学习之Space2Vec
【摘要】无监督文本编码模型最近推动了自然语言处理的实质性进展。其关键思想是使用神经网络将文本中的词转换为基于单词位置及其上下文的向量空间表示( 词嵌入 ),进而用于下游任务的端到端训练。我们在空间分析中看到了惊人的相似情况,即空间分析侧重于将地理对象( 如:POI点 )的绝对位置和空间上下文纳入模型。一个通用的空间表征模型对于许多任务都是有价值的。然而,迄今为止,除了简单地将离散化或前馈网络应用于坐标之外,还没有这样通用的模型存在,并且很少有努力对具有非常不同特征的分布进行联合建模,而这些特征经常出现在地理信系统数据中。神经科学领域诺贝尔奖得主的研究表明,哺乳动物的网格细胞(Grid Cell)提供了一种多尺度、周期性的位置编码表示,对于动物识别位置和寻找路径至关重要。因此,我们提出了一个称为 Space2Vec 的空间表征学习模型来编码地点(Place)的绝对位置和空间关系。我们对两个不同任务在两个真实世界的地理数据上进行实验:1)在给定位置和上下文的情况下预测 POI 点的类型;2)利用POI点的地理位置进行图像分类。结果表明,由于Sp ...
从自然语言文本中收割地理空间大数据
p{text-indent:2em}
从自然语言文本中收割地理空间大数据
【评论】在非结构化自然语言本文中获取地理相关信息是一个很有意思而又有难度的话题,也是知识层次体系结构中,“数据–>信息–>知识 ”最完整的过程体现。Yingjie Hu 等在德国慕尼黑技术大学知名教授Martin WerNER的新书《Handbook of Big Geospatial Data》中,专门撰写了名为《Harvesting big geospatial data from natural language texts》的一章,来阐述相关的技术进展状态。
【原文摘要】大量地理空间数据存在于自然语言文本中,例如报纸、维基百科文章、社交媒体帖子、旅游博客、在线评论和历史档案。与美国地质调查局和国家统计局收集的更传统、更结构化的地理空间数据相比,从这些非结构化文本中获得的地理空间数据具有独特的优势。它们捕捉人类对不同地点的感受,反映不同地理区域的近实时态势,或记录其他方式无法获得的重要历史信息。此外,这些非结构化文本中的地理空间数据在数量、速度和多样性方面通常都很大。本文介绍了从自然 ...
地理知识发现中的空间显式人工智能技术
GeoAI:地理知识发现中的空间显式人工智能技术
【摘要】 近年随着深度学习技术的突飞猛进,相关技术在地理信息科学领域也得到大量研究和应用。但随着大家对问题的深入理解,逐步意识到这些机器学习方法在解决地学问题上有些捉襟见肘,特别是很多机器学习模型几乎不考虑地理位置的作用,把很多地学问题转变成了计算机科学问题,引起了业内很多专家的质疑。本文为加州大学 Krzysztof Janowicz 教授 2017 年在地理信息科学杂志 GeoAI 专刊上发表的一篇评论文章,明确提出在地理空间人工智能领域中,空间显示模型需要得到重视和发展。
【原文摘要】无。
【原文】Janowicz, K., et al. (2019). “GeoAI: spatially explicit artificial intelligence techniques for geographic knowledge discovery and beyond.” International Journal of Geographical Information Science 34(4): 625-636.
【 ...
GeoAI:社交媒体数据用于灾害管理的研究综述
p{text-indent:2em}
社交媒体数据用于灾害管理的研究综述
【摘要】 近期看到不少论文在探讨社交媒体数据如何用于灾害管理,正想自己整理一篇综述,意外被推送过来一篇纽卡斯尔大学学者发表的调查报告。
【原文摘要】社交媒体在灾害管理中发挥了重要作用,因为它使公众可以通过报告与灾难事件有关的事件来促进灾害的监测。然而,庞大而多样的社交媒体数据,严重制约了其在灾害管理中的可用性,因此,本文提出了社会媒体数据用于灾害管理面临的挑战。我们也提供了对社交媒体数据如何促进灾害管理,以及社交媒体数据管理方法和灾害管理分析方法的调查。该调查包括社交媒体数据分类、事件检测方法以及空间和时间信息抽取。此外,还提出了社交媒体数据管理研究、灾害管理分析等分类方法,并讨论各种方法的核心优势和缺点。
【原文】Phengsuwan, J.; Shah, T.;Thekkummal, N.B.; Wen, Z.; Sun, R.;Pullarkatt, D.; Thirugnanam, H.;Ramesh, M.V .; Morgan, G.; James, P .;Ranjan, R. Use ...
GeoAI 的近期研究总结与思考
【摘 要】本文摘自武汉大学学报,作者在文章中列举了大量GeoAI领域的文献参考,值得收藏。尤其是梳理和总结了当前5个主要研究热点方向,并列出了最近急迫需要解决的3个方面挑战。
【原 文】高松,地理空间人工智能的近期研究总结与思考,武汉大学学报,DOI:10.13203/j.whugis20200597
1 GeoAI 的发展历史简介
(1)GeoAI背景
人工智能(AI)领域的技术进步给地理空间相关领域研究的智能化发展和融合创新带来了新机遇和新挑战。
近期快速发展的主要动力来自于深度学习模型和开发框架的快速发展、产业化的日趋成熟、各行业领域大数据的爆发、计算机硬件计算性能不断升级,进而可以支持在很短的时间内训练和部署人工智能模型、支持数据驱动的智能化决策和产业变革
(2)什么是GeoAI?
地理空间人工智能(GeoAI)是地理空间科学与人工智能相结合的交叉学科研究方向
GeoAI通过研究与开发机器的空间智能,提升对于地理现象和地球科学过程的动态感知、智能推理和知识发现能力
GeoAI寻求解决人类和地球环境系统相互作用中的重大科学和工程问题
比如:人口迁移预测、复杂条 ...
地理空间语义的六个主要研究领域
地理空间语义的六个主要研究领域
【摘要】
【原文】
【DOI】
一、地理空间语义的概念
1.1 基本概念
“understanding GIS contents, and capturing this understanding in formal theories.”
1.2 核心任务:理解地理信息系统的内容
(1)地理空间语义谁来理解地理空间语义?
(2)机器还是人?如果是人的话,地理空间语义的重点是人类对地理概念和空间关系的认知;
(3)如果是机器的话,则重点在分布式系统之间的语义互操作。
1.3 实现方式:采用形式化理论来捕获对地理信息系统内容的理解
(1)采用本体作为形式化声明来描述概念和关系
(2)用一阶逻辑/描述逻辑等形式化逻辑来定义本体内的概念和公理
1.4 地理空间语义的两个发展方向
趋势1:传统地理空间数据以结构化链接数据的形式组织、发布、抽取和重用
地理空间语义网
趋势2:半结构化、非结构化数据的地理语义抽取、时空模式分析
地理信息抽取、地理知识图谱、GeoAI
1.5 六个地理空间语义的研究领域
语义互操作性与本体
数字地名词典
2. ...