模型比较(Model Comparison)
【摘 要】正确使用模型评估、模型选择和算法选择技术在学术机器学习研究以及许多工业环境中至关重要。本文回顾了可用于这三个子任务中的每一个的不同技术,并讨论了每种技术的主要优点和缺点,并参考了理论和实证研究。此外,还提出了一些建议,以鼓励在机器学习的研究和应用中采用最佳但可行的做法。涵盖了模型评估和选择的常用方法,例如保持方法,在处理小数据集时不推荐使用。引入了不同风格的归纳技术来估计性能估计的不确定性,如果归纳在计算上是可行的,则作为通过正态近似的置信区间的替代方法。回顾了留一法交叉验证和k-fold交叉验证等常见的交叉验证技术,讨论了选择k的偏差-方差权衡,并给出了k的最佳选择的实用技巧。关于经验证据。介绍了算法比较的不同统计检验,并讨论了处理多重比较的策略,例如综合检验和多重比较校正。最后,推荐算法选择的替代方法,例如组合 F-test 5x2 交叉验证和嵌套交叉验证,用于在数据集较小时比较机器学习算法。
【原 文】 在大数据时代,分析师通常会针对观察到的数据探索各种统计模型或机器学习方法,以促进科学发现或获得预测能力。无论采用何种数据和拟合程序,关键步骤是从一组候选者中 ...
➆ 分层模型
p{text-indent:2em;2}
分层模型
#refplus, #refplus li{
padding:0;
margin:0;
list-style:none;
};
document.querySelectorAll(".refplus-num").forEach((ref) => {
let refid = ref.firstChild.href.replace(location.origin+location.pathname,'');
let refel = document.querySelector(refid);
let refnum = refel.dataset.num;
let ref_content = refel.innerText.replace(`[${refnum}]`,'');
tippy(ref, {
...
显著性检验
【通俗理解】显著性检验,T-test,P-value
源:https://www.cnblogs.com/hdu-zsk/p/6293721.html
1 前言
显著性检验:用于判定实验结果是否由随机误差导致,即用量化方法来判断实验结果能否被接受。
举例:
赵先生开了一家日用百货公司,该公司分別在郑州和杭州开设了分公司。现在存在下列数据作为两个分公司的销售额,集合中的每一个数代表着一年中某个月的公司销售:
郑州分公司 Z={23,25,26,27,23,24,22,23,25,29,30}$
杭州分公司 H={24,25,23,26,27,25,25,28,30,31,29}H=\{24,25,23,26,27,25,25,28,30,31,29\}H={24,25,23,26,27,25,25,28,30,31,29}
现在,赵先生想要知道两个公司的销售额是否有存在明显差异(郑州分公司销售额>杭州分公司销售额,抑成反之),以便对接下来公司的战略业务调整做出规划。
下属们知知道赵老板的难处,纷纷建议“只需要求平均值就知道哪个分公司的销售额更大了"。但是作为 ...
空间统计学概论
空间统计学概论
1 统计学的两大流派
(1)频率学派
认为模型的待估计参数是一个未知的常数,而样本是随机的,通过对随机样本的分析,可以计算获得参数的值。
基本思想(对事件建模)
「随机事件本身具有某种客观的随机性」,需要研究一系列工具来刻画「事件」本身
事件A在独立重复试验中发生的频率趋于极限 ppp ,那么极限 ppp 就是该事件的概率
参数估计时
主要是对模型做假设,但不对参数的分布做假设
求参数符合样本的最优化解,通过正则化解决过拟合问题
如:极大似然估计、最小交叉熵、最小二乘估计…
预测时
预测的结果:参数支持下确定的结果
结果不确定性的量化:通过方差来量化不确定性
核心体现为最优化问题
需要通过最优化算法求得参数的数值解
代表性模型
SVM等各种统计机器学习方法、前馈神经网络…
(2)贝叶斯学派
认为模型的待估计参数是一个随机变量,而样本是固定的,通过对样本的学习不断更新经验,能够使对参数的分布认识更准确。
基本思想(对人的知识建模)
「随机事件」是因「观察者」知识状态中尚未包含该事件的结果而导致,需要通过观察 ...
➅ Probit 模型
其中是一个函数,我们将调用反向链接函数。有许多反向链接函数可供选择;可能最简单的是恒等函数。这是一个返回与其参数相同的值的函数。第3章“线性回归建模”中的所有模型都使用了单位函数,为简单起见,我们只是省略了它。身份功能本身可能不是很有用,但它允许我们以更统一的方式考虑几种不同的模型。
Probit 模型
在上一章中,我们使用输入变量的线性组合来预测输出变量的平均值。我们假设后者为高斯分布。在许多情况下都可以使用高斯分布,但对于其他许多情况,选择不同的分布可能更明智;当我们用 ttt 分布替换高斯分布时,我们已经看到了一个这样的例子。在本章中,我们将看到更多使用高斯分布以外分布的明智例子。正如我们将了解到的,存在一个通用的主题或模式,可将线性模型推广到许多问题。在本章中,我们将探讨:
广义线性模型
Logistic回归和逆链接函数
简单Logistic回归
多元Logistic回归
Softmax函数和多项Logistic回归
Poisson回归
零膨胀Poisson回归
4.1 广义线性模型
本章的核心思想之一相当简单:为了预测输出变量的平均值,我们可以对输入变量的线性 ...
统计学中的假设检验和两类错误
我来尝试给你讲清统计学中的假设检验和两类错误
学习过统计的同学一定对“两类错误”不会陌生,但是否已经完全理清了其中的逻辑,想必要打一个问号了。希望我今天能“不辱使命”,用你听得懂的语言给你讲清楚这整套内容。
1 从玩色子看假设检验到底在干嘛
首先,两类错误是出现在假设检验过程中的,所以我们得先弄明白假设检验到底在做什么。简单举一个赌桌上的例子。看完周润发的《赌神》之后,朋友小金也来到赌场赌色子,一个色子,买单双号:1、3、5为单,2、4、6为双。小金玩了100把,但是就只有4次买中,气的小金直跺脚,直呼运气太背……
难道小金的运气就这么差吗?咱们回头看看,是否哪里有猫腻。你肯定已经想到,每一把小金就算瞎猜,也会有50%的可能性猜对,这样重复玩100把,平均而言有50把的机会能买中,现在他只买中4把,这怎么可能呢?那原因在哪?很简单,问题出在色子上,我们说平均会有50把买中是建立在一个假设上的:色子是均匀的,没有人动手脚。但现在的情况是,他确实只买中了4把,而如果色子是均匀的,那么这种情况发生的概率及其微小,接近0,概率接近0的事情一般在一次试验(这100把游戏)下是不可能 ...
空间表征学习之Tile2Vec
p{text-indent:2em}
空间表征学习之Tile2Vec
【摘要】
【原文】
【DOI】
空间表征学习之Space2Vec
空间表征学习之Space2Vec
【摘要】无监督文本编码模型最近推动了自然语言处理的实质性进展。其关键思想是使用神经网络将文本中的词转换为基于单词位置及其上下文的向量空间表示( 词嵌入 ),进而用于下游任务的端到端训练。我们在空间分析中看到了惊人的相似情况,即空间分析侧重于将地理对象( 如:POI点 )的绝对位置和空间上下文纳入模型。一个通用的空间表征模型对于许多任务都是有价值的。然而,迄今为止,除了简单地将离散化或前馈网络应用于坐标之外,还没有这样通用的模型存在,并且很少有努力对具有非常不同特征的分布进行联合建模,而这些特征经常出现在地理信系统数据中。神经科学领域诺贝尔奖得主的研究表明,哺乳动物的网格细胞(Grid Cell)提供了一种多尺度、周期性的位置编码表示,对于动物识别位置和寻找路径至关重要。因此,我们提出了一个称为 Space2Vec 的空间表征学习模型来编码地点(Place)的绝对位置和空间关系。我们对两个不同任务在两个真实世界的地理数据上进行实验:1)在给定位置和上下文的情况下预测 POI 点的类型;2)利用POI点的地理位置进行图像分类。结果表明,由于Sp ...
➄ 广义线性模型
其中是一个函数,我们将调用反向链接函数。有许多反向链接函数可供选择;可能最简单的是恒等函数。这是一个返回与其参数相同的值的函数。第3章“线性回归建模”中的所有模型都使用了单位函数,为简单起见,我们只是省略了它。身份功能本身可能不是很有用,但它允许我们以更统一的方式考虑几种不同的模型。
p{text-indent:2em;2}
广义线性模型
在上一章中,我们使用输入变量的线性组合来预测输出变量的平均值。我们假设后者为高斯分布。在许多情况下都可以使用高斯分布,但对于其他许多情况,选择不同的分布可能更明智;当我们用 ttt 分布替换高斯分布时,我们已经看到了一个这样的例子。在本章中,我们将看到更多使用高斯分布以外分布的明智例子。正如我们将了解到的,存在一个通用的主题或模式,可将线性模型推广到许多问题。在本章中,我们将探讨:
广义线性模型
Logistic回归和逆链接函数
简单Logistic回归
多元Logistic回归
Softmax函数和多项Logistic回归
Poisson回归
零膨胀Poisson回归
4.1 广义线性模型
本章的核心思想之一相当简单:为了预测输出变 ...
从自然语言文本中收割地理空间大数据
p{text-indent:2em}
从自然语言文本中收割地理空间大数据
【评论】在非结构化自然语言本文中获取地理相关信息是一个很有意思而又有难度的话题,也是知识层次体系结构中,“数据–>信息–>知识 ”最完整的过程体现。Yingjie Hu 等在德国慕尼黑技术大学知名教授Martin WerNER的新书《Handbook of Big Geospatial Data》中,专门撰写了名为《Harvesting big geospatial data from natural language texts》的一章,来阐述相关的技术进展状态。
【原文摘要】大量地理空间数据存在于自然语言文本中,例如报纸、维基百科文章、社交媒体帖子、旅游博客、在线评论和历史档案。与美国地质调查局和国家统计局收集的更传统、更结构化的地理空间数据相比,从这些非结构化文本中获得的地理空间数据具有独特的优势。它们捕捉人类对不同地点的感受,反映不同地理区域的近实时态势,或记录其他方式无法获得的重要历史信息。此外,这些非结构化文本中的地理空间数据在数量、速度和多样性方面通常都很大。本文介绍了从自然 ...