➅ Probit 模型
其中是一个函数,我们将调用反向链接函数。有许多反向链接函数可供选择;可能最简单的是恒等函数。这是一个返回与其参数相同的值的函数。第3章“线性回归建模”中的所有模型都使用了单位函数,为简单起见,我们只是省略了它。身份功能本身可能不是很有用,但它允许我们以更统一的方式考虑几种不同的模型。
Probit 模型
在上一章中,我们使用输入变量的线性组合来预测输出变量的平均值。我们假设后者为高斯分布。在许多情况下都可以使用高斯分布,但对于其他许多情况,选择不同的分布可能更明智;当我们用 ttt 分布替换高斯分布时,我们已经看到了一个这样的例子。在本章中,我们将看到更多使用高斯分布以外分布的明智例子。正如我们将了解到的,存在一个通用的主题或模式,可将线性模型推广到许多问题。在本章中,我们将探讨:
广义线性模型
Logistic回归和逆链接函数
简单Logistic回归
多元Logistic回归
Softmax函数和多项Logistic回归
Poisson回归
零膨胀Poisson回归
4.1 广义线性模型
本章的核心思想之一相当简单:为了预测输出变量的平均值,我们可以对输入变量的线性 ...
统计学中的假设检验和两类错误
我来尝试给你讲清统计学中的假设检验和两类错误
学习过统计的同学一定对“两类错误”不会陌生,但是否已经完全理清了其中的逻辑,想必要打一个问号了。希望我今天能“不辱使命”,用你听得懂的语言给你讲清楚这整套内容。
1 从玩色子看假设检验到底在干嘛
首先,两类错误是出现在假设检验过程中的,所以我们得先弄明白假设检验到底在做什么。简单举一个赌桌上的例子。看完周润发的《赌神》之后,朋友小金也来到赌场赌色子,一个色子,买单双号:1、3、5为单,2、4、6为双。小金玩了100把,但是就只有4次买中,气的小金直跺脚,直呼运气太背……
难道小金的运气就这么差吗?咱们回头看看,是否哪里有猫腻。你肯定已经想到,每一把小金就算瞎猜,也会有50%的可能性猜对,这样重复玩100把,平均而言有50把的机会能买中,现在他只买中4把,这怎么可能呢?那原因在哪?很简单,问题出在色子上,我们说平均会有50把买中是建立在一个假设上的:色子是均匀的,没有人动手脚。但现在的情况是,他确实只买中了4把,而如果色子是均匀的,那么这种情况发生的概率及其微小,接近0,概率接近0的事情一般在一次试验(这100把游戏)下是不可能 ...
空间表征学习之Tile2Vec
p{text-indent:2em}
空间表征学习之Tile2Vec
【摘要】
【原文】
【DOI】
空间表征学习之Space2Vec
空间表征学习之Space2Vec
【摘要】无监督文本编码模型最近推动了自然语言处理的实质性进展。其关键思想是使用神经网络将文本中的词转换为基于单词位置及其上下文的向量空间表示( 词嵌入 ),进而用于下游任务的端到端训练。我们在空间分析中看到了惊人的相似情况,即空间分析侧重于将地理对象( 如:POI点 )的绝对位置和空间上下文纳入模型。一个通用的空间表征模型对于许多任务都是有价值的。然而,迄今为止,除了简单地将离散化或前馈网络应用于坐标之外,还没有这样通用的模型存在,并且很少有努力对具有非常不同特征的分布进行联合建模,而这些特征经常出现在地理信系统数据中。神经科学领域诺贝尔奖得主的研究表明,哺乳动物的网格细胞(Grid Cell)提供了一种多尺度、周期性的位置编码表示,对于动物识别位置和寻找路径至关重要。因此,我们提出了一个称为 Space2Vec 的空间表征学习模型来编码地点(Place)的绝对位置和空间关系。我们对两个不同任务在两个真实世界的地理数据上进行实验:1)在给定位置和上下文的情况下预测 POI 点的类型;2)利用POI点的地理位置进行图像分类。结果表明,由于Sp ...
➄ 广义线性模型
其中是一个函数,我们将调用反向链接函数。有许多反向链接函数可供选择;可能最简单的是恒等函数。这是一个返回与其参数相同的值的函数。第3章“线性回归建模”中的所有模型都使用了单位函数,为简单起见,我们只是省略了它。身份功能本身可能不是很有用,但它允许我们以更统一的方式考虑几种不同的模型。
p{text-indent:2em;2}
广义线性模型
在上一章中,我们使用输入变量的线性组合来预测输出变量的平均值。我们假设后者为高斯分布。在许多情况下都可以使用高斯分布,但对于其他许多情况,选择不同的分布可能更明智;当我们用 ttt 分布替换高斯分布时,我们已经看到了一个这样的例子。在本章中,我们将看到更多使用高斯分布以外分布的明智例子。正如我们将了解到的,存在一个通用的主题或模式,可将线性模型推广到许多问题。在本章中,我们将探讨:
广义线性模型
Logistic回归和逆链接函数
简单Logistic回归
多元Logistic回归
Softmax函数和多项Logistic回归
Poisson回归
零膨胀Poisson回归
4.1 广义线性模型
本章的核心思想之一相当简单:为了预测输出变 ...
从自然语言文本中收割地理空间大数据
p{text-indent:2em}
从自然语言文本中收割地理空间大数据
【评论】在非结构化自然语言本文中获取地理相关信息是一个很有意思而又有难度的话题,也是知识层次体系结构中,“数据–>信息–>知识 ”最完整的过程体现。Yingjie Hu 等在德国慕尼黑技术大学知名教授Martin WerNER的新书《Handbook of Big Geospatial Data》中,专门撰写了名为《Harvesting big geospatial data from natural language texts》的一章,来阐述相关的技术进展状态。
【原文摘要】大量地理空间数据存在于自然语言文本中,例如报纸、维基百科文章、社交媒体帖子、旅游博客、在线评论和历史档案。与美国地质调查局和国家统计局收集的更传统、更结构化的地理空间数据相比,从这些非结构化文本中获得的地理空间数据具有独特的优势。它们捕捉人类对不同地点的感受,反映不同地理区域的近实时态势,或记录其他方式无法获得的重要历史信息。此外,这些非结构化文本中的地理空间数据在数量、速度和多样性方面通常都很大。本文介绍了从自然 ...
无监督之聚类与降维任务--线性模型(Clusting、PCA、NMF)
无监督学习之线性模型(clustering、PCA、MF)
1 无监督学习总览
我们都知道,有监督数据是十分宝贵的。一般来说我们获取data很容易,但获取label却比较困难。因此,无监督学习在机器学习中十分关键。如何利用好大量的无监督数据,对于业务冷启动和持续迭代运行,都至关重要。
无监督学习大致分为
化繁为简。又包括
聚类,将无监督数据合并为一个个cluster。cluster内数据相似,cluster间数据不相似。
降维,特征提取。对无监督数据,比如图像、文本,提取特征。比如PCA、Auto-Encoder、MF
无中生有,主要就是各种生成模型。
本文主要讲无监督中的线性模型。包括clustering、PCA、MF等
2 聚类 Clustering
2.1 聚类种类
聚类在实际业务中十分重要,特别是业务冷启动的时候。可以用来做意图类别挖掘、知识库生产、话题挖掘等。还可以结合打标数据,实现标注数据噪声发现。聚类算法很多,如下
划分聚类 k-means、k-medoids、k-modes、k-medians、kernel k-means
层次聚类 Agglo ...
无监督之聚类与降维任务--近邻嵌入方法(从LLE到t-SNE)
无监督学习Neighbor Embedding近邻嵌入–从LLE 到 T-SNE
2019-09-28
参考资料:李宏毅机器学习(2016);
Neighbor Embedding近邻嵌入不同于PCA,实际上是一种非线性的降维方法,本文对三种常用的近邻嵌入算法做简单的介绍。
概念:流形学习(Manifold Learning)
流形学习的目的抽象的来说就是寻找高维空间的低维规律,即样本点的分布其实可能是在低维的一个空间里,只是被扭曲被塞到高维空间里面。最常用的举例就是地球,地球的表面就是一个manifold(一个二维的平面,被塞到一个三维的空间里面)。在manifold里面只有很近距离的点,(欧式距离)Euclidean distance才会成立,如果距离很远的时候,欧式距离不一定成立。如在图中,a点计算离d,e两点的欧式距离都很近,这符合我们的直觉,但是同样根据欧式距离,a点距离b点比距离c点更近,但事实上如果我们把“S”形的数据点分布摊平展开,可能直觉上a点距离b点比a点距离点更加远。
所以流形计算要做的事情是把类似于图中“S”型的高维分布在低维度空间进行展开。展开的好 ...
空间表征学习之Place2Vec
p{text-indent:2em}
空间表征学习之Place2Vec
【摘要】理解、表示和推理POI点的类型是地理信息检索、推荐系统、地理知识图谱以及研究一般城市空间的重要方面(例如:从用户生成内容中提取功能性或模糊性认知区域的任务)。这些任务的先决条件之一是能够捕捉POI点类型之间的相似性或相关性。直觉上,当人们搜索汽车维修点时,即使没有精确的匹配结果,返回汽车美容店甚至加油站仍然可能满足一些用户需求,但返回天文馆则不会。也就是说,POI点类型的层次结构常用于扩展或者联想查询。但大多数现有POI点类型的层次结构较浅,并且往往结构是人为设计确定的,造成在某些特征方面可能密切相关的POI点类型被分开了,进而影响了扩展或联想查询的效果。这就引出了如何从数据中学习POI点类型表示的问题。近年,自然语言处理领域的词嵌入(如Word2Vec)对于词相似性表征发挥了重要作用,为POI点类型的表征提供了思路。但地理空间结构(如POI点类型间的相互作用)与语言学有很大不同,不能直接套用。本文提出了一种新方法来增强POI点类型的空间上下文,使用距离分割和信息论方法来生成嵌入。我们证明,该工 ...
➄ 线性回归模型:MLE、MAP和贝叶斯推断
【摘要】 MLE、MAP和贝叶斯推断
【原文】
【see also】 《高斯过程的可视化探索》; 《稀疏高斯过程及其推断》; 《深度高斯过程》
p{text-indent:2em;2}
1 MLE、MAP和贝叶斯推断
#refplus, #refplus li{
padding:0;
margin:0;
list-style:none;
};
document.querySelectorAll(".refplus-num").forEach((ref) => {
let refid = ref.firstChild.href.replace(location.origin+location.pathname,'');
let refel = document.querySelector(refid);
let refnum = refel.dataset.num;
let ref_co ...