高级模型--非参数模型的贝叶斯网络
〖摘要〗
〖原文〗 Standford cs228 notes
〖参考〗CMU 10-708 Slides / CMU 10-708 Lecture Notes / Jordan TextBook, Ch.2(section 2.2 - end) / Koller’s Textbook,Ch.4 / A. Fischer and C. Igel, An Introducton to Restricted Boltzmann Machines / B. A. Cipra, An Introduction to the Ising Model
可扩展性--分布式机器学习系统
〖摘要〗
〖原文〗 Standford cs228 notes
〖参考〗CMU 10-708 Slides / CMU 10-708 Lecture Notes / Jordan TextBook, Ch.2(section 2.2 - end) / Koller’s Textbook,Ch.4 / A. Fischer and C. Igel, An Introducton to Restricted Boltzmann Machines / B. A. Cipra, An Introduction to the Ising Model
常见概率分布
机器学习和深度学习中常用的概率统计知识
In Bayesian influence, probability distributions are heavily used to make intractable problems solvable. After discussing the normal distribution, we will cover other basic distributions and more advanced ones including Beta distribution, Dirichlet distribution, Poisson Distribution, and Gamma distribution. We will also discuss topics including the Conjugate prior, Exponential family of distribution, and Method of Moments.
1 离散型分布
伯努利分布
The Bernoulli distribution is a ...
可扩展性--分布式机器学习算法
〖摘要〗
〖原文〗 Standford cs228 notes
〖参考〗CMU 10-708 Slides / CMU 10-708 Lecture Notes / Jordan TextBook, Ch.2(section 2.2 - end) / Koller’s Textbook,Ch.4 / A. Fischer and C. Igel, An Introducton to Restricted Boltzmann Machines / B. A. Cipra, An Introduction to the Ising Model
🔥 空间表征学习综述文章
【摘要】无监督文本编码模型最近推动了自然语言处理的实质性进展。其关键思想是使用神经网络将文本中的词转换为基于单词位置及其上下文的向量空间表示( 词嵌入 ),进而用于下游任务的端到端训练。我们在空间分析中看到了惊人的相似情况,即空间分析侧重于将地理对象( 如:POI点 )的绝对位置和空间上下文纳入模型。一个通用的空间表征模型对于许多任务都是有价值的。然而,迄今为止,除了简单地将离散化或前馈网络应用于坐标之外,还没有这样通用的模型存在,并且很少有努力对具有非常不同特征的分布进行联合建模,而这些特征经常出现在地理信系统数据中。神经科学领域诺贝尔奖得主的研究表明,哺乳动物的网格细胞(Grid Cell)提供了一种多尺度、周期性的位置编码表示,对于动物识别位置和寻找路径至关重要。因此,我们提出了一个称为 Space2Vec 的空间表征学习模型来编码地点(Place)的绝对位置和空间关系。我们对两个不同任务在两个真实世界的地理数据上进行实验:1)在给定位置和上下文的情况下预测 POI 点的类型;2)利用POI点的地理位置进行图像分类。结果表明,由于Space2Vec具有多尺度表示能力, ...
弱监督之不完全学习任务 -- 半监督学习概述
Semi-supervised Learning
Semi-supervised Learning 是 半监督学习 的意思。他是指用于训练的数据有一部分是有标签的,一部分数据是无标签的,同时使用这两部分数据进行学习。你可能会有一些疑问,为什么要使用没有标签的数据?没有标签的数据怎么能用来训练?对于第一个问题,是因为现在的机器学习方法大多都是数据驱动的方法,数据的量很大程度上会决定我们训练出的模型的好坏,但是提升数据量又是件不容易的事情,但是需要注意的是获取大量数据其实不难,难的是获取大量有标签的数据。比如图片分类的问题,我们现在有大量的摄像头安装在各种设备上,让他们不停的拍就能得到大量的图片,这是件很容易的事。所以如果这些无标签的数据也能对训练模型产生帮助,那么将是很好的,所以这就是半监督学习存在的意义。但是并不是所有问题都是能够通过使用一些无标签数据来提升有标签数据训练出的模型的,这就来到了第二个问题,没有标签的数据对训练模型有啥用?让我们来看下图这个例子,蓝色的点是标签为猫的数据,橙色是标签为狗的,如果只用有便签数据我们可能训练出的决策边界是竖着的那条红线。但是如果考虑 ...
神经网络--卷积与循环神经网络
〖摘要〗
〖原文〗 Standford cs228 notes
〖参考〗CMU 10-708 Slides / CMU 10-708 Lecture Notes / Jordan TextBook, Ch.2(section 2.2 - end) / Koller’s Textbook,Ch.4 / A. Fischer and C. Igel, An Introducton to Restricted Boltzmann Machines / B. A. Cipra, An Introduction to the Ising Model
➃ 系统化掌握集成学习方法
系统化掌握集成学习
1. 简单的集成学习方法
平均法
加权平均法
最大投票法
2. 二次采样方法与统计机器学习基础
3. Bagging 方法 – 等权重的装袋法
Bootstrap Aggregation
4. Random Forest 随机森林法 –
5. Boosting 方法 – 权重逐步增大的提升法
6. Stacking 方法 – 学习最优的模型组合
7. 应用案例
同质分类器的集成学习 – 以手写数字识别为例
异质分类器的集成学习 – 以信用卡违约预测为例
异质分类器的集成学习 – 以垃圾邮件为例
异质分类器的集成学习 – 以电影评论情感分析为例
同质分类器的集成学习 – 以时尚产品分类为例
#refplus, #refplus li{
padding:0;
margin:0;
list-style:none;
};
document.querySelectorAll(".refplus-num").forEach((ref) => ...
➃ 集成学习:初识
集成学习–Ensembling Learning
偷懒了,直接转载 Juicy B 关于集成学习的系列博客。
1. AdaBoost分类算法原理及sklearn应用
2. AdaBoost回归算法原理及sklearn应用
3. GBDT分类算法原理及sklearn应用
4. GBDT回归算法原理及sklearn应用
5. LightGBM
6. Random Forest 与 Bagging
#refplus, #refplus li{
padding:0;
margin:0;
list-style:none;
};
document.querySelectorAll(".refplus-num").forEach((ref) => {
let refid = ref.firstChild.href.replace(location.origin+location.pathname,'');
let refel = ...
Linux 环境配置文件处理流程
Linux 环境配置文件处理流程
今天遇到一个问题,同样的软件从终端运行能够正常使用中文输入法,但从图形界面下运行就无法正常处理中文输入法了。思考了下,感觉应该是两者的环境配置文件不同导致的。查阅了下 Linux 的相关文档,确实存在这个问题,在此记录备忘。
1 Shell 环境配置文件的处理流程
1.1 配置加载流程
全局配置文件:位于 /etc/profile
私有配置文件:位于 ~/.profile
Shell 自定义配置文件, 依据指定的 Shell 有所不同,例如:
对于 bash ,有 (~/.bash_profile | ~/.bash_login) -> ~/.bashrc -> /etc/bashrc
对于 zsh,有 ~/.zshrc
1.2 环境变量的设置
除了在上述配置文件中,通过 export 变量名=变量值 这种方式设置环境变量外,Linux 还可以通过单独的配置文件设置环境变量。这些配置文件的结构也非常简单,每行设置一个环境变量,语法格式为 变量名=变量值。其中:
全局环境变量: 位于 /etc/env ...