机器学习方法分类
机器学习方法分类
〖摘要〗
〖原文〗改编自Lori
1 总览
在机器学习领域,学习任务根据数据样本情况,可大致划分为三类:有监督学习、无监督学习、弱监督学习和强化学习。
2 有监督学习和无监督学习
两者都需要从包含大量训练样本的训练数据集中学习预测模型,每个训练样本对应于事件/对象。如下图所示。
(1)有监督学习
监督学习的训练数据由两部分组成:
描述事件/对象的特征向量(x),以及 groud-truth 的标签(y)。
监督学习典型面向两类任务(见下图)。
**分类任务:**标签对应于训练样本属于哪一类(离散值)。
对于分类问题来说,x 是一些西瓜,y 是属于的类别,好的西瓜或者坏的西瓜。现在我们已经知道每一个西瓜是好的或坏的,如果我们有一个新的西瓜,我们需要根据之前的经验判断它是好的或者坏的。
分类需要先找到数据样本点中的分界线,再根据分界线对新数据进行分类,分类数据是离散的值,比如图片识别、情感分析等领域会经常用到分类任务。
**回归任务:**标签对应于该示例的真实值响应(连续纸)。
对于回归问题来说,x 是西瓜,y 是真实值响应。 ...
损失函数、代价函数、目标函数的区别
以下叙述并不严格,但比较好理解:
(1)损失函数(Loss Function)
损失函数通常是定义在单一数据点、预测和标签上的函数,用于为衡量惩罚。例如:
平方损失 l(f(xi∣θ),yi)=(f(xi∣θ)−yi)2l(f(x_i|\theta),y_i) = \left (f(x_i|\theta)-y_i \right )^2l(f(xi∣θ),yi)=(f(xi∣θ)−yi)2l(f(x_i|\theta),y_i) = \ left (f(x_i|\theta)-y_i \right )^2,用于线性回归
铰链损失 l(f(xi∣θ),yi)=max(0,1−f(xi∣θ)yi)l(f(x_i|\theta), y_i) = \max(0, 1-f(x_i|\theta)y_i)l(f(xi∣θ),yi)=max(0,1−f(xi∣θ)yi)l(f(xi∣θ),yi)=max(0,1−f(xi∣θ)yi)l(f(x_i|\theta), y_i) = \max (0, 1-f(x_i|\theta)y_i)l(f(xi∣θ),yi)=m ...