弱监督之不完全学习任务 -- 半监督学习概述
Semi-supervised Learning
Semi-supervised Learning 是 半监督学习 的意思。他是指用于训练的数据有一部分是有标签的,一部分数据是无标签的,同时使用这两部分数据进行学习。你可能会有一些疑问,为什么要使用没有标签的数据?没有标签的数据怎么能用来训练?对于第一个问题,是因为现在的机器学习方法大多都是数据驱动的方法,数据的量很大程度上会决定我们训练出的模型的好坏,但是提升数据量又是件不容易的事情,但是需要注意的是获取大量数据其实不难,难的是获取大量有标签的数据。比如图片分类的问题,我们现在有大量的摄像头安装在各种设备上,让他们不停的拍就能得到大量的图片,这是件很容易的事。所以如果这些无标签的数据也能对训练模型产生帮助,那么将是很好的,所以这就是半监督学习存在的意义。但是并不是所有问题都是能够通过使用一些无标签数据来提升有标签数据训练出的模型的,这就来到了第二个问题,没有标签的数据对训练模型有啥用?让我们来看下图这个例子,蓝色的点是标签为猫的数据,橙色是标签为狗的,如果只用有便签数据我们可能训练出的决策边界是竖着的那条红线。但是如果考虑 ...