我来尝试给你讲清统计学中的假设检验和两类错误

学习过统计的同学一定对“两类错误”不会陌生,但是否已经完全理清了其中的逻辑,想必要打一个问号了。希望我今天能“不辱使命”,用你听得懂的语言给你讲清楚这整套内容。

1 从玩色子看假设检验到底在干嘛

首先,两类错误是出现在假设检验过程中的,所以我们得先弄明白假设检验到底在做什么。简单举一个赌桌上的例子。看完周润发的《赌神》之后,朋友小金也来到赌场赌色子,一个色子,买单双号:1、3、5为单,2、4、6为双。小金玩了100把,但是就只有4次买中,气的小金直跺脚,直呼运气太背……

难道小金的运气就这么差吗?咱们回头看看,是否哪里有猫腻。你肯定已经想到,每一把小金就算瞎猜,也会有50%的可能性猜对,这样重复玩100把,平均而言有50把的机会能买中,现在他只买中4把,这怎么可能呢?那原因在哪?很简单,问题出在色子上,我们说平均会有50把买中是建立在一个假设上的:色子是均匀的,没有人动手脚。但现在的情况是,他确实只买中了4把,而如果色子是均匀的,那么这种情况发生的概率及其微小,接近0,概率接近0的事情一般在一次试验(这100把游戏)下是不可能发生的,但现在却真真切切的发生了,于是,我们就有理由怀疑假设的真实性。在这个例子中,我们就会怀疑色子可能不是均匀的,或者被人为操控了。所以,假设检验的基本逻辑就是:我们为了解决一个疑问,就先做一个假设,然后在这个假设的基础上推测已经发生了的事情的概率(在这个例子里面就是“小金猜中4次或少于4次的概率”),如果这个概率低于我们设定的参考值(如0.05),则我们就拒绝假设;而如果这个概率大于0.05,则我们就没有理由来拒绝原假设。

2 第一类错误的概率为什么是α

明白了假设检验的逻辑之后,我们就可以开始分析第一类错误。统计学上把原假设H0为真而拒绝原假设称为犯了第一类错误。回到小金的例子,因为他只买中4把,根据推测,他是有理由拒绝色子是均匀的这个原假设,但事后通过专业人员检验发现:色子没有问题,纯粹是小金的运气太背了,那么这时,小金就犯错了,这便是第一类错误的由来,接着我们会问,犯这个错误的概率是多少呢?

图片

为了便于理解,我们可以看另外一个计算简单的例子。比如,某公司生产的100台手机里有5台是次品,所以次品率就是5%。但质检团队事先不知道这个信息,于是他们需要通过假设检验来验证。首先,质检团队假设次品率不超过5%,那么他们认为一次抽样是抽不到次品的(统计学中小概率事件的定义:概率小于5%的事件被认为在一次试验中不会发生)。然而,当他们随机抽取一个手机来验证假设时,由于里面确实存在次品,谁也无法保证绝对就抽不到次品。所以,如果现实中他们恰好抽中了一个次品(抽中的概率是5%),然后他们就会下决定说:“在只有5个次品的情况下,一次抽样我们认为是抽不到次品的,但现在我们真实地就抽到了次品,于是,我们拒绝次品率不超过5%的假设,怀疑这100台手机里的次品超过5台。”

很明显,他们犯错了,而犯错的概率就是那5个次品所占的比例:在原假设为真的情况下,他们仍有5%的可能性抽中次品,所以犯错的概率也就是5%。因为抽中次品我们就会拒绝原假设,拒绝原假设,我们就犯错了(第一类错误:H0实际为真而拒绝H0),所以,此时犯错的概率就等于抽中次品的概率。类似的,如果我们人为地规定低于5%的事件是小概率事件,在一次试验中不会发生,那么我们就注定了会有5%的可能性犯错,因为人为规定的那些小概率事件在现实中是可能发生的,而发生的概率就是我们规定的5%,即犯错的概率便等于小概率事件发生的概率。

3 第二类错误的理解

接下来,我们再来看看第二类错误及其概率的大小。仍然用上述例子进行说明,唯一变化的是现在100个手机中实际有10个次品,即同样的H0假设(次品率不超过5%)现在变成假了。于是,质检团队仍先假设这100台手机中次品小于5个(H0),一次抽样,他们获得了一个正品,然后他们就说现在还不能拒绝H0,可以默认里面的次品数低于5个(统计学上不说接受H0)。同样地,他们又犯错了,因为实际上的次品有10个,即H0是假的,他们需要拒绝H0可他们没有。

那他们犯这个错误的概率是多大呢?90%。没错就是这么大,你可能会感到惊讶。但这其中的逻辑是,在这个检验中,他们要做出正确的判断就需要拒绝H0,而拒绝H0需要他们一次抽样就抽中次品,因为次品个数是10个,正品是90个,所以,只要他们抽中正品,他们就会犯错,因而他们犯错的概率就是抽中正品的概率,即90%。直觉上也是这样,比如,你去检验一批样品时,只做一次抽样就判断是否存在次品,显然会很不保险。在这个例子中,他们只有10%(次品率)的可能性不犯第二类错误,常称为“检验功效”。结合这个例子,“检验功效”也就很好理解,就是防止犯第二类错误的概率,即这个检验有效的概率:在H0为假拒绝H0的可能性。

本能地,我们会想到既然抽一次的检验功效这么低,那么我增加抽检的次数是否会增加功效呢?的确如此,比如我抽取两次,两次都抽取到正品的概率就变为81%(0.9*0.9),从而至少一次抽中次品的概率就会增加到19%(1-0.81),试验的检验功效就提升了。不过,需要特别注意的是,这时我们的H0不能再是“次品个数小于5个”,需要改的更苛刻一点,比如可以变为“完全没有次品”,其中的缘由建议读者根据小概率事件的规定琢磨一下。因此,在H0改为“完全没有次品”时,只要抽中次品就会拒绝H0,于是随着抽取的次数增加,至少一次抽中次品的概率会显著提升,所以检验功效也就增加了。这个操作过程是否比较熟悉呢?在统计上,我们常说增加样本量就会增加检验功效,样本量的增加与本例中增加抽取次数会有同样的效果。实际上,我们也可以换一种抽取方式:仅抽取一次,但抽取的个数(样本量)不断增加,你会发现这样抽取与重复单次抽样的效果是近似的。

4 两类错误的联系

对于两类错误的联系,下面这张图你可能并不陌生,相信在看完上文后能有助于理解。下图中红色阴影部分的面积为α,即第一类错误犯错的概率;黑色的阴影部分的面积为β,即第二类错误犯错的概率。在进行具体解释前,让我们先从一个现实生活中的例子说起。

图片

统计学中两类错误的关系

统计学中认识的第一对概念就是总体与样本,这里我想特别澄清一点的是把样本想象成固定的会限制我们的思考。总体和样本的关系是一对多的,理论上一个总体我们可以抽取无数个样本量相同但本质上不同的样本。比如我们想检验北京大学男生的平均身高是否为1.8m(H0:总体均数为1.8m),那么北京大学所有男生的身高数据就是我们这个案例的总体。之后我们从总体中随机抽取100名男生测量身高,这100名男生的身高就是一个样本。当然,我还可以获得很多其他的样本,特别注意,这里的样本不是一个一个学生,而是一个由100个学生组成的集体。

在统计学上,我们通常会把样本称为样本点,如果你结合样本均数来理解就会很清楚为什么要加一个“点”字。首先,每一个样本都会计算出一个样本均数,每一个样本均数其实都是X轴上的一个点,有的样本均数离总体均数近,而有的离总体均数远。当我们抽中的样本计算出来的样本均数离总体均数远的时候,即两者差异较大时,我们就会倾向拒绝两者相等的假设。所以,即便实际上H0假设正确,数轴上依然会有一些点与总体均数的距离较远,当这些点对应的样本被我们抽中时,我们就会做出拒绝H0的决定,从而我们就会犯错了,这便是第一类错误的发生逻辑。

那第二类错误怎么理解呢?要犯第二类错误,那么意味着H0(总体平均身高为1.8m)是假的,实际上可能是1.85m。这其中会出现一个比较绕的点是,由于H0和事实不一致,所以H0所代表的总体和实际研究的总体也不一样。在本例中,一个是均数为1.8的总体(上图中的虚线总体);另一个是均数为1.85的总体(上图中蓝色部分的总体)。我们用假设检验进行判断时用的是第一个总体,即依据第一个总体的均数来计算检验统计量并判断是否要拒绝原假设,因为我们假设所获得的这个样本是来自于第一个总体的。但我们计算犯错概率时,用的是第二个实际总体,即我们这个样本并不是来自第一个总体,而是来自第二个实际的总体,在这个实际的总体中,会有多少样本点导致在前一步计算检验统计量时不拒绝H0。这一点理清之后,你可能就会豁然开朗。

类似刚才的思路,我们有可能在实际均数为1.85的总体中抽出一些样本(上图黑色阴影部分所代表),而通过这些样本计算的样本均数与1.8差异不大,从而让我们不拒绝H0(因为这些样本不处于拒绝域,即红色阴影所代表的部分),进而导致第二类错误的发生。而计算错误发生概率大小,就是在实际1.85的总体中那些与1.8距离较近的样本点所组成的集合所占的比例(上图黑色阴影部分面积在实际总体所占的比例),正是这些集合的存在会让我们不拒绝H0而犯错。

通过上述说明,对照图你可能就能理解,为什么我们会说减少第一类错误的发生概率就会增加第二类错误的概率,因为,第一类错误的概率是我们根据检验水准人为设定的,当我们把检验水准从0.05提高到0.01时,我们减少了图中红色阴影的面积,但增大了图中黑色阴影的面积,该面积即为第二类错误发生概率。另一个常见的问题是为什么只有增加样本量才能同时减少这两类错误的犯错概率,简单理解,就是由于样本量的增加会降低标准误的大小(标准误=S/根号N,样本本量N越大,标准误越小,反映在图形中就是两个总体(假设总体和实际总体)变得更“细瘦”,所以重合的部分越少,由此代表犯错概率的图形的面积也会变小。

以上即是我对整个过程的梳理和解释,希望在理解假设检验及两类错误的问题上能对你有所帮助。