似然概念的扫盲帖
【摘 要】 参数估计和模型拟合是许多统计程序的基础。无论目标是检查数据集中的趋势还是回归线的斜率,都必须使用估计方法。似然是参数估计、确定多模型最佳拟合、显著性检验等的基础。在这篇综述中,解释了似然的概念并给出了应用计算示例。所提供的示例用于说明似然如何与最常用的检验统计(如:学生 t 检验
,ANOVA 方差分析
)关联。其他示例说明了使用常见总体模型假设(例如,正态性)和数据非正则情况下的替代假设来计算似然。为了进一步描述似然和似然比与现代检验统计的相互联系,讨论了似然、最小二乘和贝叶斯推断之间的关系。最后,列出了似然法的优点和局限性,简要回顾了似然法的替代方法,并提供了用于计算文中每个示例的 R 代码
【原 文】 Cousineau, D. and Allan, T.A. (2016) ‘Likelihood and its use in Parameter Estimation and Model Comparison’, Mesure et évaluation en éducation, 37(3), pp. 63–98. Available at: https://doi.org/10.7202/1036328ar.
1 引言
似然是整个统计过程中使用的一个概念,相关的统计程序也是如此:最大似然和似然比。在计算许多量时也会使用似然,包括 Akaike 信息准则 (AIC)
和贝叶斯信息准则 (BIC)
。了解似然对于研究人员理解和应用现代数据分析中经常使用的许多统计程序非常有用。
本文向读者介绍了似然,并描述了它如何用于学生 t 检验
和方差分析
以及如何与之相关。全文给出了公式,但它们可能不利于在更高层次上理解似然。因此,本文只是为感兴趣的读者提供了数学基础,而匆忙的读者可以跳过这些公式,而不会影响他们对理论的一般性理解。
本文提供了似然的定义并解释了它与概率之间的关系。讨论了似然与参数估计之间的关系,并给出了示例来说明如何使用似然来统计比较两个相互竞争的假设。提供了似然法的优点和局限性分析。此外,我们将似然与最小二乘建模和贝叶斯推断进行了对比;还描述了似然方法的替代方法。最后,附录包含五个示例的代码:(1) 计算对数似然,(2) 检验一组假设均值的显著性, (3) 检验两组假设均值的显著性;(4) 假设非正态分布的单个组,执行假设均值的检验;(5)使用最大似然估计 (MLE) 获得最佳拟合参数估计。
在整篇文章中,使用了三个术语:
- 大写似然(Likelihood): 代表似然这个概念和方法。
- 小写似然(likelihood):真实的似然数学对象,会产生非常小的正值(例如, 的似然值)。
- 对数似然(log-likelihood):由于非常小的正值使用起来不太直观,而且容易造成计算机数值计算不稳定,因此通常使用该值的对数(如:)
在公式中,似然通常用符号 表示。
本文中提供的示例使用了一组从平均值为 且标准差为 的正常总体智商 (IQ) 测量值(图 1,左图)。从该人群中随机选择了 10 个 IsQcore 的小样本(图 1,右图)。这里使用的样本比行为研究的典型样本小得多,以保持示例在数学上的简单性。
图 1. 总体分布示例(左图)和从该总体中提取的小样本的频率图(右图)。样本包含 个分值(见文中数据);他们每 个点被分为一个桶。
2 似然的定义
似然的概念从伯努利和高斯等前驱者的工作中慢慢出现。
它首先作为一个概念出现在 Fisher(1925 年)[14] 的统计方法中。 Fisher 方差分析
是基于似然法的公式简化创建的。 Neyman 和 Pearson (1933) [29] 使用似然比提出了 统计功效(statistical power )
的概念,并证明了当满足所有假设时,t 检验
和 方差分析检验
是强有力的检验统计量。
从技术上讲,似然是在给定观测样本的情况下,某个参数化总体的概率。与那些具有预测性的概率不同(例如,给定总体 ,同时包含 和 的样本出现几率是多少?),似然专门针对已经发生的事情( 即给定 和 的已有观测,样本从总体 中抽取的可能性有多大?)。因此,根据定义只有当已经收集了来自总体的观测样本时,才能计算似然。
似然在数学上用大写字母 表示,通常写成如下形式:
其中 是一组 个观测值,有时缩写为 ,“” 符号读作 «给定以下观测值»。所考虑的总体必须具有特定的(和指定的)特征。使用似然,如果在有利位置连续三天观测到下雨,则我们可以计算出在英国伦敦的似然(极有可能);之后,在给定相同的数据情况下,我们可以将该似然与在阿尔及利亚南部的似然(小得多)进行比较。
如果研究人员正在研究给定城市的雨天,则总体是对天数如何在 “雨天” 和 “非雨天” 之间分布的描述(在这种情况下是一个二值的测量量)。因此,总体一词用于识别和描述可量化的相关特征(参数),这些特征描述了对观测结果进行采样的上下文。在此示例中,我们根据可操作的定义来计算下雨天与非下雨天的比例似乎相当简单,但实际上大多数总体的确切性质要复杂得多,而且在许多情况下是完全未知的。为了量化和描述未知的总体参数,人们只能使用假设(即模型)。研究人员可以为任何可定义构造指定多个模型,因此需要确定在众多模型中哪个模型最能代表数据。重要的事重复一遍: “给定已观测数据集,在这些假设的模型中,哪一个具有最佳的相对拟合,或者最有可能真实地代表总体?”
将似然概念化的另一种方法是将其视为介于 和 之间的概率度量。值为 “0” 表示某个总体的参数极不可能,值为 “1” 表示指定的参数绝对有可能(确定性)。因此, 在给定某种情况的已观测特征时,似然是预定义总体参数正确的概率。
考虑只有一个观测值的情况。如果该观测来自于已知总体,则有可能计算该事件发生的概率。例如,如果当前位置(地理位置:英国伦敦)的特征已知,目标是确定明天的天气,则相关特征是给定该位置时下雨天的概率:例如假设伦敦任何一天都会下雨的概率是 (或 )。 相反,如果目标是根据对雨的观测来确定一个人的位置,那么考虑到此刻正在下雨,在伦敦的概率是 (前提是上述假设是正确的)。
这可以概括为:
式 3
使用了统计术语,但其他方面相同:
总体本身是一个抽象概念。在当前的上下文中,只对确定在特定总体中获得给定观测(或数据)的概率感兴趣。最典型的理论总体是正态分布,它在数学上表示为 ,其中参数 $\mu $ 是均值,$\sigma $ 是标准差。正态分布的标准化版本也称为高斯分布,其中 和 。正态分布总体的一个主要特征是它关于均值对称:也就是说,小于均值的观测值与大于均值的观测值出现一样频繁。
正态分布函数的一个困难是它不能用于为极其精确的事件分配概率。例如,通过 IQ 分数,可以知道观测到 IQ 在 [85,115] 、[99,101] 甚至[99.9,100.1] 之间的概率。但 IQ 精确为 的概率为空(分值精确为 的事件不可能发生),因为可能的 IQ 分数是连续的(一个人的分数可能落在连续体的任何地方)而不是离散的(如现在要么正在下雨要么是晴天)。在处理连续数据时,概率密度用于返回描述潜在连续尺度的某个特定区间的概率密度。在这里,我们使用概率密度函数是因为通常分配一个整数来描述参与者的 IQ 分数,而不是确定他/她的智商正好是 。对于正态分布,概率密度函数(通常用字母 表示)由下式给出:
其中 是约等于 的自然对数。在以下部分中,我们使用同一术语 “概率” 来指代概率和概率密度。
如前所述,在大多数应用中,感兴趣的总体参数的真实值是未知的。因此,似然是使用假设的总体参数来计算的。当假定总体正态性时,似然函数可以得到进一步简化。例如,如果假设 IQ 的所有可能观测值均来自均值 、标准差为 的正态分布总体,则观测到给定 IQ 值为 的概率,可以通过在 式(5)
中输入感兴趣的 IQ 值计算得到。再次强调,虽然 IQ 分数通常报告为整数,但产生 IQ 分数的特征本身是连续的,因此需要使用概率密度函数。
使用连续变量的概率密度函数,如 式 4
所示,在给定上述总体模型的情况下,观测到 IQ 为 的概率为 或 ‰。相反,如果已经观测到 IQ 为 ,则观测值来自均值为 、标准差为 的正态总体的似然为概率 ( ‰)。式 5
描述了在给定总体的情况下观测到某个分数的概率,与在观测到特定分数的情况下特定总体的似然之间的关系。
通常,样本包含多个观测值,此时似然是所有单个观测值的联合概率。如果样本由独立观测组成,则联合概率可以通过计算每个单独观测的概率乘积来获得(式 6):
率值是介于 和 之间的数字。在计算机上将多个小于 的值相乘可能会产生一个与零无法区分的数字(下溢错误)。例如,观测到 个 IQ 为 的样本的似然为 ,而对于 个观测,它会降低到 。考虑到这一点,很容易理解这些值在典型样本量下变小的速度有多快。使用对数似然 可以避免下溢,而且可以将乘积运算转换为求和运算 ( )。使用对数似然后,我们通过对单个似然的对数之和来计算样本的对数似然(Hélie,2006)[22]。使用似然对数也经常导致更简单的方程式。请注意,对数似然始终为负值(但在计算 AIC 和 BIC 时会变为正值,见后文)。有关 R
中用于计算对数似然的代码,请参见 附录 1
中从正态分布的总体中抽取样本的示例 。
以下 个数据(如 图 1
所示)
其来自均值为 、标准差为 的正态总体的对数似然为 ,这个值也被称为对数似然指数(见附录中的示例 1)。非常接近于零的对数似然表明假设的参数很有可能;相反,极负值表明假设的参数极不可能。计算出的似然指数大小不仅是样本似然的函数,也是样本量的函数。因此,孤立地来说,不可能说 是 “好” 还是 “坏” ,但我们可能会注意到这个样本的实际均值是 而不是 ,以便为 赋予一些意义。我们将在后文中介绍如何使用对数似然比较不同模型的相对拟合优度。
表 1: 使用 Simplex 算法自动搜索与给定样本数据的最可能总体均值关联的对数似然值的结果。在该表中检查的值中,最可能的值是其对数似然最接近于零的值(此例中,最接近零的值与均值 相关)。
3 最大似然用于参数估计
在假定总体具有某种分布(例如,正态分布)但其参数未知的情况下,可以通过增量地检验参数的可能值直至使假定总体最有可能为止,来得到该参数的估计。这种估计方法被称为最大似然估计 (MLE) 方法。使用上一节中的样本 ,要估计的参数是总体均值 。使用 MLE 方法计算 的不同值直到找到 的 “最可能值” 的过程如 表 1
所示(值 暂时固定为 )。
根据表中的数据,最合适的 似乎位于 附近。如果在 到 的范围内继续手动搜索,使用更小的增量迭代几次后将找到 。某些最大化程序(如 Excel 中的 Solver 插件)可以代替人工实现自动搜索(Excel 的 Solver 插件使用 Simplex 算法;Nelder & Mead,1965)。示例 5a
在 R
中提供了一个简短的模拟,它也可用于查找 的最可能值。示例 5b
中给出的代码复制了 表 1
中的值。
使用 MLE 可视化参数估计的一种方法是绘制作为假设 函数的对数似然图。图 2
的左面板显示了一个示例,其中 固定为 ;右侧面板中的示例中 和 均发生变化。阴影的横截面区域( )对应并等效于 图 2
左面板中的曲线。在右侧面板中,箭头指示圆顶的 “峰值”,即被检验值返回最大似然值的点。
图 2: 数据集 和 的单路方差分析输出
寻找具有最大似然值的参数,可以用以下符号概括:
其中 表示参数 的估计值,运算符 表示在所有可能的 值中搜索使似然最大化的参数值的任何算法。
4 似然比用于模型比较
许多总体的数量如此庞大,以至于我们感兴趣的总体特征无法作为一个整体收集,或者完全未知。因此研究人员需要一种方法来确定假设的参数是否能够代表感兴趣的总体。 在这种情况下,研究人员想知道的是: “我的预估总体参数(例如,)来自这个观测样本的似然有多大?” 研究人员可能会用不太科学的语言问:“鉴于我收集的这个样本,我对这个总体参数的假设可能是准确的吗?”
为了从数学上回答这个问题,研究人员需要根据收集到的数据集确定感兴趣参数的似然。回到科学术语,研究人员关于总体特征的假设是需要我们评估的模型。通常,会针对一个总体参数开发多个模型。例如:“总体的均值是 吗?” 与 “总体的均值是 吗?” 因此,根据观测结果,能够将这些模型结合起来以确定哪个模型更合适是很有价值的。模型比较的一种方法是计算 似然比(Likelihood ratio)。在这种情况下,似然比是在给定观测样本的情况下,一个假设模型拟合相对于另一个假设模型拟合的指数。
继续使用前面示例中观测到的 IQ 分数,假设总体均值未知。这两个假设可以从上述研究问题中产生:
H1:总体呈均值为 92 的正态分布,
H2:总体呈均值为 100 的正态分布。
使用 式 4
, H1 的似然为 ,H2 的似然为 。对于这两个假设,我们假设参数 的真实值与观测样本标准差相同,为 。如果令分子为 H1 的样本似然,分母为 H2 的样本似然,则两者之间的比率为 。
如前所述,对数似然可以简化这些计算,并得出等效的结论。此处,H1 和 H2 的对数似然分别为 和 。似然比通过以下方式获得:
对于上述似然,对数似然比可以在 R
或 Excel
中直接输入 或 获得。由于四舍五入误差,这里给出的最后一位是近似值。
似然比是模型拟合程度的指标。如上计算,使用似然或对数似然,为模型 H1 ()和模型 H2()计算的似然比为 。比率 相当于 值的 ;并且可以被解释为表明存在支持所选模型的证据。如果使用似然,则代表分子中的模型,如果使用对数似然,则代表减法中的第一个值。似然比 类似于 值的 ,因此代表了该模型更有力的证据(Glover 和 Dixon,2004 年)[16]。本例中,比率接近 ,因此非常有利于假设 H1。这一结果表明假设 的模型比模型 更适合。
相反,接近于 的似然比无法提供一种模型优于另一种模型的证据(即 的比率表明两种模型都不是更适合的)。当似然比大于 时有利于分子中的模型(或在对数似然的减法中位于第一位的模型);当似然比小于 时,它有利于分母中的模型(该模型在对数似然减法中为被减数)。在这种情况下,反转比率(或切换对数似然值的位置)将产生对替代模型的支持程度。例如,如果将上面的计算更改为:。 的似然比表示不支持 H2 比 H1 更适合(因为 的比率有利于 H1 更适合)。
5 嵌套模型的比较
如前面的示例所示,研究人员能够使用似然比确定一个模型的拟合优于竞争模型。如果一个模型是另一个模型的嵌套版本,则可以确定一个模型是否比另一个模型显著地更适合。可以使用从 分布中收集的临界值来评估每个模型样本似然计算结果的统计显著性。只有在模型嵌套且其中一个参数具有自由参数而竞争模型具有固定的相同参数时,才能进行此分析。。如下面的案例所述。
研究人员可能需要确定上面列出的 IQ 观测结果是否来自于一个常规总体,在 IQ 分数示例中,这将是参数 的正态分布。这里,参数 是先验固定的(即给定以前的研究表明 IQ 的总体均值应该在 左右)。在此示例中,替代模型是研究人员认为 已过时,并根据观测到的样本均值 假设总体均值为 。这里, 不是先验固定的,因为它来自观测结果并且 可以自由变化。因此,第一个模型是第二个模型的嵌套版本,因为两个模型都在检查相同的总体参数 ,并且在一个模型中, 是固定的,而在替代模型中, 不同于该固定值。 当被评估的模型被检查相同的参数时,这些模型之间被称为嵌套的;因此,如果检查的参数数量不同或完全探索不同参数,则模型之间不是嵌套的。
计算似然比是比较嵌套模型的常用方法,然后可以将其转化为检验统计量,即似然比检验( Likelihood Ratio Test, Lrt)
。比率的自然对数的两倍类似于分布,其自由度对应于嵌套模型中可以自由变化的参数数量。由于此示例中有一个参数可能会发生变化,因此可以从表中获得一个临界值,其中自由度等于 。在方程式中,有两种计算似然比检验的方法:
回到上面给出的智商数据,我们比较了以下两个模型:
模型 包含一个自由参数(观测到的均值),模型 包含固定参数 。除了参数 的假设值外,这两个模型是相同的。观测到的样本均值是 ,我们已经计算了两个似然值 和 ,以及似然比 。似然比 () 对数的两倍是 。将此值与 (取自 的 分布的临界值)进行比较时,很明显 更大。因此,有可能显著拒绝 而支持 , (Chernoff, 1954)[7]。要获得此显著性检验的 值,请获得具有一个自由度的 得分超过 的概率(如 示例 2
的最后一行所示)。对于这个例子,。附录中的 示例 2
给出了使用对数似然计算似然比的代码,并对单个样本中的假设均值与固定总体均值进行了显著性检验。
使用两倍似然比对数的模型比较基于渐近论证。因此,当样本量较小 () 时, 表仅提供近似临界值。当样本量向无穷大增加时,可以获得更准确的决策阈值,因为 临界值变得更精确。
还要注意 的平方根是 ,在使用原假设 H0: 计算 学生 t
检验的 统计量时会发现该值。此关系在 “最大似然与其他估计方法” 一节中进一步解释。同样,取临界值 的平方根得到 ,这是样本量为无限时 检验的临界值(也是 检验的临界值)。
6 信息准则用于模型调整
在使用嵌套模型的上一节中,模型复杂性得到了控制,因为被比较的模型除了一个自由参数外是相同的。 嵌套模型的似然可以直接比较,但非嵌套模型的似然不能直接比较,但是,在许多情况下比较具有不同参数的模型是有意义的。当要比较的两个模型没有嵌套时,没有单一的正确方法来比较其似然,因为似然的比较还将取决于模型的复杂性。
模型复杂性是模型拟合任何数据的能力。复杂性受自由参数数量的强烈影响;因此,计算自由参数是模型复杂性的一种启发式度量。随着自由参数数量的增加,模型的复杂度也会增加,拟合优度也会提高,因此,一些模型(尤其是具有多个参数的模型)几乎可以拟合任何样本。由于开发模型的目的通常是解释给定总体的特定方面或现象,因此似乎适合所有数据集的模型因为过于复杂而被认为是过拟合的。因此,过拟合的模型可能包含太多参数,以至于几乎无法解释感兴趣的结果。
为防止过拟合,应在比较似然之前对具有更多自由参数的模型进行惩罚(Hélie,2006)[22]。已经提出了几种施加这种惩罚的方法:AIC、校正的 AIC、AIC3、受约束的 AIC、BIC、DIC 和 WICvc 等(Akaike,1974 年 [1];Bozdogan,1987 年[3];Hélie,2006 年[22];Wu 等, 2013 [36])。下面我们简要讨论 AIC、校正的 AIC 和 BIC,以及它们与似然计算的关系。
(1)赤池信息准则(AIC)
模型的 Akaike 信息准则 (AIC) 基于其似然,计算公式为:
其中 是模型中自由参数的数量, 是似然,或具有给定参数集的模型对样本的拟合度度量(Akaike,1974 年 [1];Hélie,2006 年 [22])。请注意,对数似然通常为负数,并且 AIC 计算中的乘数 会将符号更改为正数。因此,产生更接近零的 AIC 值的模型是具有更好相对拟合的模型。惩罚项 使拟合远离零,与模型中自由参数的数量成比例。为简化起见,AIC 的主要概念是它施加与给定模型中自由参数的数量成比例的 “拟合惩罚”,以便在模型中检查的参数数量增加时,减少 “过拟合” 。
使用上面的 IQ 数据集,模型 和 的 AIC 值可以分别计算为: 和 。为了确定这些模型的相对似然, 被替换为式 9
中的 AIC,因此,,其中 是为被检查模型计算的最大 AIC 值 ( ), 是为被比较的模型实例计算的 AIC ( )。在本例中,因为两个模型具有相同复杂性(一个自由参数),所以惩罚抵消了,得到了与上面相同的结果,即 。
(2)校正的 AIC
AIC 指数仅对大样本有效,因为 AIC 对小样本有偏差(即,在这些情况下计算的 AIC 值被高估);因此,需要减少它,或者对小样本增加额外的惩罚。因此,对于较小的尺寸,可以使用 AIC 校正 (AICc)。 Hurvich 和 tsai (1989) 针对样本量较小 () 或自由参数数量较大 () 的情况开发了 作为 AIC 的偏差校正版本。 公式如下:
其中 是观测次数, 是自由参数的数量, 是上面计算的 值。简而言之, 包含一个额外的惩罚项,该惩罚项随着模型中参数数量的增加而增加。额外惩罚的目的是减少小样本时出现的 AIC 高估偏差。可以看出,随着样本量的增加,第二个惩罚项消失, AIC 和 收敛到相同的值。还可能注意到,当所考虑的模型具有相同数量的参数 () 时,比较使用 AIC 和 的模型会产生相同的结果。因此,在这种情况下, 不会比 AIC 提供额外的好处,但应用 不会产生不利后果,因为它会产生等效的模型评估。
(3)贝叶斯信息准则
贝叶斯信息准则 (BIC),也称为 Schwarz 准则 (Schwarz, 1978) [32],也被开发用于通过添加基于给定模型中参数数量的惩罚项,来补偿模型的复杂性,以防止过拟合。 BIC 假设模型误差是独立的、正态分布的、同方差的(即预测误差不依赖于要拟合的分数,因此在给定组内是相对相等的)。与 类似,BIC 是为适应较小的样本而开发的;不过 BIC 实施了更严格(更大)的惩罚。 BIC 计算如下:
BIC 与 AIC 非常相似,只是惩罚项基于自由参数的数量和样本大小。这种修正背后的逻辑是模型随着样本量的增加而变得不那么灵活。也就是说,随着样本量的增加,它逐渐受到数据的更多约束。当使用此方法比较两个模型时,对于给定模型,具有较低 BIC 的模型被解释为更适合或更可能正确 (Schwarz, 1978)。
Burnham 和 anderson (2004) [5] 基于多模型推断、信息论哲学和简约原则,建议使用 AIC 而排除 BIC。简要总结一下他们的建议: AIC 优于 BIC,因为 AIC 选择的模型更为简约(更通用/更简单),而 BIC 返回的模型更为复杂(包括更多自由参数)。
(3)嵌套模型与模型调整
调整(AIC、 或 BIC)允许将任何给定模型与任何其他模型进行比较。但这些调整只是针对复杂性进行的近似调整。还存在更精确的调整(参见 Grünwald,2000 年 [17];Myung,2000 年 [25]),但它们通常难以计算。相反,嵌套模型比较基于坚实的数学基础。因此, 嵌套模型相对于一般模型的统计显著性无可争议。
值得注意的是,虽然两个模型可能看起来无关,但有时可以开发一个通用模型,其中包括两个竞争模型作为特例/子模型。参见 Heathcote、Brown 和 Mewhort (2000) [21],以及 Smith 和 Minda (2002) [33],他们分别使用这种方法来研究学习曲线和分类过程。开发广义模型是有利的,因为它可以用来评估一个子模型相对于另一个子模型在模型解释数据的能力方面的重要性。
最后,必须注意一个警告。虽然计算 AIC、BIC 和似然比可以告知研究人员两个模型中哪一个最有可能或最适合,但这些指数无法提供有关独立模型整体质量的任何信息。也就是说,总是有可能出现所有被评估模型都是差模型的情况。因此,这些公式只能用于在若干待评估模型中,确定哪个模型最适合。
7 似然法的优点和局限性
如前所述,使用最大似然估计 (MLE) 估计参数并不能保证成功(Cousineau、Brown 和 Heathcote,2004 年)[11]。然而,统计学家已经确定了该方法的以下性质(参见 Rose & smith,2001) [31]。
(1)优势
似然方法的优势在于: 一致性、 正态性 和 效率。
随着样本量的增加,估计值趋向于真实的总体参数。因此,为了更准确的估计,大样本优于小样本。随着样本量增加,估计误差呈正态分布。因此,一些容易使用的检验统计数据(例如 t 检验
、方差分析
)可以被用于估计。此外,随着样本量增加,没有其他方法可以比 MLE 更有效地估计模型参数。对于小样本,已经提出了 MLE 的替代方法,但对于非常大的样本,应用更耗时的替代方法的好处尚不明显。这三个性质是相当大的优势;因此,MLE 是大多数统计检验的基础。
(2)局限性
必须注意的是,MLE 确实有两个重要的局限性:非正则分布
和 有偏估计
。
非正则分布是参数值受单个观测值约束的模型。一个例子是 Weibull 模型
,它通常用于描述心理物理学数据(例如,在 Nachmias,1981 年 [26]):该分布的位置参数必须小于最小观测值。相反,正态分布是一种正则分布,其中 和 不受任何一个观测值的约束。许多分布都是非正则的。
非正则分布可能没有最大似然,或者可能有多个最大似然。这使最大似然方法的概念无效。当然,识别非正则分布并不总是那么容易 (参见 Kiefer,2005 [24],了解在模型可以被宣布为正则之前必须满足的完整准则列表)。由于 MLE 不适用于非正则总体的分析,因此可以应用其他方法。其中一些在 第 8.3 节
进行了简要讨论。
MLE 的第二个重要限制是使用此方法获得的估计值通常有偏差。也就是说,它们包含估计的系统误差。偏差量取决于样本量,并且随着样本量趋近于无穷大而趋于零(一致性性质,见上文)。然而,对于小样本而言,估计偏差可能很大。一个突出的例子是正态总体的标准偏差。估计 的常用方法是将偏差平方和除以 而不是 。但是,当以解析方式求解 MLE 时,求解需要平方偏差之和除以 。一旦意识到 MLE 的结果在这种情况下有偏差,就找到了产生无偏估计的解决方案:将偏差平方和除以 而不是 (参见 Cousineau,2010 年 [10] 或 Hays,1973 年 [19]))。
为了更详细地说明 MLE 估计偏差,请注意在 图 1
的左面板中,最大值位于点 (在 轴上)和 (在 轴上)下方。第二个数字偏向下。通过将 乘以 (将除以 替换为除以 返回 )来校正偏差。但这种在估计标准偏差时校正偏差的方法仅适用于正态分布模型. 这种使用 的偏差校也常用于计算方差分析中的平方,或假设正态时的相关性。
估计偏差带来的缺点可能超过上述优点。因此,在评估估计时,发现并纠正 MLE 方法中的偏差量(如果有的话)是首要任务之一。不幸的是,绝大多数模型中的大多数参数都存在偏差(正态分布的参数 是一个罕见的例外)。此外,表达具体的偏差量通常是不可能的,因此对于特定模型也可能无法纠正偏差(有关 Weibull 模型的成功示例,请参见 Cousineau,2009 年 [9])。
8 最大似然与其他估计方法
8.1 与最小二乘法的比较
正态假设意味着数据是正态分布的:即数据符合正态分布,其概率函数在 式 1
中给出。正态概率密度函数基于取幂。因此,在计算单个数据的对数似然时,两个运算符都抵消了;因此得到以下更简单的公式:
对于数据集 ,似然为:
从 式 13
的第一项可以看出,这个公式是基于观测值和参数 之间的偏差平方和。用口头表达,每次计算一个平方和,这个计算就是一个假设正态分布的对数似然函数。这个概念没有逃过 Fisher 的注意:他提出了使用平方和的方差分析技术,因为平方和比似然法更容易手动计算(Fisher,1925)[14]。不过,这两种方法在数学上是等效的,并且返回相同的 统计量。
例如,考虑两个样本:
一般的模型会假设 和 抽取自两个不同的总体,这两个总体可能有不同的均值。每个总体均值的最佳估计是每个样本的观测均值,即分别为 和 。
一个受限的模型会假设两个总体相同,因此具有相同的均值。受限模型的总体均值的最佳估计值是总均值,或所有观测的平均值 (),无论它们来自 还是 。按照 Fisher,每个组观测值的精确标准差不相关,因此使用了池化(合并)的标准差( )。
和 样本关于 的对数似然为 ,而关于 的对数似然为 。似然比: 为 。这表明与嵌套模型相比,对自由模型的支持大约多三倍。似然比检验是这两个值之间比率的对数的两倍:即 。但这个量不大于 的临界值 ;因此,自由模型的拟合比嵌套模型好,但不是特别好。附录中的示例 3 提供了执行这些计算的代码。
使用 ANOVA 分析相同的数据会产生 表 2
中所示的结果。
表 2: 数据集 和 的单路方差分析输出
请注意,比率 与上面计算的模型比较指数相同。 的确切临界值为 ,略大于之前找到的近似 临界值。对于较大的样本量, 临界值向 临界值收敛。例如,,4F (1, 180) = 3.8944, 和 。只要假定正态分布,对数似然和平方和就等效。对于回归(简单或多重)以及结构化方程模型都是如此。这就是为什么这些分析通常归入通用术语:最小二乘法建模,所有这些都是根据基于似然的模型比较创建的。
虽然为了执行统计分析,数据不一定必须呈正态分布,但正态分布是唯一可以使用偏差平方和(一个更简单的公式)计算对数似然的分布。应用这些公式相对容易,这可能是这些分析在统计学早期变得如此普遍的原因。然而,现在,随着快速计算的出现,用关于分布族的任何其他假设替换正态性假设成了一个很容易的操作。附录中的示例 4 提供的代码演示了如何将正态性假设替换为 Cauchy 分布(具有较粗尾部的对称分布,允许存在极值)。
8.2 与贝叶斯推断的比较
贝叶斯推断是似然法的扩展,增加了一个补充:先验或先验概率。
为了进行贝叶斯分析,必须首先指定先验。 先验是一个表达式,给出某个参数可以取特定值的概率(例如,伦敦下雨天的概率)。收集样本后,使用似然函数能够修正先验。这种先验的 “微调” 被称为更新,并返回后验。在理想情况下,新的后验概率会在收集新样本之前变成先验概率,从而导致第二轮更新。图 3
说明了三个不同样本的一轮。在这个图中,三个先验是相同的,但是样本量分别是“微小”,“非常小” 和 “小”。结果,最大似然变得更加尖锐,导致更集中的后验。先验和后验都以分布形式表示,用于表征对参数的某些值的置信度。在先验假定参数可以采用相同概率的任何值时(这被标记为 “无先验”),并且仅在这种情况下,最可能的贝叶斯估计和最大似然估计返回相同的值。
图 3:(顶行)先验示例,用参数分布表示(此处为 和 ); (中间行)非常小、小或中等样本量的似然函数; (底行)后验,通过将以上两条线相乘得到。摘自 Cousineau 和 Hélie,(2013)。
由于两个原因,贝叶斯推断很难应用于实际数据。
-
首先,关于某些参数的先验信念很难表达,尤其是当这些参数与人类的主观构造相关时。例如,一个人如何制定影响幸福感的参数的信念程度?此外,在实证实践中,一项研究的后验概率很少会成为另一项研究的新先验概率,因为每个研究人员都更愿意陈述自己的先验概率。
-
其次,似然必须由 “归一化” 项(见下方注释)加权,该项根据所有样本对当前样本进行加权。不幸的是,量化归一化项通常不行,因为这涉及求解多个参数先验概率的积分。可以使用基于 MCMC 的技术(Hadfield,2012)[18] 进行数值近似;但其计算可能非常耗时,并且可能会产生不同的结果。妥协的方式是忽略归一化项。如果我们只需要找到最大值对应的参数时(即以单个估计的形式获得后验,而不是估计完整分布),就可以忽略归一化项。已经提出了诸如此类的方法:
使用先验的最大似然估计(Maximum likelihood estimation with A Priori,MAP)
(Birnbaum,1969 年)[2] 和先验最大似然估计(Prior-informed Maximum Likelihood Estimation, piMLE)
(Cousineau & Hélie,2013 年)[12]。
8.3 似然的替代方法
如上所述,piMLE
可用于扩展使用先验的似然估计。 MLE 的其他替代方法还有:最大间距积估计
(Maximum Product of spacing ,MPs), 最大分位数积估计
(Maximum Product of Quantiles (MPQ)、 加权最大似然估计
(Weighted Maximum Likelihood Estimation ,wMLE) 等。
-
Cheng 和 amin (1983) [6] 开发的最大间距积方法是专门为非正则模型创建的。在这种方法中,用于计算概率的不是单个数据的概率,而是两个连续数据点之间的间距。这种方法在任何情况下都是可靠的,并且在 MLE 不适用时可以成功使用。最大间距积方法倾向于返回较少偏差的估计。
-
由 Brown 和 Heathcote(2003 年[4];另见 Heathcote、Brown 和 Cousineau,2004 年[20])创建的最大分位数积方法,基于数据的分位数实现估计。因为单个数据被数据的分位数代替,所以这种方法对异常值不敏感。因此,它是 MLE 的强大等效项(Daszykowksi、Kaczmarek、va-n der Heyden 和 walczak,2007 年 [13])。然而,最大分位数积方法对非正则分布很敏感。
-
由 Cousineau (2009) [9]创建的加权最大似然估计法并不是真正基于 MLE 的方法,尽管它确实返回了伪最大似然估计量。这些估计量与 MLE 相同,只是为了消除偏差而引入了权重。 最大似然估计方法适用于任何分布类型(正则或非正则),能够返回无偏估计量,并且已由 Nagatsuka、Kamakura 和 Balakrishnan (2013)[27] 以及 Ng、Luo 和 duan (2011) [30] 针对各种模型进行了检验。
9 结论
在社会科学中,研究人员经常面临对未知总体参数(如均值)应用统计检验的挑战。由于从整个总体中收集数据不切实际或不可能,研究人员可以假定总体均值等于某个指定值,然后在给定观测样本的情况下,可以确定该值准确的可能性有多大。一种可用于估计假设总体均值的方法是使用似然函数计算样本的似然。似然函数的另一个实际应用是用于模型比较,以确定两个或多个嵌套假设的相对似然,从而根据观测到的数据确定其中哪一个最适合。
本文讨论了似然与 学生 t 检验
和 Fisher 方差分析
之间的关系,并在示例中给出了证明。似然也可用于估计回归斜率。多元回归可以使用最大似然估计,并因此开发出了最小二乘法的公式。在分层线性建模
(Hierarchical Linear Modeling,HLM;Woltman, Feldstein, MacKay, & rocchi, 2012 [35]) 和 结构方程建模
(Structural Equation Modeling,SEM;Weston & Gore, 2006) [34] 中,不可能使用最小二乘建模公式;因此,这些分析都明确采用最大似然估计。
许多现代检验统计都假设数据的正态性和方差同质性(homoscedasticity)。然而,真实世界的行为数据通常是非正态的,并且组内方差永远不会完全均匀。收集到的样本通常含有丰富的离群值,或存在常态性问题的数据簇,研究人员需要决定丢弃有效的离群值以执行统计检验是否合理。心理数据本身固有的挑战性特征可能会产生灰色地带或需要复杂的数据转换;因此,某些数据可能难以进行统计分析。而似然可以用来减轻这些挑战。
似然在模型构建和简化过于复杂的模型过程中也非常有用。一旦确定了给定模型的最佳拟合参数,就可以将它们一一设置为零;如果生成的模型(在拟合方面)等同于最佳拟合模型,则意味着所述参数对于捕捉数据中的趋势不是必需的。然后可以相应地简化模型;这种方法在逐步回归中是自动的 (Cohen & Cohen, 1975) [8]。当研究人员不需要执行复杂数据转换或就是否包含或丢弃有效的异常值做出艰难决定时,他们能够更有效地分析真实世界的数据,其中基本总体没有最好地由正态分布表示.结果,可以生成更高质量、更好拟合的模型。
参考文献
- [1] Akaike, H. (1974). a new look at the statistical model identification. IEEE Transactions on Automatic Control,19 (6), 716–723. doi: 10.1109/taC.1974.1100705
- [2] Birnbaum, a. (1969). statistical theory for logistic mental test models with a prior distribution of ability. Journal of Mathematical Psychology, 6, 258-276. doi: 10.1016/0022-2496(69)90005-4
- [3] Bozdogan, H. (1987). Model selection and akaike’s information criterion (AIC): the general theory and its analytical extensions. Psychometrika, 52(3), 345-370. doi: 10.1007/BF02294361
- [4] Brown, s., & Heathcote, a. (2003). QMLE: Fast, robust and efficient estimation of di-s tribution functions based on quantiles. Behavior Research Methods, instruments, & Computers, 35, 485-492. doi: 10.3758/BF03195527
- [5] Burnham, K., & anderson, d. r. (2004). Multimodel interference, understanding AIC and BIC in model selection. sociological Methods & Research, 33(2), 261–304. doi: 10.1177/0049124104268644
- [6] Cheng, r. C. H., & amin, n. a. K. (1983). Estimating parameters in continuous univariate distributions with a shifted origin. Journal of the Royal statistical society B, 45, 394–403. doi: 10.2307/2345411
- [7] Chernoff, H. (1954). on the distribution of the likelihood ratio. The Annals of Math-e matical statistics,25 (3). 573-578. doi: 10.1214/aoms/1177728725
- [8] Cohen, J., & Cohen, P. (1975). Applied Multiple Regression/correlation analysis for the behavioral sciences. Hillsdale, nJ: Lawrence Erlbaum associates.
- [9] Cousineau, d. (2009). nearly unbiased estimates of the three-parameter weibull distri-b ution with greater efficiency than the iterative likelihood method. British Journal of Mathematical and statistical Psychology, 62, 167–191. doi: 10.1348/000711007 X270843
- [10] Cousineau, d. (2010). Panorama des statistiques pour psychologues. Bruxelles, Belgique: Les éditions de Boeck Université.
- [11] Cousineau, d., Brown, s., & Heathcote, a. (2004). Fitting distributions using maximum likelihood: Methods and packages. Behavior Research Methods, instruments, & Computers, 36, 742–756. doi: 10.3758/BF03206555
- [12] Cousineau, d., & Hélie, s. (2013). Improving maximum likelihood estimation using prior probabilities: application to the 3-parameter weibull distribution. Tutorials in Quantitative Methods for Psychology, 9, 61–71.
- [13] Daszykowksi, M., Kaczmarek, K., vander Heyden, y., & walczak, B. (2007). robust st-a tistics in concept analysis - a review: Basic concepts. Chemometrics and intelligent Laboratory systems, 85, 203–219. doi: 10.1016/j.chemolab.2006.06.016
- [14] Fisher, r. a. (1925). statistical Methods for Research Workers. Edinburgh, scotland: oliver and Boyd.
- [15] Forbes, C., Evans, M., Hastings, n., & Peacock, B. (2010). statistical Distributions. new york, ny: wiley.
- [16] Glover, s., & dixon, P. (2004). Likelihood ratios: a simple and flexible statistic for emprical psychologists. Psychonomic Bulletin & Review, 11, 791–806. doi: 10.3758/ BF03196706
- [17] Grünwald, P. (2000). Model selection based on minimum description length. Journal of Mathematical Psychology, 44, 133–152. doi: 10.1006/jmps.1999.1280
- [18] Hadfield, J. d. (2012). MasterBayes: Maximum Likelihood and Markov chain Monte Carlo methods for pedigree reconstruction, analysis and simulation. retrieved from: http://cran.r-project.org/web/packages/.
- [19] Hays, w. L. (1973). statistics for the social sciences. new york, ny: Holt, rinehart and winston, Inc.
- [20] Heathcote, a., Brown, s., & Cousineau, d. (2004). QMPE: Estimating lognormal, wald and weibull rt distributions with a parameter dependent lower bound. Behavior Research Methods, instruments, & Computers, 36, 277–290. doi: 10.3758/BF0319 5574
- [21] Heathcote, a., Brown, s., & Mewhort, d. J. K. (2000). the power law repealed: the case for an exponential law of practice. Psychonomic Bulletin & Review, 7, 185–207. doi: 10.3758/BF03212979
- [22] Hélie, s. (2006). an introduction to model selections: tools and algorithms. Tutorials in Quantitative Methods for Psychology, 2, 1–10.
- [23] Hurvich, C. M., & tsai, C. L. (1989). regression and time series model selection in small samples. Biometrika,76 (2), 297–307. doi: 10.2307/2336663
- [24] Kiefer, n. M. (2005). Maximum likelihood estimation (MLE), retrieved from: http://instruct1.cit.cornell.edu/courses/econ620/reviewm5.pdf
- [25] Myung, I. J. (2000). the importance of complexity in model selection. Journal of Mat-h ematical Psychology, 44, 190–204. doi: 10.1006/jmps.1999.1283
- [26] Nachmias, J. (1981). on the psychometric function for contrast detection. Vision Research, 21, 215–223. doi: 10.1016/0042-6989(81)90115-2
- [27] Nagatsuka, H., Kamakura, t., & Balakrishnan, n. (2013). a consistent method of estimation for the three-parameter weibull distribution. Computational statistics and Data Analysis, 58, 210–226. doi: 10.1016/j.csda.2012.09.005
- [28] Nelder, J. a., & Mead, r. (1965). a simplex method for function minimization. The Computer Journal, 7, 308–313. doi: 10.1080/00401706.1975.10489269
- [29] Neyman, J., & Pearson, E. s. (1933). on the problem of the most efficient tests of stati-s tical hypotheses. Philisophical Transactions of the Royal society of London. series A, Containing Papers of a Mathematical of Physical Character, 231, 289–337. doi: 10. 1098/rsta.1933.0009
- [30] Ng, H. K. t., Luo, L., & duan, F. (2011). Parameter estimation of three-parameter weibull distribution based on progressively type-II censored samples. Journal of st-a tistical Computation and simulation, 10, 1-18. doi: 10.1080/00949655.2011. 591797
- [31] Rose, C., & smith, M. d. (2001). Mathematical statistics with Mathematica. new york, ny: springer-verlag.
- [32] Schwarz, G. (1978). Estimating the dimension of a model. The Annals of statistics, 6(2), 461–464. doi: 10.1214/aos/1176344136
- [33] Smith, J. d., & Minda, J. P. (2002). distinguishing prototype-based and exemplar-based processes in dot-pattern category learning. Journal of Experimental Psychology: Learning, Memory and Cognition, 28, 800–811. doi: 10.1037/0278-7393.28.4.800
- [34] Weston, r., & Gore, P. a. Jr. (2006). a brief guide to structural equation modeling, The Counseiling Psychologist, 34, 719–751. doi: 10.1177/0011000006286345
- [35] Woltman, H., Feldstain, a., MacKay, J. C., & rocchi, M. (2012) an introduction to hie-r archical linear modeling, Tutorials in Quantitative Methods for Psychology, 8, 52–69.
- [36] Wu, t.-J., Chen, P., & yan, y. (2013). the weighted average information criterion for multivariate regression model selection. signal Processing, 93, 49–55. doi: 10.1016/ s0167-7152(98)00003-0