【摘要】“概率” 和 “似然” 这两个术语,在各种文献中使用非常混乱,大多数人可能会觉得它们就是一回事,很难发现/理解它们之间的区别。本文旨在理清 “概率” 和 “似然” 之间的区别,以便更好地理解贝叶斯方法。

“概率” 和 “似然” 之间的区别!

最重要的区别:概率依附于可能的结果;而似然依附于假设。

可能的结果是相互排斥且穷举的。假设我们要求受试者预测 $10$ 次掷硬币的每一次结果,则只有 $11$ 个可能的结果( $0$ 到 $10$ 个可能正确的预测),而实际结果将始终是可能的结果中的一个且只有一个。因此,附加到可能结果的概率总和必须为 $1$。

假设与结果不同,既不相互排斥,也不穷举。假设我们测试的对象正确地预测了 $10$ 个结果中的 $7$ 个。我也许会假设受试者只是在猜测,但你也许会假设受试者会以略高于机会率的方式正确预测结果。这些假设虽然不同,但它们之间并不相互排斥。因此,你允许你的假设中包括我的假设。在技术术语中表达为:我的假设嵌套在你的假设中。当然,其他人也许会假设测试对象具有超出常人的预测能力,而观察到的结果低估了该测试对象下一次预测正确的概率。还有些人可以完全假设其他事情。人们能够接受的假设是没有限制的,因此无法穷举。

被附加到似然上的假设集合会受到我们想像能力的限制。不过在实践中,我们很少能确信已经想象到了所有可能的假设,我们真正关心的是:估计出实验结果 “对不同假设的相对可能性” 的影响程度。我们通常不会考虑完整的假设集合,因为被附加在似然上的假设本身并没有任何意义;只有相对可能性(即两个似然之间的比率)才有意义。

当人们在通用的编程语言中使用概率分布函数时,概率和似然之间的区别就变得很明显了。在上例中,我们想要的函数是二项分布函数,在常见的编程语言中通常有三个输入参数:成功次数、尝试次数和成功概率。

当使用该函数来计算概率时,假设后两个参数( 尝试次数成功概率)已给定,我们通过遍历第一个参数(即调整可能的 成功次数),找到与 成功次数 相关的概率(图 1 的顶部)。无论给定参数值如何,此概率总和为 $1$。

在计算似然函数时,假设 成功次数(在示例中为 $7$)和 尝试次数($10$)已给定,我们尝试不同 成功概率 值(即现在改变第三个参数,不同的 成功概率 代表了不同假设),来判断哪种假设更符合实际数据,最终获得一个二项似然函数(图 1 的底部)。这是一个反向运行的函数,因此有时将似然称为反向概率。

图 1 的下图很容易让人感觉到是对假设的穷举,但事实上并没有。因为:
(1)其他人可能作出非二项分布的假设,这些可能的假设是无法穷举的,只受限于人类的想像能力。
(2)即便限制在二项分布这个假设空间中,参数 成功概率 的值也是不可穷举的,因为它是一个连续量,无法穷举。
(3)似然函数的积分远小于 $1$,并不等于 $1$ 。
(4)在实践中,似然值只有在比较(即相对似然)时才有意义,孤立的绝对似然值意义不大。

https://www.psychologicalscience.org/redesign/wp-content/uploads/2015/08/Presidential_Column_FIGURE-200x300.jpg

图 1. 二项概率分布函数,在 $p = 0.5$ 时尝试 $10$ 次(上图),二项似然函数,在 $10$ 次尝试中获得 $7$ 次成功(下图)。两个图都是使用二项分布函数计算的。在上面的图中,我改变了可能的结果;在下部,我改变了参数 p 的值。概率分布函数是离散的,因为只有 $11$ 个可能的实验结果(因此是条形图)。相比之下,似然函数是连续的,因为概率参数 p 可以取 $0$ 到 $1$ 之间的任何无限值。上图中的概率总和为 $1$,而下图中连续似然函数的积分远远小于 $1$;也就是说,似然总和不等于 $1$,因为假设并没有得到穷举。

二项似然函数传达的信息非常直观:鉴于我们在 $10$ 次尝试中观察到了 $7$ 次成功,我们从中得出的二项式分布的概率参数(来自该主题的成功预测的分布)不太可能是 $0.1$;它更有可能是 $0.7$,但 $0.5$ 的值绝非不可能。 $p = 0.7$ 时的可能性(即 $0.27$)与 $p = 0.5$ 时的可能性(即 $0.12$)的比率仅为 $2.28$。换句话说,鉴于这些实验结果($10$ 次尝试 $7$ 次成功),受试者长期成功率为 $0.7$ 的假设仅是受试者长期成功率为 $0.5$ 的假设的两倍多一点。

总之,似然函数是贝叶斯基础。要理解似然,您必须清楚概率和似然之间的区别:

概率依附于结果;似然依附于假设。在数据分析中,“假设” 通常会是某个分布的均值参数的一个可能值或一组可能值,如上例所示。

概率所依附的结果是互斥且穷举的;似然所依附的假设通常两者都不是;而且某个假设的范围可能包括另一个假设中的点。

为了在给定实验结果的情况下确定两个假设中的哪一个更有可能,我们应当考虑它们似然的比值,即相对似然比,也被称为 “贝叶斯因子”。