{ "cells": [ { "cell_type": "markdown", "id": "b94d8251", "metadata": {}, "source": [ "# 第 6 章 混合模型\n", "\n", " \n", "\n", "混合已有元素是创造新东西的一种方式。在统计学中,混合模型是一种常用的建模方法。这些模型通过混合简单分布来获得复杂分布。例如,可以组合两个高斯分布来描述双峰分布,或者组合多个高斯分布来描述任意分布。虽然使用高斯分布很常见,但原则上可以混合任何想要的分布族。\n", "\n", "混合模型可以用于很多不同的目的,例如可直接用于组分建模,也可以作为处理复杂分布(特别是不能用更简单分布描述的复杂分布)的有用技巧。\n", "\n", "本章将学习以下内容:\n", "\n", "- `有限混合模型`\n", "- `无限混合模型`\n", "- `连续混合模型`\n", "\n", "---\n", "\n", "## 6.1 混合模型\n", "\n", "当总体是不同的组分的组合时,混合模型自然会出现。一个典型案例是给定成年人口的身高分布,这可以被描述为女性和男性两个亚群的混合。手写数字图像像素值的分布是一个更复杂的例子,在该问题范畴内,预期存在 10 个亚群非常合理,至少在 10 进制系统中如此!\n", "如果我们已经知道了每个观测数据属于哪个组分,那么单独为每个组分建模是一个好主意。但当无法获得组分数量信息时,构建一个能够同时对多组分建模的新模型就派上了用场,这种新模型就是混合模型。\n", "\n", "```{tip}\n", "许多数据集不能用基础的概率分布来准确描述,但可以被描述为若干个基础概率分布的混合。这种假设数据来自混合分布的模型称为混合模型。\n", "```\n", "\n", "当建立一个混合模型时,并不一定要相信我们在数据中描述的是真实的子种群。混合模型作为一个统计技巧,可以为我们的工具箱增加灵活性。以高斯分布为例,可以用其作为许多单峰分布和对称分布的近似。但当存在多峰或不对称分布时该怎么办呢?能继续使用高斯分布来近似吗?答案是肯定的:如果使用`高斯混合模型(Guassian Mixture Model, GMM)`的话可以。\n", "\n", "在高斯混合模型中,每个组分都是具有各自均值和标准差的高斯分布。通过组合多个高斯分布,可以为模型增加灵活性,适应更复杂的数据分布。**事实上,可以通过适当的高斯组合来近似任何我们想要的分布。** 所需高斯分布的确切数量取决于近似的准确性要求。事实上,本书许多章节中都在运用混合高斯分布的思想。例如:核密度估计( `KDE` )技巧是混合高斯思想的非贝叶斯(和非参数)实现,它假设所有数据点均来自于不同的高斯组分,\n", "这些高斯组分的方差相等,而数据点正好位于高斯的峰值处,然后对所有单独的高斯组分进行求和,以近似数据的完整分布。\n", "\n", "> 提示:核密度估计( KDE )假设每个数据点对应一个高斯组分,因此可视为一个具有 $N$ 个高斯组分的混合模型,$N$ 为数据点的数量。\n", "\n", "下图展示了一个实际示例,说明了如何混合八个高斯分布来表达一个复杂分布,就像一条蟒蛇在消化一头大象。图中所有高斯都有相同方差,并且以橙色圆点为中心,这些圆点表示来自总体的样本点。如果仔细看图,你会注意到,临近数据点对应的高斯基本是一个叠加在另一个之上:\n", "\n", "