生成模型概览
〖摘要〗生成模型(Generative Model)是概率统计和机器学习中的一类重要模型,泛指一系列用于随机生成可观测数据的模型。生成模型应用十分广泛,可以用于对不同类型的数据建模,如图像、文本、声音等。如果假设上述某类型的数据对象都服从一个未知分布,则生成模型通常希望通过一些观测样本来学习(估计)该分布,并能够利用该分布随机地生成未观测过的新样本。生成模型有很多种,本文是此类模型的一个简单概览,其中大部分内容来自 Murphy 的《Machine Learning: Advanced Topics》第 20 章。
〖参考〗 J. M. Tomczak, Deep Generative Modeling. ch.1 / Murphy, 《Machine Learning: Advanced Topics》ch. 20 / Deep Generative Modelling: A Comparative Review of VAEs, GANs, Normalizing Flows, Energy-Based and Autoregressive Models / An Introduction to Deep Generative Modeling
〖模型导引〗
0️⃣ 概率图生成模型
1️⃣ 受限玻尔兹曼机
2️⃣ 变分自编码器
3️⃣ 自回归模型
4️⃣ 归一化流
5️⃣ 基于能量的模型
6️⃣ 生成式对抗网络
7️⃣ 扩散模型
1 概述
生成模型 旨在模拟数据在现实世界中的生成方式,从数学上表述,就是学习一个概率分布 $p(\mathbf{x})$,其中 $\mathbf{x} \in \mathcal{X}$。例如,通过大量无监督图像数据集学得数据分布后,可以随机生成一张图像。 除了上述无条件的生成模型外,在某些情况下,也可能以输入(或协变量) $\boldsymbol{c} \in \mathcal{C}$ 为条件,产生形式为 $p(\mathbf{x}|\boldsymbol{c})$ 的 有条件生成模型。例如,通过大量图像与标引文本数据集学得数据分布后,根据一段文字描述生成一幅图像。
生成建模具有吸引力的原因有很多:
首先,我们可以在生成建模过程中表达物理规律和约束,而忽略那些不必关心的细节,或将其视为噪声。
其次,生成模型通常非常直观、可解释,并且根据观测数据可以对模型做出检验,帮助我们接受或拒绝所作出的假设。
再次,生成模型天然具备表达因果关系的能力,而从统计学意义上来说,因果关系比相关关系更能泛化到新情况。例如,一旦我们了解了地震的生成过程,就可以在地震多发地使用该模型。
生成模型的复杂之处在于:
学习变量 $\mathbf{x}$ 的分布本身构成了无监督学习的一个大邻域。不过这也会带来额外的好处,那就是如果能够得到足够精确的 $p(\mathbf{x})$, 则可以通过对其采样,生成 $\mathbf{x}$ 的新样本 $\boldsymbol{x’}$,而这正是生成模型名字的由来。
在学习 $p(\mathbf{x})$ 时需要注意的是:$p(\mathbf{x})$ 自身可能也存在特殊性,需要一套学习方法。例如:
- 当 $\mathbf{x}$ 呈单峰的多元高斯分布性状时,可以用平均场来近似
- 当 $\mathbf{x}$ 呈现多峰的多元高斯分布性状时,可以用多个标准分布的混合来近似,此时可能需要引入离散型隐变量 $c$ 等等
本文所阐述的生成任务,主要指对 $p(\mathbf{x})$ 的学习和应用;如果没有特殊声明,本文中所指生成模型均指无条件生成模型 $p(\mathbf{x})$,但相关结论完全可以应用在条件生成模型 $p(\mathbf{x}|\boldsymbol{c})$ 之上。
根据上述分析,也可以知道生成模型的两个最关键的用途了:
- 密度估计: 为了给具体实例 $\boldsymbol{x}$ 作出更为可信的预测 $p(\boldsymbol{x},y)$,计算该实例的密度估值 $p(\boldsymbol{x})$;
- 生成数据: 利用一些方法(如采样算法等),从 $p(\mathbf{x})$ 中获得新样本 $\boldsymbol{x’}$
当然生成模型还有很多其他用途,详情见 第 3 节
。
2 生成模型的类型
2.1 类型划分
在顶层上,我们可以将生成模型区分为『深度生成模型(DGM)』和『经典概率图模型(PGM)』。
- 深度生成模型(DGM):使用深度神经网络来学习从单个隐向量 $\mathbf{z}$ 到可观测数据 $\mathbf{x}$ 的复杂非线性映射。这部分包括近年十分火热的 变分自编码器、生成对抗网络、能量模型、归一化流、扩散模型等
- 概率图模型(PGM) :使用简单的(通常是线性的)关系来学习一组相互关联的隐变量 $\mathbf{z}_1, \ldots, \mathbf{z}_L$ 到可观测变量 $\mathbf{x}_1, \ldots , \mathbf{x}_D$ 的映射。这部份包含高斯混合模型、隐马尔可夫模型、条件随机场等非常有名的传统模型。
当然,两者之间存在许多的混合体。例如,PGM 可以使用神经网络,而 DGM 可以使用结构化状态空间。我们在 贝叶斯方法 的 概率图模型 部分一般性地讨论概率图生成模型,而 在本部分主要关注深度生成模型。
2.2 主要深度生成模型及其特征
上表中, $D$ 代表可观测变量 $\mathbf{x}$ 的维度,$L$ 代表隐变量 $\mathbf{z}$ 的维度(如果存在的话,通常假设 $L \ll D$,尽管过完备表示也可能存在 $L \gg D$ 的情况)。缩写:Approx = 近似,AR = 自回归,EBM = 基于能量的模型,GAN = 生成对抗网络,MLE = 最大似然估计,MLE-A = 最大似然估计(基于近似),MLE-LB = 最大似然估计(基于变分下界),NA = 不可用,PGM = 概率图模型,PGM-D = 有向概率图模型,PGM-U = 无向概率图模型,VAE = 变分自编码器。
目前,深度生成模型的主要类型是: **变分自编码器 (VAE)、自回归 (AR) 模型、归一化流、扩散模型、基于能量的模型 (EBM) 和生成对抗网络 (GAN)**。我们可以根据以下标准对这些模型进行区分(参见 表 1
的汇总):
- 密度计算能力:该模型的密度估计所采用的方法(精确或近似)和效率(快或慢)
- 对于隐式模型(如 GAN),通常没有明确定义的 $p(\mathbf{x})$
- 对于 VAE 模型,只能计算 $p(\mathbf{x})$ 的下限
- 对于 EBM、UPGM,只能计算 $p(\mathbf{x})$ 的近似值
- 样本生成效率:该模型的样本生成效率(快或慢)
- 有向 PGM、VAE 和 GAN 都支持快速采样。
- 无向 PGM、EBM、AR、扩散模型和流模型的采样速度很慢。
- 训练方法:该模型训练采用的目标函数、是否有显式似然?
- 对于某些模型(如 AR、流和有向 PGM),可以执行精确最大似然估计 (MLE),由于目标通常是非凸的,所以只能达到局部最优。
- 在 VAE 的情况下,最大化似然的下界;
- 在 EBM 和 UGM 的情况下,最大化似然的近似值。
- 对于 GAN,必须使用 min-max 训练,这可能不稳定,并且没有明确的目标函数来监控。
- 隐变量情况:该模型中是否存在隐变量,隐变量的维度有什么特点?
- AR 模型不使用隐变量;
- 流模型和扩散模型使用隐变量,但没有压缩。
- 概率图模型(包括 EBM )可能使用也可能不使用隐变量。
- 神经网络架构:该模型采用何种架构,此特征没有统一归类法?
- 对于流,仅限于使用可逆神经网络,其中每一层都有一个可处理的雅可比行列式。
- 对于 EBM,可以使用我们喜欢的任何模型。
- 其他模型有不同的限制。
2.3 各深度生成模型的优缺点
下表从优略势方面给出了简洁的总结:
2.4 各深度生成模型的架构特征
下图从顶层抽象,给出了几种深度生成模型的结构特征。
注: 图中 $\boldsymbol{x}$ 是可观测数据,$\boldsymbol{z}$ 是隐编码,$\boldsymbol{x}^\prime$ 是来自模型的一个新样本。 AR 模型没有隐编码 $\boldsymbol{z}$。对于扩散模型和流模型,$\boldsymbol{z}$ 的大小与 $\boldsymbol{x}$ 相同。对于 AR 模型,$\boldsymbol{x}^d$ 指 $\boldsymbol{x}$ 的第 $d$ 个样本点。 $\mathrm{R}$ 代表实数值输出,$0/1$ 代表二进制输出。
3 生成模型的用途
3.1 生成数据
生成模型的主要目标之一是生成(创建)新的数据样本。例如,如果能够将模型 $p(\mathbf{x})$ 拟合到人脸图像的数据集,则我们可以从 $p(\mathbf{x})$ 中随机采样,获得新的人脸,如图 2 所示。
类似的方法可以用于创建文本、音频等样本。当这种技术被滥用来制作虚假内容时,它们被称为 深度伪造( Deep Fakes)。有关该主题的评论,请参见 Ngu+19。
为了控制生成的内容,使用形式为 $p(\mathbf{x}|\boldsymbol{c})$ 的 条件生成模型 非常有用。以下是一些示例:
- $\boldsymbol{c}$ = 文本提示,$\mathbf{x}$ = 图像。这是一个文本到图像的模型( 示例见图 3 和图 8 )。
- $\boldsymbol{c}$ = 图像,$\mathbf{x}$ = 文本。这是一个图像到文本的模型,对图像字幕很有用。
- $\boldsymbol{c}$ = 图像,$\mathbf{x}$ = 图像。这是一个图像到图像的模型(示例见图 4 )。
- $\boldsymbol{c}$ = 声音序列,$\mathbf{x}$ = 单词序列。这是一个语音到文本的模型,对自动语音识别 (ASR) 很有用。
请注意,从符号表示上,有时也会采用 $\mathbf{x}$ 表示输入,用 $\mathbf{y}$ 表示输出。此时模型具有我们非常熟悉的形式 $p(\mathbf{y}|\mathbf{x})$ 。在 $\mathbf{y}$ 表示低维量的特殊情况下,例如整数类标签,$\mathrm{y} \in {1, . . . , C}$,我们将得到一个预测(判别)模型。
判别模型和条件生成模型的主要区别在于:
- 在判别模型中,假设仅有一个正确输出
- 在条件生成模型中,假设可能存在多个正确输出。
正是因为生成模型的这种假设,使得对生成模型的能力评估更加困难。
3.2 估计密度
密度估计被广泛用于计算某个被观测到的数据向量的概率,即计算某个实例的 $p(\boldsymbol{x})$ 值。这对于异常值检测、数据压缩、生成式分类器、模型比较等针对特定实例的应用场景非常有用。
在低维度时,解决此问题的一种简单方法是使用核密度估计( KDE ),其形式为:
$$
p(\mathbf{x} \mid \mathcal{D}) = \frac{1}{N}\sum\limits^{N}_{n=1} \mathcal{K}(\mathbf{x}-\mathbf{x}_n)
$$
这里 $\mathcal{D} = { x_1, \ldots , x_N }$ 是数据,$\mathcal{K}h$ 是带宽为 $h$ 的密度核,它是一个函数 $\mathcal{K} : \mathbb{R} \rightarrow \mathbb{R}+$ ,满足 $\int \mathcal{K}(x)dx = 1$ 和 $\int x \mathcal{K}(x)dx = 0$ 。 图 5
中给出密度估计的一维示例,在顶行中,使用了均匀核,在底部行中,使用了高斯核。
在高维度时,KDE 会面临维度灾难问题,此时需要使用某些参数化的密度模型 $p_{\boldsymbol{\theta}}(\mathbf{x})$ 来对密度做近似。
上图中,随机变量用 $x$ 表示。顶行:均匀核。底行:高斯核。左栏:带宽参数 $h = 1$。右栏:带宽参数 $h = 2$。由 parzen_window_demo.ipynb 生成。
3.3 数据填充
填充任务是指 “插补” 数据向量或矩阵中的缺失值。例如,假设 $\mathbf{X}$ 是一个 $N × D$ 的数据矩阵(想象一个电子表格),其中一些条目( 表示为 $\mathbf{X}_m$ )可能会缺失,而其余的条目( 表示为 $\mathbf{X}_o$ )则能够被观测到。
填充缺失数据的一种简单方法是使用所有特征的平均值 $\mathbb{E} [x_d]$;这被称为平均值填充,如 图 6
所示。但是,这种方式忽略了每行中变量之间的依赖关系,并且不返回任何不确定性度量。
我们可以通过将生成模型拟合到可观测数据 $p(\mathbf{X}_o)$,然后从 $p(\mathbf{X}_m \mid \mathbf{X}_o)$ 中抽取样本来泛化这个问题,这被称为 多样本填充(multiple imputation)。
生成模型可用于填充更复杂的数据类型,例如在图像中修复被遮挡的像素(见 图 7
)。
3.4 发现结构
某些类型的生成模型具有隐变量 $\mathbf{z}$,它们被假定为生成可观测数据 $\mathbf{x}$ 的 “原因”。在这种场景中,可以使用贝叶斯规则实现模型反转,以推断隐变量的后验分布 $p(\mathbf{z}|\mathbf{x}) ∝ p(\mathbf{z})p(\mathbf{x}|\mathbf{z})$,这对于发现数据中隐藏的低维模式很有用。
例如,假设我们扰乱细胞中的各种蛋白质,并使用称为流式细胞术的技术测量产生的磷酸化状态,如 [Sac+05]。图 8(a) 显示了此类数据集的一个示例。每行代表一个数据样本 $\mathbf{x}_n \sim p(·|\boldsymbol{a}n, \mathbf{z})$,其中 $\mathbf{x} \in \mathbb{R}^{11}$ 是输出向量(磷酸化),$\boldsymbol{a} \in {0, 1}^6$ 是输入动作向量(扰动),$\mathbf{z}$ 是未知的蜂窝信号网络结构。我们可以使用概率图模型的结构学习技术来推断图结构 $p(\mathbf{z}|\mathcal{D})$。特别是,我们可以使用[EM07]中描述的动态规划方法得到如图 7(b)所示的结果。在这里,我们绘制了中值图,其中包括 $p(\mathbf{z}{ij} = 1|\mathcal{D}) > 0.5$ 的所有边。 (有关此问题的更新方法,请参见例如 [Bro+20b]。)
上图中, (a) 由 $5400$ 个数据点(行)组成的设计矩阵,测量 $11$ 种蛋白质(列)在不同实验条件下的状态(使用流式细胞术)。数据已离散化为 $3$ 个状态:低(黑色)、中(灰色)和高(白色)。使用激活或抑制化学物质明确控制一些蛋白质。 ( b )表示各种蛋白质(蓝色圆圈)和各种实验干预(粉红色椭圆)之间的依赖关系的有向图形模型,这是从数据中推断出来的。我们绘制 $p(G_{ij} = 1 \mid \mathcal{D}) > 0.5$ 的所有边。虚线边被认为存在于自然界中,但算法并未发现($1$ 个假阴性)。实线边是真正的阳性。浅色边代表了干预的效果。来自 [EM07] 的图 6d。
3.5 隐空间插值
隐变量模型最有趣的能力之一是:能够在隐空间中的已有数据点之间,通过插值来生成具有某些所需属性的样本。
让 $\boldsymbol{x}_1$ 和 $\boldsymbol{x}_2$ 代表两个输入(例如图像),让 $\boldsymbol{z}_1 = e(\boldsymbol{x}_1)$ 和 $\boldsymbol{z}_2 = e(\boldsymbol{x}_2)$ 代表它们在隐空间中的编码。我们可以将 $\boldsymbol{z}_1$ 和 $\boldsymbol{z}_2$ 视为在隐空间中的两个 “锚点” ,现在可以通过计算 $\boldsymbol{z} = λ\boldsymbol{z}_1 + (1 − λ) \boldsymbol{z}_2$ 生成在这些锚点之间插值的新图像,其中 $0 ≤ λ ≤ 1$,然后通过计算 $\boldsymbol{x}^\prime = d(\boldsymbol{z})$ 进行解码,其中 $d(\cdot)$ 代表解码器。
上述过程被称为隐空间插值,将生成能够结合 $\boldsymbol{x}_1$ 和 $\boldsymbol{x}_2$ 语义特征的数据。
(注:此处采用线性插值的理由是学习的流形通常具有近似为零的曲率,如 [SKTF18] 所示。然而,有时使用非线性插值效果会更好 [Whi16; MB21; Fad+20]。)
我们可以在 图 9
中看到此过程的一个示例,其中使用了适合 MNIST 数据集的 $β$ -VAE 模型。我们看到该模型能够在数字 $7$ 和数字 $2$ 之间产生合理的插值。作为一个更有趣的例子,我们可以将 $β$ -VAE 拟合到 CelebA 数据集 [Liu+15]。结果显示在 图 10
中,看起来似乎也很合理。 如果我们使用在更多数据上训练更长时间的更大模型,我们可以获得更好的质量。
也可以在文本模型的隐空间中执行插值,如 图 11
所示。
(a) 来自 VAE 文本模型隐空间的样本,我们在两个句子之间进行了插值(第一行和最后一行)。请注意,中间句子是语法的,但其在语义上与其邻居相关。来自 [Bow+16b] 的表 8。 (b) 与 (a) 相同,但使用了确定性的 RNN 自编码器。来自 [Bow+16b] 的表 1。
3.6 隐空间算术
在某些情况下,我们可以超越插值,并且执行隐空间算术,在其中我们可以增加或减少所需的 “语义变化因子” 的量值。这首先显示在 word2vec 模型 [Mik+13] 中,但在其他隐变量模型中也是可能的。
例如,考虑我们的 VAE 模型适合 CelebA 数据集,其中包含名人的面孔和一些对应的属性。令 $X^+_i$ 是一组具有属性 $i$ 的图像,而 $X^-_i$ 是一组不具有该属性的图像。设 $Z^+_i$ 和 $Z^-_i$ 是对应的嵌入,$\bar{z}^+_i$ 和 $\bar{z}^-_i$ 是这些嵌入的平均值。我们将偏移向量定义为 $\Delta_i = \bar{z}^+_i − \bar{z}^−_i$ 。如果我们将 $\Delta_i$ 的某个正倍数添加到新点 $z$,则增加属性 $i$ 的值;如果减去 $\Delta_i$ 的某个倍数,则减少属性 $i$ 值。
我们在 图 12
中给出了一个例子。我们考虑戴太阳镜的属性。第 $j$ 次重建是使用 $\hat{\mathbf{x}}_j = d(z + s_j\Delta)$ 计算的,其中 $z = e(\mathbf{x})$ 是原始图像的编码,$s_j$ 是比例因子。当 $s_j > 0$ 时,我们在脸上添加太阳镜。当 $s_j < 0$ 时,我们移除太阳镜。这会产生使脸部看起来更年轻、更女性化的副作用,但这可能是数据集偏差的结果。
第一列是输入图像,带有嵌入 $\mathbf{z}$。随后的列显示了 $\mathbf{z} + s\Delta$ 的解码,其中 $s ∈ {−2, −1, 0, 1, 2}$ 和 $\Delta = \bar{\mathbf{z}}^+ − \bar{\mathbf{z}}^−$ 是具有(或不具有特定属性)的图像的平均嵌入之间的差(本例中的属性是墨镜)。由 celeba_vae_ae_comparison.ipynb 生成。
3.7 生成式设计
(深度)生成模型的另一个有趣用例是生成设计,我们使用该模型来生成候选对象,例如具有所需属性的分子(参见例如 [RNA22])。一种方法是将 VAE 拟合到未标记的样本,然后在其隐空间中执行贝叶斯优化。
3.8 基于模型的强化学习
迄今为止,强化学习 RL 的主要成功案例是在计算机游戏中,其中存在模拟器且数据丰富。然而,在机器人技术等其他领域,获取数据的成本很高。在这种情况下,学习模型生成的 “世界” 可能很有用,也就是说,学习代理可以 “在头脑中” 进行规划和学习。有关详细信息,请参阅 强化学习
相关章节。
3.9 表示学习
表示学习是指学习产生可观测数据 $\mathbf{x}$ 的隐因子(可能无法解释的) $\mathbf{z}$。其主要目标是将这些功能用于 “下游” 监督任务。相关内容请参见 表示学习
的章节。
3.10 数据压缩
能够将高概率分配给频繁出现的数据向量(例如,图像、句子)而将低概率分配给稀有向量的模型,可以被用于数据压缩;因为我们能够将较短的代码分配给更常见的要素。实际上,根据香农定理,来自某个随机源 $p(\mathbf{x})$ 的向量 $\mathbf{x}$ 的最佳编码长度是 $l(\mathbf{x}) = − \log p(\mathbf{x})$。有关详细信息,请参阅 信息论
相关章节。
4 生成模型的能力评估
评估生成模型的能力需要衡量以下因素:
- 生成样本的质量 : 模型生成的样本是数据分布的一部分吗?
- 生成样本的多样性:来自模型分布的样本是否捕获了数据分布的所有模式?
- 模型泛化能力:模型泛化是否超出了训练数据?
目前尚没有同时满足所有这些要求的度量手段,但是已经提出了各种度量来捕获其中的不同方面,我们将在下面讨论其中的一些。
4.1 基于似然做模型评估
4.1.1 对数似然的计算
衡量模型 $q$ 与真实分布 $p$ 之间接近程度的标准方法是利用信息论,计算两者之间的 $\mathbb{KL}$ 散度:
$$
D_{\mathbb{KL}}(p | q)=\int p(\mathbf{x}) \log \frac{p(\mathbf{x})}{q(\mathbf{x})}=-\mathbb{H}(p)+\mathbb{H}_{c e}(p, q)
$$
式中,$H (p)$ 可被视为一个常数,$H_{ce} (p, q)$ 是分布 $p$ 和 $q$ 之间的 交叉熵。如果用经验分布来近似真实分布 $p(x)$,那么利用最大似然法,就可以根据数据集上的经验 负对数似然(NLL) 来评估交叉熵(当然,通常我们关心的是在一个预留测试集上的负对数似然):
$$
\mathbb{NLL}=-\frac{1}{N} \sum_{n=1}^N \log q\left(\mathbf{x}_n\right)
$$
(1)离散型变量似然的计算
对于离散数据的模型(如语言模型),很容易根据上式计算负对数似然。不过通常会使用一个被称为 perplexity 的量来衡量性能,该量定义为 $2^H$, $H=\text{NLL}$ 为交叉熵或负对数似然。
(2)连续性变量似然的计算
对于图像和音频等数据的模型,则存在一个复杂问题:模型通常为连续型的密度函数 $p(\mathbf{x}) \geq 0$ ,但数据 $\mathbf{x}$ 却表现为离散值(如,$\mathbf{x} \in{0 , \ldots, 255}^D$ )。根据定义,连续型随机变量的概率密度可以大于 $1$,这导致 $\mathbb{NLL}$ 有可能任意大。为了避免这种情况,标准做法是对其实施 均匀去量化 处理,具体操作是:将均匀的随机噪声添加到离散数据中,然后将数据 $\mathbf{x}$ 视为连续值。此方法能够为原始数据的离散模型的平均对数似然设定一个下界。
数学细节
为了展示这一点,让 $\mathbf{z}$ 代表一个连续隐变量, $\mathbf{x}$ 是一个通过舍入计算的可观测二进制向量,即逐个元素的计算 $p(\mathbf{x} \mid \boldsymbol{ z})=\delta(\mathbf{x}-\operatorname{round}(\mathbf{z}))$,则有 $p(\mathbf{x})=\int p(\mathbf{x} \mid \mathbf{z}) p(\mathbf{z}) d \mathbf{z}$。
如果令 $q(\mathbf{z} \mid \mathbf{x})$ 是 $\mathbf{x}$ 的概率逆,也就是说,它只有在 $p(\mathbf{x} \mid \mathbf{z})=1$ 时值才成立。在这种情况下,Jensen 不等式给出
$$
\begin{align*}
\log p(\mathbf{x}) & \geq \mathbb{E}{q(\mathbf{z} \mid \mathbf{x})}[\log p(\mathbf{x} \mid \mathbf{z})+\log p(\mathbf{z})-\log q(\mathbf{z} \mid \mathbf{x})] \
&=\mathbb{E}{q(\mathbf{z} \mid \mathbf{x})}[\log p(\mathbf{z})-\log q(\mathbf{z} \mid \mathbf{x})]
\end{align*}
$$
上式表明,如果我们对密度 $\mathbf{z} \sim q(\mathbf{z} \mid \mathbf{x})$ 建模, $\mathbf{z}$ 是离散型随机变量 $\mathbf{x}$ 的一个去量化版本,则我们将能够得到 $p(\mathbf{x})$ 的下界。
4.1.2 似然评估法存在的问题
使用似然法来评估生成模型存在一些挑战:
(1)似然计算非常困难
对于许多模型,计算似然的成本非常高,因为它需要知道概率模型的归一化常数。实践中常用两种方法来近似地计算似然:
- 一种是使用 变分推断,该方法提供了一种有效计算对数似然下界的方法。
- 另一种是使用 退火重要性采样,该方法提供了一种使用蒙特卡罗采样来估计对数似然的方法。
需要注意的是:在某些隐式生成模型中( 例如 GAN )并没有定义似然,显然基于似然的评估方法更无法使用,需要找到替代评估方法。
(2)似然大小与生成的样本质量无关
似然方法还存在一个令人担忧的地方: 似然大小与生成样本的质量似乎没有太大关系 ,一个模型可能似然很大,但生成的样本却非常差;相反的情况也可能出现。
要了解为什么模型具有良好的似然却会生成不良样本,请考虑 [TOB16] 中的讨论。
具体示例
示例一:
假设 $q_0$ 是 $D$ 维数据 $x$ 的密度模型,该模型在平均对数似然评估时表现非常好,同时假设 $q_1$ 是一个相对差的模型,例如白噪声。现在考虑从混合模型生成的样本:
$$
q_2(\mathbf{x})=0.01 q_0(\mathbf{x})+0.99 q_1(\mathbf{x})
$$
显然 $99%$ 的样品会很差。但是,当维数 $D$ 很大时,每个像素的对数似然几乎不会在 $q_2$ 和 $q_0$ 之间变化,因为:
$$
\log q_2(\mathbf{x})=\log \left[0.01 q_0(\mathbf{x})+0.99 q_1(\mathbf{x})\right] \geq \log \left[0.01 q_0(\mathbf{x})\right]=\log q_0(\mathbf{x})-100
$$
对于高维数据,$|\log q_0(x) | \sim D \gg 100$,因此 $\log q_2(x) \approx \log q_0(x)$,也就是说,在比较差的采样器中做混合,并不一定会显著影响对数似然。
示例二:
现在考虑一个相反的案例,即模型有很好的样本但似然却很差的情况。假设 $q$ 是以训练图像为中心的高斯混合模型 GMM:
$$
q(\mathbf{x})= \frac{1}{N}\sum\limits^N_{n=1} \mathcal{N}(\mathbf{x}|\mathbf{x}_n,\epsilon^2\mathbf{I})
$$
如果 $\epsilon$ 足够小以至于高斯噪声难以察觉,那么来自该模型的样本看起来会很好,因为它们对应于真实图像的训练集。但是由于存在过拟合,该模型在测试集上几乎肯定具有很小的似然 (在这种过拟合情况下,模型实际上只是记住了训练集)。
4.2 基于特征空间中的距离与散度做模型评估
在高维空间中比较分布非常具有挑战,同时人们希望能够以对语义有帮助的方式来比较分布;因此,人们通常会使用特定领域的 感知距离 指标来衡量数据向量彼此之间或与训练数据之间的相似程度。
然而,大多数用于评估生成模型的指标并不直接比较原始数据(例如像素),而是比较神经网络从原始数据中提取的特征。也就是将 “从模型生成的样本中提取的特征分布” 与 “从数据集中提取的特征分布” 进行比较。需要注意的是用于提取特征的神经网络,该网络既可以出于评估目的而专门训练,也可以直接使用预训练网络,例如,一个常见选择是直接使用预训练的分类器( 参见 [Sal+16; Heu+17b; Bin+18; Kyn+19; SSG18a] )。
下面我们看一下在原始空间和特征空间中测量距离,其效果有何区别:
(1)原始空间中的 Inception 评分
Inception 得分 [Sal+16] 是一种在原始空间中测量距离(散度、相似度)的度量。它测量 “标签的边缘分布 $p_{\boldsymbol{\theta}}(y) = ∫ p(y|x)p_{\boldsymbol{\theta}}(x)$” 和 “样本 $\mathbf{x} \sim p_{\boldsymbol{\theta}}(\mathbf{x})$ 对应的标签条件概率 $p(y|\mathbf{x})$” 之间的 平均 $\mathbb{KL}$ 散度。评分规则定义为:
$$
\text{IS} = \exp\left[ \mathbb{E}{p{\boldsymbol{\theta}}(\mathbf{x})} D_{\mathbb{KL}}(p(y \mid \mathbf{x}) | p_{\boldsymbol{\theta}}(y))\right]
$$
如果一个模型能够从数据集中的所有类别中产生高质量样本,那么 $p_{\boldsymbol{\theta}}(y)$ 通常会接近于均匀,而 $p(y|\mathbf{x})$ 应该是一个对应于 $\mathbf{x}$ 类别的尖锐分布;这会导致较高的 $D_{\mathbb{KL}} (p(y|\mathbf{x}) | p_{\boldsymbol{\theta}}(y))$,进而产生较高的 Inception 分数。同时, Inception 得分仅依赖于类标签,因此不会考虑预定义类别之外的过拟合或样本多样性。例如,一个为每个类都生成完美样本的模型,尽管并没有捕获到类内各种样本的差异性,但仍将获得完美的 Inception 分数,如 图 13a
所示。
(2) 特征空间中的 FID 评分
为了克服此缺点,有人设计了在特征空间中进行距离测量的新测度指标:Fréchet Inception Distance ,简称 FID 分数 [Heu+17b]。
该指标在预训练分类器的特征集上测量两个高斯分布之间的 Fréchet 距离。其中一个高斯通过将模型生成的样本传递给预训练分类器获得,另一个高斯则通过将数据集样本传递给同一分类器来获得的。如果从模型生成样本中得到的特征均值和协方差是 $\mu_m$ 和 $\sum_m$,而从数据集中得到的均值和协方差是 $\mu_d$ 和 $\sum_d$,那么 FID 分数定义为:
$$
\mathrm{FID}=\left|\boldsymbol{\mu}_m-\boldsymbol{\mu}_d\right|_2^2+\operatorname{trace}\left(\boldsymbol{\Sigma}_d+\boldsymbol{\Sigma}_m-2\left(\boldsymbol{\Sigma}_d \boldsymbol{\Sigma}_m\right)^{1 / 2}\right)
$$
可以看出,FID 使用了特征,而没有使用类的 logits,因此 FID 捕获的模式多于类标签捕获的模式,如 图 13b
所示。与 Inception 分数不同,该分数越低越好,因为我们希望两个分布尽可能接近。
FID 评分的缺点: Fréchet 距离已被证明具有很高的偏差,在计算分数的样本基础上,其结果往往存在很大差异。为了缓解此问题,有人引入了 Kernel Inception Distance [Bin+18],它测量 “从数据集获得的特征” 和 “从模型生成样本中获得的特征” 之间的平方质量中值半径(MMD)。
(a)具有高 Inception 得分的模型,其生成的样本在视觉上比较真实。 (b) 具有低 FID 得分的模型,其生成的样本在视觉上不仅真实而且多样。
4.3 基于精度与召回率指标做模型评估
由于 FID 仅测量数据分布和模型分布之间的距离,因此很难将其用作诊断工具:不良 FID 可能表明模型无法生成高质量数据,但这可能由于模型将太多概率质量在数据分布上,也可能是由于模型仅捕获了数据的某些子集。为了解开这两种失败模式之间的纠缠,人们一直在生成模型背景下寻求个体的精度(样本质量)指标和召回(样本多样性)指标 [LPO17; Kyn+19]。 多样性问题在 GAN 的场景中尤为重要,其中 峰值坍塌(Mode Collapse) 可能是一个问题。
定义精度合找回的一种常见方法是:使用预训练分类器特征空间中的最近邻 [Kyn+19]。首先定义一个函数:
$$
f_k(\phi, \Phi)= \begin{cases}1 & \text { if } \exists \phi^{\prime} \in \Phi \text { s.t. }\left|\phi-\phi^{\prime}\right|_2^2 \leq\left|\phi^{\prime}-\mathrm{NN}_k\left(\phi^{\prime}, \Phi\right)\right|_2^2 \ 0 & \text { otherwise }\end{cases}
$$
其中 $\Phi$ 是一组特征向量,$\mathrm{NN}_k\left(\phi^{\prime}, \Phi\right)$ 是一个函数,返回 $\Phi$ 中的第 $k$ 个最近邻 $\phi^{\prime}$。
现在可以定义精度和召回率如下:
$$
\begin{aligned}
\operatorname{precision}\left(\Phi_{\text {model }}, \Phi_{\text {data }}\right) &=\frac{1}{\left|\Phi_{\text {model }}\right|} \sum_{\phi \in \Phi_{\text {model }}} f_k\left(\phi, \Phi_{\text {data }}\right) \
\operatorname{recall}\left(\Phi_{\text {model }}, \Phi_{\text {data }}\right) &=\frac{1}{\left|\Phi_{\text {data }}\right|} \sum_{\phi \in \Phi_{\text {data }}} f_k\left(\phi, \Phi_{\text {model }}\right)
\end{aligned}
$$
精度和召回率始终介于 $0$ 和 $1$ 之间。直观地说, 精度指标衡量了模型生成的样本与数据点之间,是否像相邻数据点之间一样接近;而 召回率指标则衡量数据点与模型生成的样本之间,是否与相邻的模型生成样本之间一样接近。公式中的参数 $k$ 控制着指标的宽松程度:$k$ 越高,精度和召回率都越高。与分类问题一样,生成模型中的 精度
和 召回率
可用于构建不同模型之间的权衡曲线,使人们能够做出明智的决定。
4.4 基于统计检验方法做模型评估
统计检验长期以来一直被用于确定两组样本是否来自同一分布;此类型的统计检验被称为双样本检验。
让我们将零假设定义为两组样本来自同一分布。然后,从数据中计算一个统计量并将其与阈值进行比较,并基于此,决定是否拒绝原假设。在评估隐式生成模型(如 GAN)时,已经有人使用了基于分类器 [Saj+18] 和 MMD [Liu+20b] 的统计量。为了在深度学习时代无处不在的高维输入空间场景中使用,双样本检验已经逐步从使用原始数据,转变为使用学得的特征。
与生成模型的所有其他评估指标一样,统计检验有其自身的优点和缺点: 虽然用户可以指定 类型 1 错误
( 代表用户允许零假设被错误拒绝的机会),统计检验往往计算量大,因此通常无法用于包含监视进程的训练过程;统计检验更适合用于比较已经训练好的模型。
4.5 使用预训练模型的挑战
虽然流行且方便,但依赖于预训练分类器(如 IS、FID、特征空间中的最近邻、特征空间中的统计检验等)的评估指标具有明显的缺点。人们手头上可能没有可用于数据集的预训练分类器,因此会使用在其他数据集上训练得到的分类器。鉴于神经网络泛化存在的挑战,从某个数据集的图像上训练得到的分类器,其提取的特征可能不够可靠,无法为在另一个数据集上训练的模型的样本提供细粒度的质量信号。
如果生成模型是在与预训练分类器相同的数据集上训练的,但模型无法完美地捕捉数据分布,我们将向预训练分类器提供分布外数据,并依靠其特征来获得评估模型的分数。远非纯粹的理论问题,这些问题已被广泛研究,并已被证明会影响实践中的评估效果 [RV19; BS18]。
4.6 使用模型生成的样本训练分类器
人们也可以在来自条件生成模型的样本上训练分类器,而无需使用预训练的分类器来评估样本,然后看看这些分类器在分类数据方面的表现如何。 例如,将合成(采样)数据添加到真实数据有帮助吗?这更接近于对生成模型生成的样本的可靠评估,因为最终,生成模型的性能取决于它们所训练的下游任务。如果用于半监督学习,应该评估将样本添加到分类器数据集对测试准确性有多大帮助。如果用于基于模型的强化学习任务,应该评估生成模型对学习代理性能的帮助程度。有关此方法的示例,请参见例如 [SSM18; SSA18; RV19;SS20b]。
4.7 评估过拟合
到目前为止讨论的许多指标都捕获到了样本质量和多样性,但没有捕捉到对训练数据的过拟合(即泛化能力)。为了捕捉过拟合,通常会进行视觉检查:从模型中生成一组样本,并且对于每个样本,从数据集中获得预训练分类器的特征空间中最近的 $K$ 个最近邻。
虽然这种方法需要手动评估样本,但它是测试模型是否只是简单地记忆了数据的一种简单方法。我们在 图 12
中展示了一个示例:由于左上角的模型生成的样本与其数据集中的邻居(剩余图像)完全不同,我们可以得出结论,该样本不是简单地从数据集中记忆的。
上图左上角为使用 BigGAN 生成的查询样本,其余图像是数据集中的最近邻。最近邻搜索是在预训练分类器的特征空间中完成的。
类似地,样本多样性可以通过在大样本池中寻找相似样本(用于近似对所学得分布的支持)来测量。这如同鸽巢原理,但它很昂贵,并且通常需要人工参与评估[AZ17]。
对于基于似然的模型(如变分自编码器、自回归模型、归一化流等),我们可以查看模型的对数似然在训练集中包含多少变化来评估是否仅仅是记忆 [BW21]。
4.8 人工评估
人工评估将模型中的样本与数据分布中的样本一起呈现,并要求人工评估者比较样本的质量 [Zho+19b]。如果模型用于为人类展示创建艺术或其他数据,或者难以获得可靠的自动化指标,则人工评估是一个合适的指标。然而,人工评估可能难以标准化、难以自动化并且设置起来可能很昂贵或很麻烦。