〖摘要〗隐变量模型是将一组可观察变量与一组隐变量建立关联的统计模型。本文对隐变量模型进行了概述:首先介绍了通用模型并讨论了各种推断方法;之后,介绍了几种比较常用的情况,包括:『隐类别模型 Latent Class Model 』 (也称『混合物模型 Mixture Model 』)、『混合模型(Mixed Model)』等;我们将这些模型应用于具有简单结构的相同数据集,并进行了结果比较和优缺点讨论;此外,本文还说明了包括『潜在结构模型』在内的若干问题;最后,我们讨论了模型扩展和应用,强调了在应用隐变量模型时经常被忽视的几个问题。
〖原文〗Modeling Through Latent Variables, Annual Review of Statistics and Its Application
〖作者〗Geert Verbeke, Geert Molenberghs,比利时鲁汶天主教大学,
〖时间〗2017
〖DOI〗10.1146/annurev-statistics-060116-054017

1. 概述

目前在统计实践中使用的许多模型都会假设存在潜在的不可观测变量,采用这些变量来 “解释过度分散” 或 “隐式建模关联结构”,这被称之为 隐变量模型( Latent Variable Model,LVM)

根据可观测变量和隐变量是离散型还是连续型,可以将隐变量模型分为多种类型。例如,

  • 隐类别模型 (McCutcheon 1987): 采用离散型隐变量对 “所研究群体由有限数量的子群体组成” 这一先验信念进行建模,其感兴趣的子群体遵循不同的统计模型。

  • 混合模型(Verbeke & Molenberghs 2000、Molenberghs & Verbeke 2005):使用连续型隐变量对分层结构数据集之间的隐性关联关系进行建模

过度分散(Overdispersion): 在统计学中,过度分散指观测数据的方差比统计模型预期方差大很多的现象。

应用统计学中的一个常见任务是选择某个参数模型来拟合给定的经验观测,这需要对所选模型的拟合结果进行评估。一般会考虑以样本均值近似模型理论总体均值的方式来选择模型参数,但理论预测可能与经验观测不符(特别是对于参数的简单模型)。当观测方差大于理论模型方差时,就会发生所谓 “过度分散”。相反,分散不足意味着观测数据中的变化可能比理论预测小。

过度分散是应用数据分析中的一个非常常见的特征,因为在实践中,与广泛使用的简单参数模型中的隐含假设相反,大多数群体通常是异质的(非均匀的)。

隐变量模型在处理复杂数据结构时非常灵活,能够提供对经典模型的直接扩展,但隐性结构的使用会带来重要影响,使用者必须充分了解:

  • 首先,此类模型在形式上大多是条件依赖于一个或多个隐变量的,因此,模型中的参数需要根据隐性结构给出条件解释,而不是边缘解释。这意味对于广义线性或非线性模型,应该基于边缘(总体平均)水平的参数做模型比较,而不应基于条件水平的参数做比较。

  • 其次,具有隐性结构的模型无法从数据中自动识别,需要人类的某些可能无法验证的假设。

  • 第三,隐性结构不可观测,意味着对其概率分布的假设进行评估也很困难。

本综述的目的是想表明:现在每个统计学家的工具箱中都有许多标准模型和各自研究子领域中的独特模型,它们大都符合隐变量模型的一般性框架。

本文结构如下:

  • 第 2 节给出了隐变量模型的一般形式,并介绍了 『隐类别模型』、『混合模型』等特定模型。

  • 第 3 节在同一个数据集上对多种模型进行了对比分析。为了聚焦思考并简化模型比较,使用了没有任何协变量的二项输出配置。

  • 第 4 节介绍了隐变量模型的几种应用和扩展模型,另外还有关于参数解释、可识别性、模型评估等重要问题的讨论。

  • 第 4.1 节展示了隐变量不仅可以解释过度分散,还可以隐式地对关联进行建模,这使得它们对于联合建模多个结果特别有用。

  • 第 4.2 节讨论了过度分散和关联建模中经常出现的、包含多组隐变量的情况。

  • 第 4.3 节采用具有正态分布隐变量的逻辑斯谛模型解释了为何许多标准隐变量模型不允许对参数进行边际解释。

  • 第 4.4 节介绍了一些统计文献中提到的解决方案。

  • 第 4.5 节说明多个隐变量模型可能隐含相同的边缘模型,并提出了可识别性问题和模型检查问题。

  • 第 5 节给出了一些结论性意见。

2. 隐变量模型的一般形式

令 $Y_i, i=1, …, N$ 代表一个样本量为 $N$ 的独立随机向量样本,各样本点向量的分量分别为 $Y_{ij}, j=1, …, n_i$。在许多情况下,所有样本点 $Y_i$ 的长度都相同,即 $n_i \equiv n$。当然,这种情况可以被扩展,例如,允许追踪研究中的不同参与者具有不同的重复测量数量。

我们假设 $Y_i$(可能经过适当转换)满足:

$$
Y_i \mid b_i,\theta \sim F_i(b_i,\theta) \tag{1}
$$

也就是说,$Y_i$ 所服从的(预先指定的)分布 $F_i$, 可能依赖于某些协变量,并被向量 $b_i$ 和 $\theta$ 参数化。其中参数向量 $\theta$ 对所有 $Y_i$ 都适用,而参数向量 $b_i$ 则专用于不同的 $Y_i$。 令相应的概率密度函数表示为 $f_i(y)i \mid b_i,\theta)$ 。分布 $F_i$ 可以是任何 $n_i$ 维的分布。 但实践中通常假设 $Y_i$ 中的组分 $Y_{ij}$ 相对于 $b_i$ 条件独立。在此条件独立假设下,指定所有响应 $Y_{ij}$ 的单变量分布就足够了,公式 (1) 中的分布函数 $F_i$ 可以被表示为 $Y_i$ 中 $n_i$ 个独立元素的乘积。

一旦指定了 公式 (1) 中的模型,一个明显的估计方法将基于最大化关于 $\theta$ 和所有 $b_i$ 的似然性。然而,Neyman & Scott (1948) 表明,如此获得的最大似然估计可能是不一致的,也就是说,随着样本量 $N$ 值的增加,它们可能不会收敛到某些参数的真实未知值。这是因为参数数量随着 $N$ 的增加而增加。在匹配二元数据的逻辑斯谛回归背景下,这种不收敛是众所周知的结果,其中,在层数增加的情况下,优势比的最大似然估计收敛到 $\hat \psi$ 而不是 $\psi$。我们推荐读者参阅 Breslow & Day (1989, section 7.1) 以在这方面进行广泛讨论。这表明参数 $b_i$ 不应被视为固定的未知参数,并且需要从估计过程中消除 $b_i$ 的方法。

第一种方法,也应用于上述匹配数据的逻辑斯谛回归模型示例,是条件推断(例如,参见 Diggle 等人 2002,第 9.3 节)。然后将参数 $b_i$ 视为令人讨厌的参数,并且通过最大化数据 $y_{i}$ 的似然性来完成 $\theta$ 的估计,条件是 $b_i$ 有足够的统计量。条件推断的主要优点是不需要关于参数 $b_i$ 的额外假设,这些假设随后被认为是令人讨厌的。一个缺点显然是需要找到足够的 $b_i$ 统计数据,并且需要计算和最大化以这些统计数据为条件的数据的可能性。此外,关于 $b_i$ 的所有信息都丢失了,但关于 $\theta$ 中某些元素的信息也可能丢失,即使它们可能是主要兴趣点。在文献 Verbeke (2001)中关于追踪数据的线性模型中有相关案例。

第二种方法,允许对 $b_i$ 进行推断,假设 $b_i$ 是独立于一般参数群体进行采样的。令 $Q( b_i)$ 表示 $b_i$ 的分布函数,通常称为混合分布。由于没有观察到 $b_i$ ,因此它们传统上被称为 “隐随机变量” 或简称 “隐变量”。然后通过将它们整合出来,在它们的假设分布上消除 $b_i$ 。更具体地说,对 $\theta$ 的估计和推断来自最大化对数似然函数,基于由下式给出的边缘密度

$$
f_i(\mathbf{y}_i \mid \theta,\mathrm{Q}) = \int f_i(\mathbf{y}_i \mid \mathbf{b}_i,\theta)dQ(b_i)
$$

在离散混合分布的情况下,积分被总和取代。这种方法可以被解释为一种导出多元边际可能性的灵活方法,这使得它特别适合对一组受试者的纵向测量结果 $Y_{ij}$ 进行建模。事实上,即使假设两个结果 $Y_{ij}$ 和 $Y_{ik}$ 关于 $b_i$ 条件独立,它们也有一定相关性,因为它们共享相同的潜在变量 $b_i$ 。

从经典最大似然理论中可以得出,如果假设 $Q$ 属于某个参数分布族(即,由有限数量的参数索引的一组分布),则所有参数估计量都是一致的且渐近正态分布,由此推断紧随其后。

  • 如果假设 $Q$ 是离散分布,则隐模型称为 “隐类别模型” 或 “混合模型”(参见例如 McCutcheon 1987、McLachlan & Peel 2000、Böhning 1999)。潜在类别模型假设所研究的群体由以 $b_i$ 的单一共同值为特征的亚群体组成。

  • 如果假设 $Q$ 是连续的,则隐含模型通常称为混合模型(例如,参见 Verbeke & Molenberghs 2000、Molenberghs & Verbeke 2005)。在许多情况下,假设 $b_i$ 是从(多变量)正态分布中采样的,但也有可能,如第 4.2 节所示。

也可以不对混合分布做任何假设,并通过最大化所有分布类的似然性的分布来估计 $Q$,这被称为混合分布的非参数最大似然估计器 (NPMLE)。 Kiefer & Wolfowitz (1956) 表明相应的估计量是强一致的,并且在 $Q$ 的每个连续点处以概率 $1$ 收敛。后来,Laird (1978) 给出了充分条件,使得 NPMLE 成为阶跃函数,Lindsay (1983a-c) 表明,在一般正则条件下,NPMLE 存在并且是离散的,并且可以给予支持点。在某些情况下,例如 Rasch 模型,可以推导出总体参数的非参数估计值与从条件方法(如果可估计)获得的估计值一致的条件。有关非参数最大似然 (NPML) 方法和条件推断方法之间关系的更多详细信息,请参见 Lindsay (1983b) 和 Lindsay 等人 (1991)。

3. 展示案例:鲁汶糖尿病研究

3.1 混合模型

3.2 潜在类模型

3.3 非参数最大似然

4. 应用、扩展和讨论

4.1 建模关联

4.2 具有混合类型隐变量的模型

4.3 参数解释

4.4 边缘化多层模型和桥分布

4.5 可识别性

5. 结论

在本文中,我们回顾了隐变量模型,并表明许多常用的统计模型可以看作是这一类通用模型的特例。这些特殊情况包括『隐类别模型』以及『混合模型』,以及流行的用于二项式计数的贝塔-二项式模型。许多此类模型是在统计研究的各个子领域独立开发的,通常导致同一模型使用不同的术语。例如,『隐类别模型』和『有限混合物模型』都是指具有离散隐变量的模型。同样,『混合模型』、『随机效应模型』和『多级模型』都是指具有连续隐变量的模型。

所有这些模型的共同特征是:它们以一个或多个潜在的、未观测到的变量为条件,对观测到的数据进行建模。

推断是基于从隐变量在其假设混合分布上积分获得的边缘分布。根据假定条件分布和假定混合分布,可以获得多种模型。因此,『隐类别模型』对于处理复杂的数据结构非常灵活,包括分层结构的数据、相关数据、过度分散数据等。此外,“结果来自于在未观测到的结构上建模输出” 这一事实意味着:在解释从这些模型中获得的推论时需要非常谨慎。

此外,因为不同隐变量模型可以导致相同的边缘模型,因此对观测到的数据具有相同的拟合,在没有额外约束时,模型是无法识别的。

最后,模型中包含不可观测变量使得模型评估很不直接。

我们讨论了所有这些问题,提出了可能的解决方案,并介绍了各种模型扩展。最后,我们通过分析鲁汶糖尿病研究来说明最常用的模型,使用 $10$ 种不同的隐变量模型来估计二项式结果的成功率,由于过度分散而无法使用单个二项式分布对其进行建模。