🔥 组合似然法概述
【摘 要】组合似然法是用于超大规模高斯随机场高效计算的主要方法之一,本文提供了对组合似然理论和应用的最新发展调查。论文考虑了一系列应用领域,包括地统计学、空间极值、时空模型、集群和纵向数据以及时间序列等。考虑到 Larribe 和 Fearnhead (2011) 已经发表了在统计遗传学方面的综述论文,本文省略了这一重要应用领域。本文重点介绍了组合似然理论发展、组合似然推断的效率和鲁棒性等知识现状。
【原 文】 Varin, C., Reid, N. and Firth, D. (2011) ‘AN OVERVIEW OF COMPOSITE LIKELIHOOD METHODS’, Statistica Sinica, 21(1), pp. 5–42.
1 简介
组合似然是通过将若干似然分量相乘得出的一个推断函数;所使用的似然分量集合通常由应用上下文决定。因为每个个体似然分量都是条件密度
(或边缘密度
,根据应用而定),所以从复合对数似然的导数得出的估计方程,是一个无偏估计方程。无论这些个体似然分量是否相互独立,根据其乘法所得到的推断函数都会包含所指定模型的似然性质。
本文回顾了组合似然领域的近期工作,回顾了 2008 年 4 月在华威大学举办的组合似然研讨会上的贡献,并概述了此后的发展。本文补充并扩展了 Varin (2008)[104] 的综述;特别是添加了更多关于从边缘似然和条件似然构造组合似然的一些细节、更多的应用领域、更详细地考虑了空间数据等。此外,Larribe 和 Fearnhead (2011) [56] 一文对统计遗传学中的组合似然进行了综述,因此本文未涉及该应用领域。 本文结构如下: - 第 2 节概述了组合似然的主要推论结果,所有结果均基于估计方程和误差指定模型的`渐近理论`。 - 第 3 节调查了提出组合似然的广泛应用领域,通常以伪似然或准似然等名称命名。 - 第 4 节集中讨论一些理论问题。 - 第 5 节考虑了组合似然的构造和推断的一些计算问题 - 第 6 节总结了未解决的问题。 ## 2 组合似然推断 ### 2.1 定义和符号 考虑一个具有概率密度函数 $f(y;θ)$ 的 $m$ 维随机向量 $Y$,其中 $θ \in \Theta$ 是未知的 $p$ 维参数向量。$\{\mathcal{A}_1,\ldots ,\mathcal{A}_K\}$ 表示似然为 $\mathcal{L}_k(θ;y) \propto f(y \in \mathcal{A}_k; θ)$ 的一组边缘或条件事件(例如 $K$ 个数据簇,每个簇中有若干数据点)。根据 Lindsay (1988) [65],组合似然指如下式所示的加权乘积: $$ \mathcal{L}_C(θ; y)= \prod^K_{k=1} \mathcal{L}_k(θ; y)^{w_k} $$ 其中 $w_k$ 是需要选择的非负权重。如果权重都相等,则可以忽略它们;选择不相等的权重可以提高计算效率,其方法将在`第 3 节`和`第 4 节`的特定应用中讨论。 尽管上述定义允许对边缘密度和条件密度进行组合(Cox 和 Reid (2004) [19]),但组合似然通常在条件版本和边缘版本中还是有所区分的。 **(1)复合条件似然** 也许组合似然的先例是 Besag (1974 [7], 1975 [8]) 提出的用于空间过程中近似推断的 `伪似然`。这种伪似然是给定其邻居的单个观测的条件密度产物: $$ \mathcal{L}_C(θ; y)= \prod^m_{r=1} f(y_r | \{y_s : y_s \text{ is neighbour of } y_r \}; θ) $$ Besag 提议的新变体涉及在条件事件和结果事件中使用观测数据块,参见 Vecchia (1988) [110] 和 Stein、Chi 和 Welty (2004) [100]。 Liang (1987) 研究了如下类型的复合条件似然: $$ \mathcal{L}_C(θ; y)= \prod^{m-1}_{r=1} \prod^{m}_{s=r+1} f(y_r|y_r + y_s; θ) \tag{2.1} $$ 并将它们应用于分层病例对照研究。有关此建议的进一步工作可以在 Hanfelt (2004) [42]、Wang 和 Williamson (2005) [111] 、 Fujii 和 Yanagimoto (2005) [34] 中找到。 Molenberghs 和 Verbeke(2005 年)[78] 在纵向数据研究的背景下, Mardia 等 (2008)[71] 在生物信息学中,通过池化成对条件密度来构建组合似然: $$ \mathcal{L}_C(θ; y)= \prod^{m}_{r=1} \prod^{m}_{s=1} f(y_r|y_s; θ) $$ 或者通过池化完整条件密度: $$ \mathcal{L}_C(θ; y)= \prod^{m}_{r=1} f(y_r|y_{(−r)}; θ) $$ 其中 $y_{-r}$ 表示除 $y_r$ 之外的所有观测值的向量。 **(2)复合边缘似然** 最简单的复合边缘似然是在工作独立假设下构建的伪似然, $$ \mathcal{L}_{ind}(θ; y)= \prod^m_{r=1} f(y_r; θ) $$ 有时在文献中称为`独立似然`(Chandler 和 Bate (2007) [15])。独立似然仅允许对边缘参数进行推断。如果对与依赖相关(如空间自相关性)的参数也感兴趣,则有必要对观测数据块进行建模,例如下式的 `成对似然(pairwise likelihood)` (Cox 和 Reid (2004) [19];Varin (2008) [104])。 $$ \mathcal{L}_{pair}(θ; y)= \prod^{m-1}_{r=1} \prod^{m}_{s=r+1} f(y_r,y_s; θ) \tag{2.2} $$ 此外,根据更大的观测集构建的类似扩展,可以参见 Caragea 和 Smith (2007) [12]。 对于以依赖结构为重点的连续对称型响应,Curriero 和 Lele (1999) [21] 以及 Lele 和 Taper (2002) [59] 提出了 `基于成对差异的复合边缘似然`: $$ \mathcal{L}_{diff}(θ; y)= \prod^{m-1}_{r=1} \prod^{m}_{s=r+1} f(y_r − y_s; θ) \tag{2.3} $$ **(3)术语** 组合似然有几个不同的名称,包括 `伪似然(pseudolikelihood)`(Molenberghs 和 Verbeke (2005)[78] )、`近似似然(approximate likelihood)`(Stein、Chi 和 Welty (2004) [100])和 `准似然(quasi-likelihood)`(Hjort 和 Omre (1994) [46];Glasbey (2001) [39]) ; Hjort 和 Varin (2008) [47]。 前两个名称有些过于笼统而无法提供更多信息,而第三个名称容易造成误解,因为它与一个完善的替代方案有重复(McCullagh (1983) [74];Wedderburn (1974) [113])。 时间序列中的复合边缘似然有时被称为`切分数据似然(split-data likelihoods)`(Ryden (1994) [96];Vandekerkhove (2005) [103])。 在心理测量学文献中,基于组合似然的方法被称为`有限信息方法(limit information methods)`。 在这篇综述中,我们将始终使用短语 `复合(边缘/条件)似然`,并使用符号 $\mathcal{L}_C(·)$ 和 $c\ell (\cdot)$ 来分别表示 `似然函数` 和 `对数似然函数`。如果有必要,我们会使用符号 $\mathcal{L}_{MC}$ 和 $\mathcal{L}_{CC}$ 分别区分`边缘组合似然`和`条件组合似然`。 ### 2.2 派生量 与最大似然估计类似,`最大组合似然估计`寻找能够使组合似然最大化的参数 $\hat{\theta}_{CL}$ ,或等效地使复合对数似然 $c\ell(θ; y)= \sum^{K}_{k=1} \ell_k(θ; y)^{w_k}$ 最大化,其中 $\ell_k(θ ; y) = \log \mathcal{L}_k(θ; y)$。在标准问题设置中,可以通过求解 `复合得分函数` $u(θ; y)=\nabla_{\theta} c\ell(θ; y)$ 来找到 $\hat{\theta}_{CL}$,它是与对数似然项 $\ell_k(θ; y)$ 一一对应的多个得分的线性组合。 组合似然可能会被视为一种误差指定的似然,其误差指定主要源于对构成伪似然的似然项之间不正确的工作独立性假设。因此,`Bartlett 第二恒等式` 不成立,我们需要区分如下灵敏度矩阵: $$ H(θ)=E_θ \{−\nabla_{\theta} u(θ; Y )\} = \int \{−\nabla_{\theta} u(θ; y)\} f(y; θ) dy $$ 和可变性矩阵为 $$ J(θ) = \text{var}_θ \{u(θ; Y)\} $$ 而 `Fisher 信息` 需要用 `Godambe 信息矩阵`代替(Godambe(1960)[40]) $$ G(θ) = H(θ)J(θ)^{−1}H(θ) \tag{2.4} $$ Godambe 信息矩阵也被称为`三明治信息矩阵`。我们为期望的 Fisher 信息保留符号 $I(θ) = \text{var} θ\{\nabla_{\theta} \log f(Y;θ)\}$;如果 $c\ell(θ)$ 是一个真正的对数似然函数,那么 $G = H = I$。根据 Lindsay (1982)[64],当对于所有 $θ$ 都有 $H(θ) = J(θ)$ 时,估计方程 $u(θ; y)$ 被称为信息无偏的。
### 2.3 渐近理论 **(1)组合似然与完整似然** 在来自于 $\mathbb{R}^m$ 上的模型 $f(y;θ)$ 的 $n$ 个独立同分布观测 $Y_1,\ldots , Y_n$ 设置中,如果 $m$ 固定且 $n \rightarrow \infty$,则可从 Kent (1982)[52], Lindsay (1988) [65] 以及 Molenberghs 和 Verbeke (2005 [78],第 9 章) 中得到一些标准渐近的理论结果。我们现在对其进行总结。 由于: $$ \begin{align*} \mathcal{L}_C(θ; y) &= \prod^{n}_{i=1} \mathcal{L}_C(θ; y_i) \\ c\ell(θ; y) &= \sum^{n}_{i=1} c\ell(θ; y_i) \end{align*} $$ 在以组分对数密度为条件的规律性下,我们有一个关于 **组合似然分数统计量** 的中心极限定理,导致复合最大似然估计 $\hat{\theta}_{CL}$ 呈渐近正态分布的结果: $$ \sqrt{n}(\hat{\theta}_{CL} − θ) \stackrel{d} \rightarrow \mathcal{N}_p\{0, G^{−1}(θ)\} $$ 其中 $\mathcal{N}_p(μ, \Sigma)$ 是具有所指示均值和方差的 $p$ 维正态分布,$G(θ)$ 是单个观测值中的 Godambe 信息矩阵,已经在式 (2.4) 中定义过。 **$G(θ)$ 与预期 Fisher 信息 $I(θ)$ 之间的比率,决定了 $\hat{\theta}_{CL}$ 相对于完整模型的最大似然估计的渐近效率**。如果 $θ$ 是标量,则可以在 $θ$ 的范围内对其进行评估或抽取;例如 Cox 和 Reid(2004 年 [19])的图 1。 **(2)组合似然与部分似然** 假设科学兴趣在于参数 $θ =(ψ, τ)$ 的 $q$ 维子向量 $ψ$。用于检验 $H0 : ψ = ψ_0$ 的 Wald 组合似然版本和分数统计量很容易构造,并且具有通常的渐近 $\chi_q^2$ 分布,请参见 Molenberghs 和 Verbeke (2005) [78]。 Wald 型统计量是: $$ W_e = n(\hat{ψ}_{CL} − ψ_0)^T G_{ψψ}(\hat{\theta}_{CL})(\hat{ψ}_{CL} − ψ_0) $$ 其中 $G_{ψψ}$ 是与 $ψ$ 有关的 Godambe 信息的 $q × q$ 子矩阵。类似于分数的统计量是: $$ W_u = \frac{1}{n} u_ψ \{ψ_0, \hat{\tau}_{CL}(ψ_0)\}^T \tilde{H}^{ψψ} \tilde{G}_{ψψ} \tilde{H}^{ψψ} u_ψ \{ψ_0, \hat{\tau}_{CL}(ψ_0)\} $$ 其中 $H^{ψψ}$ 是关于 $ψ$ 的 $H(θ)$ 的逆的 $q × q$ 子矩阵,并且 $\tilde{H} =H\{ψ_0, \hat{\tau}_{CL}(ψ_0)\}$。与普通似然推断一样,$W_e$ 和 $W_u$ 受到实际限制:$W_e$ 不是重参数化不变的,而 $W_u$ 可能在数值上不稳定。此外,还需要估计可变性和灵敏度矩阵 $H(θ)$ 和 $J(θ)$。虽然有时可以明确地评估它们,但更常见的是使用经验估计。由于 $H(θ)$ 是均值,其经验估计很简单,但 $J(θ)$ 的经验估计需要一些内部复制;见`第 5 节`。 下式的组合似然比统计量似乎更可取, $$ W =2 \left[ c\ell(\hat{\theta}_{CL}; y) − c\ell \{ ψ_0, \hat{\tau}_{CL}(ψ_0); y \} \right] $$ 但它具有非标准渐近分布的缺点: $$ W \stackrel{d} \rightarrow \sum^{q}_{j=1} λ_j Z_j^2 $$ 其中 $Z_1,\ldots ,Z_q$ 是独立的正态变量,$λ_1,\ldots,λ_q$ 是矩阵 $(H^{ψψ})^{−1}G^{ψψ}$ 的特征值。这个结果可以在误差指定似然的一般框架下得出,参见 Kent (1982) [52] 和 White (1994)[116] 的书。 Geys、Molenberghs 和 Ryan (1999)[37] 提出调整后的组合似然比统计量 $W^\prime = W/\bar{\lambda}$ 具有近似的 $\chi_q^2$ 分布,其中 $\bar{\lambda}$ 表示特征值 $λ_j$ 的平均值; Rotnitzky 和 Jewell (1990)[95] 就独立似然提出了这一建议。 $W^\prime$ 的均值与其渐近 $\chi_q^2$ 分布的均值一致,但高阶矩不同。 Satterthwaite (1946) [97] 调整 $W^{′′} = ν W/(q\bar{\lambda})$ 提供了一个更好的解决方案,具有近似 $\chi_ν^2$ 分布,其中重新缩放和有效自由度 $ν =(\sum^{q}_{j=1} λ_j)^2/ \sum^{q}_{j=1} λ_j^2$ 的选择使得 $W^{′ ′}$ 的均值和方差与近似分布的均值和方差一致(Varin (2008) [104];Lindsay、Pilla 和 Basak (2000) [66])。 Chandler 和 Bate (2007) [15] 提出了一种不同类型的独立似然调整:本质上是在关于 $\hat{\theta}_{CL}$ 的 $θ$ 轴上拉伸复合对数似然,以确保至少近似地确保第二 Bartlett 恒等式成立,因此可以使用通常的 $\chi_q^2$ 近似。垂直重新缩放是另一种似然,在 Chandler 和 Bate(2007 年 [15],第 6 节)中进行了简要讨论,并在 Pace、Salvan 和 Sartori(2011 年)[84] 中扩展到组合似然。在标量参数情况下,垂直重新缩放与将复合对数似然比统计量除以 $J^{−1}H$ 效果相同。 二次型的鞍点近似在 Kuonen (1999)[55] 中被推导出来,似乎直接适用于 $W$ ,但我们不知道该应用的详细讨论。 在典型情况下,组合似然函数的计算简单性允许使用参数自举。这具有在非标准设置中也能工作的优点,例如当零假设下的参数位于参数空间的边界时(Bellio 和 Varin(2005)[6])。但其缺点是需要完全指定数据的联合模型,因此失去了模型的鲁棒性。 **(3)模型选择** 用于模型选择的 Akaike (AIC) 和贝叶斯 (BIC) 信息准则的类似物,很容易在组合似然框架中导出。它们具有通常的形式 $AIC = −2c\ell(\hat{\theta}_{CL}; y) + 2 \text{dim}(θ)$ 和 $BIC = −2c\ell( \hat{\theta}_{CL}; y) + \text{dim}(θ) \log n$,其中 $\text{dim}(θ)$ 是一个有效数参数,根据灵敏度矩阵和 Godambe 信息估计:$\text{dim}(θ)= \text{tr} \{ H(θ)G(θ)^{−1}\}$ 。这些信息准则的正式推导可以在 Varin 和 Vidoni (2005) [106] 的复合 AIC 标准以及 Gao 和 Song (2010) [35] 的复合 BIC 标准中找到。 这些标准可用于模型平均(Claeskens 和 Hjort (2008) [16]),或用于收缩方法中调整参数的选择。有关具有复合边缘似然的 Lasso 惩罚的示例,请参见 Gao 和 Song (2010) [35]。 在标准正则性条件下,上一节中的推论直接来自通常的渐近理论。考虑固定 $n$ 且增加 $m$ 的情况也很有趣,如单个 ($n = 1$) 长时间序列或空间数据集的情况。在这种情况下,渐近理论取决于内部复制的可用性:例如,在低阶自回归模型中,单个长序列具有足够的独立性以获得中心极限结果。 Cox 和 Reid (2004)[19] 使用泰勒级数展开,对成对似然的渐近方差及其修改版本进行了处理。由于这些扩展的有效性取决于 $θ$ 的一致性,而这对于 $m \rightarrow \infty$ 一般不成立,因此该论证纯粹是非正式的,需要更严格的处理。 Cox 和 Reid (2004) [19] 还建议,当固定 $n$ 且 $m \rightarrow \infty$ 时,可以在复合对数似然 $\ell_C(θ)=\ell_{pair}(θ) − am\ell_{ind}(θ)$ 中选择 $a \neq 0$ 以确保一致性,但据我们所知,还没有研究过这种策略的例子。 ## 3 应用 ### 3.1 高斯随机场 大型数据集的地统计模型越来越普遍,尤其是在使用遥感等自动收集方法的情况下,用于近似推断的组合似然法非常有吸引力。 地统计学应用中的典型模型是高斯随机场 $Y = \{ Y(c): c \in \mathcal{C} \subset \mathbb{R}^2 \}$,其均值函数 $μ(c)$ 和协方差矩阵 $\Sigma(θ)$ 的元素反映了空间相关性;Cressie (1993) [20] 给出了几个参数空间相关函数的例子。 $θ$ 的经典地统计学估计基于对样本变异函数进行曲线拟合的各种方法 (克里金法,Cressie (1993) [20])。这些方法受到了强烈批评,因为在调整拟合算法时存在相当大的随意性,由此产生的估计量通常效率低下(Diggle 和 Ribeiro(2007 年 [25],第 6.3 节))。最大似然估计会更有效,但需要对协方差矩阵 $\Sigma(θ)$ 求逆,通常计算成本为 $\mathcal{O}(m^3)$。对于许多现代空间或时空数据集来说,这种成本是令人望而却步的。 设 $y_r = y(c_r)$ 是过程 $Y$ 在位置 $c_r$ 的观测值。源于 Besag (1974)[7] 的工作,Vecchia (1988)[110] 提出用复合条件似然来近似完全的似然: $$ L_{CC}(θ; y) = f(y_1; θ) \prod^{m}_{r=2} f(y_r|\mathcal{B}_r; θ) $$ 其中 $\mathcal{B}_r$ 是 $\{y_{r−1},\ldots,y_1\}$ 的一个子集,其选择是为了使 $\mathcal{L}_C$ 的计算可行。Vecchia (1988) [110] 建议将 $\mathcal{B}_r$ 限制为 $y_r$ 的多个邻居。Vecchia 通过对怀俄明州萨拉托加河谷含水层的 $93$ 个观测井的水位空间分析,说明了这种复合条件似然的使用。 Stein、Chi 和 Welty (2004) [100] 进一步发展了 Vecchia 的提议,并用它来逼近有约束似然函数。作者表明,使用观测块代替单个观测可以提高统计效率: $$ L_{CC}(θ; y)=f(z_1; θ) \prod^{B}_{b=2} f(z_b|\mathcal{B}_b^\prime;θ) $$ 其中 $z_1,\ldots,z_B$ 是 $B$ 个数据块,$\mathcal{B}_b^\prime$ 是 $\{z_{b−1},\ldots,z_1\}$ 的一个子集。 Stein、Chi 和 Welty (2004) [100] 使用这种近似有约束似然方法来分析了密歇根湖超过 $13, 000$ 个叶绿素水平测量值的数据集。测量是以一种高度不规则的模式进行的,这给条件集合的选择带来了一些挑战。结果发现,在条件集合中包含一些远距离观测值,可以显著提高组合似然参数估计的效率。 Stein、Chi 和 Welty(2004 年)[100] 以及 Vecchia(1988 年)[110] 的组合似然方法,在使用上的困难主要出现在观测顺序和条件集合 $\mathcal{B}_b$ 和 $\mathcal{B}_b^\prime$ 的选择上。为了克服这种复杂性,在 Caragea 和 Smith(2006 年 [11]、2007 年[12])论文中,提出了 “大块似然” 、“小块似然” 和 “混合似然” 三种不同的似然近似,它们都基于将观测数据分成块。“大块似然” 包含从块均值的联合密度分布中估计 $θ$。“小块似然” 是由每个块中所有观测值的密度乘积形成的复合边缘似然: $$ \mathcal{L}_{MC}(θ; y) = \prod^{B}_{b=1} f(z_b; θ) $$ 其中 $z_1,\ldots,z_B$ 是观测数据中的 $B$ 个数据块。因此,虽然大块似然捕获空间过程的大样本性质,但却忽略了块内依赖性,而小块方法恰恰相反。两者之间的折衷被称为混合方法,该方法使用 “大块似然” 乘以以块均值为条件的 “复合条件似然”(该复合条件似然由块内观测数据的条件密度乘积形成)。效率研究表明,大块方法的性能较差,而小块和混合方法的工作效率相近。 Caragea 和 Smith(2006 年)[11] 说明了后两种方法在美国中南部降雨趋势空间估计方面的良好表现。 关注最大似然估计的一个主要原因是难以检查多元正态性假设,上述这些分块策略也存在同样的困难。相比之下,式 (2.2) 的 `成对似然` 和式 (2.3) 的`成对差异组合似然`,只需要观测数据点对的双变量正态性,这更容易验证。Hjort 和 Omre(1994)[46] 首先建议在地统计模型中推断成对似然,然后由 Nott 和 Ryd en(1999)[80] 进一步开发了图像模型。式 (2.3) 中基于差异的组合似然由 Curriero 和 Lele (1999) [21] 提出,并应用于 Mateu 等 (2007) 的三维地热场温度数据 [73]。 ### 3.2 空间极端事件 危险环境事件的增加导致人们对空间极端事件的统计建模产生了浓厚的兴趣。`最大稳定模型(max-stable models)` 提供了解决该问题的灵活方法,该模型是基于 Smith (1990) [99] 未发表的工作构建的基础高斯随机场获得。尽管这些模型具有吸引人的特性,但由于似然计算的维数诅咒,经典和贝叶斯推断都不切实际,请参见 Davison 和 Gholamrezaee (2009) [23]。目前,仅导出了双变量边缘密度的表达式。因此,在 Davison 和 Gholamrezaee (2009) [23] 以及 Padoan、Ribatet 和 Sisson (2010) [85] 中,`成对似然推断` 自然被认为是普通似然分析的替代品,分别应用于瑞士的最高温度和美国的最大降水量。在这些论文中,计算是使用 Ribatet (2009) [93] 的 R 包 `SpatialExtremes` 进行的,这似乎是第一个实现组合似然法的公开软件。 Smith 和 Stephenson (2009) [98] 采用了一种相关方法,在其中使用 **成对似然** 代替了在最大稳定空间过程中无法进行贝叶斯推断的普通似然,作者通过英格兰西南部年度最大降雨量数据的分析说明了该方法。 ### 3.3 序列相关的随机效应 在纵向和面板研究中,随机效应模型是对未观测到的异质性进行建模的流行选择。在这些模型中,结果被建模为以特定于主题的随机效应为条件的独立变量,通常假设所有测量都是恒定的。在大多数情况下,后一种假设可能并不现实:更好的模型还应该考虑特定主题测量中可能存在的序列依赖性。 考虑在对象 $i=1, \ldots, n$ 处的 $r=1, \ldots, m_i$ 个时刻观测到的纵向计数 $Y_{i r}$。这种类型的数据可以自然地建模为条件独立的泊松变量: $$ Y_{i r} \mid U_i \sim \operatorname{Po}\left\{U_i \exp \left(x_{i r}^{\mathrm{T}} \beta\right)\right\} $$ 其中 $U_i$ 是随机效应,$x_{ir}$ 是协变量向量,$\beta$ 是未知回归系数。一个常见假设是 $U_1、\ldots、U_n$ 是具有单位均值的独立 Gamma 变量。因此,$Y_{ir}$ 的边缘分布是负二项分布。为了说明序列相关性,Henderson 和 Shimakura (2003) [45] 建议通过假设每次测量具有不同的 Gamma 分布随机效应 $U_{\text {ir }}$ 来扩展上述模型, $$ Y_{i r} \mid U_{i r} \sim \operatorname{Po}\left\{U_{i r} \exp \left(x_{i r}^{\mathrm{T}} \beta\right)\right\} $$ 同时指定 $U_{ir}$ 的联合分布来描述序列依赖。例如,Henderson 和 Shimakura (2003)[45] 提出了自回归依赖类型: $$ \operatorname{cor}\left(U_{i r}, U_{j s}\right)= \begin{cases}\rho^{|r-s|} & \text { if } i=j \\ 0 & \text { if } i \neq j .\end{cases} $$ 不幸的是,上述公式的更高模型灵活性是以计算复杂性为代价的。似然函数涉及多项随序列长度 $m_i$ 呈指数增长的项。除了低维度,似然计算不切实际。因此,Henderson 和 Shimakura (2003) [45] 提出推断应基于成对似然: $$ \mathcal{L}_{\text {pair }}(\theta ; y)=\prod_{i=1}^n \frac{1}{m_i-1} \prod_{r=1}^{m_i-1} \prod_{s=r+1}^{m_i} f\left(y_{i r}, y_{i s} ; \theta\right) $$ 正如 LeCessie 和 van Houwelingen (1994) [57] 所建议的那样,权重 $1 /(m_i-1)$ 用于匹配独立情况下的普通似然。 Henderson 和 Shimakura (2003) [45] 通过对一项临床试验的分析说明了上述模型的成对似然推断,该临床试验分析了腹部手术后医院患者在连续时间间隔内服用镇痛剂的剂量。 Fiocco、Putter 和 van Houwelingen (2009) [33] 进一步发展了 Henderson 和 Shimakura (2003) 的工作,他们修改了自回归 Gamma 过程 $U_{ir}$ 以在涉及大量计数时增强数值稳定性。他们进一步建议采用 two-step 组合似然分析,其中首先根据独立似然估计回归和过度离散参数,然后从成对似然中分别获得相关参数。在他们的模拟研究中,Fiocco、Putter 和 van Houwelingen (2009) [33] 发现这种两步法在从成对似然联合估计所有参数方面几乎没有效率损失,并将这种方法用于元分析研究生存曲线。 Henderson 和 Shimakura (2003) [45] 以及 Fiocco、Putter 和 van Houwelingen (2009) [33] 的动机是 Varin 和 Czado (2010) [105] 工作的基础,他们提出了一个用于定序数据和二值纵向输出的自回归混合概率模型。响应 $Y_{ir}$ 被视为连续未观测变量 $Y_{ir}^*$ 的截尾版本, $$ Y_{i r}=y_{i r} \quad \leftrightarrow \quad \alpha_{y_{i r}-1}- [1] Andersen, E. (2004). Composite likelihood and two-stage estimation in family studies. Biostatistics 5, 15-30.
- [2] Andrieu, C., Doucet, A. and Tadic, V. (2005). On-line parameter estimation in general statespace models. In 44th Conference on Decision and Control, 332-337.
- [3] Apanasovich, T., Ruppert, D., Lupton, J., Popovic, N. and Carroll, R. (2008). Aberrant crypt foci and semiparametric modeling of correlated binary data. Biometrics 64, 490-500.
- [4] Arnold, B., Castillo, E. and Sarabia, J. (2001). Conditionally specified distributions: An introduction. Statist. Sci. 16, 249-274.
- [5] Barry, S. and Bowman, A. (2008). Linear mixed models for longitudinal shape data with applications to facial modelling. Biostatistics 9, 555-565.
- [6] Bellio, R. and Varin, C. (2005). A pairwise likelihood approach to generalized linear models with crossed random effects. Stat. Model. 5, 217-227.
- [7] Besag, J. (1974). Spatial interaction and the statistical analysis of lattice systems. J. Roy. Statist. Soc. Ser. B 36, 192-236.
- [8] Besag, J. (1975). Statistical analysis of non-lattice data. Statistician 24, 179-195.
- [9] Bhat, C. R., Sener, P. N. and Eluru, N. (2010). A flexible spatially dependent discrete choice model: Formulation and application to teenagers’ weekday recreational activity participation. Transportation Research Part B 44, 903-921.
- [10] Bhat, C. R., Varin, C. and Ferdous, N. (2010). A comparison of the maximum simulated likelihood and composite marginal likelihood estimation approaches in the context of the multivariate ordered response model. Advances in Econometrics: Maximum Simulated Likelihood Methods and Applications 26, (Edited by W. H. Greene). Emerald Group Publishing Limited.
- [11] Caragea, P. and Smith, R. L. (2006). Approximate likelihoods for spatial processes. Preprint.
- [12] Caragea, P. and Smith, R. L. (2007). Asymptotic properties of computationally efficient alternative estimators for a class of multivariate normal models. J. Multivariate Anal. 98, 1417-1440.
- [13] Carey, V., Zeger, S. and Diggle, P. (2003). Modelling multivariate binary data with alternating logistic regressions. Biometrika 80, 517-526.
- [14] Castro, R., Coates, M., Liang, G., Nowak, R. and Yu, B. (2004). Network tomography: recent developments. Statist. Sci. 19, 499-517.
- [15] Chandler, R. E. and Bate, S. (2007). Inference for clustered data using the independence loglikelihood. Biometrika 94, 167-183.
- [16] Claeskens, G. and Hjort, N. (2008). Model Selection and Model Averaging, Cambridge University Press, Cambridge.
- [17] Cox, D. (1975). Partial likelihood. Biometrika 62, 269-276.
- [18] Cox, D. R. (1972). The analysis of multivariate binary data. Appl. Statist. 21, 113-120.
- [19] Cox, D. and Reid, N. (2004). A note on pseudolikelihood constructed from marginal densities. Biometrika 91, 729-737.
- [20] Cressie, N. (1993). Statistics for Spatial Data, Wiley, New York.
- [21] Curriero, F. and Lele, S. (1999). A composite likelihood approach to semivariogram estimation. J. Agric. Biol. Environ. Stat. 4, 9-28.
- [22] Davis, R. A. and Yau, C. Y. (2011). Comments on pairwise likelihood in time series models. Statist. Sinica 21, 255-277.
- [23] Davison, A. and Gholamrezaee, M. (2009). Geostatistics of extremes. Technical report, EPFL. Preprint.
- [24] Dempster, A., Laird, N. and Rubin, D. (1977). Maximum likelihood from incomplete data via the EM algorithm. J. Roy. Statist. Soc. Ser. B 39, 1-22.
- [25] Diggle, P. and Ribeiro, P. (2007). Model-based Geostatistics. Springer, New York.
- [26] Engle, R. F., Shephard, N. and Sheppard, K. (2009). Fitting and testing vast dimensional time-varying covariance models. Preprint.
- [27] Faes, C., Aerts, M., Molenberghs, G., Geys, H., Teuns, G. and Bijnens, L. (2008). A highdimensional joint model for longitudinal outcomes of different nature. Statist. Medicine 27, 4408-4427.
- [28] Feddag, M.-L. and Bacci, S. (2009). Pairwise likelihood for the longitudinal mixed Rasch model. Comput. Statist. Data Anal. 53, 1027-1037.
- [29] Fieuws, S. and Verbeke, G. (2006). Pairwise fitting of mixed models for the joint modeling of multivariate longitudinal profiles. Biometrics 62, 424-431.
- [30] Fieuws, S., Verbeke, G., Boen, G. and Delecluse, C. (2006). High dimensional multivariate mixed models for binary questionnaire data. Appl. Statist. 55, 449-460.
- [31] Fieuws, S., Verbeke, G., Maes, B. and Vanrenterghem, Y. (2007). Predicting renal graft failure using multivariate longitudinal profiles. Biostatistics 9, 419-431.
- [32] Fieuws, S., Verbeke, G. and Molenberghs, G. (2007). Random-effects models for multivariate repeated measures. Statist. Meth. Medical Res. 16, 387-397.
- [33] Fiocco, M., Putter, H. and van Houwelingen, J. C. (2009). A new serially correlated gammafrailty process for longitudinal count data. Biostatistics 10, 245-257.
- [34] Fujii, Y. and Yanagimoto, T. (2005). Pairwise conditional score functions: a generalization of the Mantel-Haenszel estimator. J. Statist. Plann. Inference 128, 1-12.
- [35] Gao, X. and Song, P. X.-K. (2010). Composite likelihood Bayesian information criteria for model selection in high dimensional data. J. Amer. Statist. Assoc., to appear.
- [36] Gao, X. and Song, P. X.-K. (2011). Composite likelihood EM algorithm with applications to multivariate hidden Markov model. Statist. Sinica 21, 165-185.
- [37] Geys, H., Molenberghs, G. and Ryan, L. (1999). Pseudolikelihood modeling of multivariate outcomes in developmental toxicology. J. Amer. Statist. Assoc. 94, 734-745.
- [38] Geys, H., Regan, M., Catalano, P. and Molenberghs, G. (2001). Two latent variable risk assessment approaches for mixed continuous and discrete outcomes from developmental toxicity data. J. Agric. Biol. Environ. Stat. 6, 340-355.
- [39] Glasbey, C. (2001). Non-linear autoregressive time series with multivariate Gaussian mixtures as marginal distributions. Appl. Statist. 50, 143-154.
- [40] Godambe, V. (1960). An optimum property of regular maximum likelihood estimation. Ann. Math. Statist. 31, 1208-1211.
- [41] Guan, Y. (2006). A composite likelihood approach in fitting spatial point process models. J. Amer. Statist. Assoc. 101, 1502-1512.
- [42] Hanfelt, J. (2004). Composite conditional likelihood for sparse clustered data. J. Roy. Statist. Soc. Ser. B 66, 259-273.
- [43] He, W. and Yi, G. Y. (2011). A pairwise likelihood method for correlated binary data with/ without missing observations under generalized partially linear single-index models. Statist. Sinica 21, 207-229.
- [44] Heagerty, P. and Lele, S. (1998). A composite likelihood approach to binary spatial data. J. Amer. Statist. Assoc. 93, 1099-1111.
- [45] Henderson, R. and Shimakura, S. (2003). A serially correlated gamma frailty model for longitudinal count data. Biometrika 90, 335-366.
- [46] Hjort, N. and Omre, H. (1994). Topics in spatial statistics (with discussion, comments and rejoinder). Scand. J. Statist. 21, 289-357.
- [47] Hjort, N. and Varin, C. (2008). ML, PL, QL in Markov chain models. Scand. J. Statist. 35, 64-82.
- [48] Joe, H. (1997) , Multivariate Models and Multivariate Dependence Concepts, Chapman & Hall, London.
- [49] Joe, H. and Lee, Y. (2009). On weighting of bivariate margins in pairwise likelihood. J. Multivariate Anal. 100, 670-685.
- [50] Kalbfleisch, J. (1978). Likelihood methods and nonparametric tests. J. Amer. Statist. Assoc. 73, 167-170.
- [51] Kalbfleisch, J. D., Song, P. X.-K. and Fan, Y. (2005). Maximization by parts in likelihood inference. J. Amer. Statist. Assoc. 100, 1145-1158.
- [52] Kent, J. (1982). Robust properties of likelihood ratio tests. Biometrika 69, 19-27.
- [53] Kuk, A. (2007). A hybrid pairwise likelihood method. Biometrika 94, 939-952.
- [54] Kuk, A. and Nott, D. (2000). A pairwise likelihood approach to analyzing correlated binary data. Statist. Probab. Lett. 47, 329-335.
- [55] Kuonen, D. (1999). Saddlepoint approximations for distributions of quadratic forms in normal variables. Biometrika 86, 929-935.
- [56] Larribe, F. and Fearnhead, P. (2011). On composite likelihoods in statistical genetics. Statist. Sinica 21, 43-69.
- [57] LeCessie, S. and van Houwelingen, J. C. (1994). Logistic regression for correlated binary data. Appl. Statist. 43, 95-108.
- [58] Lele, S. (2006). Sampling variability and estimates of density dependence: a compositelikelihood approach. Ecology 87, 189-202.
- [59] Lele, S. and Taper, M. (2002). A composite likelihood approach to (co)variance components estimation. J. Statist. Plann. Inference 103, 117-135.
- [60] Liang, K.-Y. (1987). Extended Mantel-Haenszel estimating procedure for multivariate logistic regression models. Biometrics 43, 289-299.
- [61] Liang, K.-Y. and Qin, J. (2000). Regression analysis under non-standard situations: a pairwise pseudolikelihood approach. J. Roy. Statist. Soc. Ser. B 62, 773-786.
- [62] Liang, G. and Yu, B. (2003). Maximum pseudo likelihood estimation in network tomography. IEEE Trans. Signal Process. 51, 2043-2053.
- [63] Liang, K.-Y. and Zeger, S. (1986). Longitudinal data analysis using generalized linear models. Biometrika 73, 13-22.
- [64] Lindsay, B. G. (1982). Conditional score functions: some optimality results. Biometrika 69, 503-512.
- [65] Lindsay, B. (1988). Composite likelihood methods. Contemporary Mathematics 80, 220-239.
- [66] Lindsay, B. G., Pilla, R. S. and Basak, P. (2000). Moment-based approximations of distributions using mixtures: theory and application. Ann. Inst. Statist. Math. 52, 215-230.
- [67] Lindsay, B. G., Yi, G. Y. and Sun, J. (2011). Issues and strategies in the selection of composite likelihoods. Statist. Sinica 21, 71-105.
- [68] Lipsitz, S., Dear, K. and Zhao, L. (1994). Jackknife estimators of variance for parameter estimates from estimating equations with applications to clustered survival data. Biometrics 50, 842-846.
- [69] Lumley, T. and Heagerty, P. (1999). Weighted empirical adaptive variance estimators for correlated data regression. J. Roy. Statist. Soc. Ser. B 61, 459-477.
- [70] Mardia, K. V., Hughes, G. and Taylor, C. C. (2007). Efficiency of the pseudolikelihood for multivariate normal and von mises distributions. Preprint.
- [71] Mardia, K. V., Hughes, G., Taylor, C. C. and Singh, H. (2008). A multivariate von Mises distribution with applications to bioinformatics. Canadian Journal of Statistics 36, 99109.
- [72] Mardia, K. V., Kent, J. T., Hughes, G. and Taylor, C. C. (2009). Maximum likelihood estimation using composite likelihoods for closed exponential families. Biometrika 96, 975-982.
- [73] Mateu, J., Porcu, E., Christakos, G. and Bevilacqua, M. (2007). Fitting negative spatial covariances to geothermal field temperatures in Nea Kessani (Greece). Environmetrics 18, 759-773.
- [74] McCullagh, P. (1983). Quasi-likelihood functions. Ann. Statist. 11, 59-67.
- [75] McFadden, D. and Train, K. (2000). Mixed MNL models for discrete responses. J. Appl. Econometrics 15, 447-470.
- [76] McLachlan, G. and Krishnan, T. (2008). The EM Algorithm and Extensions. Second Edition, Wiley, Hoboken, New Jersey.
- [77] Molenberghs, G., Kenward, M. G., Verbeke, G. and Birhanu, T. (2011). Pseudo-likelihood for incomplete data. Statist. Sinica 21, 187-206.
- [78] Molenberghs, G. and Verbeke, G. (2005). Models for Discrete Longitudinal Data. Springer, New York.
- [79] Ng, C. T., Joe, H., Karlis, D. and Liu, J. (2011). Composite likelihood for time series models with a latent autoregressive process. Statist. Sinica 21, 279-305.
- [80] Nott, D. and Ryd ́en, T. (1999). Pairwise likelihood methods for inference in image models. Biometrika 86, 661-676.
- [81] Okabayashi, S., Johnson, L. and Geyer, C. J. (2011). Extending pseudo-likelihood for Potts models. Statist. Sinica 21, 331-347.
- [82] Oliveira, V. D. (2004). A simple model for spatial rainfall fields. Stochastic Environmental Research and Risk Assessment 18, 131-140.
- [83] Oman, S., Landsman, V., Carmel, Y. and Kadmon, R. (2007). Analyzing spatially distributed binary data using independent-block estimating equations. Biometrics 63, 892-890.
- [84] Pace, L., Salvan, A. and Sartori, N. (2011). Adjusting composite likelihood ratio statistics. Statist. Sinica 21, 129-148.
- [85] Padoan, S., Ribatet, M. and Sisson, S. (2010). Likelihood-based inference for max-stable processes. J. Amer. Statist. Assoc. 105, 263-277.
- [86] Pakel, C., Shephard, N. and Sheppard, K. (2011). Nuisance parameters, composite likelihoods and a panel of GARCH models. Statist. Sinica 21, 307-329.
- [87] Parzen, M., Lipsitz, S., Fitzmaurice, G., Ibrahim, J. and Troxel, A. (2006). Pseudo-likelihood methods for longitudinal binary data with non-ignorable missing responses and covariates. Statist. Medicine 25, 2784-2796.
- [88] Parzen, M., Lipsitz, S., Fitzmaurice, G., Ibrahim, J., Troxel, A. and Molenberghs, G. (2007). Pseudo-likelihood methods for the analysis of longitudinal binary data subject to nonignorable non-monotone missingness. J. Data Sci. 5, 1-21.
- [89] Pauli, F., Racugno, W. and Ventura, L. (2011). Bayesian composite marginal likelihoods. Statist. Sinica 21, 149-164.
- [90] R Development Core Team (2009), R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0. http:// www.R-project.org.
- [91] Renard, D., Geys, H., Molenberghs, G., Burzykowski, T. and Buyse, M. (2002). Validation of surrogate endpoints in multiple randomized clinical trials with discrete outcomes. Biometrical J. 8, 921-935.
- [92] Renard, D., Molenberghs, G. and Geys, H. (2004). A pairwise likelihood approach to estimation in multilevel probit models. Comput. Statist. Data Anal. 44, 649-667.
- [93] Ribatet, M. (2009). A User’s Guide to the SpatialExtremes Package. EPFL, Lausanne, Switzerland.
- [94] Robins, J. (1995). Analysis of semiparametric regression models for repeated outcomes in the presence of missing data. J. Amer. Statist. Assoc. 90, 106-121.
- [95] Rotnitzky, A. and Jewell, N. (1990). Hypothesis testing of regression parameters in semiparametric generalized linear models for cluster correlated data. Biometrika 77, 485-497.
- [96] Ryden, T. (1994). Consistent and asymptotically normal parameter estimates for hidden Markov models. Ann. Statist. 22, 1884-1895.
- [97] Satterthwaite, F. E. (1946). An approximate distribution of estimates of variance components. Biometrics Bulletin 2, 110-114.
- [98] Smith, E. and Stephenson, A. (2009). An extended Gaussian max-stable process model for spatial extremes. J. Statist. Plann. Inference 139, 1266-1275.
- [99] Smith, R. (1990). Max-stable processes and spatial extremes. Unpublished.
- [100] Stein, M., Chi, Z. and Welty, L. (2004). Approximating likelihoods for large spatial data sets. J. Roy. Statist. Soc. Ser. B 66, 275-296.
- [101] Tibaldi, F., Molenberghs, G., Burzykowski, T. and Geys, H. (2004). Pseudo-likelihood estimation for a marginal multivariate survival model. Statist. Medicine 23, 924-963.
- [102] Troxel, A., Lipsitz, S. and Harrington, D. (2003). Marginal models for the analysis of longitudinal measurements with nonignorable non-monotone missing data. Biometrika 85, 661-672.
- [103] Vandekerkhove, P. (2005). Consistent and asymptotically normal parameter estimates for hidden Markov mixtures of Markov models. Bernoulli 11, 103-129.
- [104] Varin, C. (2008). On composite marginal likelihoods. Adv. Statist. Anal. 92, 1-28.
- [105] Varin, C. and Czado, C. (2010). A mixed autoregressive probit model for ordinal longitudinal data. Biostatistics 11, 127-138.
- [106] Varin, C., Høst, G. and Skare, Ø. (2005). Pairwise likelihood inference in spatial generalized linear mixed models. Comput. Statist. Data Anal. 49, 1173-1191.
- [107] Varin, C. and Vidoni, P. (2005). A note on composite likelihood inference and model selection. Biometrika 92, 519-528.
- [108] Varin, C. and Vidoni, P. (2006). Pairwise likelihood inference for ordinal categorical time series. Comput. Statist. Data Anal. 51, 2365-2373.
- [109] Varin, C. and Vidoni, P. (2009). Pairwise likelihood inference for general state space models. Econometric Rev. 28, 170-185.
- [110] Vecchia, A. V. (1988). Estimation and model identification for continuous spatial processes. J. Roy. Statist. Soc. Ser. B 50, 297-312.
- [111] Wang, M. and Williamson, J. M. (2005). Generalization of the Mantel-Haenszel estimating function for sparse clustered binary data. Biometrics 61, 973-981.
- [112] Wang, Y. and Ip, E. (2008). Conditionally specified continuous distributions. Biometrika 95, 735-746.
- [113] Wedderburn, R. (1974). Quasi-likelihood functions, generalized linear models, and the GaussNewton method. Biometrika 61, 439-447.
- [114] Wellner, J. A. and Zhang, Y. (2000). Two estimators of the mean of a counting process with panel count data. Ann. Statist. 28, 779-814.
- [115] Wellner, J. A. and Zhang, Y. (2007). Two likelihood-based semiparametric estimation methods for panel count data with covariates. Ann. Statist. 35, 2106-2142.
- [116] White, H. (1994). Estimation, Inference and Specification Analysis. Cambridge University Press, Cambridge.
- [117] Yi, G. Y., Zeng, L. and Cook, R. J. (2009). A robust pairwise likelihood method for incomplete longitudinal binary data arising in clusters. Canad. J. Statist., to appear.
- [118] Zhao, H. and Ma, W.-Q. (2009). A pairwise likelihood procedure for analyzing exchangeable binary data with random cluster sizes. Comm. Statist. Theory Methods 38, 594-606.
- [119] Zhao, L. P. and Prenctice, R. L. (1990). Correlated binary regression using a quadratic exponential model. Biometrika 77, 642-648.
- [120] Zhao, Y. and Joe, H. (2005). Composite likelihood estimation in multivariate data analysis. Canad. J. Statist. 33, 335-356.
- [121] Zi, J. (2009). On some aspects of composite likelihood. PhD dissertation, University of Toronto.
- [122] Zidek, J. V. and Hu, F. (1997). The asymptotic properties of the maximum-relevance weighted likelihood estimators. Canad. J. Statist. 25, 45-59.