似然函数与基于似然的推断

【摘要】描述了似然函数在贝叶斯和非贝叶斯推断中的重要作用。回顾了将基于似然的方法扩展到更复杂问题设置时相关的几个主题，包括几类比较著名的似然扩展：剖面似然、组合似然（伪似然）、准似然、半参数和非参数似然、经验似然等。

【原文】 Reid, N. (2010) ‘Likelihood inference: Likelihood inference’, Wiley Interdisciplinary Reviews: Computational Statistics, 2(5), pp. 517–525. Available at: https://doi.org/10.1002/wics.110.

1 介绍

参数模型的似然（也称似然函数） $\mathcal{L}(\theta;y)$ 正比于模型的概率密度函数 $f(y;\theta)$ 。在观测数据 $y$ 不变的情况下，似然被视为模型参数的函数。在机器学习应用中（此类应用中，对新实例的预测通常比对模型参数推断更重要），似然的对数负值（即对数似然，log likelihood）常被用于构造有用的损失函数。

似然函数已被证明是一种强大的推断工具，并被成功扩展和推广至 半参数模型 和 非参数模型，人们也已经为更复杂的模型提出了各种 伪似然函数。

本文将回顾为分析大型或复杂数据集而开发的似然函数、基于似然的推断以及它们的一些扩展。

2 概念和例子

2.1 似然函数

我们从给定的参数模型 $f(y; \boldsymbol{\theta})$ 开始，该模型是随机变量 $Y$ 的概率密度函数。我们假设 $\boldsymbol{y}$ 是由 $n$ 个分量 $y_1, ..., y_n, y_i \in \mathbb{R}$ 组成的观测向量， $\boldsymbol{\theta} \in \Omega$ 为模型的参数。在常规统计模型中， $\Omega$ 通常被认为是 $\mathbb{R}^d$ 或 $\mathbb{R}^d$ 的子集， $d$ 为模型参数的数量。当观测 $\boldsymbol{y}$ 固定时，该（参数）模型的似然函数被视为模型参数 $\boldsymbol{\theta}$ 的函数：

\mathcal{L}(\boldsymbol{\theta}; \boldsymbol{y}) = c(y) f(y;\boldsymbol{\theta}) \propto f(y;\boldsymbol{\theta}) \tag{1}

有一些作者会定义没有函数 $c(y)$ 的似然，但将其显式表达出来，有助于理解似然函数与模型概率密度函数之间的正比关系，同时也可以表明， 不同似然值之间仅存在相对比较意义。

通常来说，使用对数似然函数会比直接使用似然函数更方便，在计算上也更稳定：

\ell(\boldsymbol{\theta}; y) = a(y) + \log f (y; \boldsymbol{\theta}) \tag{2}

当 $\boldsymbol{y}$ 的各分量独立时，即观测满足独立同分布假设，对数似然函数会特别有用。

【示例 1】：高斯似然函数、线性回归似然函数与样条似然函数

若 $Y = (Y_1, \ldots, Y_n)$ 中的随机变量之间相互独立，且都服从正态同分布，均值为 $μ$ ，方差为 $\sigma^2$ ，则 $y_i$ 可以被视为分别抽取自 $Y_i$ 的样本，此时的对数似然可以分解为每个样本的对数似然之和：

\ell(\boldsymbol{\theta}; \boldsymbol{y}) = − \frac{n}{2}\log \sigma^2 − \frac{1}{2\sigma^2} \sum (y_i − μ)^2

其中 $\boldsymbol{\theta} = (μ, \sigma^2)$ , $\Omega = \mathbb{R} \times \mathbb{R}^+$ , 根据 定义 (2)，我们可以忽略正态密度函数中的常数项 $−(n/2) \log (2π)$ 。

上例可以通过多种方式推广，例如，我们可以假设 $Y_i$ 之间独立但分布不同（如不同均值，相同方差）， $Y_i$ 的均值为 $\mu_i$ ，且 $\mu_i = x_i^T \beta$ ，其中 $x_i$ 是与 $Y_i$ 相关联的 $q × 1$ 协变量向量，那么我们就扩展得到了一个标准的线性回归模型，其对数似然函数为：

\ell(\boldsymbol{\theta}; \boldsymbol{y,x}) =− \frac{n}{2} \log \sigma^2 − \frac{1}{2\sigma^2} \sum (y_i − x_i^T\beta)^2

此时，模型参数由协变量系数 $\boldsymbol{\beta}$ 和方差 $\sigma^2$ 组成： $\boldsymbol{\theta} = (\boldsymbol{\beta}, \sigma^2)$ 。

上述简单回归模型可以进一步作出扩展，对其均值作出某种适当约束。例如，其中一类重要扩展将均值拟合为协变量的某种 “平滑函数” 形式，（平滑函数意味着相邻的 $Y$ 之间可能存在某种强制性的约束）：

y_i = m(x_i) + \epsilon_i

在实际应用中，构造平滑函数的方式很多，其中最常用的一种方式是用一组基函数来对函数建模。例如，对于单个协变量 ( $q = 1$ )，可以将平滑函数写成若干基函数 $B_j(·)$ 的形式：

m(x) = \sum^J_{j=1} φ_jB_j(x) \tag{3}

上式中，基函数 $B_j$ 和其数量 $J$ 都需要提前指定，其中基函数 $B_j$ 的一个流行选择是 B 样条 基函数集；其他方案还可以有正弦函数、余弦函数、小波基等。

对于多个协变量（即 $q > 1$ ）的情况，一种流行做法分别使用 $q$ 个不同的平滑函数对均值建模，并被称为加法模型。当 $q$ 值较小时（通常最多采用 $3$ ，如时空索引数据），也可以使用 $2$ 维或 $3$ 维样条基函数，例如薄板样条。一个很好的参考是 Wood ^[1]。

【示例 2】：多项分布的似然函数

假设每个 $y_i$ 本身是一个长度为 $k$ 的向量，并且当第 $i$ 个数据点属于 $c$ 类，观测值向量 $y_i$ 的第 $c$ 个元素值为 $1$ ，其他位置的元素值为 $0$ （即 $y_i$ 是一个独热向量），此时的模型是一个离散型的多项分布。

来自多项分布的 $n$ 个样本具有如下对数似然：

\ell(\boldsymbol{\theta}; \boldsymbol{y}) = \sum^n_{i=1} \sum^k_{c=1} y_{ic} \log (p_c)

其中 $0 ≤ p_c ≤ 1$ ， $\sum_c p_c = 1$ ，并且 $\sum_{ic} y_{ic} = n$ 。

在机器学习领域中，这个对数似然对应于分类任务中的负交叉熵函数，参见参考文献 ^[2] （第 7 章）。与 示例 1 一样，我们可以通过引入一些协变量 $x$ 、未知参数 $β$ 或平滑函数 $m(·)$ 来对概率向量 $p$ 建模。

【示例 3】：马尔可夫随机序列的似然函数

如果序列 $y = (y_1, ..., y_n)$ 是按时间顺序观测的，则 $y$ 的完整模型可以写成条件密度的乘积：

f(y_1, \ldots, y_n) = f(y_1) \cdot f(y_2 | y_1) \ldots f(y_n | y_{n−1}, \ldots, y_1)

此时，如果我们假设存在一个马尔可夫结构，那么上述概率密度可以简化为：

f (y_1, ..., y_n) = f(y_1) \prod^n_{i=2} f(y_i | y_{i−1})

未知的参数向量 $\boldsymbol{\theta}$ 可以作为公式中条件密度建模的组成部分。例如，我们可以考虑将条件密度建模为 $y_i = (1 − ρ)μ + ρ y_{i−1} + \epsilon_i$ ，其中 $\epsilon_i$ 相互独立，显然此时对应于一个一阶自回归模型；此时，我们可以通过假设 $\epsilon$ 和初值 $y_0$ 的分布（如高斯分布）来完全指定整个序列的似然，当然也可以像 示例 1 一样，引入协变量 $x_i$ 及其相关参数进行进一步扩展。

【示例 4】：计数模型的似然函数

随时间演化的 非齐次泊松过程 的对数似然函数由下式给出（ $0< y_1 < \ldots < y_n$ ）：

\ell(\boldsymbol{\theta},\boldsymbol{y}) = \sum^n_{i=1} \log \{λ(y_i)\} − \int^\infty_0 λ(u) du \tag{4}

其中 $λ(·)$ 是过程的速率函数，事件在时间 $y_1, ..., y_n$ 被观测到。通过为速率函数指定参数形式，例如 $λ(t) = λ$ , 或 $λ(t) = \exp \{x(t)^T β\}$ ，将参数 $\boldsymbol{\theta}$ 引入对数似然函数。

此公式可以进一步扩展，例如，对于在空间而不是时间中测量的数据，在式 (4) 可以变为：

\ell(\boldsymbol{\theta},\boldsymbol{y}) = \sum^n_{i=1} \log \{λ(y_i)\} − \Lambda(\mathcal{S})

其中 $(y_1, ..., y_n)$ 现在在集合 $\mathcal{S}$ 中取值，例如空间区域中的一组经纬度点，并且 $\Lambda(\mathcal{S}) = \int_{\mathcal{S}} λ(s)ds$ 。

2.2 似然的派生量

有时，人们并不直接使用似然做参数推断，而是使用一些似然的派生量来做参数推断。例如，

（1）得分函数

在常规模型中，得分函数 $\ell^\prime (\boldsymbol{\theta}) = \partial \ell(\boldsymbol{\theta};\boldsymbol{y})/\partial \boldsymbol{\theta}$ 常被用于获得最大似然估计，只需其满足：

\ell^\prime (\hat{\boldsymbol{\theta}}; \boldsymbol{y}) = 0

（2）Fisher 信息函数

对数似然负的二阶导数被称为 Fisher 信息函数，观测数据的 Fisher 信息和 Fisher 信息的期望（也被称为 Fisher 信息量）分别为：

J(\hat{\theta}) = -\left.\frac{\partial^2 \ell(\boldsymbol{\theta}; y)}{\partial \boldsymbol{\theta} \partial {\boldsymbol{\theta}}^T}\right|_{\boldsymbol{\theta} = \hat{\boldsymbol{\theta}}}\\

I(\boldsymbol{\theta}) = \mathbb{E} \left\{-\frac{\partial^2 \ell(\boldsymbol{\theta}; y)}{\partial {\boldsymbol{\theta}} \partial {\boldsymbol{\theta}}^T}\right\}

其中期望是关于数据分布 $\boldsymbol{y}=\left(y_1, \ldots, y_n\right)$ 的。

Fisher 信息量是单次观测所能提供的关于未知参数 $θ$ 的信息量期望值的度量，定义为

I(\boldsymbol{\theta}) = \mathbb{E} \left\{-\frac{\partial^2 \ell(\boldsymbol{\theta}; y)}{\partial {\boldsymbol{\theta}} \partial {\boldsymbol{\theta}}^T}\right\}

其中 $\ell(\boldsymbol{\theta};y)$ 是对数似然函数，正比于总体的概率函数 $p(y; \boldsymbol{\theta})$ 。

Fisher 信息量 $I(\boldsymbol{\theta})$ 具有如下性质：
（1）非负性： $I(\boldsymbol{\theta})≥0$ ，当且仅当 $p(y; \boldsymbol{\theta})$ 不依赖于 $\boldsymbol{\theta}$ ，才有 $I(\boldsymbol{\theta})=0$ ；
（2）可加性： $n$ 次的独立重复观测（即来自总体的简单随机样本 $(Y_1，Y_2，\ldots,Y_n)$ ）所能提供的关于 $\boldsymbol{\theta}$ 的总信息量期望值为 $nI(\boldsymbol{\theta})$ 。

例如：

对于正态总体 $Y \sim \mathcal{N}(μ，σ^2)$ ；有 $I(μ)=1/σ^2$ ， $I(σ^2)=1/(2σ^4)$ 。
对于泊松总体 $Y \sim \text{Possoin}(\lambda)$ ，有 $I(λ)=1/λ$ 。

（3）分块形式

在某些模型中，人们仅对模型参数 $\boldsymbol{\theta}$ 的部分分量直接感兴趣，而并不关心其他的分量，此时通常记为 $\boldsymbol{\theta}=(\psi, \lambda)$ ，其中 $\psi$ 是感兴趣参数。此时天然地将 Fisher 信息量 $J(\boldsymbol{\theta})$ 和 $I(\boldsymbol{\theta})$ 进行了分块：

I(\theta)=\left(\begin{array}{cc} I_{\psi \psi}(\theta) & I_{\psi \lambda}(\theta) \\ I_{\lambda \psi}(\theta) & I_{\lambda \lambda}(\theta) \end{array}\right) .

Fisher ^[3] 、Edwards ^[4] 和 Azzalini ^[5] 对似然函数的定义及其在推断中的使用进行了一般性介绍。 Davison ^[6] （第 4 章和第 6 章）、Cox 和 Hinkley ^[7] （第 4 章）、Barndorff-Nielsen 和 Cox ^[8] 讨论了大量相关且有趣的模型。上面的 示例 4 是从 Davison ^[6] 的工作中提取的（第 6.5 章，其中提供了其他几个示例）。

3 基于似然的推断

3.1 频率派推断方法

在相当广泛的普遍性中，可以得出以下收敛结果：

\begin{align*} \ell^{\prime}(\theta)^T\{j(\hat{\theta})\}^{-1} \ell^{\prime}(\theta) & \stackrel{\mathcal{L}}{\rightarrow} & \chi_d^2 \tag{5}\\ (\hat{\theta}-\theta)^T j(\hat{\theta})(\hat{\theta}-\theta) & \stackrel{\mathcal{L}}{\rightarrow} & \chi_d^2 \tag{6}\\ 2\{\ell(\hat{\theta})-\ell(\theta)\} & \stackrel{\mathcal{L}}{\rightarrow} & \chi_d^2 \tag{7} \end{align*}

其中取 $y$ 的维数 $n$ 的极限，趋近于 $\infty$ ^[1]。在式 (5) - 式(7)中， $\chi_d^2$ 为 $d$ 自由度上的卡方分布，其中 $d$ 为模型参数 $\boldsymbol{\theta}$ 的维数。

获得此渐进结果的条件是：中心极限定理可被用于 $\ell^\prime (\boldsymbol{\theta; y})$ ，如果 $\boldsymbol{y}$ 的各分量之间相互独立，则得分函数也可分解为 $n$ 个似然分量的总和。此外，最大似然估计 $\hat{\boldsymbol{\theta}}$ 需要（概率）收敛于真实值 $\boldsymbol{\theta}$ ，这对于某些模型来说通常很难成立；在许多讨论中，它被简单地直接被假定为真。

类似结果可用于推断部分参数组分：如果记 $\boldsymbol{\theta} = (ψ, λ)$ ，并用 $\hat{λ}_ψ$ 表示固定参数 $ψ$ 时 $λ$ 的有约束最大似然估计：

\sup_\lambda \ell(\psi, \lambda; \boldsymbol{y}) = \ell \left(\psi, \hat{\lambda}_\psi ; \boldsymbol{y}\right)=\ell_{\mathrm{P}}(\psi) \tag{8}

则有（例如）：

\begin{align*} \ell_{\mathrm{P}}^{\prime}(\psi)^T j^\psi \psi(\hat{\theta}) \ell_{\mathrm{P}}^{\prime}(\psi) & \stackrel{\mathcal{L}}{\rightarrow} & \chi_q^2, \tag{9}\\ (\hat{\psi}-\psi)^T\left\{j^{\psi \psi}(\hat{\theta})\right\}^{-1}(\hat{\psi}-\psi) & \stackrel{\mathcal{L}}{\rightarrow} & \chi_q^2, \tag{10}\\ 2\left\{\ell(\hat{\psi}, \hat{\lambda})-\ell\left(\psi, \hat{\lambda}_\psi\right)\right\} & \stackrel{\mathcal{L}}{\rightarrow} & \chi_q^2, \tag{11} \end{align*}

其中 $q$ 是参数组分 $ψ$ 的维数。式 (8) 中定义的函数 $\ell_P(ψ)$ 被称为 剖面（profile）对数似然函数，或 浓缩（concentrated）对数似然函数。

这些有约束的结果所给出的一阶近似值（例如下式），在实践中被广泛用于对 $\boldsymbol{\theta}$ 的推断。

\begin{align*} \hat{\theta} \sim N\left\{\theta, j^{-1}(\hat{\theta})\right\}, \tag{12}\\ \hat{\psi} \dot{\sim}\left\{\psi, j^{\psi \psi}(\hat{\theta})\right\}, \tag{13} \\ \pm \sqrt{2}\left\{\ell(\hat{\psi}, \hat{\lambda})-\ell\left(\psi, \hat{\lambda}_\psi\right)\right\} \dot{\sim} N(0,1), \tag{14} \end{align*}

大多数统计包现在都有用于计算这些近似值的通用程序。其中第三个近似仅适用于 $q = 1$ ，符号通常取为 $\text{sign}(\hat{ψ} − ψ)$ 。

3.2 贝叶斯推断方法

基于似然函数的贝叶斯推断原则上非常简单： $\boldsymbol{\theta}$ 的先验概率分布，表示为 $π (\boldsymbol{\theta})$ 与使用条件概率规则的似然函数相结合，形成 $\boldsymbol{\theta}$ 的后验密度，

π(\boldsymbol{\theta} | y) = \frac{ \mathcal{L}(\boldsymbol{\theta}; y) π(\boldsymbol{\theta})}{ \int \mathcal{L}(\boldsymbol{\theta}; y)π(\boldsymbol{\theta})d\boldsymbol{\theta}} \tag{15}

例如，参数分量 $ψ(\boldsymbol{\theta})$ 的推断来自于 $ψ$ 的边缘后验密度：

π_m(ψ | y) = \int_{ψ(\boldsymbol{\theta})=ψ} π (\boldsymbol{\theta}|y)d\boldsymbol{\theta} \tag{16}

而 $ψ$ 的点估计可能是此边缘后验的均值或众数。边缘后验概率陈述也很容易获得，例如，概率为 $(1 − α)$ 的后验区间由 $(ψ_L, ψ_U)$ 给出， $ψ_L$ 和 $ψ_U$ 的边界值可以利用边缘后验概率计算获得，只需满足如下条件：

\int^{ψ = ψ_U}_{ψ = ψ_L} π_m(ψ | y)dψ

仅上述条件形成的区间并不唯一，通常推荐的一种选择是同时要求 区间具有最高的后验密度，相应的区间被称为最高后验密度区间（HPDI）。

计算式 (15) 和式 (16) 所需的积分可以通过各种方法进行近似，包括 拉普拉斯近似法 或 求积法则。在高维情况下，可以使用马尔可夫链蒙特卡罗 (MCMC) 采样从后验密度中获取样本。这涉及构建一条具有与 $π (\boldsymbol{\theta} | y)$ 成正比的平稳分布的马尔可夫链，通过运行马尔可夫链足够长的时间，来模拟来自平稳分布的样本。有大量关于 MCMC 采样和收敛特性技术的文献，参见 ^[9]^[10]。

在贝叶斯方法的大多数科学应用中，了解贝叶斯推断在模型 $f (y; \boldsymbol{\theta})$ 给出的概率分布（即对于固定的 $\boldsymbol{\theta}$ 值和从 $y$ 随机采样）下的行为很有意义。这提供了一种研究手段，例如，对于 $ψ$ 的边缘后验概率区间在采样模型下是否具有有效性。在模型和先验条件下，可以证明 $\boldsymbol{\theta} − \hat{\boldsymbol{\theta}}$ 的后验密度是渐近正态的，均值为 $0$ ，方差由观测到的 Fisher 信息矩阵的逆给出 ^[11] （第 4 章）；非正式地，这被描述为先验 “被数据淹没”。

为了评估先验对后验的影响，从渐近理论的角度来看，有必要在非贝叶斯设置中使用（最大似然估计分布的级数展开式的）高阶近似结果，在贝叶斯设置中使用后验积分的级数展开式。有关基于模型后验概率评估的相关辩论，请参见参考文献 ^[12]^[13] 。

4 似然的数值计算

在常规模型中，最大似然估计结果来自于得分方程的根：

\ell^\prime (\boldsymbol{\theta; y}) = 0

通常使用 Newton-Raphson 或 梯度下降 等方法迭代求解方程。Fisher 评分方法使用 Newton-Raphson，其中二阶导数由其期望值代替。如果方程有多个根，则原则上通过找到所有根并选择具有最大似然的那个根来找到最大似然估计量。

在广义线性模型中，模型中通常具有足够的平滑度来确保上述得分方程具有唯一解（即最大似然估计量），并且可以通过迭代地重新加权的最小二乘拟合来找到该解。这使得用对数似然函数代替平方误差后，许多线性回归技术可以扩展到非线性模型。

【示例 5】

假设响应 $Y_i$ 服从二项分布，样本量为 $n_i$ ，成功概率为 $p_i$ ，并且有 $k$ 个独立观测样本，则其对数似然函数为：

\ell(p) = \sum^k_{i=1} \{y_i \log (p_i) + (n_i − y_i) \log (1− p_i) \}

由于没有进一步的信息来链接观测结果， $p$ 的最大似然估计仅仅是观测到的比例向量 $(y_1/n_1, ..., y_k/n_k)$ 。当有许多协变量 $x_{i1}, \ldots, x_{iq}$ 可能与每个 $y_i$ 存在关联时，我们可以考虑如下关于 $p$ 的逻辑斯谛模型：

\log \frac{p_i}{1 − p_i} = x_i^T\beta,

这使得

\ell(β) = \sum^k_{i=1} y_i x_i^T \beta − n_i \log \{1 + \exp (x_i^T \beta)\}

得分方程为：

\sum(y_i/n_i) x_i^T = \sum p_i(β) x_i^T

其中 $p_i(β) = \exp (x_i^T \beta)/\{1 + \exp (x_i^T \beta)\}$ 。这可以被构建成加权最小二乘问题，权重取决于 $β$ 。初始猜测为 $β$ 提供了起始权重值，并且在每一步做最小二乘方程求解并更新权重，直到收敛。一种特殊情况是当 $n_i = 1$ 时的二值数据，这在实际工作中经常遇到，其诊断和拟合需要更加小心^[14]。

【示例 6】

在具有一个隐藏层的前馈神经网络中，该模型可以表示为非线性回归模型 ^[2]（第 10 章）：

\begin{align*} Y_i &\sim \text{Bin}(n_i, p_i)\\ \log \frac{p_i}{1-p_i} &= \beta_0 + Z_i^T \beta\\ Z_{im} &= \frac{\exp (x_i^T α_m) }{1 + \exp (x_i^T α_m)} \end{align*}

其中 $Z$ 是不可观测的。这与逻辑回归模型有一些相似之处，使用交叉熵损失来拟合该模型与最大似然估计相同。然而，对数似然函数本质上是过度参数化的，因此有多个局部最大值。标准算法不会尝试找到所有解，然后自动选择似然最大那个解。因此，Venables 和 Ripley ^[14] （第 9 章）推荐的方法是使用多个随机起点，从而拟合多个神经网络，并对预测结果进行平均。

Dempster 等 ^[15] 的 EM 算法允许为缺失数据（或着含不可观测变量）的模型计算最大似然估计。该算法在估计缺失观测值和最大化完整数据的似然函数之间交互迭代。有关介绍，请参阅参考文献 ^[6]（第 5 章），有关更详细的讨论和进一步参考，请参阅参考文献 ^[16]^[17]。

5 似然用于模型选择

（1）模型比较

从式 (7) 或式 (11) 导出的 $\chi^2$ 渐近结果近似值提供了对假设 $\boldsymbol{\theta} = \boldsymbol{\theta}_0$ 或 $ψ = ψ_0$ 的检验；例如式 (11) 可用于评估逻辑回归模型中的某些组件是否显著不同于零。假设 $ψ = ψ_0$ 的模型嵌套在原始模型 $f (y; \boldsymbol{\theta})$ 中，因为参数空间是 $\Omega$ 的子集。

在广义线性模型的处理中，用于比较参数模型与非参数模型的两倍对数似然差被称为 偏差（Deviance），来自模型的 $n$ 个独立观测值的第 $i$ 个的贡献称为 $y_i$ 的偏差贡献。这些偏差贡献在一些诊断方法中扮演残差的角色，嵌套广义线性模型之间的选择通常通过偏差分析来完成，重复使用式 (11) 的结果。

【示例 5（续）】

二项模型的完全非参数拟合为 $\hat{p}_i = y_i/n_i, i = 1, \ldots, k$ ，该模型与逻辑回归模型之间的偏差为：

D=2 \sum^k_{i=1} \left [ \ell(\hat{p}_i; y_i) − \ell \{ p_i(\hat{β}); y_i \} \right ] = \sum^k_{i=1} d_i \{ y_i, p_i(\hat{β}) \}

在正态分布的线性回归中，偏差只是负的残差平方和。

（2）模型选择

我们可能希望通过找到具有最大对数似然函数值的模型来在一组竞争模型中选择最佳模型。然而，这将始终选择最复杂的模型，因为我们总是可以通过使模型更复杂来在正在拟合的数据集上做得更好一点。这是线性回归中的一个常见问题，其中可以通过添加额外的协变量保证残差平方和的减少。解决此问题的常用方法是向对数似然函数中添加模型复杂性的惩罚项。最广泛使用的版本是 Akaike 的信息准则，定义为

AIC =−2 \log \ell(\hat{\boldsymbol{\theta}; y}) + 2p \tag{17}

其中 $p$ 是在 $\ell(\boldsymbol{\theta};·)$ 中估计的参数数量。具有较小 AIC 值的模型优于具有较大值的模型，式中的 $2p$ 项是对具有大量参数模型的惩罚。

AIC 的这个表达式由 Davison6（第 4 章）导出，作为拟合模型 $f (y; \hat{\boldsymbol{\theta}} )$ 和真实模型 $g$ 之间 $\mathbb{KL}$ 散度的估计：在其推导中，拟合模型不需要嵌入真实模型中。

$\mathbb{KL}$ 散度出现在统计推断和信息论中的许多上下文中。特别地，将 $\hat{G}_n(y)$ 记为来自分布 $G$ 的一个样本 $y_1, \ldots, y_n$ 的经验分布函数，我们可以看到最大似然估计量 $\hat{\boldsymbol{\theta}}$ 是使 $f(y; \boldsymbol{\theta})$ 和 $d\hat{G}_n(y)$ 之间的 $\mathbb{KL}$ 散度最小化的那个值，其中 $d\hat{G}_n$ 将概率质量 $1/n$ 置于 $n$ 个观测值中的每一个。

在回归类型设置中使用 AIC 作为模型选择工具非常常见，例如式 (3)。不过，众所周知，实际上仍然存在一些不一致，并且已经提出了各种改进。最近一个很好的参考是 Claeskens 和 Hjort ^[18] 还有其他几个类似于 AIC 的模型选择标准；特别是由于 Schwarz ^[19] 的贝叶斯版本被称为 BIC，将式 (17) 中的 $2p$ 替换为 $\log(n)p$ 。

6 剖面似然

在本节中，我们将重新审视在式 (9)、式(10) 和式 (11) 中给出的近似值。

假设我们有一个具有相当高维参数 $\boldsymbol{\theta}$ 的模型，但是 $\boldsymbol{\theta}$ 的许多分量都是我们不感兴趣的参数，将其纳入模型只是为了使模型更逼真。因此，可以将 $\boldsymbol{\theta}$ 划分为 $(ψ, λ)$ ，其中 $ψ$ 是感兴趣参数， $λ$ 是不感兴趣的参数。直观上很明显，剖面对数似然过于浓缩在其最大值点 $\hat{ψ}$ 附近，因为我们并没有允许参数 $λ$ 的估计能够有误差。也就是说， $\ell_P$ 在 $\hat{ψ}$ 处的曲率可能是一个对最大似然估计 $\hat{ψ}$ 的精度过于乐观的估计。

【示例 1（续）】

如果模型是 $y_i = x_i^T \beta + \epsilon_i$ ，其中 $x_i$ 是一个 $q × 1$ 的已知协变量值的向量， $\epsilon_i$ 假设服从 $N(0, ψ)$ 分布，则 $ψ$ 的最大似然估计为：

\hat{ψ} = \frac{1}{n} \sum (y_i − x_i^T \hat{β})^2 \tag{18}

它往往太小，因为它不允许 $q$ 个未知参数（ $β$ 的分量）已估计这一事实。在这个例子中，基于 $(β, ψ)$ 的似然函数因子分解，可以有一个简单的改进结果：

L_1 (β, ψ; \bar{y}) L_2 \left(ψ; \sum (y_i − x_i^T \hat{β})^2 \right) \tag{19}

因子 $L_2(ψ)$ 与残差的边缘密度 $\sum(y_i − x_i^T \hat{\beta})^2$ 成正比，并且仅基于此边缘似然推断 $ψ$ ，会导致对 $ψ$ 的无偏估计，例如最大边缘似然估计:

\hat{ψ}_m = \frac{1}{n − q} \sum (y_i − x_i^T \hat{\beta})^2 \tag{20}

基于残差边缘似然的估计通常称为受限最大似然 (REML) 估计，REML 方法在估计具有随机效应的线性模型中的方差分量时尤为重要。参考文献 ^[20] 中提供了长达一本书的讨论。

高阶近似理论已被用于推导对剖面似然或剖面对数似然函数的一般调整，其形式为：

\ell_A(ψ) = \ell_P(ψ) + \frac{1}{2} \log |J_{λλ}(ψ, \hat{λ}_ψ)| + B(ψ) \tag{21}

其中 $J_{λλ}$ 由观测到的 Fisher 信息量的划分定义， $B(ψ)$ 是进一步的调整函数，即 $\mathcal{O}_p(1)$ 。统计文献中已经提出了 $B(ψ)$ 的几个版本：主要目标是针对无用参数 $λ$ 估计中的错误调整剖面对数似然，主要是通过找到 (19) 因式分解的近似值。Fraser 讨论了具有非正态误差的线性回归模型中尺度参数的边缘似然 ^[21] 。Barndorff-Nielsen 提出了基于高阶近似的 $B(ψ)$ 的一般形式^[22] ，Fraser 提出了一个密切相关的版本，无需明确指定近似辅助统计即可计算 ^[23] 。

在 $ψ$ 与关于 Fisher 信息预期值的无用参数 $λ$ 正交的特殊情况下，即 $I_{ψλ}(\boldsymbol{\theta}) = 0$ ， $\ell_A(ψ)$ 的简化形式是可用的：

\ell_{CR}(ψ) = \ell_P(ψ) − \frac{1}{2} \log |J_{λλ}(ψ, \hat{λ}_ψ)| \tag{22}

该式由 Cox 和 Reid 引入 ^[24] 。 $\log |J_{λλ}|$ 上符号的变化来自正交方程。在独立同分布抽样中， $\ell_P(ψ)$ 是 $\mathcal{O}_p(n)$ ，即 $n$ 个有界随机变量之和，而 $\log |J_{λλ}|$ 是 $\mathcal{O}_p(1)$ 。 $\ell_{CR}$ 的一个缺点是它对 $λ$ 的一对一重参数化不是不变的，所有这些都与 $ψ$ 正交。相反 $\ell_A(ψ)$ 对从 $\boldsymbol{\theta}=(ψ,λ)$ 到 $\tilde{\boldsymbol{\theta}} =\{ψ, η(ψ, λ)\}$ 的变换具有不变性，该变换有时被称为兴趣相关变换。 DiCiccio 等 ^[25] 、Chang 和 Mukerjee ^[26] 讨论了基于 $\ell_A(·)$ 的各种版本的推断方法，即 $B(·)$ 的各种选择。

从参考文献 ^[27]^[28]^[29]^[30] 开始，已经在一系列论文中开发了一些基于似然量的高阶近似理论，并精化了近似值，例如 (12)、(13) 和 (14)。这些依次建立在 Daniels ^[31] 和 Edgeworth ^[8] 展开式的鞍点近似上。该理论的简明描述可在包括参考文献 ^[8]、 ^[32] 和 ^[33] 在内的几本书中找到。Brazzale 等 ^[34] 介绍了高阶渐近的许多应用。

7 似然的扩展

有许多伟大的 类似然函数（likelihood-type function） 被提议用于复杂数据设置中的推断，本节重点介绍其中的一些重要扩展。

7.1 偏似然

类似然函数扩展中最重要的一类，是删失生存数据的 偏似然（partial likelihoods ^[35] , ^[36]。

【示例 7】

假设我们对 $n$ 个个体中的每一个都有一个响应 $y_i$ ，其中 $y_i$ 对应于真实故障时间或删失故障时间，配套以标识未删失观测的指示变量。一个与 示例 4 的非齐次泊松过程密切相关的模型，是假设第 $i$ 个个体的故障率采用以下形式：

λ(t_i) = \exp (x_i^T \beta) λ_0(t_i) \tag{23}

其中 $x_i$ 是与个体相关的协变量向量， $λ_0(t)$ 是基线失败率，未指定。 $k$ 个观测到的故障时间排序为 $y(1) < ··· < y(k)$ ，我们用 $\mathcal{R}_i$ 表示在时间 $y_{(i)}$ 故障的个体的风险集，即观测到的 $y$ 值的所有个体（删失或未删失的），都大于 $y_{(i)}$ 。Cox ^[35] 建议 $β$ 的推断基于偏似然：

\prod^k_{i=1} \frac{\exp (x_{(i)}^T β)}{\sum_{j \in \mathcal{R}_i} \exp (x_j^T β)}

其中 $x_{(i)}$ 是观测时间为 $y_{(i)}$ 的个体的协变量向量。这忽略了记录故障时间之间信息的似然部分。它不是边缘似然或条件似然，除非在特殊情况下，但基于偏似然的推断具有基于全似然函数的推断的许多特性，包括一致性和渐近正态性，渐近协方差一致地由二阶导数估计偏似然函数的对数。这已经扩展到许多类型的随时间演变的过程，以及许多类型的未完全观测到的数据。

模型 (23) 是一个半参数模型，此类模型的一般似然理论可通过参考文献 ^[37] 和 ^[38] 获得。

7.2 伪似然和组合似然

许多其他类似然函数可以仅使用部分数据的密度来构造。 Besag ^[39] 提出了空间数据的伪似然函数（pseudo-likelihood function） 概念，伪似然由每个数据点的条件密度相乘得到，而每个数据点的条件密度则均以其直接邻居为条件。在 Lindsay 之后，这通常代表一大类被称为 组合似然（composite likelihoods） 的似然 ^[40] 。

【示例 8】

对相关的二值数据建模的一种方法，是从不可观测的隐变量建模开始，例如，

\begin{align*} z_{ir} &= x_{ir}^T β + w_{ir}^T b_i + \epsilon_{ir}\\ b_i &\sim N(0, \Sigma_b)\\ \epsilon_{ir} &\sim N(0, 1) \end{align*}

其中 $r = 1, ..., n_i$ 索引某个聚簇中的观测值， $i = 1, ..., n$ 索引不同的聚簇，即共有 $n$ 个聚簇，每个簇中有 $n_i$ 个观测值。 $x_{ir}$ 和 $w_{ir}$ 是与第 $i$ 个簇中的第 $r$ 个个体相关的协变量。如果我们观测到 $y_{ir} = 1$ 时，有隐变量 $z_{ir} ≥ 0$ ，则 $\boldsymbol{y}$ 的联合似然可以写为：

\mathcal{L}(\boldsymbol{\theta; y}) = \prod^n_{i=1} \log \int^\infty_{-\infty} \prod^{n_i}_{r=1} p^{y_{ir}}_{ir} (1 − p_{ir})^{1−y_{ir}} \phi (b_i, \Sigma_b)d b_i

其中 $p_{ir} = \Phi(x_{ir}^T β + w_{ir}^T b_i)$ ， $\Phi(·)$ 是标准正态分布函数， $\phi(·;μ,\Sigma)$ 是均值向量为 $μ$ 、协方差矩阵为 $\Sigma$ 的正态密度函数。该似然中的积分非常难以计算，尤其是模型中包含的随机效应 $b_i$ 的维度超过两维或三维时。Renard 等 ^[41] 在这种情况下研究了另一种选择：每个簇内所有可能观测点对构成的联合似然，即成对似然（pairwise likelihoods），成对似然可以被视为组合似然的一个例子。 Renard 等 ^[41] 表明，相对于完全似然推断，基于成对似然的推断效率更高。有大量关于组合似然法计算效率的文献；参见参考文献 ^[42]

7.3 准似然

用基于似然的方法分析复杂数据，还有一种稍微有些不同的方法，那就是 Wedderburn 的准似然（quasi-likelihood） ^[43]。这种方法首先为响应的均值和方差指定参数形式，例如：

\begin{align*} \mathbb{E}(y_i | x_i) &= μ(x_i^T \beta)\\ \mathbb{V}ar(y_i | x_i) &= \varphi V(\mu_i) \end{align*}

其中 $μ(·)$ 和 $V(·)$ 是已知函数， $\varphi$ 是方差函数的附加尺度参数。 $β$ 的推断基于估计方程：

\sum^n_{i=1} V(\mu_i)^{−1/2} \left(y_i − μ(x_i^T \beta) \right) = 0

如果该模型存在，上式将对应于具有二阶矩的广义线性模型的得分方程。

准似然推断理论由 McCullagh 提出 ^[44]，Liang 和 Zeger ^[45] 根据广义估计方程 (GEE) 的描述，将其扩展到纵向数据分析。Liang 和 Zeger 提议对 $V(·)$ 使用他们所谓的 “工作协方差” 函数，并表明即使工作协方差函数不正确，均值中参数的估计值也是一致的。在撰写本文时，GEE 方法与组合似然法之间的关系尚不清楚。

如果均值函数是用固定效应和随机效应建模的，如 示例 8 所示，那么这种准似然法也会涉及到积分计算。 Breslow 和 Clayton ^[46] 表明，对该积分的拉普拉斯近似产生了广义线性混合模型的带惩罚准似然版本。 Green ^[47] 对基于带惩罚似然函数的推断进行了一般性讨论，在这种情况下，控制第 $i$ 个观测值分布的参数可以表示为：

\boldsymbol{\theta}_i = x_i^T \beta + m(w_i)

$m(·)$ 是具有式 (3) 形式的 “平滑” 函数。Nelder 和 Lee 开发了一种不同的方差分量准似然估计方法；例如，参见参考文献 ^[48] 和 ^[49] 。

7.4 经验似然

Owen ^[50] 提出了一种被称为 经验似然（empirical likelihood） 的非参数似然。

在最简单的情况下， $y_1, \ldots, y_n$ 是关于密度 $f$ 的独立同分布观测数据，通常的非参数似然法将概率质量 $1/n$ 平均配置在每个观测值上。这并不是严格意义上的似然函数，因为密度不受 sigma-有限度量的控制。 Owen 表明，如果假设 $f$ 的所有可能密度都有一个共同参数，例如均值 $μ$ ，则最大化下式的经验最大似然估计是一致和渐进正态的，而且可以基于经验似然做类似于式 (7) 或 (14) 的似然比检验。

\prod^n_{i=1} p_i \text{,subject to } \sum p_i y_i = μ \text{ , and } \sum p_i = 1

经验似然允许在非参数设置中使用基于似然的参数。自 Owen 的原始论文以来，它已得到相当大的扩展和概括，例如，参见参考文献 ^[51] 。

在 Owen 的 ^[50] 经验似然法中，重点是推断少量或至少有限数量的参数，这些参数假定具有恰当的解释，而无需指定模型的参数形式。

非参数似然推断的另一个版本是使用参数为函数的 类似然参数（likelihood-like arguments）。例如，从一个此类密度的独立样本中，对对数凹密度的最大似然估计。这方面的理论要复杂得多：有关此类估计量一致性的最新结果，请参阅参考文献 ^[52] 及其中的参考文献。一些理论工作与半参数模型密切相关，例如 示例 7 的比例风险模型，参考文献 ^[53] （第 21 章）是一个很好的介绍。

8 结论

似然函数以及其得分函数、Fisher 信息量等似然派生量，是所有基于数学建模的统计推断方法的基础。基于似然函数的派生量提供了对未知参数的估计、不确定性估计、检验假设和模型选择的方法。为解决应用中出现的特定复杂模型而发展出的大量似然扩展，证明了似然和基于似然的思想在统计推断中的核心作用。

参考文献

[1] Wood S. Generalized Additive Models: An Introduction with R.NewYork:Chapman&Hall/CRC;2006.
[2] Hastie T, Tibshirani RJ, Friedman J. The Elements of Statistical Learning.2nded.NewYork:SpringerVerlag; 2009.
[3] Fisher RA. Statistical Methods and Scientific Inference. Edinburgh: Oliver & Boyd; 1956.
[4] Edwards AF. Likelihood (Expanded Edition).Baltimore: Johns Hopkins University Press; 1992.
[5] Azzalini A. Statistical Inference.London:Chapman &Hall;1998.
[6] Davison AC. Statistical Models.Cambridge:Cambridge University Press; 2003.
[7] Cox DR, Hinkley DV. Theoretical Statistics.London: Chapman & Hall; 1974.
[8] Barndorff-Nielsen OE, Cox DR. Inference and Asymptotics.London:Chapman&Hall;1994.
[9] Casella G, Robert CP. Monte Carlo Statistical Methods. New York: Springer-Verlag; 1999.
[10] Gilks WR, Richardson S, Spiegelhalter D. Markov Chain Monte Carlo in Practice.NewYork:Chapman &Hall/CRC;1996.
[11] Berger JO. Statistical Decision Theory and Bayesian Analysis.NewYork:Springer-Verlag;1985.
[12] Berger JO. The case for objective Bayes analysis. Bayesian Stat 2006, 1:385–402, doi:10.1214/06BA115.
[13] Goldstein M. Subjective Bayesian analysis: principles and practice. Bayesian Stat 2006, 1:403–420, doi:10.1214/06-BA116.
[14] Venables WN, Ripley BD. Modern Applied Statistics with S.NewYork:Springer-Verlag;2003.
[15] Dempster A, Laird N, Rubin D. Maximum likelihood from incomplete data via the EM algorithm. JRStat Soc B 1977, 39:1–38.
[16] Little RJA, Rubin DB. Statistical Analysis with Missing Data.2nded.NewYork:JohnWiley&Sons;2002.
[17] McLachlan GJ, Krishnan T. The EM Algorithm and Extensions.NewYork:JohnWiley&Sons;2007.
[18] Claeskens G, Hjort NL. Model Selection and Model Averaging.Cambridge:CambridgeUniversityPress; 2008.
[19] Kass RE, Wasserman L. Formal rules for selecting prior distributions: a review andannotatedbibliography.J Am Stat Assoc 1996, 91:1343–1370.
[20] Searle SR, Casella G, McCulloch CE. Variance Components.NewYork:JohnWiley&Sons;1992.
[21] Fraser DAS. Inference and Linear Models.NewYork: McGraw-Hill; 1979.
[22] Barndorff-Nielsen OE. On a formula for the distribution of the maximum likelihood estimator. Biometrika 1983, 70:343–365.
[23] Fraser DAS. Likelihood for component parameters. Biometrika 2003, 90:327–339.
[24] Cox DR, Reid N. Parameter orthogonality and approximate conditional inference (with discussion). JRStat Soc B 1987, 49:1–39.
[25] Diciccio TJ, Martin MA, Stern SE, Young GA. Information bias and adjusted profile likelihoods. JRStat Soc B 1996, 58:189–203.
[26] Chang H, Mukerjee R. Probability matching property of adjusted likelihoods. Stat Probab Lett 2006, 76:838 – 842.
[27] Barndorff-Nielsen OE. Conditionality resolutions. Biometrika 1980, 67:293–310.
[28] Cox DR. Local ancillarity. Biometrika 1980, 67:279 – 286.
[29] Durbin J. Approximations for densities of sufficient statistics. Biometrika 1980, 67:311–333.
[30] Hinkley DV. Likelihood as approximate pivotal. Biometrika 1980, 67:287–292.
[31] Daniels HE. Saddlepoint approximations in statistics. Ann Math Stat 1954, 46:631–650.
[32] Pace L, Salvan A. Principles of Statistical Inference: From a Neo-Fisherian Perspective.Singapore:World Scientific; 1997.
[33] Severini TA. Likelihood Methods in Statistics.Oxford: Oxford University Press; 2001.
[34] Brazzale AR, Davison AC, Reid N. Applied Asymptotics.Cambridge:CambridgeUniversityPress;2007.
[35] Cox DR. Regression models and life tables (with discussion). JRStatSocB1972, 34:187–220.
[36] Cox DR. Partial likelihood. Biometrika 1975, 62:269 – 276.
[37] Murphy SA, van der Vaart AW. On profile likelihood (with discussion). JAmStatAssoc2000, 95:449–485.
[38] Murphy SA, van der Vaart AW. Semiparametric likelihood ratio inference. Ann Stat 1997, 25:1471–1509.
[39] Besag JE. Spatial interaction and the statistical analysis of lattice systems (with discussion). JRStatSocB1974, 34:192 – 236.
[40] Lindsay BG. Composite likelihood methods. Contemp Math 1988, 80:220–239.
[41] Renard D, Molenberghs G, Geys H. A pairwise likelihood approach to estimation in multilevel probit models. Comput Stat Data Anal 2004, 44:649–667.
[42] Varin C. On composite marginal likelihoods. Adv Stat Anal 2008, 92:1–28.
[43] Wedderburn RWM. Quasi-likelihood functions, generalized linear models, and the Gauss–Newton method. Biometrika 1974, 61:439–447.
[44] McCullagh P. Quasi-likelihood functions. Ann Stat 1983, 11:59–67.
[45] Liang K-Y, Zeger S. Longitudinal data analysis using generalized linear models. Biometrika 1986, 73:13–22.
[46] Breslow N, Clayton D. Approximate inference in generalized linear mixed models. JAmStatAssoc1993, 88:9 – 25.
[47] Green PJ. Penalized likelihood for general semiparametric regression models. Int Statist Rev 1987, 55:245 – 259.
[48] Lee Y, Nelder JA. Hierarchical generalised linear models: a synthesis of generalised linear models, randomeffect models and structured dispersions. Biometrika 2001, 88:987–1006.
[49] Nelder JA, Lee Y. Likelihood, quasi-likelihood and pseudolikelihood: some comparisons. JRStatSocB 1992, 54:273–284.
[50] Owen AB. Empirical likelihood ratio confidence intervals for a single functional. Biometrika 1988, 75:237 – 249.
[51] Hjort NL, McKeague IW, van Keilegom I. Extending the scope of empirical likelihood. Ann Stat 2009, 37:1079 – 1111.
[52] Balabdaoui F, Rufibach K, Wellner JA. Limit distribution theory for maximum likelihood estimation of a log-concave density. Ann Stat 2009, 37:1299–1331.
[53] van der Vaart AW. Asymptotic Statistics. Cambridge: Cambridge University Press; 1998.