1 概念理解

传统贝叶斯方法需要事先指定参数(或隐变量)的先验分布以及模型的似然,而后利用已知数据对先验进行更新,最终得到后验分布。当先验分布完全未知时,推断会受到一定的影响。如果在创建后验概率分布之前,先利用某些方法来估计先验概率分布的参数,将使推断得到优化,而这就是经验贝叶斯方法的主要思想。

经验贝叶斯方法是 “在构建后验概率分布之前,估计和更新先验概率分布参数(即超参数)的方法集合”。该技术仍然遵循贝叶斯统计模型,但增加了估计先验概率分布的过程。

经验贝叶斯方法是一种统计推断过程,该方法根据经验数据估计先验概率分布。 此方法与标准贝叶斯方法形成对比,标准贝叶斯方法在观察到任何数据之前,先验分布都是固定的。经验贝叶斯可被视为对分层模型(Hierarchical Model)的完全贝叶斯处理的一种近似,只是其中最高层次级别的参数被设置为其最可能的值,而不是像完全贝叶斯处理一样通过积分获得。

经验贝叶斯也称为 最大边缘似然法,到目前仍然是一种设置超参数的便捷方法,但自 2000 年代以来,随着性能良好的计算技术的可用性不断提高,它已逐步被完全贝叶斯分层分析方法所取代。

(1)贝叶斯分层模型允许为超参数设置先验,并通过数据更新超参数设置,生成后验。历史上贝叶斯分层方法由于计算量巨大,因此难以实施,近 20 年来 MCMC 等方法以及计算机硬件能力的提升,使其逐步进入使用状态。
(2)经验贝叶斯可以被视为超参数的点估计,而贝叶斯分层模型可以被视为超参数的概率分布估计;这种关系有些类似于参数的频率派点估计和贝叶斯估计。

2 推断过程

在一个两阶段的分层贝叶斯模型中,通常假设:

(1)观测数据 y={y1,y2,,yn}\mathbf{y}= \{y_1,y_2,\ldots,y_n\} 根据概率分布 p(yθ)p(y | \boldsymbol{\theta}) 生成,其中 θ={θ1,θ2,,θn}\boldsymbol{\theta} =\{\theta_1,\theta_2,\ldots,\theta_n\} 为不可观测的模型参数;

(2)参数 θ\boldsymbol{\theta} 抽取自被超参数 η\eta 特征化的分布 p(θη)p(\boldsymbol{\theta} | \boldsymbol{\eta})

(3)在完全贝叶斯方法中,超参数 η\boldsymbol{\eta} 被认为是来自于未参数化的固定分布 p(η)p(\boldsymbol{\eta}) 的样本。

因此,关于某个感兴趣量 θi\theta_i 的信息不仅来自于数据 y\mathbf{y} 的性质( 尽管数据的生成直接依赖于参数 θ\boldsymbol{\theta} ),也来自于参数 θ\boldsymbol{\theta} 总体的性质(由超参数总结,并通过数据推断得出)。

注意: 上述模型假设中,θ\theta 是局部隐变量,其实例与可观测变量 y\mathbf{y}的实例一一对应,而 η\eta 则是全局隐变量。

采用贝叶斯定理:

p(θy)=p(yθ)p(θ)p(y)=p(yθ)p(y)p(θη)p(η)dηp(\boldsymbol{\theta} \mid \mathbf{y})=\frac{p(\mathbf{y} \mid \boldsymbol{\theta}) p(\boldsymbol{\theta})}{p(\mathbf{y})}=\frac{p(\mathbf{y} \mid \boldsymbol{\theta})}{p(\mathbf{y})} \int p(\boldsymbol{\theta} \mid \boldsymbol{\eta}) p(\boldsymbol{\eta}) d \boldsymbol{\eta}

一般来说,上式中的积分在解析上或符号上都不容易处理,必须用数值方法来计算(如 MCMC 之类的随机近似,或变分推断之类的确定性近似)。

换一种方式,表达式可以写成:

p(θy)=p(θη,y)p(ηy)dη=p(yθ)p(θη)p(yη)p(ηy)dηp(\boldsymbol{\theta} \mid \mathbf{y})=\int p(\boldsymbol{\theta} \mid \boldsymbol{\eta}, \mathbf{y}) p(\boldsymbol{\eta} \mid \mathbf{y}) d \boldsymbol{\eta}=\int \frac{p(\mathbf{y} \mid \theta) p(\boldsymbol{\theta \mid \eta})}{p(\mathbf{y} \mid \boldsymbol{\eta})} p(\boldsymbol{\eta} \mid \mathbf{y}) d \boldsymbol{\eta}

而积分中的因子又可以表示为

p(ηy)=p(ηθ)p(θy)dθp(\boldsymbol{\eta} \mid \mathbf{y})=\int p(\boldsymbol{\eta} \mid \boldsymbol{\theta}) p(\boldsymbol{\theta} \mid \mathbf{y}) d \boldsymbol{\theta}

可以看出,这给出了一种与 Gibbs 采样非常相似的迭代结构,可以逐步改进对 p(θy)p(\boldsymbol{\theta} | \mathbf{y})p(ηy)p(\boldsymbol{\eta} | \mathbf{y}) 的近似:

  • 首先,完全忽略对 η\boldsymbol{\eta} 的依赖,计算 p(θy)p(\boldsymbol{\theta} | \mathbf{y}) 的初始近似分布;
  • 然后,基于初始近似分布 p(θy)p(\boldsymbol{\theta} | \mathbf{y}) 计算一个 p(ηy)p(\boldsymbol{\eta} | \mathbf{y}) 的近似分布;
  • 然后,用这个 p(ηy)p(\boldsymbol{\eta} | \mathbf{y}) 更新近似 p(θy)p(\boldsymbol{\theta} | \mathbf{y}) ; 然后更新 p(ηy)p(\boldsymbol{\eta} | \mathbf{y}) ;
  • 以此类推。

可以预期,当真实分布 p(ηy)p(\boldsymbol{\eta} | \mathbf{y}) 存在尖锐峰值时,用点估计 η\boldsymbol{\eta}^* 来代替 η\boldsymbol{\eta} 上的分布,将不会对 p(θy)p(\boldsymbol{\theta} | \mathbf{y}) 的积分产生太大影响。

p(θy)p(yθ)p(θη)p(yη)p(\boldsymbol{\theta} \mid \mathbf{y}) \simeq \frac{p(\mathbf{y} \mid \boldsymbol{\theta}) p\left(\boldsymbol{\theta} \mid \boldsymbol{\eta}^*\right)}{p\left(\mathbf{y} \mid \boldsymbol{\eta}^*\right)}

可以发现,有了这种点估计近似,上面迭代过程就转变成了 EM 算法

“经验贝叶斯” 一词可以涵盖各种各样的方法,但大多数可以被视为上述方案或类似方案的早期截止。 点估计(而不是整个分布)通常被用于超参数 η\boldsymbol{\eta} 的估计,其估计值 η\boldsymbol{\eta}^* 通常根据 p(θyp(\boldsymbol{\theta} | \mathbf{y} 的最初近似生成,并且无需后续精化。η\boldsymbol{\eta}^* 的估计也通常并不考虑 η\boldsymbol{\eta} 的先验分布。

3 点估计方法

3.1 非参数经验贝叶斯:Robbins 方法

Robbins 考虑了从混合分布中采样的情况,其中每个 yiy_i 的概率(以 θi\theta_i 为条件)由泊松分布指定,

p(yiθi)=θiyieθiyi!p\left(y_i \mid \theta_i\right)=\frac{\theta_i{ }^{y_i} e^{-\theta_i}}{y_{i} !}

θ\theta 上的先验是未指定的,除了它也是 i.i.d.来自未知分布,具有累积分布函数 G(θ)G(\theta)。复合抽样出现在各种统计估计问题中,例如事故率和临床试验。我们简单地寻找给定所有观测数据的 θi\theta_i 的点预测。因为先验未指定,我们试图在不了解 GG 的情况下执行此操作。

在平方误差损失 (SEL) 下,条件期望 E(θiYi=yi)\mathrm{E}\left(\theta_i \mid Y_i=y_i\right) 是用于预测的合理数量。对于泊松复合抽样模型,这个数量是

E(θiyi)=(θyi+1eθ/yi!)dG(θ)(θyieθ/yi!)dG(θ).\mathrm{E}\left(\theta_i \mid y_i\right)=\frac{\int\left(\theta^{y_i+1} e^{-\theta} / y_{i} !\right) d G(\theta)}{\int\left(\theta^{y_i} e^{-\theta} / y_{i} !\right) d G(\theta)} .

这可以通过将分子和分母都乘以 (yi+1)\left(y_i+1\right) 来简化,得到

E(θiyi)=(yi+1)pG(yi+1)pG(yi)\mathrm{E}\left(\theta_i \mid y_i\right)=\frac{\left(y_i+1\right) p_G\left(y_i+1\right)}{p_G\left(y_i\right)}

其中 pGp_G 是通过对 GG 积分 θ\theta 获得的边缘分布。

为利用这一点,Robbins 建议用经验频率 (#{Yj})\left(\#\left\{Y_j\right\}\right) 来估计边缘值,从而产生完全非参数估计作为:

E(θiyi)(yi+1)#{Yj=yi+1}#{Yj=yi},\mathrm{E}\left(\theta_i \mid y_i\right) \approx\left(y_i+1\right) \frac{\#\left\{Y_j=y_i+1\right\}}{\#\left\{Y_j=y_i\right\}},

其中 #\# 表示 “数量”。

3.2 参数经验贝叶斯

如果似然及其先验采用简单的参数形式(例如具有简单共轭先验的一维或二维似然函数),则经验贝叶斯问题只是估计边缘 ?mu(Y | 9) 和超参数 11使用完整的经验测量集。例如,一种称为参数经验贝叶斯点估计的常见方法是使用最大似然估计 (MLE) 或矩展开来近似边缘值,它允许根据经验均值和方差来表达超参数 71。这种简化的边缘允许将经验平均值代入先验 0 的点估计。先验 b 的所得方程大大简化,如下所示。

常见的参数经验贝叶斯模型有几种,包括Poisson-gamma模型(下)、Beta-binomial模型、Gaussian-Gaussian模型、Dirichletmultinomial模型,以及贝叶斯线性回归(见下)和贝叶斯多变量的具体模型线性回归。更高级的方法包括分层贝叶斯模型和贝叶斯混合模型。

Gaussian-高斯模型

有关使用高斯-高斯模型的经验贝叶斯估计的示例,请参阅经验贝叶斯估计器。

4 小结

这种方法的一个优点是:即使初始的先验概率参数和超参数使用了不同的分布,您仍然可以拥有共轭先验/后验关系,因为在模型中只会使用最终的经验结果。