【摘 要】 学习归纳变量的变分框架 (Titsias, 2009a) 对高斯过程文献产生了很大影响。该框架可以解释为最小化近似过程和后验过程之间严格定义的 Kullback-Leibler 散度。据我们所知,迄今为止,这种联系在文献中并未被提及。在本文中,我们对有关该主题的文献进行了实质性的概括。我们给出了无限索引集假设下的新证明,它允许不属于训练集的归纳点和依赖于所有函数值集的似然。然后,我们讨论了增广索引集,并表明,与以前的工作相反,增广的边缘一致性不足以保证变分推断近似与原始模型的一致性。我们进一步推导出了获得这种保证的额外条件。最后,我们以 域间稀疏近似Cox 过程 为例,展示了我们的稀疏近似框架。

【原 文】 Matthews, A.G. de G. et al. (2015) ‘On Sparse variational methods and the Kullback-Leibler divergence between stochastic processes’. arXiv. Available at: https://doi.org/10.48550/ARXIV.1504.07027.

【难 度】 ⭐⭐⭐⭐⭐

1 简介

(1)稀疏高斯过程与变分推断

Titsias (2009a [22]) 的归纳点选择的变分方法在可扩展高斯过程近似的活跃研究领域具有重大影响力。这个特定框架的主要优点是归纳点位置是变分参数而不是模型参数,因此可以防止过度拟合。在本文中,我们认为虽然这是事实,但可能并非完全出于先前认为的原因。原始框架适用于共轭似然,并已扩展到非共轭似然(Chai,2012 年[5];Hensman 等,2015 年 [15])。使用变分方法的一个重要进步是它们与随机梯度下降的结合(Hoffman 等,2013 年 [16]),并且变分归纳点框架已与共轭(Hensman 等,2013 年 [13])和非共轭情况下的此类方法相结合(Hensman 等,2015 年 [15])。该方法还成功地用于在更复杂的模型中执行可扩展推断,例如高斯过程隐变量模型(Titsias 和 Lawrence,2010 [24];Damianou 等,2014 [8])和相关的深度高斯过程(Damianou 和 Lawrence,2012 [9];Hensman 和 Lawrence,2014 年[14])。

让我们设置一些符号: 考虑一个将索引集 XX 映射到实数集 ff 的函数 fXRf:X \mapsto \mathbb{R},也可以将其完全等价地写成 fRXf \in \mathbb{R}^X 或使用序列符号 (f(x))xX(f(x))_{x \in X}。我们还定义了函数索引的集合,如果 SXS \subseteq X 是索引集的某个子集,则有 fS:=(f(x))xSf_S := (f(x))_{x\in S}。我们可以将此定义扩展到索引集的单个元素,则有 fx:=f{x}f_x := f_{\{x\}} 。通常我们定义大小为 NN 的索引子集 DXD \subseteq X 来使用这种表示法,该子集对应于已观测数据中的输入点;则相应的函数值被表示为 fDf_D。为了简单起见,假设每个输入数据点都有一个可能含噪声的、非共轭的观测值 yy ,所有输入点的 yy 一起构成观测值集合 YY

高斯过程可以定义函数 ff 的先验,在观测到数据之后会得到 ff 的后验,而这些后验正是我们希望用稀疏分布来近似的。Titsias (2009a [22]) 中 变分归纳点近似(variational inducing point approximation) 的核心是 “增广” 思想。我们选择一个大小为 MM 的集合 ZXZ \subseteq X,其输入点可能与已有的训练输入点集 DD 有重叠。为了加快计算速度,MM 通常远小于训练数据点集的数量 NN 。Titsias 的原始论文中采用的目标函数是 “归纳点集和训练点集的联合分布的” KL\mathcal{KL} 散度,表示为:

KL[q(fDZ,fZ)p(fDZ,fZY)]=q(fDZ,fZ)log{q(fDZ,fZ)p(fDZ,fZY)}dfDZdfZ(1)\mathcal{KL}[q(f_{D \setminus Z} , f_Z ) || p(f_{D \setminus Z} , f_Z |Y )] = \int q(f_{D \setminus Z} , f_Z ) \log \left \{ \frac{ q(f_{D \setminus Z} , f_Z )}{ p(f_{D \setminus Z} , f_Z |Y )} \right \} df_{D \setminus Z} df_Z \tag{1}

其中 q(fDZ,fZ)q(f_{D \setminus Z} , f_Z) 为变分分布,采用以下形式进行构造:

q(fDZ,fZ):=p(fDZfZ)q(fZ)(2)q(f_{D \setminus Z} , f_Z) := p(f_{D \setminus Z} | f_Z) q(f_Z) \tag{2}

其中 q(fZ)q(f_Z ) 是在归纳点上的变分分布,p(fDZfZ)p(f_{D \setminus Z} |f_Z) 是先验条件。 在这种分解下:

  • 对于共轭似然情况,最优 q(fZ)q(f_Z) 具有解析的高斯解 (Titsias, 2009a [22])。
  • 对于非共轭似然情况,参见 Chai, 2012 [5]; Hensman 等, 2015 [15]

在上述两种情况下,稀疏近似只需要 O(NM2)\mathcal{O}(N M^2),而不是精确推断方法(或不假设稀疏性的非共轭近似方法)所需的 O(N3)\mathcal{O}(N^3)

原文已经论证:在添加归纳点时,模型的边缘分布几乎保持不变,因此上述增广是合理的。Titsias 提出,增广模型中的变分推断等价于原始模型中的变分推断,其中增广模型中的归纳点位置可以作为一种变分参数参与推断,并且该方法可以防止过拟合。详细信息请参阅 Titsias 的原始会议论文(Titsias,2009a [22]第 3 节 或更长的技术报告版本(Titsias,2009b [23]第 3.1 节。在已有文献基本都是将 Jensen 不等式应用于边缘似然进行论证,例如,在 Hensman 等 (2015 [15]) 的 式 (6)式 (17) 中。根据变分原理,真实边缘似然与边缘似然下界之间的差距正好是 式 (1) 中描述的 KL\mathcal{KL} 散度。也就是说,最大化边缘似然的下界完全等价于最小化 KL\mathcal{KL} 散度目标。

(2)本文异议

但事实上,我们在本文中将证明: 增广模型中的变分推断并不等价于原始模型中的变分推断

如果没有这个理由,式 (1) 中的 KL\mathcal{KL} 散度似乎是一个奇怪的优化目标。KL\mathcal{KL} 散度的两个分布(“双边”)中都包含归纳变量,在优化归纳点位置时,我们似乎在力图击中一个 “移动目标”。因此,迫切需要严格地定义能够产生 Titsias 形式的 “单边” KL\mathcal{KL} 散度,这种推导可以为该方法奠定更坚实的基础,而这正是本文的主题。正如后文将展示的那样,这巩固了域间稀疏归纳近似方法和 Cox 过程稀疏变分推断方法的技术框架。

就理论方面的工作而言,其他先前的主要参考文献还包括:

  • Seeger (2003a [20]; 2003b [21]) 的早期工作。特别是 Seeger 将过程之间的 KL\mathcal{KL} 散度(更常被称为 相对熵)识别为相似性度量,并将其应用于 PAC-Bayes 和数据稀疏方法的子集。至关重要的是,Seeger 给出了这种 KL\mathcal{KL} 散度的严格表述,但这对很多人来说是一个巨大的技术障碍。在此,我们给出了关键定理的更短、更通用和直观的证明。我们将随机过程形式扩展到不一定从数据中选择归纳点,并表明这等同于 Titsias 的形式。
  • 在 Csato 和 Opper (2002 [6]; 2002 [7]) 的早期工作中,也提到了在过程之间使用 KL\mathcal{KL} 散度的想法,但其中讨论的细节层次并未涵盖从有限维多元高斯过程到无限维高斯过程的过渡。
  • Alvarez (2011 [1]) 的工作简要提到了一个似乎类似于随机过程之间 KL\mathcal{KL} 散度的优化目标。文中使用的符号表明,积分是关于 “无限维勒贝格测度” 的,但这是一个通过数学上有缺陷的方法得出的正确答案。
  • Chai (2012 [5]) 似乎至少部分了解 Seeger 的 KL\mathcal{KL} 散度定理(Seeger,2003b [21]),但并没有使用它们来限制非稀疏过程的有限联合预测概率的边界。

本文结构如下:

  • 首先讨论完整论证的有限维版本,这需要相当少的数学机制,并且可以从这种情况中获得大部分直觉;
  • 然后给出完整的测度理论公式,给出一个允许归纳点不是数据点的新证明,并且似然取决于无限多的函数值;
  • 接下来使用 KL\mathcal{KL} 散度的链式法则,讨论了原始索引集的增广。这为我们提供了一个能够讨论 “边缘一致性问题”、 “增广模型中的变分推断不一定等同于原始模型中的变分推断问题” 的基础框架。 我们进一步表明,以整个隐函数为条件的确定性增广,确实具有一些我们所需的性质。
  • 在实验部分,我们将理论结果应用于稀疏变分的域间近似和 Cox 过程的后验推断。
  • 最后总结并强调了进一步研究的途径。

2 有限索引集的情况

本节实际上是后文所讨论内容的一个不太通用的特例,在这里讨论它是为了让那些熟悉以往变分稀疏近似的人便于理解。

考虑 XX 是有限的情况。我们引入一个新的集合 :=X(DZ)∗ := X \setminus (D \cup Z),即索引集合中除去归纳点和数据点的其余点构成的集合。在对保留数据进行预测时,这些点可能具有实际意义。

我们首先将变分分布扩展至包括这些点:

q(f,fDZ,fZ):=p(f,fDZfZ)q(fZ)(3)q(f_*, f_{D \setminus Z} , f_Z ) := p(f_*, f_{D \setminus Z} |f_Z )q(f_Z ) \tag{3}

然后,考虑此扩展变分分布和完整后验分布 p(fY)p(f|Y) 之间的 KL\mathcal{KL} 散度:

KL[q(f,fDZ,fZ)p(fY)]=KL[q(f,fDZ,fZ)p(f,fDZ,fZY)]=q(f,fDZ,fZ)logq(f,fDZ,fZ)p(f,fDZ,fZY)dfdfDZdfZ(4)\mathcal{KL}[q(f_*, f_{D \setminus Z}, f_Z)||p(f |Y )] \\ = \mathcal{KL}[q( f_*, f_{D \setminus Z} , f_Z ) || p(f_*, f_{D \setminus Z} , f_Z |Y)] \\ = \int q(f_*, f_{D \setminus Z} , f_Z ) \log \frac{q(f_*, f_{D \setminus Z} , f_Z ) }{p(f_*, f_{D \setminus Z} , f_Z |Y )} df_* df_{D \setminus Z} df_Z \tag{4}

接下来我们展开对数中的项并消去出现在分子和分母中的共同项:

q(f,fDZ,fZ)p(f,fDZ,fZY)=p(ffDZ,fZ)p(fDZfZ)q(fZ)p(Y)p(ffDZ,fZ)p(fDZfZ)p(fZ)p(YfD)=p(fDZfZ)q(fZ)p(Y)p(fDZfZ)p(fZ)p(YfD)=q(fDZ,fZ)p(fDZ,fZY)\begin{align*} \frac{q(f_*, f_{D \setminus Z} , f_Z ) }{p(f_*, f_{D \setminus Z} , f_Z |Y )} &= \frac{ p(f_*|f_{D \setminus Z} , f_Z )p(f_{D \setminus Z} |f_Z )q(f_Z )p(Y )}{ p(f_*|f_{D \setminus Z} , f_Z )p(f_{D \setminus Z} |f_Z )p(f_Z )p(Y |f_D)} \\ &= \frac{p(f_{D \setminus Z} |f_Z )q(f_Z )p(Y )}{ p(f_{D \setminus Z} |f_Z )p(f_Z )p(Y |f_D)}\\ &= \frac{q(f_{D \setminus Z} , f_Z ) }{p(f_{D \setminus Z} , f_Z |Y )} \tag{5} \end{align*}

将上式代回完整积分,并利用条件密度的边缘化特性,我们得到:

p(f,fDZfZ)q(fZ)logq(fDZ,fZ)p(fDZ,fZY)dfdfDZdfZ=p(fDZfZ)q(fZ)logq(fDZ,fZ)p(fDZ,fZY)dfDZdfZ(6)\int p(f_*, f_{D \setminus Z} |f_Z )q(f_Z ) \log \frac{ q(f_{D \setminus Z} , f_Z ) }{p(f_{D \setminus Z} , f_Z |Y )} df_* df_{D \setminus Z} df_Z \\ = \int p(f_{D \setminus Z} |f_Z )q(f_Z ) \log \frac{q(f_{D \setminus Z} , f_Z ) }{p(f_{D \setminus Z} , f_Z |Y )} df_{D \setminus Z} df_Z \tag{6}

最后一行正是 Titsias (2009a) 使用的 KL\mathcal{KL} 散度,我们已经在 式 (1) 中进行了描述。因此,对于有限索引集而言,考虑两个分布之间的 KL\mathcal{KL} 散度等同于 Titsias 的 KL\mathcal{KL} 散度。我们可能会考虑从 X|X| 个可能值中中选择 MM ,然后比较 式(4) 给出的分布之间的 KL\mathcal{KL} 散度。刚才的推导与 式(1) 之间的等价性告诉我们,在这种情况下,公式两边出现的归纳值只是一个 “核算” 的问题。也就是说,虽然我们实际上是想优化完整分布之间的 KL\mathcal{KL} 散度,但实际上只需要跟踪函数值 fZf_ZfDZf_{D \setminus Z} 上的分布即可。所有其他函数值 ff_* 边缘化。对于归纳点的不同选择,我们需要跟踪不同的函数值并能够安全地忽略不同的值 ff_*

3 无限索引集的情况

3.1 没有可用的无限维 Lebesgue 测度

人们可能希望 第 2 节 中讨论的方式也能处理无限索引集。不幸的是,当 XXff_* 是无限集时,我们无法对 “无限维向量” 进行积分。也就是说,符号 ()df\int (·)df_* 不能再正确使用了。

对此的讨论可以参见 Hunt 等 (1992 [17])。问题的症结在于:要给出有意义的答案,测量需要具有平移不变性和局部有限性。不幸的是,唯一符合这两个性质的度量是零度量,它将零分配给每个输入集。

因此,有必要重新考虑随机过程之间的 KL\mathcal{KL} 散度。事实证明,一个合理的定义将需要测度论的完整工具。想要了解这些问题背景的读者可能希望查阅更多的材料(Billingsley,1995 年 [3];Capinski 和 Kopp,2004 年[4])。

3.2 过程间的 KL-散度

本节回顾随机过程之间 KL\mathcal{KL} 散度的严格定义 (Gray, 2011 [12])。

假设我们对 (Ω,Σ)(Ω, Σ) 有两个测量值 μμηη,并且 μμ 关于 ηη 绝对连续。则存在 Radon-Nikodyn 导数 dμdη\frac{dμ }{dη},这些测度之间的 KL\mathcal{KL} 散度的正确定义是:

KL[μη]=Ωlog{dμdη}dμ(7)\mathcal{KL}[μ||η] = \int_Ω \log \left \{ \frac{dμ }{dη} \right \} dμ \tag{7}

μμ 关于 ηη 不是绝对连续时,令 KL[μη]=\mathcal{KL}[μ||η] = \infty。在样本空间是 RK\mathbb{R}^K 并且两个测度都由 Lebesgue 测度 mm 支配的情况下,这可以简化为更熟悉的定义:

KL[μη]=Ωulog{uv}dm(8)\mathcal{KL}[μ||η] = \int_Ω u \log \left \{ \frac{u}{v} \right \} dm \tag{8}

其中 uuvv 是关于 Lebesgue 测度的相应密度。第一个定义更通用,允许我们通过对 μμ 积分来处理不存在合理的无限维 Lebesgue 测度的问题。

3.3 稀疏归纳点框架的一般推导

在本节中,我们将给出稀疏归纳点框架的一般性推导。该推导比 Seeger (2003a; 2003b) 的推导更通用,因为它不需要从数据点中选择归纳点。它也不要求相关的有限维边缘分布具有关于 Lebesgue 测度的密度。

我们现在对函数集 f:XRf : X \mapsto \mathbb{R} 上的三种概率测度感兴趣:

第一种是先验测度 PP,假定它是高斯过程。第二个是假设为稀疏高斯过程的近似测度 QQ,第三个是后验过程 P^\hat{P} 可能是高斯或非高斯,具体取决于我们是否具有共轭似然。我们从贝叶斯定理的测量理论定义开始,用于支配模型(Schervish,1995)。它指定后验相对于先验的 RadonNikodym 导数。

dP^dP(f)=L(Yf)L(Y)(9)\frac{d\hat{P} }{dP} (f) = \frac{L(Y |f) }{L(Y)} \tag{9}

其中 L(Yf)L(Y |f ) 是可能性,L(Y)=RXL(Yf)dP(f)L(Y ) = \int_{\mathbf{R}^X} L(Y |f )dP (f) 是边缘可能性。正如我们在前几节中假设的那样,我们最初会将可能性限制为仅取决于索引集的有限数据子集。我们用 πC 表示: RXRC\mathbf{R}^X \mapsto \mathbb{R}^C 一个投影函数,它将整个函数作为参数并返回某个点集 CC 处的函数。在这种情况下,我们有:

dP^dP(f)=dP^DdPD(πD(f))=L(YπD(f))L(Y)(10)\frac{d \hat{P}}{dP}(f) = \frac{d \hat{P}_D}{dP_D }( \pi_D(f)) = \frac{L(Y |\pi_D(f )) }{L(Y)} \tag{10}

并且类似地,边缘似然仅取决于数据集 L(Y)=RDL(YfD)dPD(fD)L(Y ) = \int_{\mathbb{R}^D} L(Y |f_D) dP_D(f_D) 上的函数值。事实上,我们将在 5.2 节放宽数据集是有限的假设,而这样做的能力是该框架的好处之一。接下来,我们指定 QQ,假设它具有关于后验的密度,因此具有先验的密度,并且关于先验的密度取决于一组点 ZZ

dQdP(f)=dQZdPZ(πZ(f))(11)\frac{dQ}{dP} (f ) = \frac{d Q_Z}{d P_Z}(\pi_Z(f)) \tag{11}

在这个假设下,如果我们知道 PPdQZdPZ\frac{dQ_Z}{dP_Z}QQ 是完全指定的。为了对这个假设有一些直觉,我们可以比较式 (11) 和 (10)。我们看到,在近似分布中,集合 Z 与真实后验分布中 DD 的演奏相似。我们现在将这些假设放在一起。让我们应用 Radon-Nikodym 导数的链式法则和对数的标准性质:

KL[QP^]=RXlog{dQdP(f)}dQ(f)RXlog{dP^dP(f)}dQ(f)(12)\mathcal{KL}[Q|| \hat{P}] = \int_{\mathbf{R}^X} \log \left \{ \frac{dQ }{dP }(f) \right \} dQ(f) − \int_{\mathbf{R}^X} \log \left \{ \frac{ d\hat{P}}{dP}(f) \right \} dQ(f ) \tag{12}

单独使用第一项,我们利用近似分布的稀疏性假设:

RXlog{dQdP(f)}dQ(f)=RZlog{dQZdPZ(fZ)}dQZ(fZ)(13)\int_{\mathbf{R}^X} \log \left \{ \frac{dQ}{dP} (f) \right \} dQ(f ) \\ = \int_{\mathbf{R}^Z} \log \{ \frac{dQ_Z}{dP_Z}(f_Z) \} dQ_Z (f_Z) \tag{13}

取式 (12) 最后一行的第二项并利用测度论贝叶斯定理,我们得到:

RXlog{dP^dP(f)}dQ(f)=RDlog{dP^DdPD(fD)}dQD(fD)=EQD[logL(YfD)]logL(Y)(14)\int_{\mathbf{R}^X} \log \left \{ \frac{d\hat{P}}{dP} (f) \right \} dQ(f ) \\ = \int_{\mathbb{R}^D} \log \left \{ \frac{d\hat{P}_D}{dP_D} (f_D) \right \} dQ_D (f_D ) \\ =\mathbb{E}_{Q_D} \left [\log L(Y |f_D) \right ] − \log L(Y) \tag{14}

最后注意到边缘 KL\mathcal{KL} 散度的出现,我们得到了结果:

KL[QP^]=KL[QZPZ]EQD[logL(YfD)]+logL(Y)(15)\mathcal{KL}[Q|| \hat{P}] = \mathcal{KL}[Q_Z||P_Z ]− \mathbb{E}_{Q_D} [\log L(Y |f_D)]+\log L(Y ) \tag{15}

与变分近似值一样,在大多数感兴趣的情况下,边缘似然是难以处理的。然而,由于它是一个独立于 QQ 的附加常数,因此可以安全地忽略它。最后的方程表明,我们需要能够计算近似分布的归纳点边缘与所有 ZXZ \subset X 的先验之间的 KL\mathcal{KL} 散度 以及对数似然 QQ 的数据边缘分布下的期望。在可能性跨数据项分解的情况下,这将给出一维期望的总和。注意式 (15) 与 Hensman 等的相似性。 (2015)式(17),其中一个不太一般的表达是从“模型增广”的角度出发的。请注意,在我们的推导过程中,我们从未尝试调用病态的“无限维勒贝格测度”,这对于第 3.1 节中讨论的原因很重要。推导的简便性表明 Radon-Nikodym 导数和测度论提供了思考此类近似值的最自然和通用的方法。

4 增广索引集

我们现在考虑用有限的元素集 II 补充原始(有限或无限)索引集 XX 的情况,打算将它们用作归纳点。增广先验模型的精确性质将由一些参数 θθ 参数化,我们希望对其进行调整以提供良好的近似值。可以看出,这非常符合 Titsias (2009a) 和 Hensman 和 Lawrence (2014) 的“变分压缩”框架给出的原始增广论证的精神。此设置还涵盖了变分“域间”高斯过程的情况,这些过程在 Figueiras-Vidal 和 Lazaro-Gredilla (2009) 中提出但未实施,并在 Alvarez 等 (2011) 的边缘一致性论证的基础上实施。我们打算更详细地讨论边缘一致性论证,我们将处理围绕严格处理所涉及的各种无穷大的棘手问题。

通过指定以原始集 fXf_X 上的函数值为条件的增广函数值点 fIf_I 的分布,可以轻松确保边缘一致性。我们将相应的度量表示为 PIX(;θ)P_{I|X} (· ; θ) 。令 ΩX=RX\Omega_X = \mathbf{R}^XΩI=RI\Omega_I = \mathbb{R}^I 分别为与原始索引集和增广变量相关联的样本空间。设 FX\mathcal{F}_XFI\mathcal{F}^I 为它们的 σ-代数。边缘一致性表明我们将对在可测量矩形 AX×AIFX×FIA_X \times A_I \in \mathcal{F}_X \times \mathcal{F}^I 上具有以下行为的概率度量感兴趣:

PXI(AX×AI;θ)=AXPIX(AI;θ)dPXfX(16)P_{X \cup I} (A_X \times A_I ; θ) = \int_{A_X} P_{I|X} (A_I ; θ)dP_X f_X)\tag{16}

到目前为止,我们已经明确地包含了增广参数 θθ,但为了简洁起见,我们将在下文中省略它们。我们将在接下来的所有内容中做出这种边缘一致性假设。让我们称整个集合 XIX \cup I 为“并集”。与上一节类似,我们假设近似测度 QXIQ_{X \cup I} 具有相对于增广先验模型 PXIP_{X \cup I} 的密度,并且 Radon-Nikodym 导数只是增广函数点的函数:

dQXIdPXI(fXI)=dQIdPI(πI(fXI)(17)\frac{dQ_{X \cup I}}{dP_{X \cup I}} (f_{X \cup I}) = \frac{dQ_I}{dP_I} (\pi_I (f_{X \cup I}) \tag{17}

就好像增广集是我们将通过类似论证获得的原始索引集:

KL[QXIP^XI]=KL[QIPI]EQD[logL(YfD)]+logL(Y)(18)\mathcal{KL}[Q_{X \cup I} || \hat{P}_{X \cup I}] = \mathcal{KL}[Q_I ||P_I] − \mathbb{E}_{Q_D} [\log L(Y|f_D)] + \log L(Y) \tag{18}

然而,眼尖的读者会注意到,由于 P^XI\hat{P}_{X \cup I} 取决于增广参数 θθ,我们回到了可以调整左侧近似值和右侧优化目标的情况。正如我们将在下一节中看到的那样,我们不一定会被边缘一致性论证所拯救。一般情况下,KL[QXP^X]\mathcal{KL}[Q_X || \hat{P}_X] 等于 KL[QXIP^XI]\mathcal{KL}[Q_{X \cup I}|| \hat{P}_{X \cup I}]。事实上,正如我们现在将看到的,这种关系受 KL\mathcal{KL} 散度的链式法则支配。

4.1 KL 散度的链式法则

对于接下来的内容,我们将需要 KL\mathcal{KL} 散度的链式规则(Gray,2011)。设 UUVV 是两个具有标准 Borel σ-代数的波兰空间,U×VU \times V 是这些空间的笛卡尔积,具有相应的乘积 σ-代数。考虑该乘积空间上的两个概率测度 μU×Vμ_{U \times V}ηU×Vη_{U \times V} 并设 μUVμ_{U|V}ηUVη_{U|V} 为相应的常规条件测度。假设 μU×Vμ_{U \times V}ηU×Vη_{U \times V} 支配。 KL\mathcal{KL} 散度的链式法则表示:

KL[μU×VηU×V]=EμV{KL[μUVηUV]}+KL[μVηV](19)\mathcal{KL}[μ_{U \times V} ||η_{U \times V} ] = \mathbb{E}_{μV} \{\mathcal{KL}[ μ_{U|V} ||η_{U|V}] \} + \mathcal{KL}[μ_V ||η_V] \tag{19}

右侧的第一项称为 “条件 KL\mathcal{KL} 散度” 或 “条件相对熵”。

4.2 边缘一致的增广论证一般来说是不正确的。

KL\mathcal{KL} 散度的链式法则应用到我们获得的并集上的散度:

KL[QXIP^XI]=EQX{KL[QIXP^IX]}+KL[QXP^X]=EQX{KL[QIXPIX]}+KL[QXP^X](20)\mathcal{KL}[Q_{X \cup I} || \hat{P}_{X \cup I}] = \mathbb{E}_{Q_X} \{ \mathcal{KL}[Q_{I|X} || \hat{P}_{I|X}] \} + \mathcal{KL}[Q_X || \hat{P}_X ] \\ = \mathbb{E}_{Q_X} \{\mathcal{KL}[ Q_{I|X} ||P_{I|X} ] \} + \mathcal{KL}[Q_X || \hat{P}_X ] \tag{20}

最后一行源于这样一个事实,即在假设的模型增广方案中,附加变量 fIf_I 有条件地独立于给定的数据 fXf_X 。这种关系使我们的主张更加准确,即边缘一致性不足以保证 KL[QXP^X]\mathcal{KL}[Q_X || \hat{P}_X] 等于 KL[QXIP^XI]\mathcal{KL}[Q_{X \cup I}|| \hat{P}_{X \cup I}]。事实上,这只有在 QIX=PIX,QXQ_{I|X} = P_{I|X} ,Q_X 时才会成立——几乎可以肯定。在这不是真的情况下,增广模型系列中的变分推断不等同于原始模型中的变分推断,我们将优化 “双侧” 目标函数。我们将在下一节中考虑一个重要条件,该条件可确保所需的相等性确实成立。

然而,在我们继续之前,考虑将原始未增广问题转换为增广问题也是有益的。将变换后的增广集和索引集 (I~,X~)(\tilde{I},\tilde{X}) 以旧集的形式定义为 (X\D, D)。然后链式法则告诉我们数据集上的 KL\mathcal{KL} 散度通常不等于索引集上的 KL\mathcal{KL} 散度,尽管如果 ZDZ \subset D 则为真。

4.3 确定性增广

在这里,我们讨论一个重要的情况,其中增广 KL\mathcal{KL} 散度和未增广 KL\mathcal{KL} 散度确实相等,即附加变量 fIf_I 是原始索引集 fXf_X 上函数值的确定性函数 hh。在我们深入细节之前,一些概念点可能会有用。首先,约束仅表示值是确定性的,取决于整个索引集上的函数,并且索引集本身可能是无限的。通常在实践中,无论是通过噪声、有限观测还是两者兼而有之,我们都无法准确知道潜在函数,因此在我们的模型中我们也无法准确知道归纳变量。其次,虽然这个假设最初看起来是人为的,但实际上它涵盖了两个非常重要的情况:原始框架,其中一些归纳点是从索引集 XX 中选择的,然后“复制”到 II 中,正如我们稍后将看到的域间归纳点框架。

具有确定性函数映射等同于具有以函数值为中心的 delta 函数条件分布。因此,如果近似测度 QXIQ_{X \cup I} 具有相同的三角函数条件,则式 (20) 中的条件 KL\mathcal{KL} 散度 项,即右侧条件的期望将为零。下一个定理表明,如果我们按照通常的规定来定义 QXIQ_{X \cup I},情况确实如此。

4.3.1 确定性增广的支配定理

(ΩX,FX)(\Omega_X , \mathcal{F}_X )(ΩI,FI)(\Omega_I , \mathcal{F}^I ) 是两个波兰空间,并设 (ΩX×ΩI,FX×FI)(\Omega_X \times \Omega_I , \mathcal{F}_X \times \mathcal{F}^I ) 是它们的乘积空间,其乘积为 σ-代数。令 h:ΩXΩIh : \Omega_X \mapsto \Omega_IFX/FI\mathcal{F}_X / \mathcal{F}^I 可测量函数。我们对测度 P:FX×FIRP: \mathcal{F}_X \times \mathcal{F}^I \mapsto \mathbb{R} 感兴趣。它在可测矩形 AX×AIA_X \times A_I 上具有以下属性

P(AX×AI)=PX(AXh1(AI))(21)P(A_X \times A_I ) = P_X (A_X \cap h^{-1}(A_I)) \tag{21}

其中 PX:=P(AX×ΩI)P_X := P (A_X \times \Omega_I)XX 的边缘分布。这个假设反过来意味着 II 的边缘分布具有

PI(AI)=PX(h1(AI))(22)P_I (A_I ) = P_X (h^{-1}(A_I )) \tag{22}

这是 PXP_X 在函数 hh 下的前推量度。很明显,正则条件分布 PIX()P_{I|X} (·) 具有点测度属性:

PIX(AI)=δh(fX)(AI)(23)P_{I|X} (A_I ) = δ_{h(f_X)}(A_I) \tag{23}

PXI()P_{X|I}(·)fXf_X 的规则条件分布,以 fIf_I 为条件。接下来我们定义第二个测度 QFX×FIRQ:\mathcal{F}_X \times \mathcal{F}^I \mapsto \mathbb{R},其在可测矩形上具有以下属性

Q(AX×AI)=AIPXI(AX)dQI(fI)(24)Q(A_X \times A_I) = \int_{A_I} P_{X|I} (A_X )dQ_I (f_I ) \tag{24}

最后我们假设 QIPIQ_I \ll P_I 。该定理指出,在上一节的假设下,QQ 的边缘分布具有以下属性:

QI(AI)=QX(h1(AI))(25)Q_I (A_I) = Q_X (h^{-1}(A_I)) \tag{25}

也就是说 QQZZ 的边缘分布是 QXQ_X 在函数 hh 下的前推测度。因此,以 fXf_X 为条件的 fIf_I 的近似分布也具有点测度属性

QIX(AI)=δh(fX)(AI)(26)Q_{I|X} (A_I) = δ_{h(f_X)}(A_I) \tag{26}

我们现在给出一个证明。从式 (25) 的右侧开始

QX(h1(AI))=Q(h1(AI)×ΩI)=ΩIPXI(h1(AI))dQI(fI)(27)Q_X (h^{-1}(A_I)) = Q(h^{-1}(A_I) \times \Omega_I) \\ = \int_{\Omega_I} P_{X|I} (h^{-1}(A_I))dQ_I (f_I ) \tag{27}

接下来,由于 QIPIQ_I \ll P_I,我们应用 Radon-Nikodym 定理:

ΩIPXI(h1(AI))dQI(fI)=ΩIPXI(AX)dQIdPIdPI(fI)(28)\int_{\Omega_I} P_{X|I} (h^{-1}(A_I))dQ_I (f_I) = \int_{\Omega_I} P_{X|I} (A_X ) \frac{dQ_I}{dP_I} dP_I (f_I) \tag{28}

Radon-Nikodym 定理也保证了条件分布的存在。明确地,我们有

PXI(AX)=dP(AX×)dPI()(29)P_{X|I} (A_X) = \frac{dP (A_X \times \cdot)}{dP_I (\cdot)} \tag{29}

从式 (28) 继续并应用 Radon-Nikodym 导数的基本定理我们有:

ΩIPXI(h1(AI))dQIdPIdPI(fI)=ΩIdQIdPIdP(h1(AI)×fI)(30)\int_{\Omega_I} P_{X|I} (h^{-1}(A_I )) \frac{dQ_I}{dP_I} dP_I (f_I) = \int_{\Omega_I} \frac{dQ_I}{dP_I} dP(h^{-1}( A_I) \times f_I ) \tag{30}

现在我们应用式 (21) 给出的属性

ΩIdQIdPIdP(h1(AI)×fI)=ΩIdQIdPIdPX(h1(AI)h1(fI))(31)\int_{\Omega_I} \frac{dQ_I }{dP_I} dP(h^{-1}(A_I) \times f_I) = \int_{\Omega_I} \frac{dQ_I}{dP_I} dP_X (h^{-1}(A_I) \cap h^{-1}(f_I)) \tag{31}

现在我们对积分进行一些代数运算:

ΩIdQIdPIdPX(h1(AI)h1(fI))=ΩIdQIdPIdPX(h1(AIfI))=ΩIdQIdPIdPI(AIfI)=AIdQIdPIdPI(fI)=QI(AI)(32)\int_{\Omega_I} \frac{dQ_I}{dP_I} dP_X (h^{-1}(A_I ) \cap h^{-1}(f_I )) \\ = \int_{\Omega_I} \frac{dQ_I}{dP_I} dP_X (h^{-1}(A_I \cap f_I )) \\ = \int_{\Omega_I} \frac{dQ_I}{dP_I} dP_I (A_I \cap f_I ) \\ = \int_{A_I} \frac{dQ_I}{dP_I} dP_I (f_I ) = Q_I(A_I ) \tag{32}

正如所声称的那样。

5 例子

5.1 变分域间近似

在这里,我们考虑在 Figueiras-Vidal 和 Lazaro-Gredilla (2009) 中提出但未实现的稀疏变分域间近似,并且出现在 Alvarez 等 (2011) 的边缘一致性论证的基础上。域间变量是随机变量,由 iIi \in I 索引,定义如下:

fi(θ)=Xgi(x,θ)fxdλ(x)(33)f_i(θ) = \int_X g_i(x, θ) f_x dλ(x) \tag{33}

这里 λλXX 上具有一些适当的 σ 代数的测度,{gi:iI}\{g_i : i \in I\} 是一组从 XXR\mathbb{R}λλ 可积函数。域间变量可以被视为以整个函数 fXf_X 为条件的确定性条件,因此定理第 4.3 节开始发挥作用。由于这里的目的是将这个框架置于坚实的逻辑基础上,我们还应该考虑这个转换的可测量性和相关随机变量的棘手问题。 Doob (1953) 的工作解决了随机过程的可分离可测量版本的存在,包括最常用的高斯过程。它还讨论了将富比尼定理应用于式 (33) 定义的随机变量的期望所必需的条件。富比尼定理的应用对于此类方法在实践中的实用性至关重要(Figueiras-Vidal 和 Lazaro-Gredilla,2009 年)。

因此,我们可以正确地优化域间归纳点的参数 θ,因为我们知道该决策在变化上受到过拟合的保护,并优化了明确定义的 KL\mathcal{KL} 散度目标。因此,在我们看来,在这个方向上进行各种改进的稀疏近似的潜力是巨大的。

5.2 Cox 过程后验的近似

在本节中,我们放宽了数据集 DD 是有限的假设,这是考虑基于高斯过程的 Cox 过程所必需的。 Lloyd 等 (2015) 在边缘一致性动机下考虑了该模型的一个具体案例。基于高斯过程的 Cox 过程具有以下生成方案:

fGP(m,K)h=ρ(f)YhPP(h)(34)f \sim \mathcal{GP}(m, K)\\ h = ρ(f ) \\ Y |h \sim \mathcal{PP}(h) \tag{34}

这里 GP(m,K)\mathcal{GP}(m, K) 表示具有均值 mm 和核 KK 的高斯过程, ρ:R(0,)ρ : \mathbb{R} \mapsto (0, \infty) 是一个逆链接函数,PP(h)\mathcal{PP}(h) 是强度为 hh 的泊松过程,DD 是一个集合原始索引集 XX 中的点。例如,在地理空间统计应用程序中,我们可能将 XX 视为 R2\mathbb{R}^2 的某个有界子集。泊松过程可能性的关键问题在于,它不仅取决于 XX 中观测到的点,而且实际上还取决于 XX 中的所有点。直觉上,一个区域中没有点表明该区域的强度较低。因此 D=XD = X。所讨论的可能性是:

L(YfD)=(yYρ(y))exp{Xρ(x)dm(x)}(35)L(Y |f_D) = \left ( \prod_{y \in Y} ρ(y)\right) \exp \left \{ − \int_X ρ(x)dm(x) \right \} \tag{35}

其中 mm 表示例如 XX 上的勒贝格测度。完全的 XX 相关性通过右侧的积分表现出来。我们将要求积分几乎肯定存在。在 Lloyd 等 (2015) 的方程 (3) 中,贝叶斯定理的应用似乎需要关于无限维勒贝格测度的密度。正如 3.1 中指出的那样,这种观念是病态的。然而,这可以解决,因为本文式 (9) 中贝叶斯定理的更一般形式仍然适用。因此我们可以应用 3.3 节的结果得到:

KL[QP^]=KL[QZPZ]yYEQy[logρ(y)]+EQX[Xρ(x)dm(x)]+logL(Y)(36)\mathcal{KL}[Q|| \hat{P}] = \mathcal{KL}[Q_Z||P_Z] − \sum_{y \in Y} \mathbb{E}_{Q_y} [\log ρ(y)] + \mathbb{E}_{Q_X} \left [\int_X ρ(x)dm(x) \right] + \log L(Y) \tag{36}

在 5.1 节中,我们需要检查 Fubini 定理的条件是否适用(Doob,1953),它给出:

KL[QP^]=KL[QZPZ]yYEQy[logρ(y)]+XEQx[ρ(x)]dm(x)+logL(Y)(37)\mathcal{KL}[Q|| \hat{P} ] = \mathcal{KL}[Q_Z||P_Z ] − \sum_{y\in Y} \mathbb{E}_{Q_y} [\log ρ(y)] + \int_X \mathbb{E}_{Q_x} [ρ(x)] dm(x) + \log L(Y) \tag{37}

对于 Lloyd 等(2015 年)中使用的 ρ 的具体情况,工作会像该论文中那样继续进行,并且随后的优雅结果仍然适用。请注意,可以将这些 Cox 过程近似与域间框架结合起来,这可能是进一步工作的一个富有成果的方向。

6 结论和致谢

在这项工作中,我们阐明了变分归纳点框架 (Titsias, 2009a) 与随机过程之间严格定义的 KL\mathcal{KL} 散度之间的联系。 Seeger (2003a; 2003b) 早期将 KL\mathcal{KL} 散度的严格公式用于机器学习文献的高斯过程。在这里,我们通过允许归纳不是数据点的点并消除对勒贝格测度的不必要依赖,增加了这些证明的适用范围。我们会争辩说,我们的证明阐明了 Radon-Nikodym 衍生物所扮演的核心和优雅角色。然后,我们在该框架中首次考虑仅出于变分推断的目的而添加额外变量的情况。我们表明边缘一致性不足以保证原则性优化目标,但如果我们使归纳点确定性地以整个函数为条件,则可以保证原则性优化目标并且增广的参数受到变分保护。然后,我们展示了扩展理论如何使我们能够正确处理有原则的域间稀疏近似,并且我们可以正确处理 Cox 过程的重要性情况,其中可能性取决于无限的功能点集。

希望阐明公式的测度理论根源将有助于社区推广框架并带来更好的实际结果似乎是合理的。特别是,由于域间归纳点是线性泛函,希尔伯特空间理论可能会在这里得到有益的应用。考虑到第 3.3 节的一般性,认为其他贝叶斯和贝叶斯非参数模型可能适用于这种处理似乎也是合理的。

参考文献

  • [1] Alvarez, M. A. (2011). Convolved Gaussian process priors for multivariate regression with applications to dynamical systems. PhD thesis, University of Manchester.
  • [2] Alvarez, M. A. and Lawrence, N. D. (2011). Computationally Efficient Convolved Multiple Output Gaussian Processes. J. Mach. Learn. Res., 12:1459–1500.
  • [3] Billingsley, P. (1995). Probability and Measure. WileyInterscience, 3 edition.
  • [4] Capinski, M. and Kopp, P. (2004). Measure, Integral and Probability. Springer Undergraduate Mathematics Series. Springer London.
  • [5] Chai, K. M. A. (2012). Variational Multinomial Logit Gaussian Process. J. Mach. Learn. Res., 13(1):17451808.
  • [6] Csato, L. (2002). Gaussian processes: iterative sparse approximations. PhD thesis, Aston University.
  • [7] Csato, L. and Opper, M. (2002). Sparse on-line gaussian processes. Neural computation, 14(3):641–668.
  • [8] Damianou, A. C., K., M., Titsias, and Lawrence, N. D. (2014). Variational inference for uncertainty on the inputs of Gaussian process models. arXiv preprint arXiv:1409.2287.
  • [9] Damianou, A. C. and Lawrence, N. D. (2012). Deep Gaussian Processes. arXiv preprint arXiv:1211.0358.
  • [10] Doob, J. (1953). Stochastic Processes. Wiley Publications in Statistics. John Wiley & Sons.
  • [11] Figueiras-Vidal, A. and L ́ azaro-Gredilla, M. (2009). Inter-domain gaussian processes for sparse inference using inducing features. In Bengio, Y., Schuurmans, D., Lafferty, J., Williams, C., and Culotta, A., editors, Advances in Neural Information Processing Systems 22, pages 1087–1095. Curran Associates, Inc.
  • [12] Gray, R. M. (2011). Entropy and Information Theory. Springer-Verlag New York, Inc., New York, NY, USA, 2 edition.
  • [13] Hensman, J., Fusi, N., and Lawrence, N. D. (2013). Gaussian processes for Big Data. In Conference on Uncertainty in Artificial Intellegence, pages 282–290. auai.org.
  • [14] Hensman, J. and Lawrence, N. D. (2014). Nested Variational Compression in Deep Gaussian Processes. ArXiv e-prints.
  • [15] Hensman, J., Matthews, A., and Ghahramani, Z. (2015). Scalable Variational Gaussian Process Classification. In 18th International Conference on Artificial Intelligence and Statistics, pages 351–360, San Diego, California, USA.
  • [16] Hoffman, M. D., Blei, D. M., Wang, C., and Paisley, J. (2013). Stochastic Variational Inference. Journal of Machine Learning Research, 14:1303–1347.
  • [17] Hunt, B. R., Sauer, T., James, and Yorke, A. (1992). Prevalence: A translation-invariant almost every on infinite-dimensional spaces. Bulletin of the Amer. Math. Soc, pages 217–238.
  • [18] Lloyd, C., Gunter, T., Osborne, M., and Roberts, S. (2015). Variational Inference for Gaussian Process Modulated Poisson Processes. In Proceedings of The 32nd International Conference on Machine Learning, pages 1814–1822.
  • [19] Schervish, M. (1995). Theory of Statistics. Springer Series in Statistics. Springer.
  • [20] Seeger, M. (2003a). Bayesian Gaussian process models: PAC-Bayesian generalisation error bounds and sparse approximations. PhD thesis, University of Edinburgh.
  • [21] Seeger, M. (2003b). Pac-Bayesian generalisation error bounds for Gaussian process classification. J. Mach. Learn. Res., 3:233–269.
  • [22] Titsias, M. K. (2009a). Variational learning of inducing variables in sparse Gaussian processes. In In International Conference on Artificial Intelligence and Statistics 12, pages 567–574.
  • [23] Titsias, M. K. (2009b). Variational Model Selection for Sparse Gaussian Process regression. Technical report.
  • [24] Titsias, M. K. and Lawrence, N. D. (2010). Bayesian Gaussian process latent variable model. In Thirteenth International Conference on Artificial Intelligence and Statistics.