Rasmussen 第 6 章 高斯过程与其他模型的关系
【摘 要】 讨论一些与高斯过程预测相关的概念和模型,包括再生核 Hilbert 空间 (RKHSs)、正则化理论、样条曲线、支持向量机、最小二乘分类 (LSC)、相关向量机 (RVM) 等。 本文节选自 《Gaussian processes for machine learning》一书的第六章。
【原 文】 Rasmussen, C.E. and Williams, C.K. (2006) Gaussian processes for machine learning, chapter 6. Cambridge, Mass: MIT press Cambridge, MA (3).
在本章中,我们将讨论一些与高斯过程预测相关的概念和模型。在 第 6.1 节
中,我们介绍了再生核 Hilbert 空间 (RKHSs),它定义了对应于给定正半定核 k 的足够光滑函数的 Hilbert 空间。
正如我们在第 1 章中讨论的那样,有许多函数与给定的数据集 $\mathcal{D}$ 一致。我们已经看到高斯过程方法如何将先验置于函数之上以处理此问题。正则化理论(在
第 6.2 节
中描述)提供了一个相关的观点,其中人们寻求数据拟合和 RKHS 函数范数之间的权衡。这与高斯过程预测中的 MAP 估计密切相关,因此忽略了预测中的不确定性以及边缘似然。
在 第 6.3 节
中,我们讨论了样条曲线,这是一种正则化的特例,当 RKHS 是根据给定阶数的微分算子定义时获得的。
还有许多其他核机器系列与高斯过程预测相关。在 第 6.4 节
中,我们描述了支持向量机,在 第 6.5 节
中,我们讨论了最小二乘分类 (LSC),在 第 6.6 节
中,我们介绍了相关向量机 (RVM)。
6.1 再生核 Hilbert 空间
在这里,我们简要介绍再生核 Hilbert 空间。该理论由 Aronszajn [1950] 提出;最近的一篇论文是 Saitoh [1988]。信息也可以在 Wahba [1990]、Scholkopf 和 Smola [2002] 以及 Wegman [1982] 中找到。 Weinert [1982] 编辑的论文集概述了 RKHS 在统计信号处理中的使用。
我们从 RKHS 的正式定义开始,然后描述 RKHS 的两个特定基础: 一是 Mercer 定理 和 $k$ 的 _特征函数_,二是 _再生核映射_。
【定义 6.1(再生核 Hilbert 空间)】 称 $\mathcal{H}$ 为定义在索引集 $\mathcal{X}$ 上的实函数 $f$ 的希尔伯特空间。如果存在函数 $k : \mathcal{X} \times \mathcal{X} \rightarrow \mathbb{R}$ 使得:
对于每个 $\mathbf{x}$,作为 $\mathbf{x’}$ 函数的 $k(\mathbf{x,x’})$ 属于空间 $\mathcal{H}$, 并且
函数 $k$ 具有再生属性 $\langle f(·), k(\mathbf{\cdot,x}) \rangle_{\mathcal{H}} = f(\mathbf{x})$
参见例如 Scholkopf 和 Smola [2002] 以及 Wegman [1982]。
需要注意的是以下性质:
(1)由于 $k(\mathbf{x,\cdot})$ 和 $k(\mathbf{x’,\cdot})$ 均在 $\mathcal{H}$ 中,因此有 $\langle k(\mathbf{x,\cdot}), k(\mathbf{x’,\cdot})\rangle_{\mathcal{H}} = k(\mathbf{x,x’})$,也就是说,$\mathcal{H}$ 空间中的内积可以由 $\mathcal{X}$ 空间中的函数 $k$ 直接计算得出。
(2)RKHS 唯一确定 $k$,反之亦然,如以下定理所述:
【定理 6.1】(Moore-Aronszajn 定理):令 $\mathcal{X}$ 为索引集。那么对于 $\mathcal{X} \times \mathcal{X}$ 上的每个正定函数 $k(·,·)$ 都存在唯一的 RKHS,反之亦然。
希尔伯特空间 $L_2$ 包含许多非平滑的函数(注:根据上述定义,有 $\langle f, g \rangle_{L_2} = \int f(\mathbf{x}) g(\mathbf{x}) d \mathbf{x}$ )。在非 RKHS 空间的 $L_2$ 中,$\delta$ 函数被视为计算的表征,即有 $f(\mathbf{x}) = \int f(\mathbf{x’}) δ(\mathbf{x-x’}) d \mathbf{x’}$。而在 RKHS 中,核起到了类似于 $\delta$ 函数的作用。请注意:$\delta$ 函数本身不在 $L_2$ 中;但对于 RKHS 来说,核 $k$ 本身也在 RKHS 中。
上面的描述可能比较抽象。对于我们的当前目的来说,RKHS 背后的关键直觉是:该空间中的平方范数 $|f|^2_{\mathcal{H}}$ 可以被视为 $n$ 维二次函数 $\mathbf{f}^{\top}K^{-1} \mathbf{f}$ 的一种推广。
考虑一个实值类型的正半定核 $k(\mathbf{x,x’})$,如果其相对于测度 $μ$ 能够被展开为特征函数的形式: $k(\mathbf{x,x’}) = \sum^{N}{i=1} \lambda_i \phi_i(\mathbf{x}) \phi_i(\mathbf{x’})$。回想一下 【Mercer 定理】,特征函数相对于 $μ$ 正交,即有 $\int \phi_i(\mathbf{x}) \phi_j(\mathbf{x}) d μ(\mathbf{x}) = \delta{ij}$。 我们现在可以考虑由特征函数的线性组合构造的希尔伯特空间,即 $f(\mathbf{x}) = \sum^{N}{i=1} f_i \phi_i(\mathbf{x})$,其中 $\sum^{N}{i=1} f^2)i /\lambda_i < \infty$。
我们可以断言:希尔伯特空间中的两个函数 $f(\mathbf{x})$ 和 $g(\mathbf{x}) = \sum^{N}{i=1} g_i \phi_i(\mathbf{x})$ 之间的内积 $\langle f, g \rangle{\mathcal{H}}$ 可以被定义为:
$$
\langle f, g \rangle_{\mathcal{H}} = \sum^{N}_{i=1} \frac{f_i g_i}{\lambda_i} \tag{6.1}
$$
因此,此希尔伯特空间配备了范数 $|f|{\mathcal{H}}$,其中的二阶范数 $|f|^2{\mathcal{H}} = \langle f, f \rangle_{\mathcal{H}} = \sum^{N}{i=1} f^2_i /\lambda_i$。请注意,由于 $|f|{\mathcal{H}}$ 是有限的,因此系数序列 ${f_i}$ 必须快速衰减;这有效地在空间上施加了平滑条件。
我们现在需要证明这个希尔伯特空间是核 $k$ 对应的 RKHS,即它具有可再生性。这很容易实现,因为
$$
\langle f (·), k(\mathbf{\cdot,x}) \rangle_{\mathcal{H}} = \sum^{N}_{i=1} \frac{f_i\lambda_i \phi_i (\mathbf{x})}{ \lambda_i }= f(\mathbf{x}) \tag{6.2}
$$
类似地
$$
\langle k(\mathbf{x,\cdot}), k(\mathbf{x’,\cdot}) \rangle_{\mathcal{H}} = \sum^{N}_{i=1} \frac{\lambda_i \phi_i (\mathbf{x}) \lambda_i \phi_i (\mathbf{x’})}{\lambda_i} = k(\mathbf{x,x’}) \tag{6.3}
$$
这里还要注意: $k(\mathbf{x,\cdot})$ 也在 RKHS 中,因为它具有范数 $\sum^{N}_{i=1}(\lambda_i \phi_i (\mathbf{x}))^2/\lambda_i = k(\mathbf{x,x}) < \infty$。
我们现在已经证明: 由特征函数的线性组合(满足条件 $\sum^{N}_{i=1} f^2_i /\lambda_i < \infty$)组成的希尔伯特空间满足 【定义 6.1】 中给出的两个条件。由于存在与 $k(·,·)$ 关联的唯一 RKHS,因此此 Hilbert 空间只能是该 RKHS。
RKHS 抽象公式的优势在于:当我们在 Mercer 定理中使用不同的测度 $μ$ 时,特征基函数会发生变化。而 RKHS 范数实际上只是核的一个性质,并且相对于测度变化具有不变性。这可以从上面 RKHS 性质的证明不依赖于测度这一事实看出;另见 Kailath [1971, sec. II.B]。
注意 RKHS 范数 $|f|^2_{\mathcal{H}} = \langle f, f \rangle_{\mathcal{H}} = \sum^{N}_{i=1}f^2_i /\lambda_i$ 和二次型 $\mathbf{f}^{\top}K^{-1} \mathbf{f}$ 之间的类比;如果我们用 $K$ 的特征向量表示 $K$ 和 $\mathbf{f}$,我们将获得完全相同的形式(但如果 $\mathbf{f}$ 的长度为 $n$,则总和只有 $n$ 项)。
如果我们从 $\mathcal{N}(0, \lambda_i)$ 中抽取特征展开式 $f(\mathbf{x}) = \sum^{N}_{i=1}f_i \phi_i(\mathbf{x})$ 中系数 $f_i$ 的样本,那么
$$
\mathbb{E}[|f|^2_{\mathcal{H}}] = \sum^{N}{i=1} \frac{\mathbb{E}[f^2_i] }{\lambda_i }= \sum^{N}{i=1} 1 \tag{6.4}
$$
因此,如果 $N$ 是无限的,则样本函数并不在 $\mathcal{H}$ 中(概率为 $1$),因为 RKHS 范数的期望值是无限的;参见 Wahba [1990, p. 5] 和 Kailath [1971, II.B 节] 了解更多详情。但请注意:尽管此高斯过程的样本函数不在 $\mathcal{H}$ 中,但在观测到某些数据后的后验均值将位于 RKHS 中,因为均值计算具有平滑效应。
RKHS 的另一个视角可以从 再生核映射 中获得。我们考虑将函数 $f$ 的空间定义为:
$$
{ f(\mathbf{x}) = \sum^{n}_{i=1} \alpha_i k(\mathbf{x, x_i}) : n \in \mathbb{N}, \mathbf{x}_i \in \mathcal{X} , \alpha_i \in \mathbb{R} } \tag{6.5}
$$
现在令 $g(\mathbf{x}) = \sum^{n’}_{j=1} \alpha’_j k(\mathbf{x}, \mathbf{x’}_j)$。然后我们定义内积
$$
\langle f, g \rangle_{\mathcal{H}} = \sum^{n}{i=1} \sum^{n’}{j=1} \alpha_i \alpha’_j k(\mathbf{x}_i, \mathbf{x’}_j) \tag{6.6}
$$
显然,【定义 6.1】 的条件 1 在再生核映射构造下得到了满足。我们还可以证明其再生属性,如
$$
\langle k(\mathbf{\cdot,x}), f (·) \rangle_{\mathcal{H}} = \sum^{n}_{i=1} \alpha_i k(\mathbf{x}, \mathbf{x}_i) = f(\mathbf{x}) \tag{6.7}
$$
6.2 正则化
在没有任何额外假设的情况下,从有限(并且可能有噪声)数据集推断基础函数 $f(\mathbf{x})$ 的问题显然是 “不适定的”。例如,在无噪声情况下,任何通过给定数据点的函数都是可以接受的。在贝叶斯方法下,以函数的先验为特征,在给定一些数据后,能够获得函数的后验分布。在正则化观点下也解决了使先验假设起作用的问题,其中这些假设根据 $f$ 的平滑度进行编码。
我们考虑泛函
$$
J[f ] = \frac{λ}{2} |f|^2_{\mathcal{H}} + Q(\mathbf{y,f}) \tag{6.8}
$$
其中 $\mathbf{y}$ 是我们预测的目标向量,$\mathbf{f} = (f(\mathbf{x}_1), \ldots , f(\mathbf{x}_n))^{\top}$ 是相应的函数值向量,$λ$ 是衡量这两项的缩放参数。第一项称为正则项,表示由合适的 RKHS 编码的 $f$ 的平滑假设,第二项是数据拟合项,用于评估观察数据 $y_i$ 的预测 $f(\mathbf{x}_i)$ 的质量,例如负对数似然。
岭回归(在 第 2.1 节
中描述)可以看作是正则化的一个特例。事实上,回顾|f|^2_{\mathcal{H}} = \sum^{N}_{i=1}f^2_i /\lambda_i 其中 f_i 是特征函数 \phi_i (\mathbf{x}) 的系数,我们看到我们正在惩罚加权平方系数。这是在特征空间中发生的,而不是简单地在输入空间中,根据岭回归的标准公式(见等式(2.4)),因此它对应于核岭回归。
表示定理表明 J[f ] 的每个最小化器 f \in $\mathcal{H}$ 具有 f(\mathbf{x}) = ∑n i=1 \alpha_i k(x, xi) 的形式。1 表示定理首先由 Kimeldorf 和 Wahba [1971] 提出,用于平方误差的情况。2 O’Sullivan 等人。 [1986] 表明,表示定理可以扩展到广义线性模型产生的似然函数。代表定理可以进一步推广,参见例如 Scholkopf 和 Smola [2002,秒。 4.2]。如果数据拟合项是凸的(请参阅第 A.9 节),则将存在 J[f] 的唯一最小值 f^。
对于具有仅在 n 个训练点处涉及 f 值的可能性的高斯过程预测(因此 Q(y, f ) 是不涉及 f 的某些项的负对数似然),表示定理的类比是显而易见的。这是因为 f(x∗) 的预测分布,在给定数据 y 的测试点 x∗ 处的 f∗ 是 p(f∗|y) = \int p(f∗|f )p(f |y) df 。正如在等式中得出的那样。 (3.22) 我们有
\mathbb{E}[f*|y] = k(x*)>K−1\mathbb{E}[f|y]
由于多元高斯的条件分布公式。因此 \mathbb{E}[f∗|y] = ∑n i=1\alpha_i k(x∗, xi),其中 α = K−1\mathbb{E}[f |y]。
正则化方法在反问题中有着悠久的传统,至少可以追溯到 Tikhonov [1963];另见 Tikhonov 和 Arsenin [1977]。有关此方法在机器学习文献中的应用,请参见例如 Pog g_io 和 Girosi [1990]。
在 第 6.2.1 节
中,我们考虑根据微分算子定义的 RKHS。在 第 6.2.2 节
中,我们演示了如何在平方误差的特定情况下解决正则化问题,在 第 6.2.3 节
中,我们将正则化方法与高斯过程观点进行比较和对比。
6.2.1 微分算子定义的正则化
对于 x \in RD 定义
RD 定义 ‖Omf ‖2 = \int ∑ j1+…+jD =m ( ∂mf(\mathbf{x}) ∂xj1 1 . . . xjD $\mathcal{D}$ )2 d \mathbf{x}。
例如对于 m = 2 和 $\mathcal{D}$ = 2
‖O2f ‖2 = \int [( ∂2f ∂x21 )2 +2 ( ∂2f ∂x1∂x2 )2 + ( ∂2f ∂x22 )2] d \mathbf{x}1 d \mathbf{x}2。
现在设置 ‖P f ‖2 = ∑M m=0 am‖Omf ‖2 具有非负系数 am。请注意,‖P f ‖2 是平移和旋转不变的。
在本节中,我们假设 a0 > 0;如果不是这种情况,并且 ak 是第一个非零系数,则存在未惩罚零空间的函数的零空间。例如,如果 k = 2,则常量函数和线性函数位于零空间中。这种情况在 第 6.3 节
中处理。
‖P f ‖2 根据其函数值和导数的可变性对 f 进行惩罚,直到 M 阶。这与 第 6.1 节
的 RKHS 公式有何对应?关键是要认识到如果 $\mathcal{X}$ = RD,复数指数 exp(2πis · x) 是微分算子的特征函数。在这种情况下
‖P f ‖2 = \int M ∑ m=0 am(4π2s · s)m| ̃ f (s)|2ds
其中 ̃ f (s) 是 f(\mathbf{x}) 的傅立叶变换。比较式(6.12)与等式。 (6.1) 我们看到核有功率谱
S(s) = 1 ∑M m=0 am(4π2s · s)m
因此通过傅立叶反演我们得到了固定核
k(\mathbf{x}) = \int e2πis·x ∑M m=0 am(4π2s · s)m ds。
获得核的一种稍微不同的方法是使用变分法来最小化关于 f 的 J[f ]。欧拉-拉格朗日方程导致
f(\mathbf{x}) = \sum^{n}_{i=1} \alpha_i G(x − xi),
和
M ∑ m=0 (−1)mam∇2mG = δ(x − x’)
其中 G(\mathbf{x,x’}) 称为格林函数。请注意,格林函数还取决于边界条件。对于 $\mathcal{X}$ = RD 的情况,通过傅立叶变换方程式。 (6.16) 我们认识到 G 实际上是核 k。微分算子 ∑M m=0(−1)mam∇2m 和积分算子 k(·,·) 实际上是逆的,如等式所示。 (6.16)。有关详细信息,请参见 Pog g_io 和 Girosi [1990]。 Arfken [1985] 介绍了变分法和格林函数。由微分算子定义的正则项的 RKHS 是 Sobolev 空间;参见例如 Adams [1975] 以获得关于 Sobolev 空间的更多细节。
我们现在给出两个从微分算子派生的核的具体例子
示例 1. 对于 $\mathcal{D}$ = 1 中的 m ≥ 2,设置 a0 = α2、a1 = 1 和 am = 0。使用傅里叶对 e−α|x| ↔ 2α/(α2 + 4π2s2) 我们得到 k(x − x’) = 1 2α e−α|x−x’|。请注意,这是 Ornstein-Uhlenbeck 过程的协方差函数,请参见 第 4.2.1 节
示例 2. 通过设置 am = σ2m m!2m 并使用幂级数 ey = ∑\infty k=0 yk/k!我们获得
k(x − x’) = \int exp(2πis · (x − x’)) exp(− σ2 2 (4π2s · s))ds (6.17) =1 (2πσ2)D/2 exp(− 1 2σ2 (x − x’)>(x − x’)), (6.18)
如 Yuille 和 Grzywacz [1989] 所示。这就是我们之前看到的平方指数协方差函数。
6.2.2 获取正则化解
代表定理告诉我们方程解的一般形式。 (6.8)。我们现在考虑一个特定的泛函 J[f ] = 1 2|f|^2_{\mathcal{H}} + 1 2σ2 n \sum^{n}_{i=1} (yi − f (xi))2, (6.19) 它使用平方误差数据拟合项(对应于方差为 σ2 n) 的高斯噪声模型的负对数似然。
代入 f(\mathbf{x}) = ∑n i=1\alpha_i k(x, xi) 并使用 \langle k(·, xi), k(·, xj)\rangle $\mathcal{H}$ = k(xi, xj) 我们得到 J[α] = 1 2 α >Kα + 1 2σ2 n |y − Kα|2 =1 2 α>(K + 1 σ2 n K2)α − 1 σ2 n y>Kα + 1 2σ2 n y>y。 (6.20)
通过区分 w.r.t. 最小化 J 系数向量 α 我们得到 ^ α = (K + σ2 nI)−1y,因此测试点 x∗ 的预测是 ^ f (x∗) = k(x∗)>(K + σ2 nI)− 1 岁。这应该看起来很熟悉——它正是等式 1 中获得的预测均值的形式。 (2.23)。在下一节中,我们将比较和对比问题的正则化和高斯过程视图。
最小化 eq 的解 f(\mathbf{x}) = ∑n i=1\alpha_i k(x, xi)。 (6.19) 在 Pog g_io 和 Girosi [1990] 中被称为正则化网络
6.2.3 正则化观点与高斯过程预测的关系
正则化方法返回 ^ f = argminf J[f ]。对于高斯过程预测器,我们获得函数的后验分布。我们可以将这两种观点联系起来吗?事实上,我们将在本节中看到 f 可以被视为后验下的最大后验 (MAP) 函数。
根据 Szeliski [1987] 和 Pog g_io 和 Girosi [1990],我们考虑 exp (−J[f ]) = exp (− λ 2 ‖P f ‖2) \times exp (−Q(y, f )) 。 (6.21)
RHS 上的第一项是先于 f 的高斯过程,第二项与可能性成正比。因为 ^ f 是 J[f ] 的最小值,所以它是 MAP 函数。
为了先验地了解高斯过程,假设 f(\mathbf{x}) 在 x 空间的网格上表示,因此 f 现在是一个(无限维)向量 f 。因此我们得到 ‖P f ‖2 ‘ ∑M m=0 am(Dmf )>(Dmf ) = f >(∑ m amD> mDm)f 其中 Dm 是微分算子 Om 的适当有限差分近似。请注意,此先验项是 f 中的二次形式。
为了更详细地了解 MAP 关系,我们考虑三种情况:(i) 当 Q(y, f) 是二次方(对应于高斯似然); (ii) 当 Q(y, f ) 不是二次函数而是凸函数时,以及 (iii) 当 Q(y, f ) 不是凸函数时。
在情况(i)中,我们在第 2 章中已经看到,可以精确地获得后验均值函数,并且后验函数是高斯分布的。由于高斯的均值也是其模式,因此这是 MAP 解决方案。高斯过程后验均值与正则化问题 f 的解之间的对应关系由 Kimeldorf 和 Wahba [1970] 提出。
在情况 (ii) 中,我们在第 3 章中看到使用 Q(y, f) 是凸函数的 lo g_istic、probit 或 softmax 响应函数的分类问题。这里的 MAP 解决方案可以通过找到 f ^(在训练点定义的 n 维问题的 MAP 解决方案)然后通过以 f ^ 为条件的后验均值将其扩展到其他 x 值来找到。
在情况 (iii) 中,在正则化方法下将有不止一个 J[f] 的局部最小值。人们可以检查这些最小值以找到最深的一个。然而,在这种情况下,支持 MAP 的论据相当薄弱(特别是如果有多个深度相似的最优解)并表明需要完全贝叶斯处理。
虽然正则化解决方案给出了高斯过程解决方案的一部分,但存在以下局限性:1.它没有表征预测中的不确定性,也没有很好地处理后验的多模态。 2.分析的重点是近似贝叶斯推理的第一级,涉及 f 的预测。它通常不会扩展到下一个级别,例如到边缘似然的计算。边缘似然对于设置协方差函数的任何参数以及模型比较非常有用(参见第 5 章)。
此外,我们发现通过对导数的惩罚来指定平滑度不是很直观。正则化观点可以被认为是直接指定逆协方差而不是协方差。由于高斯分布的边缘化是直接从协方差(而不是逆协方差)实现的,因此指定协方差函数对我们来说似乎更自然。此外,虽然可以从正则化的角度获得非平稳协方差函数,例如通过替换等式中的勒贝格测度。 (6.10) 对于非均匀测量 μ(\mathbf{x}),计算相应的协方差函数会非常困难。
6.3 样条模型
在 第 6.2 节
中,我们讨论了等式中 a0 > 0 的正则化器。 (6.12)。我们现在考虑当 a0 = 0 时的情况;特别地,我们认为正则化器的形式为‖Omf‖2,如等式中所定义。 (6.10)。在这种情况下,次数为 m − 1 的多项式位于正则化运算符的零空间中,因为它们根本不会受到惩罚。
在 $\mathcal{X}$ = RD 的情况下,我们可以再次使用傅里叶技术得到对应于欧拉-拉格朗日方程 (−1)m∇2mG(\mathbf{x}) = δ(\mathbf{x}) 的格林函数 G。如 Duchon [1977] 和 Meinguet [1979] 所示,结果是
G(x − x’) = {cm,D|x − x’|2m−D log |x − x’|如果 2m > $\mathcal{D}$ 和 $\mathcal{D}$ 偶数 cm,D|x − x’|2m−D 否则, (6.22)
其中 cm,D 是常数(Wahba [1990, p. 31] 给出了明确的形式)。请注意,必须施加约束 2m > $\mathcal{D}$ 以避免在原点处出现奇异的格林函数。有时可以显式计算其他域 $\mathcal{X}$ 的格林函数;例如参见 Wahba [1990, sec. 2.2] 用于球体上的样条曲线。
由于零空间,正则化泛函的最小值具有以下形式 f(\mathbf{x}) = \sum^{n}_{i=1} \alpha_i G(x, xi) + k ∑ j=1 βjhj(\mathbf{x}), (6.23)
其中 h1(\mathbf{x}), . . . , hk(\mathbf{x}) 是跨越零空间的多项式。特定问题的系数 α 和 β 的精确值可以通过类似于 第 6.2.2 节
推导的方式获得;事实上,该解决方案等同于等式中给出的解决方案。 (2.42)。
为了更深入地了解格林函数的形式,我们考虑傅里叶空间中的方程 (−1)m∇2mG(\mathbf{x}) = δ(\mathbf{x}),导致 ̃ G(s) = (4πs · s)−m . ̃ G(s) 起着类似于方程式中功率谱的作用。 (6.13),但请注意 \int ̃ G(s)ds 是无限的,这意味着相应的过程具有无限方差。问题当然是零空间没有受到惩罚;例如,可以在不改变正则化器的情况下将任意常数函数添加到 f。
由于零空间,我们已经看到无法在样条解和相应的高斯过程问题之间获得简单的联系。然而,通过引入内在随机函数 (IRF) 的概念,我们可以定义广义协方差;见 Cressie [1993, sec. 5.4] 和 IRF Stein [1999, 第 2.9 节
] 了解详情。基本思想是考虑形式为 g(\mathbf{x}) = ∑k i=1 aif (x+δi) 的 f(\mathbf{x}) 的线性组合,其中 g(\mathbf{x}) 是二阶平稳的,其中 (hj(δ1), . . , hj(δk))a = 0 对于 j = 1, . . . , k. Kent 和 Mardia [1994] 详细描述了样条和 IRF 预测的等价性。
̃ G(s) = (4πs · s)−m 的幂律形式意味着从这个(不正确的)先验抽取的随机函数没有特征长度尺度。从而得到分形的自相似性特征;有关详细信息,请参阅 Szeliski [1987] 和 Mandelbrot [1982]。一些作者认为缺乏特征长度尺度是有吸引力的。有时可能是这种情况,但如果我们认为对于给定问题存在适当的长度尺度(或一组长度尺度)但事先不知道,我们会争辩说问题的分层贝叶斯公式(如第 5 章中描述的)会更合适。
样条最初是为一维插值和平滑问题引入的,然后推广到多元设置。 Schoen berg [1964] 考虑了寻找最小化函数的问题
\int b a (f (m)(\mathbf{x}))2 d \mathbf{x}, (6.24)
其中 f (m) 表示 f 的第 m 个导数,受插值约束 f (xi) = f_i, xi \in (a, b) for i = 1, . . . , n 和 f 在适当的 Sobolev 空间中。他表明解是自然多项式样条,它是每个区间 [xi, xi+1], i = 1, … 的 2m − 1 阶分段多项式。 . . , n − 1, 并且在两个最外层区间中具有 m − 1 阶。这些部分被连接起来,使解决方案具有 2m − 2 个连续导数。勋伯格还证明了单变量平滑问题的解(见式(6.19))是一个自然多项式样条。一个常见的选择是 m = 2,导致三次样条。编写此解决方案的一种可能方法是
f(\mathbf{x}) = 1 ∑ j=0 βj xj + \sum^{n}_{i=1} \alpha_i (x − xi)3 +,其中 (\mathbf{x})+ = { x if x > 0 0 否则。 (6.25)
事实证明,系数 α 和 β 可以使用 Reinsch 提出的算法在时间 O(n) 内计算;参见 Green 和 Silverman [1994, sec. 2.3.3]了解详情。
样条首先用于回归问题。然而,通过使用广义线性建模 [McCullagh 和 Nelder,1983],它们可以扩展到分类问题和其他非高斯似然性,就像我们在 第 3.3 节
中对高斯过程分类所做的那样。这方面的早期参考文献包括 Silverman [1978] 和 O’Sullivan 等人。 [1986]。
在统计学和数值分析文献中都有大量与样条相关的文献;有关切入点,请参阅 Wahba [1990] 和 Green 和 Silverman [1994] 中的引文。
6.3.1 一维高斯过程样条构造
在本节中,我们将通过给出成本函数为 \sum^{n}_{i=1} (f (xi) − yi )2 + λ \int 的单变量三次样条平滑问题的解的高斯过程构造,进一步阐明样条和高斯过程之间的关系 1 0 (f ‘’(\mathbf{x}))2 d \mathbf{x}, (6.26)
其中观察到的数据是 {(xi, yi)|i = 1, . . . , n, 0 < x1 < · · · < xn < 1} 并且 λ 是控制第一项(数据拟合)与第二项(正则化项或复杂性惩罚)之间权衡的平滑参数。回想一下,解决方案是一个分段多项式,如方程式。 (6.25)。
根据 Wahba [1978],我们考虑随机函数 g(\mathbf{x}) = 1 ∑ j=0 βjxj + f(\mathbf{x}) (6.27)
其中 β ∼ \mathcal{N}(0, σ2 β I) 和 f(\mathbf{x}) 是协方差为 σ2 f ksp(\mathbf{x,x’}) 的高斯过程,其中 ksp(\mathbf{x,x’}) , \int 1 0 (x − u)+ (x’ − u)+ du = |x − x’|v2 2 + v3 3 , (6.28)
v = min(\mathbf{x,x’})。
完成等式中正则化器的模拟。 (6.26),我们需要通过使先验变得模糊,即通过取极限 σ2 β \rightarrow \infty 来消除对零空间中多项式项的任何惩罚。请注意,协方差具有来自显式基函数 h(\mathbf{x}) = (1, x)> 和常规协方差函数 ksp(\mathbf{x,x’}) 的贡献形式,我们已经在 第 2.7 节
中研究了这个问题。事实上,我们已经计算了先验变得模糊的极限 σ2 β \rightarrow \infty,结果在等式中给出。 (2.42)。
插入方程式的平均方程式。 (2.42),我们得到预测均值̄ f (x∗) = k(x∗)>K−1 y (y − H> ̄ β) + h(x∗)> ̄ β, (6.29)
其中 Ky 是在训练点评估的σ2 f ksp(xi, xj ) + σ2 n\delta_{ij} 对应的协方差矩阵,H 是在所有训练点收集 h(xi)向量的矩阵,̄ β = (HK−1 y H>)−1HK−1 y y 在等式下给出。 (2.42)。不难证明这个预测均值函数是分段三次多项式,因为 k(x*) 的元素是分段三次三次多项式。证明均值函数是外区间 [0, x1] 和 [xn, 1] 中的一阶多项式留作练习 6.7.3。
到目前为止,ksp 是相当神秘地“从帽子里”产生的;我们现在提供一些解释。 Shepp [1966] 将 l 重积分维纳过程定义为 Wl(\mathbf{x}) = \int 1 0 (x − u)l+ l! Z(u), l = 0, 1, . . . (6.30)
其中 Z(u) 表示具有协方差 δ(u − u’) 的高斯白噪声过程。请注意,W0 是标准维纳过程。通过使用等式编写 W1(\mathbf{x}) 和 W1(\mathbf{x’}),很容易证明 ksp(\mathbf{x,x’}) 是一次积分维纳过程的协方差。 (6.30) 并使用白噪声过程的协方差来获取期望值。请注意,Wl 是随机微分方程 (SDE) X(l+1) = Z 的解;有关 SDE 的更多详细信息,请参阅附录 B。因此,对于三次样条,我们设置 l = 1 以获得 SDE X’’ = Z,对应于正则化器 \int (f ‘’(\mathbf{x}))2d \mathbf{x}。
我们还可以为协方差函数 ksp 给出一个显式的基函数结构。考虑由 f\mathcal{N}(\mathbf{x}) = 1 √N N −1 ∑ i=0 γi(x − i N )+, (6.31) 给出的随机函数族
其中 γ 是具有 γ ∼ \mathcal{N}(0, I) 的参数向量。请注意,总和具有均匀间隔的“斜坡”形式,其大小由 γ 向量中的条目给出。因此 \mathbb{E}[f\mathcal{N}(\mathbf{x})f\mathcal{N}(\mathbf{x’})] = 1 N N −1 ∑ i=0 (x − i N )+(x’ − i N )+。 (6.32)
取极限 N \rightarrow \infty,我们得到等式。 (6.28),也可以在 [Vapnik, 1998, sec. 11.6]。
请注意,等式中给出的协方差函数 ksp。 (6.28) 对应于 MS 连续但只有一次 MS 可微分的高斯过程。因此,来自先验的样本将非常“粗糙”,尽管(如 第 6.1 节
所述)后验均值 eq. (6.25),更平滑。
通过将 (x − u)+ 替换为 (x − u)m−1 + /(m − 1),可以将上述结构推广到正则化器 \int (f (m)(\mathbf{x}))2 d \mathbf{x}!在等式中。 (6.28)和等式中的类似。 (6.32),并设置 h(\mathbf{x}) = (1, x, . . ., xm−1)>。
因此,我们可以使用高斯过程公式来替代通常的样条拟合程序。请注意,来自等式的权衡参数 λ。 (6.26) 现在以比率 σ2 n/σ2 f 给出。超参数 σ2 f 和 σ2 n 可以使用 第 5.4.1 节
中的技术通过优化等式中给出的边缘似然来设置。 (2.45)。 Kohn 和 Ansley [1987] 详细介绍了用于计算样条和边缘似然的 O(n) 算法(基于卡尔曼滤波)。除了预测均值之外,GP 处理还产生了噪声水平和预测误差条的明确估计。图 6.1 显示了一个简单的示例。请注意,虽然均值函数是分段三次多项式,但后验样本并不平滑。相反,对于面板 (b) 中所示的平方指数协方差函数,均值和从后验得出的函数都是无限可微的。
6.4 支持向量机
自 1990 年代中期以来,人们对核机器的兴趣激增,尤其是支持向量机 (SVM)。本节的目的是简要介绍 SVM,特别是将它们与高斯过程预测器进行比较。我们分别在 6.4.1 和 第 6.4.2 节
中考虑用于分类和回归问题的 SVM。在 Vapnik [1995]、Cristianini 和 Shawe-Taylor [2000] 以及 Scholkopf 和 Smola [2002] 中可以找到更全面的治疗方法。
6.4.1 支持向量分类
对于支持向量分类器,我们需要引入的关键概念是线性分类器的最大边缘超平面。然后通过使用“核技巧”,可以将其提升到特征空间中。我们首先考虑可分离的情况,然后考虑不可分离的情况。我们通过高斯过程分类器和 SVM 之间的比较来结束本节。
可分离的案例
图 6.2(a) 说明了数据线性可分的情况。对于具有权重向量 w 和偏移量 w0 的线性分类器,令决策边界由 w · x + w0 = 0 定义,并令 ̃ w = (w, w0)。显然,存在一个权重向量的完整版本空间,可以产生相同的训练点分类。 SVM 算法选择一个特定的权重向量,它会产生分离的“最大边缘”。
设训练集为 (xi, yi) 形式的对,其中 i = 1, . . . , n, 其中 yi = ±1。对于给定的权重向量,我们可以计算数量 ̃ γi = yi(w · x + w0),这被称为函数边界。请注意,如果训练点被正确分类,则 ̃ γi > 0。
如果方程 f(\mathbf{x}) = w·x+w0 定义了一个判别函数(这样输出就是 sgn(f(\mathbf{x}))),那么超平面 cw·x+cw0 对任何 c > 0 定义了相同的判别函数。因此我们可以自由选择 ̃ w 的缩放,使得 mini ̃ γi = 1,在这种情况下 ̃ w 被称为超平面的规范形式。
几何边距定义为 γi = ̃ γi/|w|。对于正确分类的训练点 xi,这只是从 xi 到超平面的距离。要看到这一点,令 c = 1/|w|使得 ^ w = w/|w|是 w 方向的单位向量,w0 是对应的偏移量。然后 ^ w · x 计算 x 在与超平面正交的方向上的投影长度,而 ^ w·x+ ^ w0 计算到超平面的距离。对于被错误分类的训练点,几何边距是到超平面的负距离。
数据集 $\mathcal{D}$ 的几何边距定义为 γD = mini γi。因此,对于规范的分离超平面,余量是 1/|w|。我们希望找到最大边缘超平面,即最大化 γD 的超平面。
通过考虑规范超平面,我们因此导致以下优化问题来确定最大边距超平面:
minimize 1 2 |w|2 over w, w0 subject to yi(w · xi + w0) ≥ 1 for all i = 1, . . . , n. (6.33)
通过考虑几何形状,对于最大边缘解,每个类中至少有一个数据点 yi(w·xi+w0) = 1,请参见图 6.2(b)。让通过这些点的超平面分别表示为 H+ 和 H-。
这个约束优化问题可以使用拉格朗日乘数来设置,并使用数值方法求解二次规划 4 (QP) 问题。解的形式为 w= ∑ i \lambda_iyixi, (6.34)
其中 \lambda_i 是非负拉格朗日乘数。请注意,解是 xi 的线性组合。
等式 6.34 的关键特征是对于每个 xi 的 \lambda_i 都为零,除了那些位于超平面 H+ 或 H− 上的 xi;这些点称为支持向量。并非所有训练点都有助于最终解决方案这一事实被称为解决方案的稀疏性。支持向量最靠近决策边界。请注意,如果所有其他训练点都被移除(或四处移动,但不穿过 H+ 或 H−),则会找到相同的最大边缘超平面。寻找 \lambda_i 的二次规划问题是凸的,即没有局部最小值。请注意这与高斯过程分类器的优化问题的凸性相似,如 第 3.4 节
所述。
为了对新输入 x∗ 进行预测,我们计算 sgn(w · x∗ + w0) = sgn (\sum^{n}_{i=1} \lambda_iyi(xi · x∗) + w0 ) 。 (6.35)
在 QP 问题和方程式中。 (6.35) 训练点 {xi} 和测试点 x∗ 仅以内积形式进入计算。因此,通过使用核技巧,我们可以用核替换内积的出现,以获得特征空间中的等效结果。
不可分离的案例
对于原始 x 空间中的线性分类器,将存在一些不可线性分离的数据集。在这种情况下推广 SVM 问题的一种方法是允许违反约束 yi(w · xi + w0) ≥ 1,但在发生这种情况时施加惩罚。这就引出了 soft mar g_in 支持向量机问题,最小化 1 2 |w|2 + C \sum^{n}_{i=1} (1 − yif_i)+ (6.36)
关于 w 和 w0,其中 f_i = f (xi) = w · xi + w0 和 (z)+ = z 如果 z > 0,否则为 0。这里 C > 0 是指定两个项的相对重要性的参数。这个凸优化问题可以再次使用 QP 方法解决,并产生等式中给出的形式的解决方案。 (6.34)。在这种情况下,支持向量(\lambda_i 6= 0 的那些)不仅是位于分离超平面上的那些数据点,而且是那些招致惩罚的数据点。这可以通过两种方式发生 (i) 数据点落在 H+ 和 H− 之间但在决策面的正确一侧,或者 (ii) 数据点落在决策面的错误一侧。
在维数为 N 的特征空间中,如果 N > n 则总会有分离超平面。然而,这个超平面可能不会产生良好的泛化性能,尤其是在某些标签不正确的情况下,因此在实践中经常使用 soft mar g_in SVM 公式。
对于硬边距和软边距 SVM QP 问题,已经开发了各种各样的算法来解决它们;参见 Scholkopf 和 Smola [2002, ch. 10]了解详情。与高斯过程预测一样,基本内点方法涉及 n\times n 矩阵的求逆,因此缩放为 O(n3)。然而,还有其他算法,例如 Platt [1999] 提出的顺序最小优化 (SMO) 算法,在实践中通常具有更好的缩放比例。
上面我们已经描述了用于两类(二元)分类问题的 SVM。有很多方法可以将 SVM 推广到多类问题,参见 Scholkopf 和 Smola [2002,sec. 7.6]了解更多详情。
比较支持向量和高斯过程分类器
对于软边缘分类器,我们获得形式为 w = ∑ i \alpha_i xi 的解(其中 \alpha_i = \lambda_iyi),因此 |w|2 = ∑ i,j \alpha_i αj(xi · xj)。对此进行核化,我们得到 |w|2 = α>Kα = $\mathbf{f}^{\top}K^{-1} \mathbf{f}$ , as5 Kα = f 。因此软间隔目标函数可以写成
1 2 f K−1f + C \sum^{n}_{i=1} (1 − yif_i)+。 (6.37)
对于二进制高斯过程分类器,为了获得 p(f |y) 的 MAP 值 f^,我们最小化数量 1 2 f K−1f − \sum^{n}_{i=1} log p(yi|f_i), (6.38)
比照式(3.12)。 (如果核是固定的,则等式 (3.12) 中的最后两项是常数。)
对于对数凹似然(例如从 lo g_istic 或 probit 响应函数派生的那些),两个优化问题之间有很强的相似性,因为它们都是凸的。让 gλ(z) , log(1 + e−z), gΦ = − log Φ(z), 和 ghinge(z) , (1 − z)+ 其中 z = yif_i。由于其形状,我们将 ghinge 称为铰链误差函数。如图 6.3(a) 所示,所有三个数据拟合项都是 z 的单调递减函数。当 z \rightarrow −\infty 时,这三个函数都趋于无穷大,而随着 z \rightarrow \infty 时趋于零。关键区别在于铰链函数在 z ≥ 1 时取值 0,而其他两个函数衰减缓慢。正是铰链函数的平坦部分导致了 SVM 解的稀疏性。
因此 GP 分类器的 MAP 解与 SVM 解有密切的对应关系。可以通过将铰链函数视为负对数似然来使这种对应关系更紧密吗?答案是否定的 [Seeger, 2000, Sollich, 2002]。如果 Cghinge(z) 定义负对数似然,则 exp(−Cghinge(f )) + exp(−Cghinge(−f )) 应该是独立于 f 的常数,但事实并非如此。要看到这一点,请考虑量 ν(f ; C) = κ(C)[exp(−C(1 − f )+) + exp(−C(1 + f )+)]。 (6.39)
无法选择 κ(C) 以使 ν(f ; C) = 1 独立于 f 的值,因为 C > 0。相比之下,对于逻辑和概率似然,类似的表达式等于 1。Sollich [2002 ] 建议选择 κ(C) = 1/(1 + exp(−2C)) 以确保 ν(f, C) ≤ 1(仅当 f = ±1 时才相等)。他还给出了一个巧妙的解释(涉及一个“不知道”类来吸收未分配的概率质量),它确实产生了 SVM 解决方案作为某个贝叶斯问题的 MAP 解决方案,尽管我们发现这种构造相当人为。练习 6.7.2 邀请你绘制 ν(f ; C) 作为 f 的函数,对于不同的 C 值。
GP 分类器的一个吸引人之处在于它产生了一个具有明确概率解释的输出,即对 p(y = +1|x) 的预测。人们可以尝试从概率上解释 SVM 输出的函数值 f(\mathbf{x}),Platt [2000] 建议可以通过计算某些常数 a、b 的 σ(af(\mathbf{x}) + b) 从 SVM 生成概率预测使用训练集的一些“无偏版本”进行拟合(例如使用交叉验证)。这种相当特别的程序的一个缺点是,与高斯过程分类器不同,它没有考虑 f(\mathbf{x}) 的预测方差(参见等式(3.25))。西格 [2003,秒。 4.7.2] 表明,当考虑到这种不确定性的影响时,可以在使用 MNIST 数字分类问题的实验中获得更好的错误拒绝曲线。
6.4.2 支持向量回归
SVM 最初是为分类问题引入的,然后扩展到处理回归情况。关键概念是 -insensitive 错误函数。这被定义为 g (z) = { |z| − 如果|z| ≥ , 否则为 0。 (6.40)
该函数绘制在图 6.3(b) 中。如等式。 (6.21) 我们可以将 exp(−g (z)) 解释为回归残差的似然模型(参见对应于高斯模型的平方误差函数)。然而,我们注意到,这是一种非常不寻常的残差分布模型选择,其主要动机是希望获得稀疏解(见下文),如在支持向量分类器中。如果 = 0,则误差模型是拉普拉斯分布,对应于最小绝对值回归(Edgeworth [1887],引用于 Rousseeuw [1984]);这是一个比高斯分布更重的尾部分布,并且提供了一些针对异常值的保护。 Girosi [1991] 表明,拉普拉斯分布可以看作是零均值高斯分布的连续混合,其方差具有一定的分布。庞蒂尔等人。 [1998] 通过允许均值在 [− , ] 中均匀移动来扩展这一结果,以获得对应于 -insensitive 误差函数的概率模型。另请参阅 第 9.3 节
,了解有关高斯过程回归问题稳健性的工作。
对于具有 - 不敏感误差函数和 w 上的高斯先验的线性回归情况,通过最小化 1 2 |w|2 + C \sum^{n}_{i=1} g (yi − f_i) (6.41) 获得 w 的 MAP 值
w.r.t. w。解决方案 6 是 f (x*) = ∑n i=1 \alpha_i xi · x* 其中系数 α 是从 QP 问题中获得的。该问题也可以核化得到解 f (x∗) = ∑n i=1 \alpha_i k(xi, x∗)。
对于支持向量分类,许多系数 \alpha_i 为零。位于-“管”内的数据点具有 \alpha_i = 0,而边缘或外部的数据点具有非零 \alpha_i 。
6.5 最小二乘分类
在第 3 章中,我们讨论了逻辑或概率似然的使用提供了开发高斯过程分类器的自然途径,并且它的吸引力在于可以从概率上解释输出。然而,有一种更简单的方法将分类视为回归问题。
我们的起点是使用线性预测器 f(\mathbf{x}) = w>x 的二元分类。这是使用线性回归训练的,对于具有标签 +1 的模式,目标为 y+,对于具有标签 -1 的模式,目标为 y−。 (目标 y+、y− 比仅使用 ±1 的目标稍微灵活一些。)如 Duda 和 Hart [1973, 第 5.8 节
] 所示,适当地选择 y+、y− 允许我们获得与 Fisher 线性判别式相同的解决方案,使用决策标准 f(\mathbf{x}) ≷ 0。此外,他们还表明,使用目标 y+ = +1、y− = −1 和最小二乘误差函数给出贝叶斯判别函数 p(C+| 的最小平方误差近似值 x) − p(C−|x) 当 n \rightarrow \infty 时。继 Rifkin 和 Klautau [2004] 之后,我们将此类方法称为最小二乘法分类 (LSC)。请注意,在概率解释下,平方误差标准是一个相当奇怪的选择,因为它暗示了高斯噪声模型,但仅观察到目标的两个值(y+ 和 y-)。
使用核技巧扩展最小二乘分类器是很自然的。许多作者都提出了这一点,包括 Pog g_io 和 Girosi [1990] 以及 Suykens 和 Vanderwalle [1999]。 Rifkin 和 Klautau [2004] 报告的实验结果表明,使用核 LSC(或他们称之为正则化最小二乘分类器 RLSC)可以获得与 SVM 相当的性能。
考虑一个随机变量 y,它以概率 p 取值 +1,以概率 1−p 取值 −1。那么最小化平方误差函数 E = p(f − 1)2 + (1 − p)(f + 1)2 的 f 的值是 ^ f = 2p − 1,这是 p 到区间的线性重新缩放[−1, 1]。 (等效地,如果目标是 1 和 0,我们得到 ^ f = p。)因此我们观察到 LSC 将在大数据限制下正确估计 p。如果我们现在不仅考虑单个随机变量,而且希望估计 p(C+|x)(或对其进行线性重新缩放),那么只要逼近函数 f(\mathbf{x}) 足够灵活,我们就可以期望在极限 n \rightarrow \infty 它将收敛到 p(C+|x)。 (有关此问题的更多技术细节,请参阅有关一致性的 第 7.2.1 节
。)因此,LSC 是一个非常明智的分类程序,但请注意,不能保证 f(\mathbf{x}) 将被限制在区间 [y -, y+]。如果我们希望保证概率解释,我们可以通过 sigmoid 来“压缩”预测,正如 Platt [2000] 对 SVM 所建议的那样并在第 145 页上进行了描述。
当从二分类情况推广到多分类情况时,对于如何设置问题有一定的自由度。 Scholkopf 和 Smola [2002,秒。 7.6] 确定四种方法,即一对一(其中训练了 C 个二元分类器以将每个类与其余所有类进行分类)、所有对(其中训练了 C(C − 1)/2 个二元分类器)、纠错输出编码(其中每个类都被分配了一个二进制代码字,二进制分类器分别在每个位上进行训练)和多类目标函数(其目的是同时训练 C 个分类器而不是创建多个二进制分类问题)。还需要指定如何组合经过训练的各种分类器的输出以产生整体答案。对于 one-versus-rest7 方法,一个简单的标准是选择产生最正输出的分类器。 Rifkin 和 Klautau [2004] 进行了大量实验并得出结论,即使用 SVM 或 RLSC 的一对一方案与任何其他方法一样准确,并且具有概念简单且易于实施的优点。
6.5.1 概率最小二乘分类
从计算的角度来看,上面讨论的 LSC 算法很有吸引力,但为了保证有效的概率解释,可能需要使用一个单独的后处理阶段来“压缩”通过 sigmoid 的预测。然而,在训练阶段执行概率解释并不容易。一种可能的解决方案是将 第 5.4.2 节
中介绍的使用留一法交叉验证的训练思想与使用(参数化)S 型函数相结合,如 Platt [2000] 中所述。我们将这种方法称为概率最小二乘分类器 (PLSC)。
在 第 5.4.2 节
中,我们了解了如何计算高斯留一法 (LOO) 预测概率,并且超参数的训练可以基于对数 LOO 概率的总和。使用这个想法,我们通过累积高斯 p(yi|X, y−i, θ) = \int Φ (yi(αf_i + β))\mathcal{N}(f_i|) 压缩高斯预测概率的线性函数来表达 LOO 概率。 μi, σ2 i ) df_i =Φ ( yi(αμi + β) √ 1 + α2σ2 i ) , (6.42)
其中积分在等式中给出。 (3.82) 和留一法预测均值 μi 和方差 σ2 i 在等式中给出。 (5.12)。目标函数是对数 LOO 概率的总和,eq。 (5.11)可用于设置超参数以及方程式中线性变换的两个附加参数α和β。 (6.42)。在等式中引入可能性。 (6.42)进入目标方程。 (5.11) 并取导数我们得到
∂LLOO ∂θj = \sum^{n}{i=1} ∂ log p(yi|X, y, θ) ∂μi ∂μi ∂θj + ∂ log p(yi|X, y, θ) ∂σ2 i ∂σ2 i ∂θj = \sum^{n}{i=1} \mathcal{N}(ri) Φ(yiri) yiα √ 1 + α2σ2 i ( ∂μi ∂θj − α(αμi + β) 2(1 + α2σ2 i) ∂σ2 i ∂θj ) ,
其中 ri = (αμi + β)/ √ 1 + α2σ2 i 和高斯 LOO 参数的偏导数 ∂μi/∂θj 和 ∂σ2 i /∂θj 在等式中给出。 (5.13)。最后,对于线性变换参数,我们有
∂LLOO ∂α = \sum^{n}{i=1} \mathcal{N}(ri) Φ(yiri) yi √ 1 + α2σ2 i μi − βασ2 i 1 + α2σ2 i , ∂LLOO ∂β = \sum^{n}{i=1} \mathcal{N}(ri) Φ(yiri ) yi √1 + α2σ2 i 。
这些偏导数可用于训练高斯过程的参数。关于如何进行预测有多种选择,但最自然的似乎是计算预测均值和方差并通过 sigmoid 并行方程压缩它。 (6.42)。将此模型应用于 第 3.7.3 节
中讨论的 USPS 3s 与 5s 二元分类任务,我们得到的测试集错误率为 12/773 = 0.0155%,与图 3.10 中其他方法报告的结果相比具有优势。但是测试集信息只有 0.77bits8,非常差。
6.6 相关向量机
虽然通常不会这样呈现,但 Tipping [2001] 引入的相关向量机 (RVM) 实际上是高斯过程的一个特例。协方差函数的形式为 k(\mathbf{x,x’}) = N ∑ j=1 1 αj \phi_j(\mathbf{x})\phi_j(\mathbf{x’}), (6.45)
其中 αj 是超参数,N 个基函数 \phi_j(\mathbf{x}) 通常但不一定是以 n 个训练数据点中的每一个为中心的高斯型基函数 \phi_j(\mathbf{x}) = exp ( − |x − xj|2 2`2 ) , (6.46)
其中 ` 是控制基函数宽度的长度尺度超参数。请注意,这只是对应于 第 2.1.2 节
中给出的 N 维基函数集的协方差函数的构造,其中 Σp = diag(α−1 1 , . . . , α−1 N )。
等式中的协方差函数。 (6.45) 有两个有趣的性质:首先,显然协方差函数对应的特征空间是有限维的,即协方差函数是退化的,其次协方差函数具有依赖于训练数据的奇怪性质。这种依赖性意味着先验函数取决于数据,这是一个与严格的贝叶斯解释不一致的属性。尽管模型的常规处理仍然可行,但先验对数据的这种依赖性可能会导致一些令人惊讶的效果,如下所述。
训练 RVM 类似于其他高斯过程模型:优化边缘似然 w.r.t。超参数。这种优化通常会导致大量 αj 超参数趋于无穷大,从而有效地从方程式中的协方差函数中移除或修剪相应的基函数。 (6.45)。基本思想是应该删除对解释数据没有显著贡献的基函数,从而产生稀疏模型。幸存下来的基函数称为相关向量。相关向量 根据经验,在同一问题上经常观察到相关向量的数量小于支持向量的数量 [Tipping, 2001]。
原始 RVM 算法 [Tipping, 2001] 在模型拟合期间无法非常有效地利用稀疏性,因为它是在所有 α 都设置为有限值的情况下初始化的,这意味着所有基函数都对模型有贡献。然而,Faul 和 Tipping [2002] 对 RVM 边缘似然的仔细分析表明,可以对 w.r.t. 进行优化。一个单一的 \alpha_i 分析。这导致了 Tipping 和 Faul [2003] 中描述的加速训练算法,该算法从空模型开始(即所有 α 设置为无穷大)并按顺序添加基函数。由于相关向量的数量(通常远)少于训练案例的数量,因此使用 RVM 进行训练和预测通常比非稀疏高斯过程快得多。另请注意,基函数可以包含额外的超参数,例如人们可以通过在方程式的不同维度上使用不同的长度尺度来使用自动相关性确定(ARD)形式的基函数。 (6.46)。这些额外的超参数也可以通过优化边缘似然来设置。
使用依赖于数据的退化协方差函数会产生一些不良影响。想象一个测试点 x,它远离相关向量。在 x 处,所有基函数的值都接近于零,并且由于没有基函数可以给出任何可感知的信号,因此预测分布将是均值接近于零且方差接近于零(或推断的噪声水平)的高斯分布.这种行为是不可取的,并且可能导致危险的错误结论。如果 x* 远离相关向量,那么模型不应该能够对输出得出强有力的结论(我们正在外推),但预测不确定性变得非常小——这与我们预期的行为相反从一个合理的模型。在这里,我们认为对于局部基函数,RVM 具有不良特性,但正如 Rasmussen 和 Qui ̃ nonero-Candela [2005] 所论证的那样,实际上协方差函数的退化才是问题的核心。尽管 Rasmussen 和 Qui ̃ nonero-Candela [2005] 的工作在一定程度上解决了这个问题,但存在一个内在的冲突:协方差函数的退化对于计算原因是有利的,但对于建模原因是不利的。