Rasmussen 第 4 章 高斯过程的协方差函数
【摘 要】 协方差函数是高斯过程方法的核心,本文给出了关于协方差函数的概述。
【原 文】 Rasmussen, C.E. and Williams, C.K. (2006), Chapter 4 of Gaussian processes for machine learning. Cambridge, Mass: MIT press Cambridge, MA (3).
第 4 章 协方差函数
我们已经看到,协方差函数是高斯过程预测器中的关键成分,因为它编码了我们对所希望学习的函数的假设。从稍微不同的角度来看,很明显在监督学习中数据点之间的相似性概念是至关重要的;一个基本假设是输入 $\mathbf{x}$ 接近的点可能具有相似的目标值 $y$,因此靠近测试点的训练点应该提供有关该点预测的信息。在高斯过程视图下,协方差函数定义了接近度或相似度。
输入对 $\mathbf{x}$ 和 $\mathbf{x}’$ 的任意函数通常不会是有效的协方差函数。本章的目的是给出一些常用协方差函数的示例并检查它们的性质。
- 第 4.1 节定义了一些与协方差函数相关的基本术语。
- 第 4.2 节给出了平稳、点积和其他非平稳协方差函数的示例,还给出了一些从旧函数创建新函数的方法。
- 第 4.3 节介绍了协方差函数的特征函数分析这一重要主题,并陈述了 Mercer 定理,该定理允许我们根据其特征函数和特征值来表达协方差函数(在特定条件下)。当输入域 $\mathcal{X}$ 是 $\mathbb{R}^D$ 的子集时,第 4.2 节给出的协方差函数有效。
- 第 4.4 节描述了当输入域位于结构化对象(例如字符串和树)上时定义协方差函数的方法。
4.1 预备知识
4.1.1 基本概念
(1) 平稳协方差函数
平稳协方差函数是 $\mathbf{x} − \mathbf{x}’$ 的函数。因此它对于输入空间具有平移不变性。例如,式 2.16
中给出的平方指数协方差函数是平稳的。如果进一步,协方差函数仅是 $|\mathbf{x − x’}|$ 的函数,则称为各向同性;因此它对所有刚性运动都是不变的。例如,式(2.16)
中给出的平方指数协方差函数是各向同性的。由于 $k$ 现在只是 $r = |\mathbf{x − x’}|$ 的函数,这些也称为 **径向基函数 (RBF)**。
(2)点积协方差函数
如果协方差函数仅通过点积 $\mathbf{x \cdot x’}$ 依赖于 $\mathbf{x}$ 和 $\mathbf{x’}$,则我们称其为 点积协方差函数。一个简单例子是协方差函数 $k(\mathbf{\mathbf{x,x’}}) = \sigma^2_0 + \mathbf{x \cdot x’}$,它可以通过将 $\mathcal{N}(0, 1)$ 放在 $D$ 个 $x_d$ 上和将 $\mathcal{N}(0, \sigma^2_0)$ 放在偏置(或常量函数)1 上的形成,参见 式(2.15)
。另一个重要例子是非齐次多项式核 $k(\mathbf{\mathbf{x,x’}}) = (\sigma^2_0 + \mathbf{x \cdot x’})^p$ 其中 $p$ 是一个正整数。点积协方差函数对于坐标围绕原点的旋转具有不变性,但对平移不行。
(3)核函数的定义
将一对输入 $\mathbf{x} , \mathbf{x}’ \in \mathcal{X}$ 映射到 $\mathbb{R}$ 的函数 $k$ ,被统称为 核或核函数。
核这个术语源自积分运算理论,某个积分运算 $T_k$ 可以被定义为
$$
(T_kf )(\mathbf{x}) = \int_\mathcal{X} k(\mathbf{\mathbf{x,x’}}) f(\mathbf{x}’) dμ(\mathbf{x}’) \tag{4.1}
$$
其中 $μ$ 表示某种测度;有关这一点的进一步解释,请参阅 第 A.7 节
。
A.7-测度与积分
A.7 测度与积分
在这里,我们勾勒出关于测度和积分的定义,更两者更全面的介绍,可以参考 Doob [1994] 和 Bartle [1995] 。
【测度】
令 $Ω$ 为某个实验的所有可能输出构成的集合,例如,对于一个 $D$ 维实值变量而言,$Ω = \mathbb{R}^D$。令 $\mathcal{F}$ 为 $Ω$ 的某些子集的 $σ$-域,其中包含了我们可能感兴趣的所有事件。当 $\mu$ 为非负实数时,如果对于所有互不相交的集合 $A_1,A_2,\ldots \in \mathcal{F}$,$μ$ 均能满足下式,则称 $μ$ 是可数的加性测度。
$$
μ \left( \bigcup^{\infty}{i=1} A_i \right)= \sum^{\infty}{i=1} μ(A_i) \tag{A.26}
$$
有限测度:如果 $μ(Ω) < \infty$,则 $μ$ 被称为 _有限测度_;
概率测度:如果 $μ(Ω) = 1$,则称为 _概率测度_;
Lebesgue 测度:Lebesgue 测度定义了对欧几里得空间子集的统一测度。这里适当的 $σ$-代数是 Borel $σ$-代数 $\mathcal{B}^D$,其中 $\mathcal{B}$ 是由 $\mathbb{R}$ 的开放子集生成的 $σ$-代数。例如在直线 $R$ 上,区间 $(a, b)$ 的勒贝格测度是 $b − a$ 。
【积分】
我们现在将 $Ω$ 限制为 $\mathbb{R}^D$,并希望赋予函数 $f:\mathbb{R}^D \rightarrow \mathbb{R}$ 关于测度 $μ$ 的积分意义:
$$
\int f(\mathbf{x}) dμ(\mathbf{x}) \tag{A.27}
$$
假设 $f$ 是可测的,也就是说,对于任何 Borel-可测集合 $A \in \mathbb{R}$,有 $f^{−1}(A) \in \mathcal{B}^D$。通常有两种情况会让我们感兴趣:
- (i)当 $μ$ 是勒贝格测度时;
- (ii)当 $μ$ 是概率测度时。
对于第一种情况,式 (A.27)
简化为普通的积分符号 $\int f(\mathbf{x})d \mathbf{x}$。
对于 $\mathbf{x}$ 上的概率测度 $μ$,非负函数 $p(\mathbf{x})$ 称为测度的密度,如果对于所有 $A \in \mathcal{B}^D$,我们有
$$
μ(A) = \int A p(\mathbf{x}) d \mathbf{x} \tag{A.28}
$$
如果存在这样的密度,则它几乎在任何地方都是唯一确定的,即测度为零的集合除外。并非所有概率测度都具有密度,只有将零概率分配给 $\mathbf{x}$ 空间中的各个点的分布才能具有密度。如果 $p(\mathbf{x})$ 存在,则我们有
$$
\int f(\mathbf{x}) d μ(\mathbf{x}) = \int f(\mathbf{x}) p(\mathbf{x}) d \mathbf{x} \tag{A.29}
$$
如果 $μ$ 没有密度表达式,式 (A.27)
在勒贝格积分的标准构造下仍然有意义。
对于 $Ω = \mathbb{R}^D$,概率测度 $μ$ 可以与分布函数 $F:\mathbb{R}^D \rightarrow [0, 1]$ 相关,该函数定义为 $F(\mathbf{z}) = μ(x_1 \leq z_1, \ldots x_D \leq z_D)$。分布函数比密度更通用,因为它总是为给定的概率测度定义的。具有分布函数但没有密度的随机变量的一个简单示例可通过以下构造获得:抛硬币,正面朝上的概率为 $p$;如果正面朝上 $x$ 是从 $U (0, 1)$ 中选择的($[0, 1]$ 上的均匀分布),否则$x$ 设置为 $1/2$ (概率为 $1 − p$)。该分布在 $x = 1/2$ 处有一个 “质点”(或原子)。
如果 $k(\mathbf{\mathbf{x,x’}}) = k(\mathbf{x’, x})$ 成立,则称核是对称的;显然,协方差函数必须是对称定义的。
给定一组输入 ${\mathbf{x}i | i = 1,\ldots, n}$, 我们可以计算出元素值 $K{ij} = k(\mathbf{x}_i,\mathbf{x}_j)$ 的 Gram 矩阵 $K$。当核 $k$ 是一个协方差函数时,其对应的 Gram 矩阵 $K$ 即为协方差矩阵。
(4)协方差函数与核函数的重要区别:半正定性
如果对于任意向量 $\mathbf{v} \in \mathbb{R}^n$,$n \times n$ 的实值矩阵 $K$ 都能满足条件 $Q(\mathbf{v}) = \mathbf{v}^{\top} K \mathbf{v} \geq 0$,则称 $K$ 为半正定矩阵 (PSD)。如果仅当 $\mathbf{v = 0}$ 时 $Q(\mathbf{v}) = 0$,则矩阵是正定的。此时的 $Q(\mathbf{v})$ 称为二次型。一个对称矩阵是半正定的当且仅当该矩阵的所有特征值都非负。
普通核函数对应的 Gram 矩阵不一定是半正定的,但协方差函数对应的 Gram 矩阵必须是半正定的。
一个核函数被称为半正定,如果满足:
$$
\int k(\mathbf{x,x’}) f(\mathbf{x}) f(\mathbf{x’}) dμ(\mathbf{x}) dμ(\mathbf{x’}) \geq 0 \tag{4.2}
$$
上式中所有 $f \in L_2(\mathcal{X}, μ)$。
等效地,对于 $n \in \mathbb{N}$ 和任意 $\mathcal{D}$,能够产生半正定 Gram 矩阵的核函数也是正半定的。
为了看到这一点,令 $f$ 为每个 $\mathbf{x}_i$ 处的 delta 函数的加权和。由于此类函数是 $L_2(\mathcal{X},\mu)$ 中函数的极限, 式(4.2)
暗示任意 $\mathcal{D}$ 对应的 Gram 矩阵是半正定的。
我们现在描述随机过程的均方连续性和可微性,依据 Adler [1981,sec. 2.2]。
4.1.2 函数的均方连续性
令 $\mathbf{x_1, x_2,\ldots}$ 是一个点序列,$\mathbf{x}$ 是 $\mathbb{R}^D$ 中的一个不动点,且当 $k \rightarrow \infty$ 时,有 $|\mathbf{x}k − \mathbf{x}| \rightarrow 0$。如果当 $k \rightarrow \infty$ 时,同时有 $\mathbb{E}[|f(\mathbf{x}k) − f(\mathbf{x}*)|^2] \rightarrow 0$ ,则称过程 $f(\mathbf{x})$ 在 $\mathbf{x}*$ 处均方连续。
其有以下性质:
- 域的均方连续性:如果上述性质对所有 $\mathbf{x}_* \in A$ 都成立($A$ 是 $\mathbb{R}^D$ 的子集),则称过程 $f(\mathbf{x})$ 在域 $A$ 上均方连续。
- 均方连续的充分必要条件:随机场在 $\mathbf{x}*$ 处均方连续的充分必要条件是,其协方差函数 $k(\mathbf{x,x’})$ 在点 $\mathbf{x = x’ = x*}$ 处连续。
根据上述性质,平稳协方差函数只需检查 $k(\mathbf{0})$ 处的连续性即可。
请注意:均方连续性并不一定意味着函数样本的连续性;有关函数样本连续性和可微性的讨论,参见 Adler [1981, ch. 3]。
4.1.3 函数的均方可微性
当如下极限存在时,$f(\mathbf{x})$ 被称为在第 $i$ 个方向上是均方可导的:
$$
\frac{∂f(\mathbf{x})}{∂x_i} = \operatorname{l.i.m}_{h \rightarrow 0} \frac{f(\mathbf{x} + h \mathbf{e}_i) − f(\mathbf{x})}{h} \tag{4.4}
$$
其中 $\operatorname{l.i.m}$ 表示均方极限,$\mathbf{e}_i$ 是第 $i$ 个方向上的单位向量。
其有如下性质:
- 均方导数 $∂f(\mathbf{x})/∂x_i$ 的协方差函数,可以由 $f$ 的协方差函数的导数 $∂^2 k(\mathbf{x,x’})/∂x_i∂x’_i$ 给出。
- 上一条性质可以进一步扩展到高阶导数。
利用上述性质可知:对于平稳随机过程,如果 $2k$ 阶偏导数 $∂^{2k}k(\mathbf{x})/∂^2x_{i_1} \ldots ∂^2x_{ik}$ 存在,并且在 $\mathbf{x = 0}$ 时有限,则对于所有 $\mathbf{x} \in \mathbb{R}^D$,随机过程的 $k$ 阶偏导数 $∂^k f(\mathbf{x})/∂x_{i_1} \ldots x_{ik}$ (作为均方极限)存在。
请注意: 核 $k$ 在 $0$ 附近的特性决定了平稳过程的平滑特性(均方可微性)。
4.2 常见协方差函数
在本节中,我们考虑协方差函数,其中输入域 $\mathcal{X}$ 是向量空间 $\mathbb{R}^D$ 的子集(注:第 4.4 节
会考虑更一般的输入空间)。
第 4.2.1 节
介绍最常用的平稳协方差函数第 4.2.2 节
介绍点积协方差函数第 4.2.3 节
介绍部分非平稳的协方差函数第 4.2.4 节
中描述从旧核构建新核的一般性方法。
表 4.1
中汇总了一些常用协方差函数。此外,关于协方差函数还有几个很好的综述,参见例如 Abrahamsen [1997]。
4.2.1 平稳协方差函数
4.2.1.1 平稳协方差函数的性质
(1)平稳协方差函数的谱密度
在本节(和第 4.3 节
)中,将核理解为从 $\mathbf{x},\mathbf{x’} \in \mathcal{X}$ 到复数空间 $\mathbb{C}$(而不是实数空间 $\mathbb{R}$ )的映射会更方便我们理解。如果零均值过程 $f$ 是复值的,则协方差函数可以被定义为复数形式: $k(\mathbf{x,x’}) = \mathbb{E}[f(\mathbf{x}) f^*(\mathbf{x’})]$,其中 $*$ 表示复共轭。
平稳协方差函数是关于 $\boldsymbol{τ} = \mathbf{x − x’}$ 的函数。因此,我们有时会将平稳协方差函数 $k$ 写成单参数形式,即 $k(\boldsymbol{τ})$。一个平稳协方差函数可以被表示为 有限正值测度的傅里叶变换 ,即如下 Bochner 定理。
【定理 4.1(Bochner 定理)】 一个在 $\mathbb{R}^D$ 上定义的(复值)函数 $k$ 是一个(弱平稳均方连续复值随机过程的)核函数,当且仅当 $k$ 可以被表示为:
$$
k(τ) = \int_{\mathbb{R}^D} e^{2πi \mathbf{s} \cdot \boldsymbol{τ}} dμ(\mathbf{s}) \tag{4.5}
$$
其中 $μ$ 是有限正值测度。 Bochner 定理引自 Stein [1999, p. 24];可以在 Gihman 和 Skorohod [1974] 中找到证明。
如果测度 $μ$ 自身具有某种概率密度 $S(\mathbf{s})$,则 $S$ 被称为对应于 $k$ 的 谱密度 或 功率谱。 式(4.5)
给出的构造,将非负功率值置入每个频率分量 $\mathbf{s}$;这等价于 式(2.4)
中对协方差矩阵 $\Sigma_p$ 的非负定要求。
在谱密度 $S(\mathbf{s})$ 存在的情况下,协方差函数和谱密度是彼此的傅立叶对偶,如 式(4.6)
所示;这也被称为 维纳-辛钦( Wiener-Khintchine )定理,参见 Chatfield [1989]
$$
\begin{align*}
&k(\boldsymbol{τ}) = \int S(\mathbf{s}) e^{2πi \mathbf{s} \cdot \boldsymbol{τ}} d \mathbf{s}\
&S(\mathbf{s}) = \int k(\boldsymbol{τ})e^{−2πi \mathbf{s} \cdot \boldsymbol{τ}}d \boldsymbol{τ}
\end{align*} \tag{4.6}
$$
请注意: 过程的方差为 $k(\mathbf{0}) = \int S(\mathbf{s}) d \mathbf{s}$, 也就是说,功率谱必须满足可积条件才能定义有效的高斯过程。
要获得对 式(4.6)
中功率谱的一些直觉,一定要意识到: 复指数 $e^{2πi \mathbf{s \cdot x}}$ 是某个平稳核的(关于 Lebesgue 测度的)特征函数(详细信息参见 第 4.3 节
)。而 $S(\mathbf{s})$ 可以被视为分配给特征函数 $e^{2πi \mathbf{s \cdot x}}$ (其频率为 $\mathbf{s}$ )的功率量。还要意识到,当频率 $|\mathbf{s}| \rightarrow \infty$ 时,$S(\mathbf{s})$ 必须衰减得足够快,否则无法满足可积条件。与此同时,功率谱的衰减率也可以提供关于随机过程平滑度的重要信息。例如:它可以确定过程的均方可微性(详细信息参见第 4.3 节
)。
(2)各向同性平稳协方差函数的谱密度
如果协方差函数是各向同性的(因此是标量 $r$ 的函数,其中 $r = |\boldsymbol{τ}|$),则可以证明 $S(\mathbf{s})$ 也对应于一个标量 $s \triangleq |\mathbf{s}|$ 的函数 [Adler,1981 年,定理 2.5.2]。此时,式 (4.6)
中的对偶关系可以改写为球面极坐标形式,在积分掉角度变量后(因为各向同性),可以简化为(参见例如 Bracewell, 1986, ch. 12):
$$
k(r) = \frac{2π}{r^{D/2−1}} \int^\infty_0 S(s) J_{D/2−1}(2π rs) s^{D/2} ds \tag{4.7}
$$
$$
S(s) = \frac{2π }{s^{D/2−1}} \int^\infty_0 k(r)J_{D/2−1}(2π rs)r^{D/2} dr \tag{4.8}
$$
式中,$J_ν(z)$ 是第一类贝塞尔函数。
请注意, 式(4.7)
中对维数 $D$ 的依赖性意味着: 同一各向同性的谱密度函数形式,在不同维数 $D$ 下会产生不同的各向同性协方差函数。反之亦然,如果我们从一个特定的各向同性协方差函数 $k(r)$ 出发,则其对应的谱密度形式也取决于 $D$(例如 式(4.15)
中给出的 Matern 族谱密度),事实上 $k(r)$ 有可能无法适用于所有维数 $D$。谱密度存在的一个必要条件是 $\int r^{D−1} | k(r)| dr < \infty$;参见 Stein [1999, sec. 2.10]。
我们现在给出一些常用的各向同性协方差函数的例子。这些协方差函数以标准化形式给出,其中 $k(0) = 1$;我们可以将 $k$ 乘以一个(正)常数 $σ^2_f$ 以获得任何所需的过程方差。
4.2.1.2 平方指数函数
(1)函数形式
平方指数 (SE) 协方差函数已在第 2 章 式(2.16)
中有过介绍。形式为:
$$
k_{SE}(r) = \exp \left( − \frac{r^2}{2\ell^2} \right) \tag{4.9}
$$
参数 $\ell$ 定义特征长度尺度。使用 式(4.3)
我们看到 1d 中平方指数过程的零级上交叉平均数是 $(2π \ell)^{−1}$,这证实了 $\ell$ 作为长度尺度的角色。这个协方差函数是无限可微的,这意味着具有这个协方差函数的高斯过程具有所有阶的均方导数,因此非常平滑。
(2)谱密度
平方指数协方差函数的谱密度为
$$
S(\mathbf{s}) = (2π \ell^2)^{D/2} \exp(−2π^2 \ell^2 s^2)
$$
Stein [1999] 认为这种强平滑假设对于模拟许多物理过程不现实,并推荐使用 Matern 族协方差函数(见下文)。不过,平方指数可能是核机器领域中使用最广泛的核。
平方指数核是无限可分的,因为对于所有 $t > 0$, $(k(r))^t$ 都是有效核;将 $k$ 提高到 $t$ 次方的效果只是重新缩放 $\ell$。
(3)与无限宽神经网络的关系
关于平方指数协方差函数有一个非常著名的论断: 单隐层的无限宽神经网络等效于一个协方差函数为平方指数的高斯过程。
下面做一简要证明。
将输入 $\mathbf{x}$ 通过高斯形基函数扩展到特征空间(可以视为神经网络的隐藏层),同样可以获得平方指数协方差函数。为了简化证明,我们考虑具有标量输入的如下基函数:
$$
\phi_c(\mathbf{x}) = \exp(− \frac{(x − c)^2}{2 \ell^2} ) \tag{4.10}
$$
其中 $c$ 表示基函数的中心。回顾 第 2.1 节
和 第 2.2 节
,在权重参数上设置高斯先验 $\mathbf{w} \sim \mathcal{N}(\mathbf{0}, \sigma^2_p \mathbf{I})$,等价于设置了一个具有如下协方差函数的高斯过程。
$$
k(x_p, x_q) = \sigma^2_p \sum^{N}_{c=1} \phi_c(x_p)\phi_c(x_q) \tag{4.11}
$$
现在,假设允许无限数量的基函数(按照某个间距以任意位置为中心),并且随着基函数数量的增加,相应地减小权重先验的方差。则我们可以得到极限
$$
\lim_{N \rightarrow \infty} \frac{\sigma^2_p}{N} \sum^{N}{c=1} \phi_c(x_p)\phi_c(x_q) = \sigma^2_p \int^{c{max}}{c{min}} \phi_c(x_p) \phi_c(x_q) dc \tag{4.12}
$$
代入 式 (4.10)
的高斯形基函数并且让积分的极限趋于无穷大,有:
$$
k(x_p, x_q) = \sigma^2_p \int^{\infty}_{−\infty} \exp(−\frac{(x_p − c)^2}{2 \ell^2}) \exp(− \frac{(x_q − c)^2 }{2 \ell^2}) dc = \sqrt{π} \ell \sigma^2_p \exp(− \frac{(x_p − x_q)^2}{2 (\sqrt{2} \ell)^2}) \tag{4.13}
$$
可以看出,这是一个长度尺度为 $\sqrt{2}$ 的平方指数协方差函数。此推导改编自 MacKay [1998]。将此构造推广到多元 $\mathbf{x}$ 也很简单。在 式(4.30)
中也存在类似构造,不过在该式中基函数的中心是从高斯分布中采样得到的;当高斯分布的方差趋于无穷大时,这些构造是等价的。
4.2.1.3 Matern 族函数
(1)函数形式
协方差函数的 Matern 族由下式给出
$$
k_{Matern}(r) = \frac{2^{1−ν}}{Γ(ν)} \left(\frac{\sqrt{2ν} r}{\ell} \right)^ν K_ν \left(\frac{\sqrt{2ν} r}{\ell} \right) \tag{4.14}
$$
(2)谱密度
具有正参数 $ν$ 和 $\ell$,其中 $K_ν$ 是修正贝塞尔函数 [Abramowitz and Stegun, 1965, sec. 9.6]。该协方差函数在不同维度 $D$ 上具有不同谱密度
$$
S(\mathbf{s}) = \frac{2^D π^{D/2} Γ(ν + D/2)(2ν)^ν }{Γ(ν) \ell^2ν} \left(\frac{2ν}{\ell^2} + 4 π^2s^2 \right)^{−(ν + D/2)} \tag{4.15}
$$
(3)函数特性
请注意,选择缩放比例是为了让 $ν \rightarrow \infty$ 我们获得平方指数协方差函数 $e^{−r2/2 \ell^2}$,参见 式(A.25)
。 Stein [1999] 根据 Matern [1960] 的工作将其命名为 Matern 族。对于 Matern 族,当且仅当 $ν > k$ 时,过程 $f(\mathbf{x})$ 是 $k$ 次均方可微分的。
当 $ν$ 是半整数时,Matern 协方差函数变得特别简单:$ν = p + 1/2$,其中 $p$ 是一个非负整数。在这种情况下,协方差函数是指数和 $p$ 阶多项式的乘积,通用表达式可以从 [Abramowitz and Stegun, 1965, eq. 10.2.15] 给出:
$$
k_{ν=p+1/2}(r) = \exp \left(−\frac{\sqrt{2ν} r}{\ell} \right) \frac{ Γ(p + 1) }{Γ(2p + 1) } \sum^{p}_{i=0} \frac{(p + i)!}{i!(p − i)!} \left(\frac{\sqrt{8ν} r}{\ell} \right)^{p−i} \tag{4.16}
$$
机器学习领域最感兴趣的情况可能是 $ν = 3/2$ 和 $ν = 5/2$,其中
$$
k_{ν=3/2}(r) = \left( 1+ \frac{\sqrt{3} r}{\ell} \right) \exp \left(−\frac{\sqrt{3} r}{\ell} \right) \tag{4.17a}
$$
$$
k_{ν=5/2}(r) = \left( 1+ \frac{\sqrt{5} r}{\ell} + \frac{5r^2}{3 \ell^2} \right) \exp \left(− \frac{\sqrt{5} r}{\ell}\right) \tag{4.17b}
$$
因为对于 $ν = 1/2$,过程变得非常粗糙,而对于 $ν \geq 7/2$,在没有关于高阶导数存在的明确先验知识的情况下,从有限噪声训练样本中很难区分 $ν \geq 7/2$ 的值(或者甚至区分 $ν$ 的有限值和 $ν \rightarrow \infty$,在这种情况下是平滑的平方指数)。例如,[Cornford et al., 2002] 中使用了 $ν = 5/2$ 的值。
图 4.1: (a) Matern 族协方差函数,和 (b)从高斯过程中抽取的随机函数,具有式 (4.14) 的 Matern 协方差函数,采用了不同 $ν$ 值,其中 $\ell = 1$。右侧的示例函数是使用 2000 个等距点的 $x$ 轴离散化获得的。
4.2.1.4 Ornstein-Uhlenbeck 过程和指数协方差函数
在 Matern 族中通过设置 $ν = 1/2$ 获得的特例给出了指数协方差函数 $k(r) = \exp(−r/\ell)$。相应的过程是均方连续的,但不是均方可微的。在 $D = 1$ 时,这对应于 Ornstein-Uhlenbeck (OU) 过程
的协方差函数。 OU 过程 [Uhlenbeck 和 Ornstein,1930 年] 是作为布朗运动的粒子速度的数学模型引入的。更一般地,在 $D = 1$ 中,对于整数 $p$ 设置 $ν + 1/2 = p$, 会产生特定形式的连续时间 $AR(p)$ 高斯过程;有关详细信息,请参阅 第 B.2.1 节
。 Matern 协方差函数的形式和从中提取的 $ν = 1/2$、$ν = 2$ 和 $ν \rightarrow \infty$ 的样本如图 4.1
所示。
4.2.1.5 γ 指数协方差函数
略。
4.2.1.6 有理二次协方差函数
略。
4.2.1.7 具有紧支撑的分段多项式协方差函数
一系列具有紧凑支撑的分段多项式函数提供了另一类有趣的协方差函数。
紧凑支撑意味着当点之间的距离超过某个阈值时,点之间的协方差正好变为零。这意味着协方差矩阵将通过构造变得稀疏,从而可能带来计算优势。设计这些函数的挑战在于如何保证其正定性。 Wendland [2005, ch. 9] 讨论了用于导出此类协方差函数的多种算法。这些函数通常不是对所有输入维度都是正定的,其有效性通常被限制在某个最大维数 $D$。
下面给出在维数 $\mathbb{R}^D$ 下,正定协方差函数 $k_{pp D,q}(r)$ 的一些例子:
$$
\begin{align*}
&k_{ppD,0}(r) = (1 − r)^{j}+\
&k{ppD,1}(r) = (1 − r)^{j+1}+ ((j + 1)r + 1)\
&k{ppD,2}(r) = (1 − r)^{j+2}+ ((j^2 + 4j + 3)r^2 + (3j + 6)r + 3)/3\
&k{pp D,3}(r) = (1 − r)^{j+3}_+ ((j^3 + 9j^2 + 23j + 15)r^3 + (6j^2 + 36j + 45)r^2 + (15j + 45)r + 15)/15\
& \text{ where } j = \lfloor \frac{D}{2} + q + 1 \rfloor
\end{align*} \tag{4.21}
$$
图 4.4
说明了其中三个协方差函数的性质。这些协方差函数是 $2q$ 次连续可微的,因此相应的过程是 $q$ 次均方可微的。
我们往往感兴趣的是:在获得类似推论同时,能够在多大程度上使用上述紧凑支撑的协方差函数来代替其他协方差函数?
紧凑支撑的优点是能够产生可利用的稀疏 Gram 矩阵,例如,当使用迭代方式求解高斯过程回归问题时,参见第 8.3.6 节
。
图 4.4: (a) 紧凑支撑的协方差函数, (b) 从具有 Matern 协方差函数的高斯过程中提取的随机函数,对于不同的 $ν$ 值,其中 $\ell = 1$。右侧示例函数是使用 $2000$ 个等距点的 $x$ 轴离散化获得的。
4.2.1.8 其他重要的平稳协方差函数形式
(1)振荡型协方差函数
上面给出的协方差函数随 $r$ 单调衰减并且总是正的。不过,这并不是协方差函数的必要条件。例如 Yaglom [1987] 表明,当 $ν \geq (D − 2)/2$ 和 $α > 0$ 时,$k(r) = c(αr)^{−ν} J_ν(αr)$ 是有效的协方差函数;并且具有阻尼振荡的特征。
(2)协方差函数的低秩(降维)表示
上述各向同性协方差函数的各向异性版本可以通过设置 $r^2(\mathbf{x,x’}) = (\mathbf{x-x’})^{\top} M (\mathbf{x-x’})$ 来创建,其中 $M$ 是半正定的。如果 $M$ 是对角矩阵,这将实现在不同维度上使用不同的长度尺度,有关自动相关性判决的进一步讨论,请参见第 5.1 节
。一般的 $M$ 已经被 Matern [1960, p. 19]、Poggio 和 Girosi [1990] 以及 Vivarelli 和 Williams [1999] 等考虑过;在后一项工作中,低秩 $M$ 被用于实现从输入空间到低维特征空间的线性降维步骤。
更一般地,可以采用以下形式
$$
M = \Lambda \Lambda^{\top} + \Psi
$$
其中 $\Lambda$ 是一个 $D \times k$ 矩阵,其列定义了 $k$ 个高度相关的方向,$\Psi$ 是一个对角矩阵(具有正值元素),捕获轴对齐的相关性,另请参见 图 5.1
。因此 $M$ 有一个因子分析形式。对于 $k$ 的某些特定选择,这可能在灵活性和所需参数数量之间表现出一种平衡。
(3)周期性协方差函数
平稳核也可以在周期域上定义,并且可以很容易地从 $\mathbb{R}$ 上的平稳核构造。给定平稳核 $k(x)$,核 $k_{\mathbb{T}}(x) = \sum_{m \in \mathbb{Z}} k(x + ml)$ 是周期性,其周期为 $l$,参见 B.2.2 节
和 Scholkopf 和 Smola [2002, eq. 4.42]。
4.2.2 点积协方差函数
正如我们上面已经提到的,核 $k(\mathbf{x,x’}) = \sigma^2_0 + \mathbf{x · x’}$ 可以从线性回归中获得。如果 $\sigma^2_0 = 0$,我们称之为 齐次线性核,否则是非齐次的。 当然,这可以通过在 $\mathbf{x}$ 的分量上使用通用的协方差矩阵 $\Sigma_p$ 来推广到 $k(\mathbf{x,x’}) = \sigma^2_0 + \mathbf{x}^{\top} \Sigma_p \mathbf{x’}$,如 式(2.4)
中所述。
根据 第 4.2.4 节
所述,给定一个协方差函数,其正整数幂也是一个有效的协方差函数,所以,当 $p$ 是正整数时,$k(\mathbf{x,x’}) = (\sigma^2_0 + \mathbf{x}^{\top} \Sigma_p \mathbf{x’})^p$ 也是有效的协方差函数。
我们通常对于多项式协方差函数的显式特征空间构造很感兴趣。在此重点考虑齐次多项式的情况,因为非齐次的情况可以简单地通过连接一个常数来扩展 $\mathbf{x}$ 获得。我们记:
$$
k(\mathbf{x,x’}) = (\mathbf{x · x’})^p = \left(\sum^{D}{d=1} x_d x’d \right)^p = \left(\sum^{D}{d_1=1} x{d_1} x’{d_1} \right) \ldots \left(\sum^{D}{d_p=1} x_{d_p} x’{d_p} \right) = \sum^{D}{d_1=1} \ldots \sum^{D}{d_p=1} (x{d_1} \ldots x_{d_p})(x’{d_1} \ldots x’{d_p}) \triangleq \boldsymbol{\phi}(\mathbf{x}) · \boldsymbol{\phi}(\mathbf{x’}) \tag{4.23}
$$
请注意,这个总和显然包含 $D^p$ 个项,但实际上它小于这个数,因为单项式 $x_{d_1} \dots x_{d_p}$ 中下标索引的顺序并不重要,例如对于 $p = 2$,$x_1 x_2$ 和 $x_2 x_1$ 是同一单项式。我们可以通过定义一个向量 $\mathbf{m}$ 来消除冗余,在 $\sum^{D}{i=1} m_i = p$ 的约束下,用其元素 $m_d$ 指定索引 $d$ 在单项式中出现的次数。因此与向量 $\mathbf{m}$ 对应的特征 $\phi{\mathbf{m}}(\mathbf{x})$ 正比于单项式 $x^{m_1}_1 \ldots x^{m_D}D$。$\phi{\mathbf{m}}(\mathbf{x})$ 可以退化为 $\frac{p!}{m_1! \ldots m_D!}$ (像往常一样定义 $0!= 1$),给出特征映射:
$$
\phi_{\mathbf{m}}(\mathbf{x}) = \sqrt{\frac{p!}{m_1! \ldots m_D!}}x^{m1}_1 \ldots x^{mD}_D \tag{4.24}
$$
例如,对于 $D = 2$ 时的 $p = 2$,我们有 $\boldsymbol{\phi}(\mathbf{x}) = (x^2_1, x^2_2, \sqrt{2}x_1x_2)^{\top}$。点积核有时以 式(4.35)
给出的归一化形式使用。
对于回归问题,多项式核是一个相当奇怪的选择,因为对于 $|\mathbf{x}| > 1$,先验方差会随 $|\mathbf{x}|$ 快速增长。不过,此类核已证明在高维分类问题(例如,将 $\mathbf{x}$ 设为向量化的二值图像)中是有效的,其中输入数据是二值或灰度,在每个维度上归一化为 $[−1, 1]$ [Scholkopf and Smola,2002 年,7.8 节]。
4.2.3 非平稳协方差函数
上面我们已经看到了非平稳点积核的例子。不过,还有其他有趣的核采用这种形式。
(1)神经网络的协方差函数
在本节中,我们首先描述属于特定类型神经网络的协方差函数;这种构造归功于 Neal [1996]。
考虑一个神经网络,它接受输入 $\mathbf{x}$,有一个包含 $N_H$ 个单元的隐藏层,然后将隐藏单元的输出与偏置 $b$ 线性组合以获得 $f(\mathbf{x})$。该映射可以写成
$$
f(\mathbf{x}) = b + \sum^{N_H}_{j=1} v_j h(\mathbf{x; u_j}) \tag{4.25}
$$
其中 $v_j$ 是隐藏单元到输出的权重,$h(\mathbf{x; u})$ 是隐藏单元的传递函数(假设其有界),依赖于输入到隐藏单元的权重 $\mathbf{u}$。 例如,我们可以选择 $h(\mathbf{x; u}) = \tanh( \mathbf{x · u})$。
这种架构很重要,因为 Hornik [1993] 已经表明,对于广泛的传递函数(不包括多项式),当隐藏单元的数量趋于无穷大时,具有单隐藏层的神经网络是一个通用逼近器。令 $b$ 和 $v$ 分别服从独立的方差为 $\sigma^2_b$ 和 $\sigma^2_v$ 的零均值高斯,并令每个隐藏单元的权重 $\mathbf{u}_j$ 独立同分布。用 $\mathbf{w}$ 表示所有权重,我们得到(根据 Neal [1996])
$$
\mathbb{E}_{\mathbf{w}}[f(\mathbf{x})] = 0 \tag{4.26}
$$
$$
\begin{align*}
\mathbb{E}{\mathbf{w}}[f(\mathbf{x}) f(\mathbf{x’})] &= \sigma^2_b+ \sum_j \sigma^2_v \mathbb{E}{\mathbf{u}} [h(\mathbf{x; u_j})h(\mathbf{x’; u_j})] \tag{4.27} \
&= \sigma^2_b + N_H \sigma^2_v \mathbb{E}_{\mathbf{u}}[h( \mathbf{x; u} )h(\mathbf{x’;u})] \tag{4.28}
\end{align*}
$$
其中式 (4.28)
成立,因为所有隐藏单元都是同分布的。通过让 $\sigma^2_v$ 缩放为 $ω^2/N_H$, 式(4.28)
中的最后一项变为 $ω^2\mathbb{E}_{\mathbf{u}}[h(\mathbf{x; u})h( \mathbf{ x’; u})]$。
式(4.27)
中的求和,是在 $N_H$ 个独立分布随机变量上的。由于传递函数有界,所以该分布的所有矩都是有界的,可以应用中心极限定理,表明随机过程将收敛到极限为 $N_H \rightarrow \infty$ 的高斯过程。
通过计算 $\mathbb{E}{\mathbf{u}}[h(\mathbf{x; u})h(\mathbf{x’; u})]$,我们可以获得神经网络的协方差函数。例如,如果选择误差函数 $h(z) = \text{erf}(z) = 2/\sqrt{π} \int^z_0 e^{−t^2} d t$ 作为传递函数,让 $h(\mathbf{x; u}) = \text{erf}(u_0 + \sum^{D}{j=1} u_j x_j)$,同时选择 $\mathbf{u} \sim \mathcal{N}(0, \Sigma)$,则可以得到如下神经网络的协方差函数 [Williams, 1998]
$$
k_{NN}(\mathbf{x,x’}) = \frac{2}{π} \sin^{−1} \left( \frac{2 \mathbf{\tilde{x}^{\top} \Sigma \tilde{x}’}}{\sqrt{(1 + 2 \tilde{\mathbf{x}}^{\top} \Sigma \tilde{\mathbf{x}})(1 + 2 \tilde{\mathbf{x}}’^{\top} \Sigma \tilde{\mathbf{x}}’}) }\right) \tag{4.29}
$$
其中 $\tilde{\mathbf{x}} = (1, x_1,\ldots, x_d)^{\top}$ 是增广输入向量。这是一个真正的 “神经网络” 协方差函数。有人建议 “sigmoid” 核 $k(\mathbf{x,x’}) = \tanh(a + b \mathbf{x · x’})$ ,但实际上该核永远不是正定的,因此不是有效的协方差函数,参见,例如 Scholkopf 和 Smola [2002, p. 113]。
图 4.5
显示了神经网络协方差函数和从高斯过程先验中抽取的函数样本。我们设置了 $\Sigma = \text{diag}(\sigma^2_0, σ^2)$。来自具有此协方差函数的高斯过程样本可以被视为函数 $\text{erf}(u_0 +ux)$ 的叠加,其中 $\sigma^2_0$ 控制 $u_0$ 的方差(以及这些函数与原点的偏移量),而 $σ^2$ 控制 $u$ 从而在 $\mathbf{x}$ 轴上进行缩放。在 图 4.5(b)
中,我们观察到 $σ$ 越大的函数样本变化越快。请注意,样本显示了协方差函数的非平稳性,因为对于 $+x$ 或 $−x$ 的大值,它们应该趋向于恒定值,与 “sigmoid” 函数叠加的构造保持一致。
图 4.5: (a):$σ_0 = 10$、$σ = 10$ 的 $k_{NN}(\mathbf{x, x’})$ 协方差函数图 (b):从神经网络协方差函数中抽取的样本,$σ_0 = 2$,$σ$ 在图例中显示。使用 $500$ 个 $x$ 轴的离散化等距点获得样本
(2)基于高斯基函数的协方差函数
另一个有趣的构造是设置 $h(\mathbf{x; u}) = \exp(−|\mathbf{x − u}|^2/2 σ^2_g)$,其中 $σ_g$ 指定了此高斯基函数的尺度。当 $\mathbf{u} \sim \mathcal{N}(\mathbf{0}, σ^2_u \mathbf{I})$ 时,我们有:
$$
\begin{align*}
k_{G}(\mathbf{x,x’}) &= \frac{1}{(2π \sigma^2_u)^{d/2}} \int \exp \left(− \frac{|\mathbf{x − u}|^2}{2 \sigma^2_g} − \frac{ |\mathbf{x’ − u}|^2}{2 \sigma^2_g} − \frac{\mathbf{u^{\top} u}}{2 \sigma^2_u} \right) d \mathbf{u} \
&= ( \frac{σ_e}{σ_u})^d \exp \left( − \frac{\mathbf{x^{\top} x}}{2\sigma^2_m} \right) \exp \left( −\frac{|\mathbf{x-x’}|^2}{2 \sigma^2_s} \right) \exp \left( − \frac{ \mathbf{x’^{\top} x’}}{2 \sigma^2_m } \right)
\end{align*} \tag{4.30}
$$
其中 $1/\sigma^2_e = 2/\sigma^2_g + 1/\sigma^2_u$、$\sigma^2_s = 2\sigma^2_g + \sigma^4_g / \sigma^2_u$ 、 $\sigma^2_m = 2\sigma^2_u + \sigma^2_g$。这通常是一个非平稳协方差函数,但如果 $\sigma^2_u \rightarrow \infty$(同时适当缩放 $ω^2$),我们可以恢复平方指数 $k_{G}(\mathbf{x,x’}) \propto \exp(−|\mathbf{x-x’}|^2/4\sigma^2_g)$。对于 $\sigma^2_u$ 的有限值,$k_{G}(\mathbf{x,x’})$ 包含由高斯衰减包络函数 $\exp(−\mathbf{x^{\top} x}/2\sigma^2_m) \exp(−\mathbf{x’^{\top} x’}/2\sigma^2_m)$ 调制的平方指数协方差函数,类似于第 4.2.4 节
中描述的垂直缩放结构。
(3)非线性空间中的平稳协方差函数
引入非平稳性的一种方法是引入输入 $\mathbf{x}$ 的任意非线性映射(或扭曲)$\mathbf{u}(\mathbf{x})$,然后在 $\mathbf{u}$ 空间中使用平稳协方差函数。请注意,$\mathbf{x}$ 和 $\mathbf{u}$ 不需要彼此具有相同的维度。 Sampson 和 Guttorp [1992] 采用这种方法,利用高斯过程对不列颠哥伦比亚省西南部的太阳辐射模式进行建模。
MacKay [1998] 给出了这种扭曲构造的另一个有趣示例,其中一维输入变量 $\mathbf{x}$ 映射到二维 $\mathbf{u}(\mathbf{x}) = (\cos(\mathbf{x}), \sin(\mathbf{x}))$ 以产生 $\mathbf{x}$ 的周期性随机函数。如果我们在 $\mathbf{u}$ 空间中使用平方指数核,那么
$$
k(\mathbf{x,x’}) = \exp \left( − \frac{2 \sin^2(\frac{\mathbf{ x−x’}}{2})}{\ell^2} \right) \tag{4.31}
$$
其中 $(\cos(\mathbf{x}) − \cos(\mathbf{x’}))^2 + (\sin(\mathbf{x}) − \sin(\mathbf{x’}))^2 = 4 \sin^2(\frac{x−x’}{2})$。
(4)可变长度尺度的非平稳方案
上面我们已经描述了如何通过不同地缩放不同维度来制作各向异性协方差函数。然而,我们不能随意使这些长度尺度成为 $\mathbf{x}$ 的函数,因为这通常不会产生有效的协方差函数。 Gibbs [1997] 导出协方差函数
$$
k(\mathbf{x,x’}) = \prod^{D}{d=1} \left(\frac{2 \ell_d(\mathbf{x}) \ell_d(\mathbf{x’})}{\ell^2_d(\mathbf{x}) + \ell^2_d(\mathbf{x’})} \right)^{1/2} \exp \left( − \sum^{D}{d=1} \frac{(x_d − x’_d)^2}{\ell^2_d(\mathbf{x}) + \ell^2_d(\mathbf{x’})} \right) \tag{4.32}
$$
其中每个 $\ell_i(\mathbf{x})$ 是 $\mathbf{x}$ 的任意正函数。请注意,对于所有 $\mathbf{x}$,$k(\mathbf{x, x}) = 1$。该协方差函数是通过考虑中心为 $\mathbf{c}_j$ 的 $N$ 个高斯基函数的网格和输入维度 $d$ 上的相应长度尺度(其随正函数 $\ell_d(\mathbf{c}_j)$ 变化)而获得的。以 $N \rightarrow \infty$ 为极限,总和变成积分并经过一些代数计算, 得到 式 (4.32)
。
一个可变长度尺度函数的例子和来自对应于 式(4.32)
的先验样本。如 图 4.6
所示。请注意,随着长度尺度变短,样本函数的变化会如人们预期的那样更快。短尺度区域两侧的大尺度区域可能具有很强的相关性。如果通过创建一个长度尺度函数 $\ell(\mathbf{x})$ 来尝试相反的实验,它在两个较短的区域之间有一个较长的长度尺度区域,那么行为可能并不完全符合预期;在最初过渡到长尺度区域时,协方差在稳定到较慢的变化之前,会由于 式(4.32)
中的预分解而急剧下降。见 Gibbs [1997, sec. 3.10.3]了解更多详情。
图 4.6: (a) 显示了选定的长度尺度函数 $\ell(x)$。 (b) 显示了使用吉布斯协方差函数
式(4.32)
之前来自 GP 的三个样本。该图基于 Gibbs [1997] 中的图 3.9。
Paciorek 和 Schervish [2004] 推广了 Gibbs 构造以获得任意各向同性协方差函数的非平稳版本。令 $k_S$ 是在每个欧几里德空间 $\mathbb{R}^D, D = 1, 2,\ldots$ 中都有效的平稳、各向同性协方差函数。令 $\Sigma(\mathbf{x})$ 为对所有 $\mathbf{x}$ 均正定的矩阵值(输出为 $D \times D$ 的矩阵)函数,令 $\Sigma_i \triangleq \Sigma(\mathbf{x}_i)$。 (Gibbs 的 $\ell_i(\mathbf{x})$ 函数集定义了对角矩阵 $\Sigma(\mathbf{x})$ )然后定义二次形:
$$
Q_{ij} = (\mathbf{x_i − x_j})^{\top} ((\Sigma_i + \Sigma_j)/2)^{−1}(\mathbf{x_i − x_j}) \tag{4.33}
$$
Paciorek 和 Schervish [2004] 表明
$$
k_{NS}(\mathbf{x}_i,\mathbf{x}j) = 2^{D/2} |\Sigma_i|^{1/4} |\Sigma_j|^{1/4} |\Sigma_i + \Sigma_j |^{−1/2} k_S(\sqrt{Q{ij}} ) \tag{4.34}
$$
是有效的非平稳协方差函数。
在第 2 章
中我们描述了特征空间 $f(\mathbf{x}) = \boldsymbol{\phi}(\mathbf{x})^{\top} \mathbf{w}$ 中的线性回归模型。 O’Hagan [1978] 建议使 $\mathbf{w}$ 成为 $\mathbf{x}$ 的函数,以允许不同的 $\mathbf{w}$ 值适用于不同的区域。因此,对于某些正定矩阵 $W_0$,他在 $\mathbf{w}$ 上放置了一个形式为 $\operatorname{cov}(\mathbf{w(x), w(x’)}) = W_0 k_w(\mathbf{x,x’})$ 的先验高斯过程,从而产生了 $f(\mathbf{x})$ 上的先验协方差 $k_f(\mathbf{x,x’}) = \boldsymbol{\phi}(\mathbf{x})^{\top} W_0 \boldsymbol{\phi}(\mathbf{x’}) k_w(\mathbf{x,x’})$。
最后,我们注意到具有协方差函数 $k(\mathbf{x,x’}) = \min(\mathbf{x,x’})$ 的维纳过程是一个基础的非平稳过程。参见 B.2.1 节和 Grimmett 和 Stirzaker [1992, ch. 13] 了解更多详情。
表 4.1:几种常用协方差函数的汇总。协方差可以写成 $\mathbf{x}$ 和 $\mathbf{x’}$ 的函数,或者写成 $r = |\mathbf{x − x’}|$ 的函数。标记为 “S” 和 “ND” 的两列分别表示协方差函数是否平稳和非退化。退化协方差函数具有有限秩,有关此问题的更多讨论,请参见第 4.3 节。
4.2.4 从旧核生成新核
在前面的部分中,我们开发了许多协方差函数,其中一些总结在 表 4.1
中。在本节,我们将展示如何组合或修改现有协方差函数来生成新的协方差函数。
(1)两个核之和也是一个核。
证明:考虑随机过程 $f(\mathbf{x}) = f_1(\mathbf{x}) + f_2(\mathbf{x})$,其中 $f_1(\mathbf{x})$ 和 $f_2(\mathbf{x})$ 是独立的。那么 $k(\mathbf{x,x’}) = k_1(\mathbf{x,x’}) + k_2(\mathbf{x,x’})$。这种结构可以用于(例如)将具有不同长度尺度的核加在一起。
(2)两个核的乘积是一个核。
证明:考虑随机过程 $f(\mathbf{x}) = f_1(\mathbf{x})f_2(\mathbf{x})$,其中 $f_1(\mathbf{x})$ 和 $f_2(\mathbf{x})$ 是独立的。那么 $k(\mathbf{x,x’}) = k_1(\mathbf{x,x’})k_2(\mathbf{x,x’})$。这个论证的简单扩展意味着 $k^p(\mathbf{x,x’})$ 是 $p \in \mathbb{N}$ 的有效协方差函数。
设 $a(\mathbf{x})$ 为给定的确定性函数,并考虑 $g(\mathbf{x}) = a(\mathbf{x})f(\mathbf{x})$,其中 $f(\mathbf{x})$ 是随机过程。那么 $\operatorname{cov}(g(\mathbf{x}), g(\mathbf{x’})) = a(\mathbf{x})k(\mathbf{x,x’})a(\mathbf{x’})$。这样的构造可用于通过选择 $a(\mathbf{x}) = k^{−1/2}(\mathbf{x, x})$(假设 $k(\mathbf{x, x}) > 0 \forall \mathbf{x}$)来归一化核,因此:
$$
\tilde{k}(\mathbf{x,x’}) = \frac{k(\mathbf{x,x’})}{\sqrt{k(\mathbf{x, x})} \sqrt{k(\mathbf{x’, x’})}} \tag{4.35}
$$
这确保了对于所有 $\mathbf{x}$,有 $k(\mathbf{x, x}) = 1$。
我们也可以通过卷积(或模糊)得到一个新过程。考虑任意平稳核 $h(\mathbf{x, z})$ 和映射 $g(\mathbf{x}) = \int h(\mathbf{x, z})f(\mathbf{z}) d \mathbf{z}$。那么卷积显然是 $\operatorname{cov}(g(\mathbf{x}), g(\mathbf{x’})) = \int h(\mathbf{x, z})k(\mathbf{z, z’})h(\mathbf{x’, z’}) d \mathbf{z} d \mathbf{z’}$。
如果 $k(\mathbf{x}_1, \mathbf{x’}_1)$ 和 $k(\mathbf{x}_2, \mathbf{x’}_2)$ 是不同空间 $\mathcal{X}_1$ 和 $\mathcal{X}_2$ 上的协方差函数,则通过求和构造与求积构造,有 直和 $k(\mathbf{x,x’}) = k_1(\mathbf{x}_1, \mathbf{x’}_1) + k_2(\mathbf{x}_2, \mathbf{x’}_2)$ 和 张量积 $k(\mathbf{x,x’}) = k_1(\mathbf{x}_1, \mathbf{x’}_1) k_2(\mathbf{x}_2, \mathbf{x’}_2)$ 也是协方差函数(定义在乘积空间 $\mathcal{X}_1 \times \mathcal{X}_2$ 上)。
可以进一步推广 直和 构造。考虑一个函数 $f(\mathbf{x})$,其中 $\mathbf{x}$ 是 $D$ 维的。加性模型 [Hastie and Tibshirani, 1990] 的形式为 $f(\mathbf{x}) = c + \sum^{D}{i=1} f_i(x_i)$,即单变量函数的线性组合。如果将单个 $f_i$ 视为独立的随机过程,则 $f$ 的协方差函数将具有直和的形式。如果我们现在承认两个变量的相互作用,那么 $f(\mathbf{x}) = c + \sum^{D}{i=1} f_i(x_i) + \sum_{ij,j < i} f_{ij}(x_i, x_j)$ 并且各种 $f_i$ 和 $f_{ij}$ 是独立的随机过程,那么协方差函数的形式为 $k(\mathbf{x,x’}) = \sum^{D}{i=1} k_i(x_i, x’i) + \sum^{D}{i=2} \sum^{i−1}{j=1} k_{ij} (x_i, x_j ; x’_i , x’j)$。事实上,这个过程可以进一步扩展以提供功能 ANOVA 的分解,范围从简单的加法模型到所有 $D$ 输入变量的完全交互。 (求和也可以在某个阶段被截断。)Wahba [1990, ch. 10] 和 Stitson 等 [1999] 建议对具有交互作用的核使用张量积,以便在上面的示例中 $k{ij}(x_i, x_j; \mathbf{x’}_i, \mathbf{x’}_j)$ 的形式为 $k_i(x_i; \mathbf{x’}_i) k_j(x_j; \mathbf{x’}_j)$。请注意,如果 $D$ 很大,那么大量的成对(或高阶)项可能会有问题; Plate [1999] 研究了使用加性高斯过程模型和允许完全交互的一般协方差函数的组合。
4.3 核的特征函数分析
本节首先定义特征值和特征函数,并讨论 Mercer 定理,在特定条件下,该定理允许我们根据特征值和特征函数来表示核。
4.3.1 节
给出了平方指数核在高斯测度下特征值问题的解析形式解。4.3.2 节
讨论了在精确解未知的情况下,如何实现近似特征函数的数值计算。
如 第 2 章
所述,高斯过程回归可以被视为含有无限个基函数的贝叶斯线性回归。其中一种可能的基函数集合是 协方差函数的特征函数。
4.3.1 核的特征函数
(1)核的特征函数与特征值
我们称一个服从如下积分式的函数 $\phi(·)$ 为核 $k$ 关于测度 $μ$ 的特征函数,$λ$ 是其对应的特征值。
$$
\int \underbrace{k(\mathbf{x,x’})}{KernelFunction} \underbrace{\phi(\mathbf{x})}{Eigenfunction} d \underbrace{μ(\mathbf{x})}{Measure} = \underbrace{λ}{EigenValue} \phi(\mathbf{x’}) \tag{4.36}
$$
我们特别感兴趣的测度主要有两种:
- 一是在 $\mathbb{R}^D$ 的紧凑子集 $\mathcal{C}$ 上的 Lebesgue 测度;
- 二是能够将 $d μ(\mathbf{x})$ 改写成 $p(\mathbf{x}) d \mathbf{x}$ 的密度函数 $p(\mathbf{x})$。
通常特征函数可以有无限多个,我们将其标记为 $\phi_1(\mathbf{x}), \phi_2(\mathbf{x}),\ldots$,并假设按照特征值从大到小( $λ_1 \geq λ_2 \geq \ldots$)排序。特征函数之间关于测度 $μ$ 是正交的,并且可以进行归一化,使得 $\int \phi_i(\mathbf{x})\phi_j(\mathbf{x}) d μ(\mathbf{x}) = δ_{ij}$ 其中 $δ_{ij}$ 是 Kronecker delta。
(2)Mercer 定理
Mercer 定理(参见 Konig,1986)允许我们用特征值和特征函数来表示核函数,或者反之,将一个核函数表示成特征值核特征函数的线性组合。
【定理 4.2(Mercer 定理)】。设 $(\mathcal{X},\mu)$ 是一个有限测度空间,$k \in L_{\infty}(\mathcal{X}^2, μ^2)$ 是一个核,使得 $T_k : L_2(\mathcal{X},\mu) \rightarrow L_2(\mathcal{X},\mu)$ 是正定的,见 式(4.2)
。令 $\phi_i \in L_2(\mathcal{X},\mu)$ 为 $T_k$ 的归一化特征函数(对应于特征值 $λ_i > 0$ )。则:
(1)特征值 ${λ_i}^{\infty}_{i=1}$ 是绝对可求和的;
(2)如下核函数形式
$$
k(\mathbf{x,x’}) = \sum^{\infty }_{i=1} λ_i \phi_i(\mathbf{x}) \phi^*_i (\mathbf{x’}) \tag{4.37}
$$
关于测度 $μ^2$ 处处都成立,并且序列关于测度 $μ^2$ 处处绝对和一致收敛。
上述分解是 Hermitian 矩阵对角化的无限维模拟。请注意,式中的求和可能终止于某个 $N \in \mathbb{N}$(即超出 $N$ 时的特征值为零),也可能是无限的。
(3)退化核
我们有以下定义 [Press et al., 1992, p. [794]
【定义 4.1】 退化核(Degenerate Kernel)只有有限数量的非零特征值。
退化核具有有限的秩。如果核不是退化的,则称其为非退化的(Nondegenerate)。例如,特征空间中的一个 $N$ 维的线性回归模型(参见 式(2.10)
)可以产生具有最多 $N$ 个非零特征值的退化核。 (如果测度仅对 $\mathbf{x}$ 空间中的 $n$ 个有限点施加权重,那么特征分解就是 $n \times n$ 矩阵的简单特征分解,即便核是非退化的。)
上述 Mercer 定理涉及有限测度 $μ$。如果测度 $μ$ 采用 Lebesgue 测度,并考虑平稳协方差函数,那么直接从 式 (4.5)
的 Bochner 定理可以得到:
$$
k(\mathbf{x-x’}) = \int_{\mathbb{R}^D} e^{2πi \mathbf{s·(x−x’)}} d μ(\mathbf{s}) = \int_{\mathbb{R}^D} e^{2πi \mathbf{s·x}} \left( e^{2πi \mathbf{s·x’}} \right)^* d μ(\mathbf{s}) \tag{4.38}
$$
也就是说,复指数函数 $e^{2πi \mathbf{s·x}}$ 可以被视为平稳核关于 Lebesgue 测度的特征函数。注意其与 式(4.37)
的相似性,除了求和被积分代替。
(4)特征值的渐近性质
特征值的衰减率提供了有关核平滑度的重要信息。例如 Ritter 等 [1995] 表明,在一维空间中,如果 $μ$ 在 $[0, 1]$ 上均匀分布,则 $r$ 次均方可微的高斯过程具有渐近的特征值 $λ_i \propto i^{−(2r+2)}$。这是有道理的,因为 “更粗糙” 的高斯过程在高频下具有更大的功率,因此它们的特征值谱衰减得更慢。同样的现象可以从 式(4.15)
中给出的 Matern 族的功率谱中解读出来。
Hawkins [1989] 给出了 $[0, 1]$ 上 Ornstein-Uhlenbeck 过程的精确特征值谱。Widom [1963; 1964] 考虑到密度 $d μ(\mathbf{x}) = p(\mathbf{x})d \mathbf{x}$ 的影响,对平稳核的特征值进行渐近分析; Bach 和 Jordan [2002,表 3] 使用这些结果来显示不同 $p(\mathbf{x})$ 对平方指数核的影响。
下一节将给出高斯密度下平方指数核的精确特征分析。
4.3.2 一个解析的案例
考虑 $p(x)$ 是高斯分布且具有平方指数核 $k(x,x’) = \exp(−(x−x’)^2/2\ell^2)$ 的情况,Zhu 等 [1998 年,第 4 节] 给出其特征值和特征函数的解析结果。设 $p(x) = \mathcal{N}(x|0, σ^2)$,特征值 $λ_k$ 和特征函数 $\phi_k$可以由下式给出(为方便起见,令 $k = 0, 1,\ldots$ ):
$$
\lambda_k = \sqrt{\frac{2a}{A}} B^k \tag{4.39}
$$
$$
\phi_k(x) = \exp(− (c − a)x^2) H_k(\sqrt{2c} x) \tag{4.40}
$$
其中 $H_k(x) = (−1)^k \exp(x^2) \frac{d^k}{dx^k} \exp(−x^2)$ 是第 $k$ 阶 Hermite 多项式(参见 Gradshteyn 和 Ryzhik [1980, sec. 8.95]),$a^{−1} = 4σ^2$, $b^{-1} = 2 \ell^2$,并且:
$$
c=\sqrt{a^2+2ab},\qquad A=a+b+c,\quad B=b/A \tag{4.41}
$$
图 4.7
显示了 $a = 1$ 和 $b = 3$ 的前三个特征函数图。
图 4.7:关于高斯密度的平方指数核的前 $3$ 个特征函数。 $k = 0, 1, 2$ 的值等于函数的过零次数。虚线与密度 $p(x)$ 成正比。
当核和高斯密度是单变量表达式的乘积时,上述特征值和特征函数的结果很容易被推广到多元情况,因为特征函数和特征值也是乘积。对于 $a$ 和 $b$ 在所有 $D$ 个维度上都相等的情况,特征值 $(\frac{2a}{A})^{D/2} B^k$ 的退化为$\binom{k+D−1}{D−1}$,即 $\mathcal{O}(k^{D−1})$。由于 $\sum^{k}_{j=0} \binom{j+D−1}{D−1} = \binom{k+D}{D}$,我们看到第 $\binom{k+D}{D}$ 个特征值的值由 $(\frac{2a}{A})^{D/2} B^k$ 给出,这可以用于确定谱的衰减率。
4.3.3 特征值与特征函数的数值逼近
(1)特征值的数值逼近
近似 式(4.36)
中特征函数和特征值的标准数值方法,是使用一个数值例程来近似积分(例如参见 Baker [1977, ch. 3])。例如让 式(4.36)
中的 $d μ(\mathbf{x}) = p(\mathbf{x})d \mathbf{x}$。 则此时可以使用近似
$$
λ_i \phi_i(\mathbf{x’}) = \int k(\mathbf{x,x’}) p(\mathbf{x}) \phi_i(\mathbf{x}) d \mathbf{x} \simeq \frac{1}{n} \sum^{n}_{l=1} k(\mathbf{x}_l, \mathbf{x’}) \phi_i(\mathbf{x}_l) \tag{4.42}
$$
其中 $\mathbf{x}_l$ 是来自 $p(\mathbf{x})$ 的样本。对于 $l = 1,\ldots, n$,将 $\mathbf{x’ = x}_l$ 代入 式(4.42)
,得到矩阵特征问题:
$$
K \mathbf{u}_i = λ^{mat}_i \mathbf{u}_i \tag{4.43}
$$
其中 $K$ 是元素为 $K_{ij} = k(\mathbf{x}_i, \mathbf{x}_j)$ 的 $n \times n$ Gram 矩阵,$λ^{mat}_i$ 是矩阵的第 $i$ 个特征值,$\mathbf{u}_i$ 是对应的特征向量(归一化,$\mathbf{u}^{\top}_i \mathbf{u}_i = 1$)。我们有 $\phi_i(\mathbf{x}_j) \sim \sqrt{n}(\mathbf{u}_i)_j$,其中 $\sqrt{n}$ 因子来自特征向量和特征函数的不同归一化。因此 $\frac{1}{n} \lambda^{mat}_i$ 是 $λ_i$ 的显著估计( $i = 1,\ldots , n$ )。对于固定的 $n$,人们会期望较大的特征值比较小的特征值估计地更好。
特征值问题的数值解法表明:对于固定的 $i$,$\frac{1}{n} \lambda^{mat}_i$ 将在 $n \rightarrow \infty$ 的极限下收敛到 $λ_i$ [Baker,1977,定理 3.4]。也可以进一步研究收敛性;例如,在特征空间中使用主成分分析 (PCA) 的性质很容易证明,对于任何 $l,1 \leq l \leq n$,$\mathbb{E}n[\frac{1}{n} \sum^{l}{i=1} \lambda^{mat}i ] \geq \sum^{l}{i=1} λ_i$ 和 $\mathbb{E}n[\frac{1}{n} \sum^{n}{i=l+1} \lambda^{mat}i] \leq \sum^{N}{i=l+1} λ_i$,其中 $\mathbb{E}_n$ 表示对从 $p(\mathbf{x})$ 中抽取的大小为 $n$ 的样本的期望。有关详细信息,请参阅 Shawe-Taylor 和 Williams [2003]。
(2)特征函数的数值逼近
用于逼近第 $i$ 个特征函数的 Nystrom 方法(参见 Baker [1977] 和 Press 等 [1992,第 18.1 节])由下式给出:
$$
\phi_i(\mathbf{x’}) \simeq \frac{\sqrt{n}}{\lambda^{mat}_i} \mathbf{k}(\mathbf{x’})^{\top} \mathbf{u}_i \tag{4.44}
$$
其中 $\mathbf{k}(\mathbf{x’})^{\top} = (k(\mathbf{x_1, x’}), \ldots , k(\mathbf{x_n, x’}))$,这是从式(4.42)
的两边除以 $λ_i$ 获得的。 式(4.44)
将近似 $\phi_i(\mathbf{x}_j) \simeq \sqrt{n}(\mathbf{u}_i)_j$ 从有限的样本点 $\mathbf{x_1,\ldots, x_n}$ 扩展到了所有 $\mathbf{x}$。
Scholkopf 等 [1998] 的核 PCA 方法和上面讨论的特征函数展开之间存在有趣的关系。特征函数展开具有(至少可能)无限数量的非零特征值。相反,核 PCA 算法对 $n \times n$ 矩阵 $K$ 进行运算并产生 $n$ 个特征值和特征向量。式 (4.42)
阐明了两者之间的关系。但请注意 式 (4.44)
与 Scholkopf 等 [1998 年,式 4.1] 相同,描述了新点 $\mathbf{x}’$ 到核 PCA 特征空间中第 $i$ 个特征向量的投影。
4.4 非向量输入的核
到目前为止,我们均假设输入 $\mathbf{x}$ 是一个用于测量多个属性值的向量。然而,对于某些学习问题,输入并不是向量,而是一些结构化的对象(如字符串、树、图等)。举几个例子:
- 我们可能有一个生物学问题,需要对蛋白质(表示为氨基酸的符号串)进行分类。
- 我们的输入可能是来自语言分析的解析树。
- 我们可能希望将化合物表示为带标签的图,顶点表示原子,边表示键。
为了使用判别式方法,我们需要从输入对象中提取一些特征并使用这些特征构建预测器。(对于分类问题,还存在另外一种生成式方法,可以基于对象构建类条件模型)。下面我们将描述两种用于特征提取问题的方法,以及从中有效计算核的方法:
- 在
第 4.4.1 节
中,我们介绍了字符串核 - 在
第 4.4.2 节
中,我们描述了 Fisher 核。当然,还存在为字符串构建核的其他建议,例如 Watkins [2000] 描述了使用承兑隐马尔可夫模型。
4.4.1 字符串核
我们首先为字符串定义一些符号。设 $\mathcal{A}$ 是一个有限的字符字母表。字符串 $x$ 和 $y$ 的串联写为 $xy$ 和 $|x|$ 表示字符串 $x$ 的长度。如果某些(可能为空的)$u$、$s$ 和 $v$ 能够编写为 $x = usv$,则字符串 $s$ 是 $x$ 的子字符串。
令 $\phi_s(x)$ 表示子字符串 $s$ 在字符串 $x$ 中出现的次数。然后我们将两个字符串 $x$ 和 $x’$ 之间的核定义为
$$
k(x,x’) = \sum_{s \in \mathcal{A}^∗} w_s \phi_s(x) \phi_s(x’) \tag{4.45}
$$
其中 $w_s$ 是子串 $s$ 的非负权重。例如,我们可以设置 $w_s = λ^{|s|}$,其中 $0 < λ < 1$,这样较短的子串比较长的子串获得更多的权重。
定义 4.45 中包含许多有趣的特例:
对于 $|s| > 1$,设置 $w_s = 0$ 给出 “字符-袋” 核。这将字符串 $x$ 的特征向量作为 $\mathcal{A}$ 中每个字符在 $x$ 中出现的次数。
在文本分析中,我们可能希望考虑单词出现的频率。如果我们要求 $s$ 以空格为边界,则获得 “词袋” 表示。虽然这是一个非常简单的文本模型(忽略词序),但它对于文档分类和检索任务非常有效,参见例如 Hand 等 [2001 年, 14.3 节]。可以为不同的词设置不同权重,例如使用在信息检索领域开发的 “词频逆文档频率”(TF-IDF)加权方案[Salton and Buckley, 1988]。
如果只考虑长度为 $k$ 的子串,那么我们将获得 $k$-谱核[Leslie et al., 2003]。
重要的是,有一些使用后缀树的有效方法,可以在 $|x| + |x’|$ 的线性时间计算字符串核 $k(x,x’)$ (对权重 {w_s} 有一些限制)[Leslie et al., 2003, Vishwanathan and Smola, 2003]。
字符串核的工作是由 Watkins [1999] 和 Haussler [1999] 开始的。我们上面描述的方法有许多进一步的发展;例如 Lodhi 等 [2001] 超越子串来考虑 $x$ 的子序列,这些子序列不一定是连续的,Leslie 等 [2003] 描述了不匹配字符串核,如果它们之间最多有 $m$ 个不匹配,则允许 $x$ 和 $x’$ 的子串 $s$ 和 $s’$ 分别匹配。我们期待这一领域的进一步发展,定制(或工程化)字符串核以具有在特定领域有意义的性质。
我们考虑子字符串匹配的字符串核的想法可以很容易地扩展到树,例如通过查看子树的匹配 [Collins and Duffy, 2002]。
Leslie 等 [2003] 已将字符串核应用于将蛋白质域分类为 SCOP12 超家族。获得的结果明显优于基于 PSI-BLAST13 搜索或生成隐马尔可夫模型分类器的方法。 Jaakkola 等[2000] 使用 Fisher 核(在下一节中描述)获得了类似的结果。Saunders 等 [2003] 还描述了使用字符串核将 Reuters-2157814 数据库中的自然语言新闻专线故事分为十类的问题。
4.4.2 Fisher 核
如上所述,我们的问题是输入 $x$ 是任意大小的结构化对象,例如一个字符串,我们希望从中提取特征。 Fisher 核(由 Jaakkola 等于 2000 年引入)通过采用生成模型 $p(x|\boldsymbol{\theta})$ 来实现这一点,其中 $\boldsymbol{\theta}$ 是参数向量,并计算特征向量 $\phi_{\boldsymbol{\theta}}(x) = \nabla_{\boldsymbol{\theta}} \log p(x | \boldsymbol{\theta})$。 $\phi_{\boldsymbol{\theta}}(x)$ 有时称为 _分值向量_。
以字符串的马尔可夫模型为例。令 $x_k$ 为字符串 $x$ 中的第 $k$ 个符号。然后马尔可夫模型给出 $p(x|\boldsymbol{\theta}) = p(x_1 | \boldsymbol{\pi}) \prod^{|x|−1}{i=1} p(x{i+1} | x_i, A)$,其中 $\boldsymbol{\theta} = (\boldsymbol{\pi}, A)$。这里 $(\boldsymbol{\pi})j$ 给出了 $x_1$ 是字母表 $A$ 中第 $j$ 个符号的概率,并且 $A$ 是一个 $|A| \times |A|$ 随机矩阵,其中 $a{jk}$ 给出 $p(x_{i+1} = k | x_i = j)$ 的概率。给定这样的模型,可以直接计算给定 $x$ 的分值向量。
也可以考虑其他生成模型 $p(x|\boldsymbol{\theta})$。例如,我们可以尝试 $k$ 阶马尔可夫模型,其中 $x_i$ 由前面的 $k$ 个符号预测。见 Leslie 等 [2003] 和 Saunders 等 [2003] 对 $k$ 谱核中使用的特征与从 $k − 1$ 阶马尔可夫模型派生的分值向量的相似性进行了有趣的讨论。正如 Jaakkola 等 [2000] 所讨论的,另一个有趣的选择是使用隐马尔可夫模型 (HMM) 作为生成模型。 了解从 $\mathbf{x} \in \mathbb{R}^D$ 的各向同性高斯模型推导出的线性核。
我们根据 $x$ 和 $x’$ 的分值向量定义核 $k(x,x’)$。一个简单的选择是设置
$$
k(x, x’) = \boldsymbol{\pi}{\boldsymbol{\theta}}(x)M^{−1} \boldsymbol{\phi}{\boldsymbol{\theta}}(x’) \tag{4.46}
$$
其中 $M$ 是严格正定矩阵。或者,对于某些 $α > 0$,我们可以使用平方指数核 $k(x,x’) = \exp(−α |\boldsymbol{\phi}{\boldsymbol{\theta}}(x)−\boldsymbol{\phi}{\boldsymbol{\theta}}(x’)|^2)$
随着 $\boldsymbol{\theta}$ 的变化,$p(x|\boldsymbol{\theta})$ 的结构在信息几何中得到了广泛的研究(例如,参见 Amari,1985)。可以证明 $\log p(x|\boldsymbol{\theta})$ 的流形是黎曼流形,其度量张量是 Fisher 信息矩阵 $F$ 的逆矩阵,其中
$$
F = \mathbb{E}x[\boldsymbol{\phi}{\boldsymbol{\theta}}(x) \boldsymbol{\phi}^{\top}_{\boldsymbol{\theta}}(x)] \tag{4.47}
$$
在 式(4.46)
中设置 $M = F$ 给出 Fisher 核 。如果 $F$ 难以计算,则可以求助于设置 $M = I$。使用 Fisher 信息矩阵的优点是它使流形上的弧长对于 $\boldsymbol{\theta}$ 的重新参数化不变。
Fisher 核使用类无关模型 $p(x|\boldsymbol{\theta})$。Tsuda 等 [2002] 开发了基于 $\nabla_{\boldsymbol{\theta}}(\log p(y = +1|x, \boldsymbol{\theta}) − \log p(y = −1|x, \boldsymbol{\theta}))$ 的后验概率正切 (TOP) 核,它利用了 $C_+$ 和 $C_−$ 类的类条件分布。