【摘 要】高斯过程作为一种用于预测的非参数模型,可以用于回归任务,也可以用于分类任务。在高斯过程中,协方差函数与协方差矩阵占据着非常重要的地位,从某种程度上来说,两者是高斯过程方法的核心。由于两者与核方法有着千丝万缕的联系,因此本文从核方法的经典著作 《模式分析中的核方法》中引入第三章,以便了解核的基本性质,以及其与协方差模型之间的确切关系。
【原 文】 Shawe-Taylor, John, and Nello Cristianini. Kernel Methods for Pattern Analysis. Chapter 3. Cambridge, UK ; New York: Cambridge University Press, 2004.
1 希尔伯特空间
本节介绍与定义核函数有关的空间概念、性质和定理。
1.1 线性空间与内积空间
线性空间也就是向量空间(Vector Space),它指的是一系列向量的集合,并且只定义了两个运算:加法和数乘 。加法指的是两个向量之间的运算;而数乘指的是实数和向量的相乘(相当于缩放,scale)也就是向量长度的变化。接下来我们以一个 10 维的向量空间来解释加法和数乘运算:
v = ( v 1 , v 2 , … , v 10 ) w = ( w 1 , w 2 , … , w 10 ) v + w = ( v 1 + w 1 , v 2 + w 2 , … , v 10 + w 10 ) c ⋅ v = ( c ⋅ v 1 , c ⋅ v 2 , … , c ⋅ v 10 ) \begin{align*}
\mathbf{v} &= (v_1,v_2,…,v_{10}) \\
\mathbf{w} &= (w_1,w_2,…,w_{10}) \\
\mathbf{v} + \mathbf{w} &=(v_1+w_1,v_2+w_2,…,v_{10}+w_{10}) \\
c \cdot \mathbf{v} &= (c \cdot v_1,c \cdot v_2,…,c \cdot v_{10})
\end{align*}
v w v + w c ⋅ v = ( v 1 , v 2 , … , v 10 ) = ( w 1 , w 2 , … , w 10 ) = ( v 1 + w 1 , v 2 + w 2 , … , v 10 + w 10 ) = ( c ⋅ v 1 , c ⋅ v 2 , … , c ⋅ v 10 )
看完这个对什么是线性空间应该一目了然了。
1.2 希尔伯特空间(Hilbert Space):
内积空间 :基本的线性空间只包括加法和数乘操作,在此基础上我们引入内积运算,这样就把空间升级为内积空间。注:当 x = 0 \mathbf{x}=0 x = 0 ,如果有 ∥ x ∥ = 0 \|\mathbf{x}\| =0 ∥ x ∥ = 0 ,则我们称其为严格的内积空间。
赋范向量空间 :根据内积我们可以定义一个范数:∣ ∣ x ∣ ∣ = ⟨ x , x ⟩ ||\mathbf{x}||=\langle \mathbf{x,x}\rangle ∣∣ x ∣∣ = ⟨ x , x ⟩ ,于是就得到了一个赋范向量空间(norm vector space)。
什么是赋范向量空间?
In mathematics, a normed vector space is a vector space on which a norm is defined.
什么是范数?
A \mathbf{A} A norm is a function that assigns a strictly positive length or size to each vector in a vector space.
比如,在二维欧式空间中经常被表示为一个向量的长度,但其实严格来说范数并不一定就是指向量的长度,会有很多种定义方法,比如:Manhattan norm,Euclidean norm,p-norm 和 Absolute-value norm。
度量空间 :有了范数之后就可以引入度量的概念:d ( x 1 , x 2 ) = ∣ ∣ x 1 – x 2 ∣ ∣ d(\mathbf{x}_1,\mathbf{x}_2)=|| \mathbf{x}_1 – \mathbf{x}_2|| d ( x 1 , x 2 ) = ∣∣ x 1 – x 2 ∣∣ 用于计算向量 x 1 \mathbf{x}_1 x 1 和 x 2 \mathbf{x}_2 x 2 之间的距离。于是我们就得到一个度量空间(metric space)。这个度量空间其实并不用提及,有了范数之后自然就存在了度量空间。
希尔伯特空间 :如果该空间在此度量下是完备且可分的,则此度量空间是一个 Hilbert Space。简单地来说,Hilbert Space 就是度量完备、可分的内积空间。
什么是度量空间?
In mathematics, a metric space is a set for which distances between all members of the set are defined. Those distances, taken together, are called a metric on the set.
什么是空间的完备性?
In mathematical analysis, a metric space M is called complete (or a Cauchy space) if every Cauchy sequence of points in M has a limit that is also in M or, alternatively, if every Cauchy sequence in M converges in M.
中文的意思就是:空间中的任何柯西序列都收敛在该空间之内。在数学中,一个柯西列或柯西数列是指这样一个数列,它的元素随着序数的增加而愈发靠近。柯西列的定义依赖于距离的定义,所以只有在度量空间中柯西列才有意义。
一个重要性质是,在完备空间中,所有的柯西数列都有极限且极限在该空间内,这允许人们在不求出极限(如果存在)的情况下,利用柯西序列的判别法则证明该数列存在极限。
一个柯西数列长这样:
所以希尔伯特空间定义的流程是:
线性空间(向量空间)–> 内积空间 --> 赋范向量空间 --> 度量空间 (if 完备的)–> 希尔伯特空间
1.3 内积空间的一些定义和性质
(1)柯西-施瓦兹不等式(Cauchy-Schwarz Inequality)
在内积空间中, ⟨ x , z ⟩ 2 ≤ ‖ x ‖ 2 ‖ z ‖ 2 \langle \mathbf{x, z} \rangle^2 \leq ‖x‖^2 ‖z‖^2 ⟨ x , z ⟩ 2 ≤ ‖ x ‖ 2 ‖ z ‖ 2 。当且仅当 x \mathbf{x} x 和 z \mathbf{z} z 是来自同一向量的缩放时,等号在严格的内积空间中成立。
(2)角度的定义
在严格的内积空间中的任意两个向量 x \mathbf{x} x 和 z \mathbf{z} z 之间的 角度 θ θ θ 被定义为 cos ( θ ) = ⟨ x , z ⟩ ‖ x ‖‖ z ‖ \cos(θ) = \frac{\langle \mathbf{x,z} \rangle}{‖\mathbf{x}‖‖ \mathbf{z}‖} cos ( θ ) = ‖ x ‖‖ z ‖ ⟨ x , z ⟩ 。如果 θ = 0 θ = 0 θ = 0 ,则余弦为 1 1 1 且 ⟨ x , z ⟩ = ‖ x ‖‖ z ‖ \langle \mathbf{x,z} \rangle = ‖\mathbf{x}‖‖\mathbf{z}‖ ⟨ x , z ⟩ = ‖ x ‖‖ z ‖ ,此时称 x \mathbf{x} x 和 z \mathbf{z} z 是平行的;如果 θ = π / 2 θ = π/2 θ = π /2 ,则余弦为 0 0 0 且 ∠ x , z ⟩ = 0 \angle \mathbf{x, z} \rangle = 0 ∠ x , z ⟩ = 0 , 此时称 x \mathbf{x} x 和 z \mathbf{z} z 是为正交的。
(3)标准正交基
某个来自 X \mathcal{X} X 的集合 S = { x 1 , . . . , x ℓ } S = \{\mathbf{x}_1,...,\mathbf{x}_{\ell}\} S = { x 1 , ... , x ℓ } 称为标准正交的,如果其中任意两个向量之间 ⟨ x i , x j ⟩ = δ i j \langle \mathbf{x}_i, \mathbf{x}_j \rangle= δ_{ij} ⟨ x i , x j ⟩ = δ ij ,其中 δ i j δ_{ij} δ ij 是 i = j i=j i = j 时为 1 1 1 ,i ≠ j i \neq j i = j 时为 0 0 0 的 Kronecker delta。
(4)向量的傅立叶级数
傅里叶级数 :对于标准正交集 S S S 和某个向量 z ∈ X \mathbf{z} \in \mathcal{X} z ∈ X ,称下列表达式为向量 z \mathbf{z} z 的傅里叶级数:
∑ i = 1 ℓ ⟨ x i , z ⟩ x i \sum^{\ell}_{i=1} \langle \mathbf{x}_i, \mathbf{z} \rangle \mathbf{x}_i
i = 1 ∑ ℓ ⟨ x i , z ⟩ x i
如果对于所有的 z \mathbf{z} z ,都有其傅里叶级数等于 z \mathbf{z} z ,则集合 S S S 被称为一个基。 由于希尔伯特空间要么等于 R n \mathbb{R}^n R n 要么等于 L 2 L_2 L 2 ,因此总是可以找到一个标准正交基。
(5)矩阵的秩
列空间 : 对于一个 n × m n \times m n × m 的矩阵 X \mathbf{X} X ,由其列向量张成的空间被称为列空间。
秩 :矩阵 X \mathbf{X} X 的 秩 是列空间的维度(Dimension),或者说,秩是能够将 X \mathbf{X} X 表达成 R S \mathbf{RS} RS 形式(其中 R \mathbf{R} R 是一个 n × r n \times r n × r 矩阵,S \mathbf{S} S 是一个 r × m r \times m r × m 矩阵)的最小的 r r r 。此时,矩阵 R \mathbf{R} R 的线性独立列构成了列空间的基,而矩阵 S \mathbf{S} S 的列则是在该基之上对 X \mathbf{X} X 列的表达。请注意,X ′ = S ′ R ′ \mathbf{X' = S'R'} X ′ = S ′ R ′ ,并且 S ′ \mathbf{S}' S ′ 是 m × r m × r m × r 的,所以 X ′ \mathbf{X}' X ′ 的秩小于或等于 X \mathbf{X} X 的秩。根据对称性,X \mathbf{X} X 与 X ′ \mathbf{X'} X ′ 的秩相等,这意味着由 X \mathbf{X} X 的行向量张成的空间,维度也等于秩 r r r 。如果 n × m n × m n × m 矩阵的秩 r = min ( n , m ) r = \min (n, m) r = min ( n , m ) ,则称该矩阵是满秩的。
2 半正定矩阵
本节介绍与核函数有关的矩阵概念、性质和定理。
2.1 Gram 矩阵
2.2 奇异矩阵及特征值
2.3 对称矩阵及特征值
2.4 半正定矩阵
半正定矩阵 当一个对称矩阵的特征值都非负时,我们称之为半正定矩阵。
根据 定理 3.6
,当且仅当所有向量 v 的 v′Av ≥ 0 时,这成立,因为最小特征值满足 λm(\mathbf{A})= min 0 =v∈Rn v′Av v′v 。类似地,一个矩阵是正定的,如果它的特征值是正的或者等价地 v’Av > 0,因为 v = 0。我们现在给出关于半正定矩阵的两个结果。
以下命题只需记住,无需证明:
【命题 3.7】 Gram 矩阵与核矩阵都是半正定矩阵。
【命题 3.8】 矩阵 A \mathbf{A} A 是半正定的,当且仅当 A \mathbf{A} A 能够分解为实值矩阵 B \mathbf{B} B 的形式,即:A = B ′ B \mathbf{A = B'B} A = B ′ B 。 需要注意的是:这种分解可能是不唯一的
【命题 3.9】 矩阵 A \mathbf{A} A 是正(半)定的,当且仅当其所有主子式都是正(半)定的
2.5 行列式与迹
(1)行列式
方阵 A \mathbf{A} A 的行列式 det ( A ) \det(\mathbf{A}) det ( A ) 是其特征值的乘积。对于正定矩阵,行列式将严格为正,而对于奇异矩阵,行列式将为零。
行列式的几何含义 如果我们将矩阵 A \mathbf{A} A 视为一种线性变换 x ↦ A x = V Λ V ′ x \mathbf{x \mapsto Ax = V \Lambda V′x} x ↦ Ax = VΛV′x ,其中 V ′ x \mathbf{V′x} V′x 计算了 x \mathbf{x} x 在特征向量(构成 V \mathbf{V} V 列)上的投影;左乘 Λ \mathbf{\Lambda} Λ 重新缩放了该投影;而左乘 V \mathbf{V} V 则重新计算了结果向量。
单位球体的镜像可以被视为一个在超空间中的椭球,其主轴等于特征向量,长度等于特征值。因此,两者之间的体积之比(即超空间椭球的体积与原像的体积之比)等于行列式的绝对值(如果球体经历了反射,则行列式取负)。这同样适用于与主轴对齐的任何大小的立方体的任何变换。由于我们可以用一定数量的立方体集合来近似任何形状,所以任何物体的镜像体积与其原像体积之比也等于行列式。
进一步的,如果我们在 A \mathbf{A} A 之后进行第二个变换 B \mathbf{B} B 并考虑体积比,则有: det ( A B ) = det ( A ) det ( B ) \det(\mathbf{AB}) = \det(\mathbf{A}) \det(\mathbf{B}) det ( AB ) = det ( A ) det ( B ) 。
(2)迹
一个 n × n n × n n × n 方阵 A \mathbf{A} A 的迹 tr ( A ) \text{tr}(\mathbf{A}) tr ( A ) 是其对角线元素之和:
tr ( A ) = ∑ i = 1 n A i i \text{tr}(\mathbf{A})= \sum^{n}_{i=1} A_{ii}
tr ( A ) = i = 1 ∑ n A ii
由于有 tr ( A B ) = ∑ i = 1 n ∑ j = 1 n A i j B j i = ∑ i = 1 n ∑ j = 1 n B i j A j i = tr ( B A ) \text{tr}(\mathbf{AB})= \sum^{n}_{i=1} \sum^{n}_{j=1} A_{ij} B_{ji} = \sum^{n}_{i=1} \sum^{n}_{j=1} B_{ij}A_{ji} =\text{tr}(BA) tr ( AB ) = ∑ i = 1 n ∑ j = 1 n A ij B ji = ∑ i = 1 n ∑ j = 1 n B ij A ji = tr ( B A ) ,所以在 A → V − 1 A V \mathbf{A} \rightarrow \mathbf{V^{-1}AV} A → V − 1 AV 形式的变换下,迹保持不变。据此,当 V \mathbf{V} V 是来自矩阵 A \mathbf{A} A 的特征分解时,我们可以得到另一种关系: 矩阵 A \mathbf{A} A 的迹等于其特征值之和。
3 核函数
本节重点介绍如何判断一个函数是否适合做核函数,提供理论工具帮助我们解决此问题,并学会如何构造新核。
3.1 核函数
对于函数 κ : X × X → R \kappa:\mathcal{X} \times \mathcal{X} \rightarrow \Bbb{R} κ : X × X → R ,如果存在映射 ϕ : X × R , ϕ ( ⋅ ) ∈ H \phi:\mathcal{X} \times \Bbb{R}, \phi(\cdot) \in \mathcal{H} ϕ : X × R , ϕ ( ⋅ ) ∈ H ,使得:
κ ( x , x ′ ) = ⟨ ϕ ( x ) , ϕ ( x ′ ) ⟩ H \kappa(\mathbf{x,x'})= \langle \phi(\mathbf{x}),\phi(\mathbf{x'}) \rangle_{\mathcal{H}}
κ ( x , x ′ ) = ⟨ ϕ ( x ) , ϕ ( x ′ ) ⟩ H
则称 κ ( x , x ′ ) \kappa(\mathbf{x,x'}) κ ( x , x ′ ) 为 核 或 核函数 。 其中 H \mathcal{H} H 是 希尔伯特空间 。
3.2 核的判定
根据核函数的定义,我们判断一个函数是否是核函数的基本方法,就是构造一个特征空间,先进行特征映射,然后计算两个映射的内积,最后通过 Gram 矩阵是否正定来判断是否满足核函数定义。这种方法在实际中很难实际使用,因此,需要一种能够证明候选函数是核的替代方法。
下面首先了解什么是有限变正定函数,然后再给出通过有限半正定函数来判断核的定理。
有限半正定函数 : 如果 κ : X × X → R κ : \mathcal{X} \times \mathcal{X} \rightarrow \mathbb{R} κ : X × X → R 是一个对称函数,并且由其生成的矩阵(限制为空间 X \mathbf{X} X 的任意有限子集)都是半正定的,则称其满足有限半正定性质,或将其称为 有限半正定函数 。
【核特性定理】 当且仅当一个连续的,或具有有限域的函数 κ : X × X → R κ : \mathcal{X} \times \mathcal{X} \rightarrow \mathbb{R} κ : X × X → R 满足有限半正定性质时,它能够被分解为某个特征映射 ϕ \phi ϕ 的内积形式(证明略):
κ ( x , z ) = ⟨ ϕ ( x ) , ϕ ( z ) ⟩ H κ(\mathbf{x, z})=\langle \phi(\mathbf{x}), \phi( \mathbf{z}) \rangle_{\mathcal{H}}
κ ( x , z ) = ⟨ ϕ ( x ) , ϕ ( z ) ⟩ H
注: ϕ \phi ϕ 将原始输入 x , z \mathbf{x, z} x , z 分别映射到希尔伯特空间 H \mathcal{H} H ,然后求内积。 核特性定理 表明,有限半正定函数一定可以作为核,反之,核一定是有限半正定函数
。具体来说,对于某个函数 κ : X × X → R \kappa:\mathcal{X} \times \mathcal{X} \rightarrow \Bbb{R} κ : X × X → R ,如果能够满足下面两条性质,就能够作为 核函数 使用:
κ ( x , x ′ ) \kappa(\mathbf{x,x'}) κ ( x , x ′ ) 是 对称函数 ,即 κ ( x , x ′ ) = κ ( x ′ , x ) \kappa(\mathbf{x,x'})=\kappa(x',x) κ ( x , x ′ ) = κ ( x ′ , x ) ;
对于任意有限的样本集 X = { x 1 , x 2 , . . . , x N } T X= \{ x_1,x_2,...,x_N\}^T X = { x 1 , x 2 , ... , x N } T ,其 Gram 矩阵 K = [ κ ( x i , x j ) ] N × N K=[\kappa(x_i,x_j)]_{N×N} K = [ κ ( x i , x j ) ] N × N 是半正定矩阵 。
上述定理最终还是需要判定 Gram 矩阵是否正定,显然仍然不足。因此,有了如下的 Mercer 定理。
3.3 Mercer 定理
【Mercer 定理】 (证明略) 令 X \mathcal{X} X 为 R n \mathbb{R}^n R n 的一个紧凑子集。假设 κ κ κ 是一个能够使积分运算 T κ : L 2 ( X ) → L 2 ( X ) T_κ : L_2(\mathcal{X}) \rightarrow L_2(\mathcal{X}) T κ : L 2 ( X ) → L 2 ( X ) 为正的 连续对称函数 ,则我们可以将 κ ( x , z ) κ(\mathbf{x, z}) κ ( x , z ) 展开为一个依据函数 ϕ j \phi_j ϕ j 在 X × X \mathcal{X} × \mathcal{X} X × X 上一致收敛的级数形式(其中函数 ϕ \phi ϕ 之间相互正交,⟨ ϕ j , ϕ i ⟩ = δ i j \langle \phi_j, \phi_i \rangle = δ_{ij} ⟨ ϕ j , ϕ i ⟩ = δ ij ):
κ ( x , z ) = ∑ j = 1 ∞ ϕ j ( x ) ϕ j ( z ) κ(\mathbf{x, z})= \sum^{\infty}_{j=1} \boldsymbol{\phi}_j (\mathbf{x}) \boldsymbol{\phi}_j(\mathbf{z})
κ ( x , z ) = j = 1 ∑ ∞ ϕ j ( x ) ϕ j ( z )
此外,级数 ∑ i = 1 ∞ ‖ ϕ i ‖ L 2 ( X ) 2 \sum^{\infty}_{i=1} ‖\boldsymbol{\phi}_i‖^2_{L_2(\mathcal{X})} ∑ i = 1 ∞ ‖ ϕ i ‖ L 2 ( X ) 2 是收敛的。
也就是说, Mercer 定理表明:只要能够证明涉及某个连续对称函数 k 的积分运算为正(见下式),那么函数 k 就一定可以作为核使用,且能够被展开为一组正交函数乘积的序列
。事实上,后半句更为重要,它给出了一种用正交特征函数乘积之和来表示核函数的方法。
∫ X × X κ ( x , z ) f ( x ) f ( z ) d x d z ≥ 0 \int_{\mathcal{X}× \mathcal{X}} κ(\mathbf{x, z}) f(\mathbf{x})f(\mathbf{z}) d \mathbf{x} d \mathbf{z} \geq 0
∫ X × X κ ( x , z ) f ( x ) f ( z ) d x d z ≥ 0
Mercer 定理的证明过程略。下面通过一个核函数的展开式,来了解其正交函数乘积序列的例子:
考虑核函数 κ ( x , z ) = κ ( x − z ) κ(\mathbf{x, z})=κ(\mathbf{x − z}) κ ( x , z ) = κ ( x − z ) 。这样的核被称为平移不变的,因为如果两个输入都被同一个向量平移,则两个输入的积不变。考虑一维情况,其中 κ κ κ 定义在区间 [ 0 , 2 π ] [0, 2π] [ 0 , 2 π ] 上,这样 κ ( u ) κ(u) κ ( u ) 可以展开为 R R R 上的连续、对称、周期函数。这样的函数可以以一致收敛的傅里叶级数方式展开:
κ ( u ) = ∑ n = 0 ∞ a n cos ( n u ) κ(u)= \sum^{\infty}_{n=0} a_n \cos(nu)
κ ( u ) = n = 0 ∑ ∞ a n cos ( n u )
在这种情况下,我们可以将 κ ( x − z ) κ(x − z) κ ( x − z ) 展开为:
κ ( x − z ) = a 0 + ∑ n = 1 ∞ a n sin ( n x ) sin ( n z ) + ∑ n = 1 ∞ a n cos ( n x ) cos ( n z ) κ(x − z)=a_0 + \sum^{\infty}_{n=1} a_n \sin(nx)\sin(nz)+ \sum^{\infty}_{n=1} a_n \cos(nx) \cos(nz)
κ ( x − z ) = a 0 + n = 1 ∑ ∞ a n sin ( n x ) sin ( n z ) + n = 1 ∑ ∞ a n cos ( n x ) cos ( n z )
如果 a n a_n a n 都是正的,则上式表明 κ ( x , z ) κ(x, z) κ ( x , z ) 是由如下正交的特征定义的特征空间中的内积。
{ ϕ i ( x ) } i = 0 ∞ = ( 1 , sin ( x ) , cos ( x ) , sin ( 2 x ) , cos ( 2 x ) , . . . , sin ( n x ) , cos ( n x ) , . . . , \{ \phi_i(x) \}^{\infty}_{i=0} = (1, \sin(x), \cos(x), \sin(2x), \cos(2x),...,\sin(nx), \cos(nx),...,
{ ϕ i ( x ) } i = 0 ∞ = ( 1 , sin ( x ) , cos ( x ) , sin ( 2 x ) , cos ( 2 x ) , ... , sin ( n x ) , cos ( n x ) , ... ,
其中函数 1 1 1 、cos ( n u ) \cos(nu) cos ( n u ) 和 sin ( n u ) \sin(nu) sin ( n u ) 在区间 [ 0 , 2 π ] [0, 2π] [ 0 , 2 π ] 上形成一组正交的函数。
这个例子提供了一些有用的见解,以了解核的选择可以发挥的作用。 κ ( u ) κ(u) κ ( u ) 展开式中的参数 a n a_n a n 是傅立叶系数。如果,对于某些 n n n ,我们有 a n = 0 a_n = 0 a n = 0 ,则可以从特征空间中删除相应的特征。同样,较小的 a n a_n a n 值意味着该特征的权重较低,因此对超平面的选择影响较小。因此,对核的选择可以被视为选择具有特定谱特性的滤波器,其作用是控制不同频率在确定最优分解时的影响力。
3.4 Bochner 定理
实际上,上面针对平移不变核(或称弱平稳核)的例子直接引申出了另外一个 关于弱平稳核的重要定理: Bochner 定理 。
【博赫纳 Bochner 定理】 一个在 R D \mathbb{R}^D R D 上定义的(复值)函数 k k k 是一个(弱平稳均方连续复值随机过程的)核函数,当且仅当 k k k 可以被表示为:
k ( τ ) = ∫ R D e 2 π i s ⋅ τ d μ ( s ) k(τ) = \int_{\mathbb{R}^D} e^{2πi \mathbf{s} \cdot \boldsymbol{τ}} dμ(\mathbf{s})
k ( τ ) = ∫ R D e 2 πi s ⋅ τ d μ ( s )
其中 μ μ μ 是有限正值测度。如果测度 μ μ μ 具有概率密度 S ( s ) S(\mathbf{s}) S ( s ) ,则 S S S 被称为 k k k 的 谱密度 或 功率谱 。k k k 和 S S S 被称为 傅里叶对偶 ,也被称为 维纳-辛钦( Wiener-Khintchine )定理 ,参见 Chatfield [1989]
k ( τ ) = ∫ S ( s ) e 2 π i s ⋅ τ d s S ( s ) = ∫ k ( τ ) e − 2 π i s ⋅ τ d τ (4.6) \begin{align*}
&k(\boldsymbol{τ}) = \int S(\mathbf{s}) e^{2πi \mathbf{s} \cdot \boldsymbol{τ}} d \mathbf{s}\\
&S(\mathbf{s}) = \int k(\boldsymbol{τ})e^{−2πi \mathbf{s} \cdot \boldsymbol{τ}}d \boldsymbol{τ}
\end{align*} \tag{4.6}
k ( τ ) = ∫ S ( s ) e 2 πi s ⋅ τ d s S ( s ) = ∫ k ( τ ) e − 2 πi s ⋅ τ d τ ( 4.6 )
Bochner 定理表明:弱平稳连续随机过程的核函数,可以被表示为谱分解形式
。 这同时也意味着,通过谱分解构造,我们可以将非负功率值置入每个频率分量 s \mathbf{s} s ,从而控制不同频率谱的强度,进而得到不同能力的核。
在很多随机过程应用中,弱平稳假设是最基本的假设,在加之 Bochner 定理是充分必要条件,因此此定理不论实在核特性分析,还是在核构造方面,都发挥了非常重要的作用。
上述概念有些复杂,你可以简单认为:通过 “核技巧” 映射出的特征空间,就是一个再生核希尔伯特空间。
3.5 协方差核
Mercer 定理使我们能够将核表示为两个输入的某些正交函数乘积序列之和,即 κ ( x , z ) = ∑ j = 1 ∞ ϕ j ( x ) ϕ j ( z ) κ(\mathbf{x, z})= \sum^{\infty}_{j=1} \phi_j(\mathbf{x}) \phi_j(\mathbf{z}) κ ( x , z ) = ∑ j = 1 ∞ ϕ j ( x ) ϕ j ( z ) 。该定理带来的好处是明显的,因此,有人考虑将其与概率分布结合,用来表示随机现象的协方差。
一般情况下,给定函数类 F \mathcal{F} F 上的分布 q ( f ) q(f) q ( f ) (可参考高斯过程),协方差函数由下式定义:
κ q ( x , z ) = ∫ F f ( x ) f ( z ) q ( f ) d f κ_q(\mathbf{x, z})= \int_{\mathcal{F}} f(\mathbf{x})f(\mathbf{z}) q(f)df
κ q ( x , z ) = ∫ F f ( x ) f ( z ) q ( f ) df
此类函数也被称为 协方差核
。
具体来说,我们可以考虑如下映射:ϕ : x → ( f ( x ) ) ) f ∈ F \boldsymbol{\phi} : \mathbf{x} \rightarrow (f(\mathbf{x})) )_{f \in \mathcal{F}} ϕ : x → ( f ( x )) ) f ∈ F ,其将原始空间映射到 F \mathcal{F} F 上函数的空间。其内积为:
⟨ a ( ⋅ ) , b ( ⋅ ) ⟩ = ∫ F a ( f ) b ( f ) q ( f ) d f \langle a(\cdot),b(\cdot) \rangle = \int_F a(f) b(f) q (f) df
⟨ a ( ⋅ ) , b ( ⋅ )⟩ = ∫ F a ( f ) b ( f ) q ( f ) df
4 核矩阵
给定训练集 S = { x 1 , . . . , x ℓ } S = \{\mathbf{x}_1,..., \mathbf{x}_{\ell} \} S = { x 1 , ... , x ℓ } 和核函数 κ ( ⋅ , ⋅ ) κ(·,·) κ ( ⋅,⋅ ) ,则其对应的核矩阵(或 Gram 矩阵) K = ( K i j ) i , j = 1 ℓ \mathbf{K} = (\mathbf{K}_{ij})^{\ell}_{i,j=1} K = ( K ij ) i , j = 1 ℓ ,其元素值为:
K i j = κ ( x i , x j ) for i , j = 1 , . . . , ℓ \mathbf{K}_{ij} = κ(\mathbf{x}_i , \mathbf{x}_j) \qquad \text{for } i, j =1,..., \ell
K ij = κ ( x i , x j ) for i , j = 1 , ... , ℓ
根据有限半正定性质,当函数 κ κ κ 对于训练集 S S S 的所有核矩阵都是半正定时,κ \kappa κ 是一个有效的核。这使我们能够在不必考虑特征空间的情况下操纵核。如果我们保持有限正半定性质,就可以保证有一个有效核,也就是说:存在一个对应于该核函数的特征空间。利用核函数隐含的相似性度量做推理,可能比在其特征空间的显式构造中更自然。核机的内在模块化机制也意味着可以使用任何核函数,只要它能够产生对称的、半正定核矩阵,并且可以应用任何核算法,只要它可以接受这样的矩阵以及任何必要的输入标注信息。换句话说: 核矩阵充当了数据输入和学习模块之间的接口 。
4.1 信息瓶颈
(1)核矩阵几乎代表了学习算法的所有输入
鉴于我们根据有限正半定性质对核进行表征,核矩阵作为核方法理论中的核心成分,其原因就变得很清楚了。因为它包含了执行学习步骤所需的所有可用信息,唯一的例外是监督学习任务中的训练标签数据。值得牢记的是:**学习算法只能通过核矩阵获得有关特征空间、模型选择、训练数据的信息。
(2)通过修改核矩阵可以改进系统性能
有限正半定属性也可用于证明旨在改进数据表示的中间处理步骤的合理性,从而通过在将内核矩阵传递给学习机之前对其进行操作来提高系统的整体性能。一个简单的例子是向矩阵的对角线添加一个常数。这具有在分类中引入软边距或在回归中引入等效正则化的效果,我们已经在岭回归示例中看到了这一点。然而,我们将描述更复杂的核矩阵操作,这些操作对应于特征空间的更细微调整。
(3)核矩阵的性质决定了泛化性能
鉴于学习算法只能通过内核矩阵接收有关特征空间和输入数据的信息,因此可以使用该矩阵的某些属性来评估学习系统的泛化性能也许并不奇怪.这些属性根据学习任务的类型和分析的精细程度而有所不同,但核矩阵再次在泛化界限的推导和实际应用中的评估中发挥着核心作用。
4.2 选择核
我们已经在协方差核中看到了核的选择如何相当于编码我们对我们可能期望学习的可能函数的先前期望。理想情况下,我们根据我们对问题域的先验知识来选择核,并将学习限制为在所选核定义的特征空间中选择特定模式函数的任务。不幸的是,并非总能先验地做出正确的核选择。我们不得不考虑以再次反映我们先前期望的方式定义的核系列,但它保留了对将要使用的特定核的选择。学习系统现在必须解决两个任务,即从族中选择核,以及随后或同时在所选核的特征空间中选择模式函数。
4.3 核矩阵的锥化
正半定矩阵在 × 矩阵的向量空间中形成一个锥体,其中锥体是指在非负标量的加法和乘法下闭合的集合。如果我们希望优化此类矩阵,这一点很重要,因为这意味着它们将是凸的,这是确保存在有效方法的重要属性。对此类集合进行优化的研究称为半定规划 (SDP)。鉴于核矩阵在上述讨论中的核心作用,这个最近发展起来的领域开始在核优化算法中发挥作用也许并不奇怪。
5 构造核
5.1 核函数的运算
闭包性质
()对应于核构造的嵌入
命题 3.22 表明我们可以使用一些简单的操作从现有核创建新核。我们的方法通过证明新函数是有限正半定函数来证明它们是核。这足以验证该函数是一个核,因此证明存在一个特征空间映射,该函数为其计算相应的内积。通常,此信息可为用户提供足够的洞察力,以便为特定应用程序设计合适的核。然而,有时了解核组合对相应特征空间结构的影响是有帮助的。
5.2 核矩阵的运算
(1) 简单变换
有许多非常简单的变换具有实际意义。例如,向矩阵中的所有条目添加一个常量对应于添加一个额外的常量特征,如命题 3.22 的 (i) 和 (iv) 部分所述。这有效地增加了具有自适应偏移量的函数类,尽管这与将此类偏移量引入算法本身的效果略有不同,例如支持向量机。
(2)居中
数据在特征空间中居中数据是一种更复杂的转换,但可以通过对核矩阵的操作再次执行。目的是将特征空间的原点移动到训练样例的质心。此外,质心的选择可以表征为点范数之和最小的原点。由于范数之和是核矩阵的迹,因此它也等于其特征值之和。由此可见,这种原点选择最小化了相应核矩阵的特征值之和。我们在第 5 章中描述了如何对核矩阵执行这种居中变换。
(3)子空间投影
在高维特征空间中,核矩阵的特征值应该衰减没有先验原因。如果每个输入向量与余数正交,则特征值将等于输入的范数。如果点被约束在低维子空间中,非零特征值的数量等于子空间维数。由于特征值之和仍将等于范数平方和,因此各个特征值将相应地更大。
(4)白 化
如果低维近似不能足够准确地捕获数据,我们仍然可以找到一种有用的特征分解,以便通过调整特征值的大小来改变特征空间的缩放。一种称为白化的此类技术将所有特征值设置为 1,从而创建一个特征空间,其中数据分布是球对称的。或者,可以选择值来优化核的某些拟合度量,例如对齐。
(5)雕刻特征空间
所有这些操作都相当于通过雕刻它们的内积矩阵来移动特征空间中的点。在某些情况下,可以根据先验信息进行这些修改,例如,在向整个矩阵添加一个常数、向对角线添加一个常数以及对数据进行归一化的情况下。第二种类型的修改使用从矩阵本身估计的参数,如数据居中、子空间投影和白化的示例。调整特征值以创建适合数据的核的最后一个示例通常会使用相应的标签或输出。
4.2 核函数的特征值与特征函数
一个函数 f ( x ) f(\mathrm{x}) f ( x ) 可以被视为一个无限维的向量,同样的,二元函数 K ( x , y ) K(\mathrm{x},\mathrm{y}) K ( x , y ) 可以被视为一个无限维的矩阵。当该函数满足以下条件时,就是一个核函数:
正定性: ∫ ∫ f ( x ) K ( x , y ) f ( y ) d x d y ≥ 0 \int \int f(\mathrm{x})K(\mathrm{x},\mathrm{y})f(\mathrm{y})d \mathrm{x} d\mathrm{y} \geq 0 ∫∫ f ( x ) K ( x , y ) f ( y ) d x d y ≥ 0
对称性: K ( x , y ) = K ( y , x ) K(\mathrm{x},\mathrm{y}) = K(\mathrm{y},\mathrm{x}) K ( x , y ) = K ( y , x )
与矩阵的特征值和特征向量类似,核函数存在 特征值 λ \lambda λ 和 特征函数 ψ ( x ) \psi(\mathrm{x}) ψ ( x ) 。使得:
∫ K ( x , y ) ψ ( x ) d x = λ ψ ( x ) (5) \int K(\mathrm{x},\mathrm{y}) \psi (\mathrm{x}) d\mathrm{x} = \lambda \psi (\mathrm{x}) \tag{5}
∫ K ( x , y ) ψ ( x ) d x = λ ψ ( x ) ( 5 )
如果将核函数视为无限维矩阵,则类似于有限维矩阵,核函数有无穷个特征值 { λ i } i = 1 ∞ \{ \lambda_i \}_{i=1}^\infty { λ i } i = 1 ∞ 和相应的无穷个特征函数 { ψ i } i = 1 ∞ \{ \psi_i \}_{i=1}^\infty { ψ i } i = 1 ∞ ,且特征函数之间相互正交。
类似于一个对称矩阵可以分解为特征值与特征向量的组合: A = Q Λ Q ⊤ A = Q \Lambda Q^{\top} A = Q Λ Q ⊤ ,核函数也可以分解为特征值和特征函数的组合形式:
K ( x , y ) = ∑ i = 1 ∞ λ i ψ i ( x ) ψ i ( y ) (7) K(\mathrm{x},\mathrm{y}) = \sum_{i=1}^{\infty} \lambda_i \psi_i(\mathrm{x}) \psi_i(\mathrm{y}) \tag{7}
K ( x , y ) = i = 1 ∑ ∞ λ i ψ i ( x ) ψ i ( y ) ( 7 )
这就是 Mercer 定理,即任何半正定函数都可以作为核函数。这里, < ψ i , ψ j > = 0 , i ≠ j <\psi_i, \psi_j>=0, i \ne j < ψ i , ψ j >= 0 , i = j 。 { ψ } i = 1 ∞ \{ \psi \}_{i=1}^{\infty} { ψ } i = 1 ∞ 构成了函数空间里的一组正交基。
4.3 核函数的谱密度
一个弱平稳的核函数是关于 τ = x − y τ = \mathbf{x − y} τ = x − y 的函数,即 k ( x , y ) = k ( x − y ) = k ( τ ) k(\mathbf{x,y}) = k(\mathbf{x-y}) = k(\tau) k ( x , y ) = k ( x − y ) = k ( τ ) 因此具有平移不变性,此时有著名的 Bochner 定理 :
一个在 X \mathcal{X} X 上定义的(复值)函数 k k k 是一个(弱平稳均方连续复值随机过程的)核函数,当且仅当 k k k 可以被表示为:
k ( τ ) = ∫ R D e 2 π i s ⋅ τ d μ ( s ) , τ = x − x ′ \begin{align*}
k(τ) &= \int_{\mathbb{R}^D} e^{2πi \mathbf{s} \cdot \boldsymbol{τ}} dμ(\mathbf{s}),\qquad τ = \mathbf{x − x'} \tag{4.5}\\
\end{align*}
k ( τ ) = ∫ R D e 2 πi s ⋅ τ d μ ( s ) , τ = x − x ′ ( 4.5 )
其中 μ μ μ 是有限正值测度(即大于 0 0 0 ),常用的测度有 勒贝格测度 和 概率测度 。如果测度 μ μ μ 是具有概率密度 S ( s ) S(\mathbf{s}) S ( s ) 的概率测度,则 S S S 被称为对应于 k k k 的 谱密度 或 功率谱 。
6 再生希尔伯特空间 (RKHS)
本节将在希尔伯特空间的基础上,引入一个重要概念: 再生核希尔伯特空间 。首先引入再生核的概念:
【再生核】 (证明略):在一定条件下,我们可以找到一个对应于某个希尔伯特空间的唯一再生核函数 κ \kappa κ ,它满足:
对任意固定 x 0 ∈ X \mathbf{x}_0 \in \mathcal{X} x 0 ∈ X ,κ ( x , x 0 ) \kappa(\mathbf{x},\mathbf{x}_0) κ ( x , x 0 ) 作为 x \mathbf{x} x 的函数属于该希尔伯特空间 H \mathcal{H} H ;
再生性:对任意 x ∈ X \mathbf{x} \in \mathcal{X} x ∈ X 和 f ( ⋅ ) ∈ H f(\cdot) \in \mathcal{H} f ( ⋅ ) ∈ H ,有 f ( x ) = ⟨ f ( ⋅ ) , κ ( ⋅ , x ) ⟩ H f(\mathbf{x}) = \langle f(\cdot) , \kappa(\cdot,\mathbf{x}) \rangle_{\mathcal{H}} f ( x ) = ⟨ f ( ⋅ ) , κ ( ⋅ , x ) ⟩ H
则称核 κ ( x , y ) \kappa(\mathbf{x,y}) κ ( x , y ) 为 H \mathcal{H} H 的再生核,或反之,称 H \mathcal{H} H 是以 K ( x , y ) K(\mathbf{x,y}) K ( x , y ) 为再生核的希尔伯特空间,简记为 RKHS(Reproducing Kernel Hilbert Space)。
再生性的意义在于核技巧,即 特征空间中的内积,可以用原始空间中的计算直接计算获得 。
核技巧的证明 首先,令 f ( ⋅ ) = κ ( ⋅ , y ) f(\cdot)= \kappa(\cdot,y) f ( ⋅ ) = κ ( ⋅ , y ) ,这样根据再生性 f ( x ) = ⟨ f ( ⋅ ) , κ ( ⋅ , x ) ⟩ H f(\mathbf{x})=\langle f(\cdot),\kappa(\cdot,\mathbf{x}) \rangle_{\mathcal{H}} f ( x ) = ⟨ f ( ⋅ ) , κ ( ⋅ , x ) ⟩ H 我们可以得到:
f ( x ) = κ ( x , y ) = ⟨ κ ( ⋅ , y ) , κ ( ⋅ , x ) ⟩ H f(\mathbf{x})=\kappa(\mathbf{x,y})=\langle \kappa(\cdot,\mathbf{y}) , \kappa(\cdot, \mathbf{x}) \rangle_{\mathcal{H}}
f ( x ) = κ ( x , y ) = ⟨ κ ( ⋅ , y ) , κ ( ⋅ , x ) ⟩ H
然后,我们把映射 ϕ \phi ϕ 定义为:
ϕ ( x ) = κ ( ⋅ , x ) \phi(\mathbf{x})= \kappa(\cdot,\mathbf{x})
ϕ ( x ) = κ ( ⋅ , x )
最后,我们有:
κ ( x 1 , x 2 ) = ⟨ κ ( ⋅ , x 1 ) , κ ( ⋅ , x 2 ) ⟩ = ⟨ ϕ ( x 1 ) , ϕ ( x 2 ) ⟩ \kappa(\mathbf{x}_1,\mathbf{x}_2)=\langle \kappa(\cdot,\mathbf{x}_1) , \kappa(\cdot,\mathbf{x}_2) \rangle = \langle \phi(\mathbf{x}_1),\phi(\mathbf{x}_2) \rangle
κ ( x 1 , x 2 ) = ⟨ κ ( ⋅ , x 1 ) , κ ( ⋅ , x 2 )⟩ = ⟨ ϕ ( x 1 ) , ϕ ( x 2 )⟩
这个看起来非常眼熟,其实就是 kernel trick,所谓的 “核技巧”。
【两个定理】 :
一个希尔伯特空间 H \mathcal{H} H 是一个再生核希尔伯特空间,当且仅当它有一个再生核;
对于给定的希尔伯特空间,再生核是唯一的。