【摘 要】高斯过程作为一种用于预测的非参数模型,可以用于回归任务,也可以用于分类任务,本文主要介绍其在回归任务中的主要原理和方法。《机器学习中的高斯过程》一书是高斯过程研究领域的扛鼎之作,本文主要节选自该书的第二章。
【原 文】 Rasmussen, C.E. and Williams, C.K. (2006), Chapter 2 of Gaussian processes for machine learning. Cambridge, Mass: MIT press Cambridge, MA (3).
【提 醒】 本文所有内容均是在假设协方差(核)函数已知的情况下进行的讨论。因此,无论是从权重视角还是从函数视角,关注的主要是(权重或函数的)先验以及(权重或函数的)后验推断。
第2章 高斯过程回归 
监督学习可以分为回归和分类问题。分类的输出是离散的类标签,而回归与连续量的预测有关。例如,在金融应用程序中,人们可能会尝试根据利率、货币汇率、可用性和需求来预测商品价格。在本章中,我们描述了回归问题的高斯过程方法;分类问题在第 3 章讨论
有多种方法可以解释高斯过程 (GP) 回归模型。可以将高斯过程视为定义函数的分布,并直接在函数空间(函数空间视角)中进行推断。尽管这种视角很吸引人,但最初可能难以理解,因此:
在 2.1 节 中,从许多人熟悉和易于理解的权重空间视角开始阐述 
在 2.2 节 中继续介绍函数空间视角 
高斯过程通常具有可以通过设置某些参数来改变的特性,在 2.3 节 中将讨论这些参数的变化对高斯过程特性的影响。 
高斯过程模型的预测会给出完整的预测分布形式,但实际工作中,有时需要点估计,在 2.4 节 中,我们将讨论如何使用决策理论将损失函数与预测分布结合,进而给出最佳点预测。 
在  2.5 节 中介绍了一个涉及学习机器人手臂的逆向动力学的实际比较示例。 
在 2.6 节中给出了关于高斯过程回归平滑性质的一些理论分析。 
在 2.7 节 中讨论了如何将显式均值函数组合到模型中,并进行相应的推断和预测。 
本章中大部分材料是标准的,我们将在 第 2.8 节 中介绍历史概述。 
 
2.1 权重空间视角 
在已被广泛研究和使用的简单线性回归模型中,输出是输入的线性组合。其主要优点是实施简单和可解释性;缺点是灵活性有限;如果输入和输出之间的关系不能用线性函数合理地近似,则该模型会给出较差的预测。
在本节中,我们先讨论线性模型的贝叶斯处理。然后,将输入投影到高维特征空间,并在该空间中应用线性模型来实现对简单线性模型的增强。事实表明:在某些特殊的空间中,可以应用 “核技巧” 在原始输入空间中实现高维空间的隐式计算;在特征空间维度较大时,这一点能够有效节省计算量。
在介绍具体方法之前,我们先对场景进行形式化的描述:
我们有一个包含 n n n D \mathcal{D} D D = { ( x i , y i ) ∣ i = 1 , … , n } \mathcal{D} = \{(\mathbf{x}_i, y_i) | i = 1, \ldots, n\} D = {( x i  , y i  ) ∣ i = 1 , … , n } x \mathbf{x} x D D D 输入向量 ,y y y n n n D × n D × n D × n 设计矩阵  X X X y \mathbf{y} y D = ( X , y ) D = (X, \mathbf{y}) D = ( X , y ) 
2.1.1 简单线性模型的贝叶斯分析 
(1)模型定义 首先回顾含高斯噪声的标准线性回归模型:
f ( x ) = x ⊤ w , y = f ( x ) + ε (2.1) f(\mathbf{x}) = \mathbf{x}^{\top} \mathbf{w}, \qquad y = f(\mathbf{x}) + \varepsilon \tag{2.1}
 f ( x ) = x ⊤ w , y = f ( x ) + ε ( 2.1 ) 
其中 x \mathbf{x} x w \mathbf{w} w f f f y y y 1 1 1 x \mathbf{x} x y y y f ( x ) f(\mathbf{x}) f ( x ) σ n 2 \sigma^2_n σ n 2  
ε ∼ N ( 0 , σ n 2 ) (2.2) \varepsilon \sim \mathcal{N}(0, \sigma^2_n) \tag{2.2}
 ε ∼ N ( 0 , σ n 2  ) ( 2.2 ) 
(2)似然函数 这种噪声假设与模型一起产生了似然,即给定参数时观测值的概率密度,并且可以被分解为训练集中单个案例的似然之积(或对数似然之和)(由于独立性假设):
p ( y ∣ X , w ) = ∏ i = 1 n p ( y i ∣ x i , w ) = ∏ i = 1 n 1 2 π σ n exp  ( − ( y i − x i ⊤ w ) 2 2 σ n 2 ) = 1 ( 2 π σ n 2 ) n / 2 exp  ( − 1 2 σ n 2 ∣ y − X ⊤ w ∣ 2 ) = N ( X ⊤ w , σ n 2 I ) (2.3) \begin{align*}
p(\mathbf{y}|X, \mathbf{w}) &= \prod^{n}_{i=1} p(y_i|\mathbf{x}_i, \mathbf{w}) = \prod^{n}_{i=1} \frac{1}{\sqrt{2π} \sigma_n}  \exp (− \frac{(y_i − \mathbf{x}^{\top}_i \mathbf{w})^2}{2 \sigma^2_n} ) \\
&= \frac{1}{(2π \sigma^2_n )^{n/2}} \exp ( − \frac{1}{2 \sigma^2_n} |\mathbf{y} − X^{\top} \mathbf{w}|^2) = \mathcal{N}(X^{\top} \mathbf{w}, \sigma^2_n I )
\end{align*} \tag{2.3}
 p ( y ∣ X , w )  = i = 1 ∏ n  p ( y i  ∣ x i  , w ) = i = 1 ∏ n  2 π  σ n  1  exp ( − 2 σ n 2  ( y i  − x i ⊤  w ) 2  ) = ( 2 π σ n 2  ) n /2 1  exp ( − 2 σ n 2  1  ∣ y − X ⊤ w ∣ 2 ) = N ( X ⊤ w , σ n 2  I )  ( 2.3 ) 
其中符号 ∣ ⋅ ∣ |\cdot| ∣ ⋅ ∣ 
(3)先验分布 在贝叶斯形式中,需要在参数上指定一个先验,用于表达我们在看到观测之前对参数的信念。我们在模型的权重参数上放置一个协方差矩阵为 Σ p \Sigma_p Σ p  
w ∼ N ( 0 , Σ p ) (2.4) \mathbf{w} \sim \mathcal{N}(\mathbf{0}, \Sigma_p) \tag{2.4}
 w ∼ N ( 0 , Σ p  ) ( 2.4 ) 
此先验的作用和性质将在 第 2.2 节中讨论;现在我们按照指定先验继续推导。
(4)后验分布 贝叶斯线性模型的推断基于权重参数的后验分布,根据贝叶斯规则计算:
posterior = likelihood × prior marginal likelihood , p ( w ∣ y , X ) = p ( y ∣ X , w ) p ( w ) p ( y ∣ X ) (2.5) \text{posterior} = \frac{\text{likelihood} \times \text{prior}}{ \text{marginal likelihood}}, \qquad p(\mathbf{\mathbf{w}}|\mathbf{y},X) = \frac{p(\mathbf{y}|X, \mathbf{w}) p(\mathbf{w})}{p(\mathbf{y}|X)} \tag{2.5} 
 posterior = marginal likelihood likelihood × prior  , p ( w ∣ y , X ) = p ( y ∣ X ) p ( y ∣ X , w ) p ( w )  ( 2.5 ) 
(5)边缘似然 上式中 p ( y ∣ X ) p(\mathbf{y}|X) p ( y ∣ X ) 
p ( y ∣ X ) = ∫ p ( y ∣ X , w ) p ( w ) d w (2.6) p(\mathbf{y}|X) = \int p(\mathbf{y}|X, \mathbf{w}) p(\mathbf{w}) d \mathbf{w}  \tag{2.6}
 p ( y ∣ X ) = ∫ p ( y ∣ X , w ) p ( w ) d w ( 2.6 ) 
(6)后验的解析形式 式 (2.5) 中的后验结合了似然和先验,并捕获了关于参数的一切。如果只考虑贝叶斯公式右侧的分子项目(即似然项和先验项),结合高斯分布,我们可以发现权重参数的后验也是一个高斯分布:
p ( w ∣ X , y ) ∝ p ( y ∣ X , w ) p ( w ) ∝ exp  ( − 1 2 σ n 2 ( y − X ⊤ w ) ⊤ ( y − X ⊤ w ) ) exp  ( − 1 2 w ⊤ Σ p − 1 w ) ∝ exp  ( − 1 2 ( w − w ˉ ) ⊤ ( 1 σ n 2 X X ⊤ + Σ p − 1 ) ( w − w ˉ ) )  where  w ˉ = σ n − 2 ( σ n − 2 X X ⊤ + Σ p − 1 ) − 1 X y . (2.7) \begin{align*}
p(\mathbf{\mathbf{w}}|X, \mathbf{y}) &\propto p(\mathbf{y}| X, \mathbf{w})p(\mathbf{w}) \\
&\propto  \exp (− \frac{1}{ 2\sigma^2_n} (\mathbf{y} − X^{\top} \mathbf{\mathbf{w}})^{\top} (\mathbf{y} − X^{\top} \mathbf{\mathbf{w}})) \exp (− \frac{1}{2} \mathbf{\mathbf{w}}^{\top} \boldsymbol{\Sigma}^{-1}_p \mathbf{\mathbf{w}}) \\
&\propto  \exp \left(− \frac{1}{2} ( \mathbf{\mathbf{w}} −\bar{\mathbf{\mathbf{w}}})^{\top} ( \frac{1}{\sigma^2_n}X X^{\top} + \boldsymbol{\Sigma}^{-1}_p )(\mathbf{\mathbf{w}} −\bar{\mathbf{\mathbf{w}}}) \right)\\
\\
&\text{ where } \bar{\mathbf{\mathbf{w}}} = \sigma^{-2}_n (\sigma^{-2}_n XX^{\top} + \boldsymbol{\Sigma}^{-1}_p )^{−1} X \mathbf{y}. 
\end{align*} \tag{2.7}
 p ( w ∣ X , y )  ∝ p ( y ∣ X , w ) p ( w ) ∝ exp ( − 2 σ n 2  1  ( y − X ⊤ w ) ⊤ ( y − X ⊤ w )) exp ( − 2 1  w ⊤ Σ p − 1  w ) ∝ exp ( − 2 1  ( w − w ˉ ) ⊤ ( σ n 2  1  X X ⊤ + Σ p − 1  ) ( w − w ˉ ) )  where  w ˉ = σ n − 2  ( σ n − 2  X X ⊤ + Σ p − 1  ) − 1 X y .  ( 2.7 ) 
通过进一步推导(略),可以得到:权重参数的后验是一个均值为 w ˉ \bar{\mathbf{\mathbf{w}}} w ˉ A − 1 A^{-1} A − 1 A A A 精度矩阵 ):
p ( w ∣ X , y ) ∼ N ( w ˉ , A − 1 ) w ˉ = 1 σ n 2 A − 1 X y A = σ n − 2 X X ⊤ + Σ p − 1 \begin{align*}
p(\mathbf{\mathbf{w}}|X, \mathbf{y}) &\sim \mathcal{N}(\bar{\mathbf{w}}, A^{-1}) \tag{2.8} \\
\bar{\mathbf{w}} &= \frac{1}{\sigma^2_n} A^{-1}X \mathbf{y}\\
A &= \sigma^{-2}_n XX^{\top} + \boldsymbol{\Sigma}^{-1}_p
\end{align*}
 p ( w ∣ X , y ) w ˉ A  ∼ N ( w ˉ , A − 1 ) = σ n 2  1  A − 1 X y = σ n − 2  X X ⊤ + Σ p − 1   ( 2.8 )  
请注意:由于高斯分布的均值等于峰值,因此 w ˉ \bar{\mathbf{w}} w ˉ 
注: 非贝叶斯情况 
在非贝叶斯设置中,先验(或其负对数形式)有时被认为是惩罚项,此时作出的 MAP 估计也被称为 w \mathbf{w} w 岭回归  ” [Hoerl 和 Kennard,1970],其惩罚来自于 式(2.7) 中的二次惩罚项 1 2 w ⊤ Σ p − 1 w \frac{1}{2} \mathbf{w}^{\top} \boldsymbol{\Sigma}^{-1}_p \mathbf{w} 2 1  w ⊤ Σ p − 1  w 
(7)预测分布 为了对测试案例进行预测,贝叶斯方法会依据参数的后验概率对预测做出加权平均(注:这与非贝叶斯方法形成明显不同,在非贝叶斯方案中,通常由某些准则确定参数的单一点估计值)。也就是说,在贝叶斯方法中,测试点 x ∗ \mathbf{x}_* x ∗  f ∗ ≜ f ( x ∗ ) f_* \triangleq f(\mathbf{x}_*) f ∗  ≜ f ( x ∗  ) 
p ( f ∗ ∣ x ∗ , X , y ) = ∫ p ( f ∗ ∣ x ∗ , w ) p ( w ∣ X , y ) d w = ∫ x ∗ ⊤ w   p ( w ∣ X , y ) d w = N ( μ ∗ , Σ ∗ ) μ ∗ = 1 σ n 2 x ∗ ⊤ A − 1 X y Σ ∗ = x ∗ ⊤ A − 1 x ∗ \begin{align*}
p(f_*|\mathbf{x}_*, X, \mathbf{y}) &= \int p(f_*|\mathbf{x}_*, \mathbf{w})p(\mathbf{w}|X, \mathbf{y}) d\mathbf{w} \\
&= \int \mathbf{x}_*^{\top}\mathbf{w} \, p(\mathbf{w}|X, \mathbf{y})d \mathbf{w} \\
&= \mathcal{N}(\mu_*,\Sigma_*) \tag{2.9}\\
\\
\mu_* &=  \frac{1}{\sigma^2_n} \mathbf{x}_*^{\top} A^{-1} X \mathbf{y}\\
\Sigma_* &= \mathbf{x}_*^{\top} A^{-1} \mathbf{x}_*
\end{align*}
 p ( f ∗  ∣ x ∗  , X , y ) μ ∗  Σ ∗   = ∫ p ( f ∗  ∣ x ∗  , w ) p ( w ∣ X , y ) d w = ∫ x ∗ ⊤  w p ( w ∣ X , y ) d w = N ( μ ∗  , Σ ∗  ) = σ n 2  1  x ∗ ⊤  A − 1 X y = x ∗ ⊤  A − 1 x ∗   ( 2.9 )  
显然,再次由于高斯分布,预测分布仍然具有解析形式,并且也是一个高斯分布,其中
预测均值 :由测试输入 x ∗ \mathbf{x}_* x ∗  式 (2.8) 中模型参数的后验均值给出,由于是线性模型,因此预测均值可以被视为训练目标 (y \mathbf{y} y 预测方差 :是测试输入 x ∗ \mathbf{x}_* x ∗  A − 1 A^{-1} A − 1  
(8)图示 
图 2.1 给出了贝叶斯线性回归的一个例子。我们在此选择了一维输入空间,因此权重空间是二维的,主要是为了更容易地可视化。高斯先验的等值线显示在子图 (a) 中。数据在子图 (b) 中描绘为十字。这产生了子图 ( c ) 中显示的似然和子图 (d) 中的后验分布。预测分布及其误差条也在子图 (b) 中作出了标记。
图 2.1:贝叶斯线性模型示例 f ( x ) = w 1 + w 2 x f(x) = w_1 + w_2 x f ( x ) = w 1  + w 2  x w 1 w_1 w 1  w 2 w_2 w 2  p ( w ) ∼ N ( 0 , I ) p(\mathbf{w}) \sim \mathcal{N}(\mathbf{0, I}) p ( w ) ∼ N ( 0 , I ) p ( y ∣ X , w ) p(\mathbf{y} \mid X, \mathbf{w}) p ( y ∣ X , w ) σ n = 1 σ_n = 1 σ n  = 1 p ( w ∣ X , y ) p(\mathbf{w} |X, \mathbf{y}) p ( w ∣ X , y ) 1 1 1 2 2 2 p ( f ∗ ∣ x ∗ , X , y ) p(f_*|\mathbf{x}_*, X, \mathbf{y}) p ( f ∗  ∣ x ∗  , X , y ) 
 
2.1.2 广义线性模型与核函数 
(1)基本想法 
在上一节中,我们回顾了贝叶斯简单线性模型,可以看出,该模型的表达能力有限。
为了提高表达能力,一个简单想法是用一组基函数将输入投影到某个高维空间中,然后在这个高维度空间中使用线性模型。 例如,标量型输入 x \mathbf{x} x x x x ϕ ( x ) = ( 1 , x , x 2 , x 3 , … ) ⊤ \boldsymbol{\phi}(x) = (1, x, x^2,x^3,\ldots)^{\top} ϕ ( x ) = ( 1 , x , x 2 , x 3 , … ) ⊤ 
只要投影运算独立于模型参数 w \mathbf{w} w w \mathbf{w} w 
在本章,我们将暂时回避基函数的选择问题,假设基函数已经给定。不过,在 第 5 章 中我们将证明:高斯过程能够给出选择基函数的方法。
(2)模型 
具体来说,我们引入了一组函数 ϕ ( x ) \boldsymbol{\phi}(\mathbf{x}) ϕ ( x ) D D D x \mathbf{x} x N N N Φ ( X ) \Phi(X) Φ ( X ) ϕ ( x ) \boldsymbol{\phi}(\mathbf{x}) ϕ ( x ) 
f ( x ) = ϕ ( x ) ⊤ w (2.10) f(\mathbf{x}) = \boldsymbol{\phi}(\mathbf{x})^{\top} \mathbf{\mathbf{w}} \tag{2.10}
 f ( x ) = ϕ ( x ) ⊤ w ( 2.10 ) 
与 式(2.1) 的不同之处在于:特征空间中的输入维度 N N N N > D N>D N > D w \mathbf{w} w Φ ( X ) \Phi(X) Φ ( X ) X X X ϕ ( x ∗ ) \phi(\mathbf{x}_*) ϕ ( x ∗  ) x ∗ \mathbf{x}_* x ∗  式(2.9),可以很容易得到如下预测分布:
f ∗ ∣ x ∗ , X , y ∼ N ( μ ∗ , Σ ∗ ) μ ∗ = 1 σ n 2 ϕ ( x ∗ ) ⊤ A − 1 Φ y Σ ∗ = ϕ ( x ∗ ) ⊤ A − 1 ϕ ( x ∗ ) \begin{align*}
f_*|\mathbf{x}_*, X, \mathbf{y} &\sim \mathcal{N}(\mu_*,\Sigma_*)\\
\\
\mu_* &= \frac{1}{\sigma^2_n} \boldsymbol{\phi} (\mathbf{x}_*)^{\top} A^{-1} \Phi \mathbf{y}\\
\Sigma_* &= \boldsymbol{\phi}(\mathbf{x}_*)^{\top} A^{-1} \boldsymbol{\phi}(\mathbf{x}_*) \tag{2.11}
\end{align*}
 f ∗  ∣ x ∗  , X , y μ ∗  Σ ∗   ∼ N ( μ ∗  , Σ ∗  ) = σ n 2  1  ϕ ( x ∗  ) ⊤ A − 1 Φ y = ϕ ( x ∗  ) ⊤ A − 1 ϕ ( x ∗  )  ( 2.11 )  
式中的 Φ = Φ ( X ) \Phi = \Phi(X) Φ = Φ ( X ) A = σ n − 2 Φ Φ ⊤ + Σ p − 1 A = \sigma^{-2}_n \Phi \Phi^{\top} + \boldsymbol{\Sigma}^{-1}_p A = σ n − 2  Φ Φ ⊤ + Σ p − 1  
我们很快会发现,使用此方程进行预测,需要对大小为 N × N N × N N × N A A A N N N 
f ∗ ∣ x ∗ , X , y ∼ N ( μ ∗ , Σ ∗ ) μ ∗ = ϕ ∗ ⊤ Σ p Φ ( K + σ n 2 I ) − 1 y Σ ∗ = ϕ ∗ ⊤ Σ p ϕ ∗ − ϕ ∗ ⊤ Σ p Φ ( K + σ n 2 I ) − 1 Φ ⊤ Σ p ϕ ∗ \begin{align*}
f_*|\mathbf{x}_*, X, \mathbf{y} &\sim \mathcal{N}(\mu_*,\Sigma_*)\\
\\
\mu_* &= \boldsymbol{\phi}^{\top}_* \Sigma_p \Phi(K + \sigma^2_n I )^{−1} \mathbf{y}\\
\Sigma_* &= \boldsymbol{\phi}^{\top}_* \Sigma_p \boldsymbol{\phi}_* − \boldsymbol{\phi}^{\top}_* \Sigma_p \Phi(K + \sigma^2_n I )^{−1} \Phi^{\top} \Sigma_p \boldsymbol{\phi}_* \tag{2.12}
\end{align*}
 f ∗  ∣ x ∗  , X , y μ ∗  Σ ∗   ∼ N ( μ ∗  , Σ ∗  ) = ϕ ∗ ⊤  Σ p  Φ ( K + σ n 2  I ) − 1 y = ϕ ∗ ⊤  Σ p  ϕ ∗  − ϕ ∗ ⊤  Σ p  Φ ( K + σ n 2  I ) − 1 Φ ⊤ Σ p  ϕ ∗   ( 2.12 )  
其中使用了简写 ϕ ∗ = ϕ ( x ∗ ) \boldsymbol{\phi}_* = \boldsymbol{\phi}(\mathbf{x}_*) ϕ ∗  = ϕ ( x ∗  ) K = Φ ⊤ Σ p Φ K = \Phi^{\top} \Sigma_p \Phi K = Φ ⊤ Σ p  Φ 
下面对公式做一简单推导:
对于均值 :根据 A A A K K K σ n − 2 Φ ( K + σ n 2 I ) = σ n − 2 Φ ( Φ ⊤ Σ p Φ + σ n 2 I ) = A Σ p Φ \sigma^{-2}_n \Phi (K + \sigma^2_n I) = \sigma^{-2}_n \Phi(\Phi^{\top} \Sigma_p \Phi + \sigma^2_n I) = A \Sigma_p \Phi σ n − 2  Φ ( K + σ n 2  I ) = σ n − 2  Φ ( Φ ⊤ Σ p  Φ + σ n 2  I ) = A Σ p  Φ A − 1 A^{-1} A − 1 ( K + σ n 2 I ) − 1 (K + \sigma^2_nI)^{-1} ( K + σ n 2  I ) − 1 σ n − 2 A − 1 Φ = Σ p Φ ( K + σ n 2 I ) − 1 \sigma^{-2}_n A^{-1}\Phi = \Sigma_p \Phi(K + \sigma^2_nI)^{-1} σ n − 2  A − 1 Φ = Σ p  Φ ( K + σ n 2  I ) − 1 式(2.11)和式 (2.12)中均值表达式的等价性。对于方差 :可以直接使用 式 (A.9) 的矩阵求逆引理得到,只需要设 Z − 1 = Σ p 2 Z^{-1} = \Sigma^2_p Z − 1 = Σ p 2  W − 1 = σ n 2 I W^{-1} = \sigma^2_nI W − 1 = σ n 2  I V = U = Φ V = U = \Phi V = U = Φ  
需要注意的是:在式 (2.12) 中,我们需要对大小为 n × n n × n n × n n < N n < N n < N n n n n n n 
(3) 核与核技巧 
仔细观察 式 (2.12),我们会发现,原始输入总是以 Φ ⊤ Σ p Φ \Phi^{\top} \Sigma_p \Phi Φ ⊤ Σ p  Φ ϕ ∗ ⊤ Σ p Φ \boldsymbol{\phi}^{\top}_* \Sigma_p \Phi ϕ ∗ ⊤  Σ p  Φ ϕ ∗ ⊤ Σ p ϕ ∗ \boldsymbol{\phi}^{\top}_* \Sigma_p \boldsymbol{\phi}_* ϕ ∗ ⊤  Σ p  ϕ ∗  ϕ ( x ) ⊤ Σ p ϕ ( x ′ ) \boldsymbol{\phi}(\mathbf{x})^{\top} \Sigma_p \boldsymbol{\phi}(\mathbf{x'}) ϕ ( x ) ⊤ Σ p  ϕ ( x ′ ) x \mathbf{x} x x ′ \mathbf{x'} x ′ N N N 
事实表明,这样做是可行的,但正如上面的分析一样,需要具备一个条件,即: 特征空间中的模式分析任务必须是基于内积的计算 。
此时,我们可以定义一个函数 k ( x , x ′ ) = ϕ ( x ) ⊤ Σ p ϕ ( x ′ ) k(\mathbf{x}, \mathbf{x'}) = \boldsymbol{\phi}(\mathbf{x})^{\top} \Sigma_p \boldsymbol{\phi}(\mathbf{x'}) k ( x , x ′ ) = ϕ ( x ) ⊤ Σ p  ϕ ( x ′ ) 协方差函数  或 核 。
请注意,ϕ ( x ) ⊤ Σ p ϕ ( x ′ ) \boldsymbol{\phi}(\mathbf{x})^{\top} \Sigma_p \boldsymbol{\phi}(\mathbf{x}') ϕ ( x ) ⊤ Σ p  ϕ ( x ′ ) Σ p \Sigma_p Σ p  内积 。下面是简单证明:
假设 Σ p \Sigma_p Σ p  Σ p 1 / 2 \Sigma^{1/2}_p Σ p 1/2  ( Σ p 1 / 2 ) 2 = Σ p (\Sigma^{1/2}_p)^2 = \Sigma_p ( Σ p 1/2  ) 2 = Σ p  Σ p \Sigma_p Σ p  Σ p = U D U ⊤ \Sigma_p = UDU^{\top} Σ p  = U D U ⊤ D D D Σ p 1 / 2 \Sigma^{1/2}_p Σ p 1/2  U D 1 / 2 U ⊤ U D^{1/2}U^{\top} U D 1/2 U ⊤ ψ ( x ) = Σ p 1 / 2 ϕ ( x ) \boldsymbol{\psi}(\mathbf{x}) = \Sigma^{1/2}_p \boldsymbol{\phi}(\mathbf{x}) ψ ( x ) = Σ p 1/2  ϕ ( x ) k ( x , x ′ ) = ψ ( x ) ⋅ ψ ( x ′ ) k(\mathbf{x}, \mathbf{x}') = \boldsymbol{\psi}(\mathbf{x}) \cdot \boldsymbol{\psi}(\mathbf{x}') k ( x , x ′ ) = ψ ( x ) ⋅ ψ ( x ′ ) Σ p \Sigma_p Σ p  核技巧 。核技巧使 “核” 成为大家关注的主要对象,特征空间反而因此被放在了次要位置。
2.2 函数空间视角 
2.2.1 函数的分布 
通过直接在函数空间中考虑推断,可以获得与上一节相同结果的等效方法。为此,我们引入 高斯过程 (GP) 来描述函数的分布:
【定义 2.1】  高斯过程是随机变量的集合,该集合中任意有限数量的随机变量服从联合高斯分布。
与权重视角下用 权重的均值向量  和 权重的协方差矩阵  来定义模型的方式不同,高斯过程由两个函数完全指定:一个是 均值函数  ,另外一个是 协方差函数  ,也称 核 。我们将真实过程 f ( x ) f(\mathbf{x}) f ( x ) m ( x ) m(\mathbf{x}) m ( x ) k ( x , x ′ ) k(\mathbf{x}, \mathbf{x}') k ( x , x ′ ) 
m ( x ) = E [ f ( x ) ] k ( x , x ′ ) = E [ ( f ( x ) − m ( x ) ) ( f ( x ′ ) − m ( x ′ ) ) ] (2.13) \begin{align*}
m(\mathbf{x}) &= \mathbb{E}[f (\mathbf{x})]\\
k(\mathbf{x}, \mathbf{x}') &= \mathbb{E}[(f(\mathbf{x}) − m(\mathbf{x}))(f (\mathbf{x}') − m(\mathbf{x}'))]
\end{align*} \tag{2.13}
 m ( x ) k ( x , x ′ )  = E [ f ( x )] = E [( f ( x ) − m ( x )) ( f ( x ′ ) − m ( x ′ ))]  ( 2.13 ) 
并将高斯过程写成
f ( x ) ∼ G P ( m ( x ) , k ( x , x ′ ) ) (2.14) f(\mathbf{x}) \sim \mathcal{GP}(m(\mathbf{x}), k(\mathbf{x}, \mathbf{x}')) \tag{2.14}
 f ( x ) ∼ G P ( m ( x ) , k ( x , x ′ )) ( 2.14 ) 
通常,为了表示简单起见,我们将均值函数取为零(尽管不需要这样做,参见第 2.7 节)。
在上面的例子中,随机变量代表了位置 x \mathbf{x} x f ( x ) f(\mathbf{x}) f ( x ) X \mathcal{X} X X ⊂ R d \mathcal{X} \subset \mathbb{R}^d X ⊂ R d 
为了符号方便,我们使用训练集中案例的(任意)枚举来识别随机变量,即 f i ≜ f ( x i ) f_i \triangleq f(\mathbf{x}_i) f i  ≜ f ( x i  ) ( x i , y i ) (\mathbf{x}_i, y_i) ( x i  , y i  ) 
根据定义,高斯过程是随机变量的集合。该定义自动隐含了 一致性要求 (或称 边缘化性质 ): 如果指定了一个高斯过程,如 ( y 1 , y 2 ) ∼ N ( μ , Σ ) (\mathbf{y}_1, \mathbf{y}_2) \sim \mathcal{N}(\boldsymbol{μ}, \Sigma) ( y 1  , y 2  ) ∼ N ( μ , Σ ) y 1 ∼ N ( μ 1 , Σ 11 ) \mathbf{y }_1 \sim \mathcal{N}(\boldsymbol{μ}_1, \Sigma_{11}) y 1  ∼ N ( μ 1  , Σ 11  ) Σ 11 \Sigma_{11} Σ 11  Σ \Sigma Σ 式(A.6)。请注意: 如果协方差矩阵的元素由某个协方差函数指定,则一致性要求会自动得到满足 。上述定义并不排除具有有限索引集的高斯过程,只是这种情况仅仅是一个高斯分布而已。
2.2.2 均值函数 – 再看线性回归模型 
对于上一节中的贝叶斯线性回归模型:f ( x ) = ϕ ( x ) ⊤ w f(\mathbf{x}) = \boldsymbol{\phi} (\mathbf{x})^{\top}\mathbf{w} f ( x ) = ϕ ( x ) ⊤ w w ∼ N ( 0 , Σ p ) \mathbf{w} \sim \mathcal{N}(\mathbf{0}, \Sigma_p) w ∼ N ( 0 , Σ p  ) 
E [ f ( x ) ] = ϕ ( x ) ⊤ E [ w ] = 0 E [ f ( x ) f ( x ′ ) ] = ϕ ( x ) ⊤ E [ w w ⊤ ] ϕ ( x ′ ) = ϕ ( x ) ⊤ Σ p ϕ ( x ′ ) (2.15) \begin{align*}
\mathbb{E}[f (\mathbf{x})] &= \boldsymbol{\phi}(\mathbf{x})^{\top} \mathbb{E}[\mathbf{w}] = 0\\
\mathbb{E}[f (\mathbf{x})f(\mathbf{x'})] &= \boldsymbol{\phi} (\mathbf{x})^{\top}\mathbb{E}[\mathbf{w}\mathbf{w}^{\top}]\boldsymbol{\phi} (\mathbf{x'}) = \boldsymbol{\phi}  (\mathbf{x})^{\top}\Sigma_p\boldsymbol{\phi} (\mathbf{x'})
\end{align*} \tag{2.15}
 E [ f ( x )] E [ f ( x ) f ( x ′ )]  = ϕ ( x ) ⊤ E [ w ] = 0 = ϕ ( x ) ⊤ E [ w w ⊤ ] ϕ ( x ′ ) = ϕ ( x ) ⊤ Σ p  ϕ ( x ′ )  ( 2.15 ) 
也就是说,f ( x ) f(\mathbf{x}) f ( x ) f ( x ′ ) f (\mathbf{x'}) f ( x ′ ) ϕ ( x ) ⊤ Σ p ϕ ( x ′ ) \boldsymbol{\phi} (\mathbf{x})^{\top}\Sigma_p\boldsymbol{\phi} (\mathbf{x'}) ϕ ( x ) ⊤ Σ p  ϕ ( x ′ ) n n n f ( x 1 ) , … , f ( x n ) f(\mathbf{x}_1),\ldots , f (\mathbf{x}_n) f ( x 1  ) , … , f ( x n  ) N < n N < n N < n N N N n n n N N N 
2.2.3 协方差函数 – 再看协方差矩阵 
协方差函数指定了两个随机变量之间的协方差,在本章中,协方差函数将主要以 平方指数 (SE) 协方差函数 ( 式(2.16))为例;其他协方差函数将在第 4 章  中讨论。
cov  ( f ( x p ) , f ( x q ) ) = k ( x p , x q ) = exp  ( − 1 2 ∣ x p − x q ∣ 2 ) (2.16) \operatorname{cov}(f(\mathbf{x}_p), f(\mathbf{x}_q)) = k(\mathbf{x}_p, \mathbf{x}_q) = \exp (-\frac{1}{2} |\mathbf{x}_p − \mathbf{x}_q|^2) \tag{2.16}
 cov ( f ( x p  ) , f ( x q  )) = k ( x p  , x q  ) = exp ( − 2 1  ∣ x p  − x q  ∣ 2 ) ( 2.16 ) 
这里有几点需要注意:
(1)输出之间的协方差被定义为输入的函数 。对于这个特定的协方差函数,我们可以看到:输入之间非常接近的两个变量之间的协方差几乎是 1 1 1 
(2)平方指数协方差函数对应于具有无限多个基函数的贝叶斯线性回归模型  (详细论证见 第 4.3.1 节)。事实上,所有正定的协方差函数 k ( ⋅ , ⋅ ) k(·,·) k ( ⋅,⋅ ) 第 4.3 节 中的 Mercer 定理)。
(3)指定了协方差函数就意味着确定了函数的分布 。为了看到这一点,我们可以在任意数量的输入处,从函数的分布中抽取样本;具体来说,我们选择一些输入点 X ∗ X_* X ∗  式(2.16) 填充相应协方差矩阵中的元素,并用这个协方差矩阵生成一个随机高斯向量:
f ∗ ∼ N ( 0 , K ( X ∗ , X ∗ ) ) (2.17) \mathbf{f}_* \sim \mathcal{N}(\mathbf{0}, K(X_*, X_*))  \tag{2.17}
 f ∗  ∼ N ( 0 , K ( X ∗  , X ∗  )) ( 2.17 ) 
进一步将生成的高斯向量绘制成输入的函数形式。图 2.2(a) 显示了三个这样的示例。
图 2.2: (a) 显示了从高斯过程先验中随机抽取的三个函数;点表示实际生成的 y y y 95 % 95\% 95% 
 
在 图 2.2 的示例中,输入值是等距的。请注意,函数看起来很平滑。事实上,平方指数协方差函数是无限可微的,导致该高斯过程是无限均方可微的(见 4.1 节)。我们还看到函数似乎具有特征长度尺度(即变程超参数),请参阅第 4.2.1 节。对于式 (2.16),特征长度尺度在一个单位左右。如果用 ∣ x p − x q ∣ / ℓ |\mathbf{x}_p −\mathbf{x}_q|/\ell ∣ x p  − x q  ∣/ ℓ 式(2.16) 中的 ∣ x p − x q ∣ |\mathbf{x}_p −\mathbf{x}_q| ∣ x p  − x q  ∣ ℓ \ell ℓ 式(2.16) 中指数函数之前的正值前置因子来控制 。我们将在 2.3 节 中更多地讨论这些因素如何影响预测,并在 第 5 章 中更多地讨论如何设置这些尺度参数。
2.2.4 函数空间视角下的用无噪声观测做预测 
我们通常对从先验中抽取的具体随机函数并不感兴趣,而是希望能够结合训练数据,得到关于函数的知识(如:某个输入处最可能的输出值,不确定性等)。我们先考虑无噪声观测的简单情形,即知道训练点处的真实过程值 { ( x i , f i ) ∣ i = 1 , … , n } \{(\mathbf{x}_i, f_i)| i = 1,\ldots ,n\} {( x i  , f i  ) ∣ i = 1 , … , n } f \mathbf{f} f f ∗ \mathbf{f}_* f ∗  
[ f f ∗ ] ∼ N ( 0 , [ K ( X , X ) K ( X , X ∗ ) K ( X ∗ , X ) K ( X ∗ , X ∗ ) ] ) (2.18) \left[\begin{array}{l}
\mathbf{f} \\
\mathbf{f}_{*}
\end{array}\right] \sim \mathcal{N}\left(\mathbf{0},\left[\begin{array}{ll}
K(X, X) & K\left(X, X_{*}\right) \\
K\left(X_{*}, X\right) & K\left(X_{*}, X_{*}\right)
\end{array}\right]\right) \tag{2.18} 
 [ f f ∗   ] ∼ N ( 0 , [ K ( X , X ) K ( X ∗  , X )  K ( X , X ∗  ) K ( X ∗  , X ∗  )  ] ) ( 2.18 ) 
如果有 n n n n ∗ n_* n ∗  K ( X , X ∗ ) K(X, X_*) K ( X , X ∗  ) n × n ∗ n × n_* n × n ∗  K ( X , X ) K(X, X ) K ( X , X ) K ( X ∗ , X ∗ ) K(X_*, X_*) K ( X ∗  , X ∗  ) K ( X ∗ , X ) K(X_*, X) K ( X ∗  , X ) 
为了获得函数的后验分布,需要限制该联合先验只能包含那些与已观测数据点一致的函数。参考 图 2.2 ,最简单的方法可能是从先验抽取很多函数样本,然后拒绝那些与观测结果不一致的函数样本(这种方法看起来很蠢,但很能说明问题)。 幸运的是,从概率角度来看并不需要使用如此笨的方法,因为,训练点的预测直接对应于以观测为条件的先验(更多详细信息请参见第 A.2 节):
f ∗ ∣ X ∗ , X , f ∼ N ( K ( X ∗ , X ) K ( X , X ) − 1 f , K ( X ∗ , X ∗ ) − K ( X ∗ , X ) K ( X , X ) − 1 K ( X , X ∗ ) ) (2.19) \mathbf{f}_*|X_*, X, \mathbf{f} \sim \mathcal{N}(K(X_*,X) K(X, X)^{-1} \mathbf{f},  \quad K(X_*, X_*) − K(X_*, X)K(X, X)^{−1} K(X, X_*)) \tag{2.19}
 f ∗  ∣ X ∗  , X , f ∼ N ( K ( X ∗  , X ) K ( X , X ) − 1 f , K ( X ∗  , X ∗  ) − K ( X ∗  , X ) K ( X , X ) − 1 K ( X , X ∗  )) ( 2.19 ) 
或等价的:
f ˉ ∗ = K ( X ∗ , X ) K ( X , X ) − 1 f cov  ( f ∗ ) = K ( X ∗ , X ∗ ) − K ( X ∗ , X ) K ( X , X ) − 1 K ( X , X ∗ ) \begin{align*}
\bar{\mathbf{f}}_* &= K(X_*,X) K(X, X)^{-1} \mathbf{f}\\
\operatorname{cov}(\mathbf{f}_*) &= K(X_*, X_*) − K(X_*, X) K(X, X)^{−1} K(X, X_*)
\end{align*}
 f ˉ ∗  cov ( f ∗  )  = K ( X ∗  , X ) K ( X , X ) − 1 f = K ( X ∗  , X ∗  ) − K ( X ∗  , X ) K ( X , X ) − 1 K ( X , X ∗  )  
注: 这里其实使用了三个机制:
一是以观测数据为条件的高斯过程先验就是高斯过程后验,即如果高斯过程的先验为 p ( f , f ∗ ) p(\mathbf{f,f_*}) p ( f , f ∗  ) p ( f , f ∗ ∣ { ( x i , f i ) } ) p(\mathbf{f,f_*}|\{(\mathbf{x}_i, f_i)\}) p ( f , f ∗  ∣ {( x i  , f i  )})  
二是后验也是联合高斯分布,根据边缘性质,其条件分布依然是高斯分布 p ( f ∗ ∣ f ) ∼ N ( μ , Σ ) p(\mathbf{f}_*|\mathbf{f}) \sim \mathcal{N}(\mu,\Sigma) p ( f ∗  ∣ f ) ∼ N ( μ , Σ )  
三是上述所有高斯分布,在高斯过程设置中都受协方差函数 k ( ⋅ , ⋅ ) k(\cdot,\cdot) k ( ⋅ , ⋅ ) X , X ∗ X,X_* X , X ∗  X , X ∗ X,X_* X , X ∗   
 
函数值 f ∗ \mathbf{f}_* f ∗  X ∗ X_* X ∗  式 (2.19) 中均值和协方差定义的联合高斯分布(注:采样方法可参考 第 A.2 节 )。
图 2.2(b) 显示了这种计算的结果,图中给出了标有 ‘+’ 符号的五个训练数据点。请注意,将这种计算扩展到多维输入非常简单,只需要根据 式(2.16) 改变协方差函数的计算(不过生成的函数可能更难于用图形方式显示)。
2.2.5 函数空间视角下的用含噪声观测做预测 
现实场景中,我们无法访问真实函数值本身,而只能访问其含噪声版本 y = f ( x ) + ε y = f (\mathbf{x}) + \varepsilon y = f ( x ) + ε ε \varepsilon ε σ n 2 \sigma^2_n σ n 2  
cov  ( y p , y q ) = k ( x p , x q ) + σ n 2 δ p q  or  cov  ( y ) = K ( X , X ) + σ n 2 I (2.20) \operatorname{cov}(y_p, y_q) = k(\mathbf{x}_p, \mathbf{x}_q) + \sigma^2_n \delta_{pq} \quad \text{ or } \quad \operatorname{cov}(\mathbf{y}) = K(X, X) + \sigma^2_n I \tag{2.20}
 cov ( y p  , y q  ) = k ( x p  , x q  ) + σ n 2  δ pq   or  cov ( y ) = K ( X , X ) + σ n 2  I ( 2.20 ) 
其中 δ p q \delta_{pq} δ pq  p = q p = q p = q 1 1 1 0 0 0 式 (2.16)的无噪声情况相比,上式添加了对角矩阵。进一步的,在式(2.18) 基础上引入噪声项,可以将已观测目标值和测试位置处函数值的联合先验分布写成:
[ y f ∗ ] ∼ N ( 0 , [ K ( X , X ) + σ n 2 I K ( X , X ∗ ) K ( X ∗ , X ) K ( X ∗ , X ∗ ) ] ) (2.21) \left[\begin{array}{l}
\mathbf{y} \\
\mathbf{f}_{*}
\end{array}\right] \sim \mathcal{N}\left(\mathbf{0},\left[\begin{array}{ll}
K(X, X) + \sigma^2_n I & K\left(X, X_{*}\right) \\
K(X_{*}, X) & K(X_{*}, X_{*})
\end{array}\right]\right) \tag{2.21} 
 [ y f ∗   ] ∼ N ( 0 , [ K ( X , X ) + σ n 2  I K ( X ∗  , X )  K ( X , X ∗  ) K ( X ∗  , X ∗  )  ] ) ( 2.21 ) 
对应于 式 (2.19) 的条件分布。我们得出高斯过程回归的关键预测方程:
f ∗ ∣ X , y , X ∗ ∼ N ( f ˉ ∗ , cov  ( f ∗ ) )  where  f ˉ ∗ ≜ E [ f ∗ ∣ X , y , X ∗ ] = K ( X ∗ , X ) [ K ( X , X ) + σ n 2 I ] − 1 y cov  ( f ∗ ) = K ( X ∗ , X ∗ ) − K ( X ∗ , X ) [ K ( X , X ) + σ n 2 I ] − 1 K ( X , X ∗ ) \begin{align*}
\mathbf{f}_* | X, \mathbf{y}, X_* &\sim \mathcal{N}(\bar{\mathbf{f}}_*, \operatorname{cov}(\mathbf{f}_*)) \text{ where    } \tag{2.22}\\
\bar{\mathbf{f}}_* &\triangleq  \mathbb{E}[\mathbf{f}_*|X, \mathbf{y}, X_*] = K(X_*, X)[K(X, X) + \sigma^2_n I]^{−1} \mathbf{y} \tag{2.23}\\
\operatorname{cov}(\mathbf{f}_*) &= K(X_*, X_*) − K(X_*, X)[K(X, X) + \sigma^2_n I]^{−1} K(X, X_*) \tag{2.24}
\end{align*}
 f ∗  ∣ X , y , X ∗  f ˉ ∗  cov ( f ∗  )  ∼ N ( f ˉ ∗  , cov ( f ∗  ))  where  ≜ E [ f ∗  ∣ X , y , X ∗  ] = K ( X ∗  , X ) [ K ( X , X ) + σ n 2  I ] − 1 y = K ( X ∗  , X ∗  ) − K ( X ∗  , X ) [ K ( X , X ) + σ n 2  I ] − 1 K ( X , X ∗  )  ( 2.22 ) ( 2.23 ) ( 2.24 )  
2.2.6 函数-权重空间视角的等价性 
请注意: 当明确 K ( C , D ) = Φ ( C ) ⊤ Σ p Φ ( D ) K(C, D) = \Phi(C)^{\top} \Sigma_p \Phi(D) K ( C , D ) = Φ ( C ) ⊤ Σ p  Φ ( D ) C , D C, D C , D X X X X ∗ X_* X ∗  式(2.22) 至 式(2.24) 与权重视角下的 式 (2.12) 完全对应。这意味着:给定任意一组基函数,我们都可以将其对应的协方差函数写为 k ( x p , x q ) = ϕ ( x p ) ⊤ Σ p ϕ ( x q ) k(\mathbf{x}_p, \mathbf{x}_q) = \boldsymbol{\phi} (\mathbf{x}_p)^{\top}\Sigma_p\boldsymbol{\phi} (\mathbf{x}_q) k ( x p  , x q  ) = ϕ ( x p  ) ⊤ Σ p  ϕ ( x q  ) k k k 第 4.3 节。
K ( X , X ) K(X, X) K ( X , X ) K ( X , X ∗ ) K(X, X_*) K ( X , X ∗  ) K ( X ∗ , X ∗ ) K(X_*, X_*) K ( X ∗  , X ∗  ) K = K ( X , X ) K = K(X, X) K = K ( X , X ) K ∗ = K ( X , X ∗ ) K_* = K(X, X_*) K ∗  = K ( X , X ∗  ) x ∗ \mathbf{x}_* x ∗  k ( x ∗ ) = k ∗ \mathbf{k}(\mathbf{x}_*) = \mathbf{k}_* k ( x ∗  ) = k ∗  n n n x ∗ \mathbf{x}_* x ∗  式(2.23) 和 式(2.24) 可以简写为:
f ˉ ∗ = k ∗ ⊤ ( K + σ n 2 I ) − 1 y V [ f ∗ ] = k ( x ∗ , x ∗ ) − k ∗ ⊤ ( K + σ n 2 I ) − 1 k ∗ \begin{align*}
\bar{f}_* &= \mathbf{k}_*^{\top} (K + \sigma^2_n I)^{-1} \mathbf{y}  \tag{2.25}\\
\mathbb{V}[f_*] &= k(\mathbf{x}_*, \mathbf{x}_*) − \mathbf{k}_*^{\top} (K + \sigma^2_n I)^{-1} \mathbf{k}_* \tag{2.26}
\end{align*}
 f ˉ  ∗  V [ f ∗  ]  = k ∗ ⊤  ( K + σ n 2  I ) − 1 y = k ( x ∗  , x ∗  ) − k ∗ ⊤  ( K + σ n 2  I ) − 1 k ∗   ( 2.25 ) ( 2.26 )  
仔细观察 式(2.25) 和 式(2.26) 会发现: 式 (2.25) 中的预测均值是已观测目标 y \mathbf{y} y 式 (2.25),将预测均值看成是 n n n 
f ˉ ( x ∗ ) = ∑ i = 1 n α i k ( x i , x ∗ ) (2.27) \bar{f}(\mathbf{x}_*) = \sum^{n}_{i=1} α_i k(\mathbf{x}_i, \mathbf{x}_*) \tag{2.27}
 f ˉ  ( x ∗  ) = i = 1 ∑ n  α i  k ( x i  , x ∗  ) ( 2.27 ) 
其中,权重为 α = ( K + σ n 2 I ) − 1 y \boldsymbol{α} = (K + \sigma^2_n I)^{-1} \mathbf{y} α = ( K + σ n 2  I ) − 1 y 
式 (2.27) 中关于预测均值的这种形式是 表征定理(representer theorem)  的一种表现;有关这一点的更多信息,请参见 第 6.2 节。
我们可以直观地理解这个结果。首先,尽管高斯过程被定义为所有 y y y X \mathcal{X} X x ∗ \mathbf{x}_* x ∗  n n n 1 1 1 ( n + 1 ) (n+1) ( n + 1 ) 第 A.2 节)。因此,以观测为条件的 ( n + 1 ) (n + 1) ( n + 1 ) 图 2.3 给出了含噪声观测高斯过程的图模型表示。
图 2.3:用于回归的高斯过程的图模型(链图)。正方形代表观测到的变量,圆圈代表未知量。粗水平条表示一组完全连接的节点。请注意,给定隐变量 f i f_i f i  y i y_i y i  x x x f f f y ∗ y_* y ∗  
 
另请特别注意:
预测方差不依赖于已观测目标,而只依赖于测试输入、训练输入和超参数 (见 式(2.24) );这是高斯过程的一个性质。方差代表了两项之间的差异:第一项 K ( X ∗ , X ∗ ) K(X_*, X_*) K ( X ∗  , X ∗  ) y ∗ \mathbf{y}_* y ∗  σ n 2 I \sigma^2_n \mathbf{I} σ n 2  I cov  ( f ∗ ) \operatorname{cov}(f_*) cov ( f ∗  ) 
事实上,高斯过程模型的预测分布不仅仅给出了 式 (2.26) 的逐点误差,当 X ∗ X_* X ∗  式(2.24) 依然成立;此时能够同时计算测试目标的协方差(其对角矩阵元素仍是逐点方差)。事实上,式 (2.23) 是均值函数,式(2.24) 是后验高斯过程的协方差函数。后验协方差如 图 2.4(b) 所示。
图 2.4:(a) 与图 2.2(b) 相同,显示了从后验抽取的三个随机函数。 (b) 显示了 f ( x ) f(\mathbf{x}) f ( x ) f ( x ′ ) f(\mathbf{x'}) f ( x ′ ) x ′ \mathbf{x'} x ′ 
 
2.2.7 边缘似然 
现在引入重要的概念:边缘似然(或证据)p ( y ∣ X ) p(\mathbf{y}|X) p ( y ∣ X ) 第 5 章 )。
边缘似然是似然乘以先验的积分:
p ( y ∣ X ) = ∫ p ( y ∣ f , X ) p ( f ∣ X ) d f (2.28) p(\mathbf{y}|X) = \int p(y|f , X)p(f |X) df  \tag{2.28}
 p ( y ∣ X ) = ∫ p ( y ∣ f , X ) p ( f ∣ X ) df ( 2.28 ) 
可以看出,在函数空间视角下,边缘似然主要指函数值 f \mathbf{f} f 
(1)先验 
首先看一下先验。在高斯过程模型下,先验是高斯的,f ∣ X ∼ N ( 0 , K ) \mathbf{f} |X \sim \mathcal{N}(\mathbf{0}, K) f ∣ X ∼ N ( 0 , K ) 
log  p ( f ∣ X ) = − 1 2 f ⊤ K − 1 f − 1 2 log  ∣ K ∣ − n 2 log  2 π (2.29) \log p(\mathbf{f} |X) = -\frac{1}{2} \mathbf{f}^{\top} K^{−1} \mathbf{f} -\frac{1}{2} \log |K| − \frac{n}{2} \log 2π \tag{2.29}
 log  p ( f ∣ X ) = − 2 1  f ⊤ K − 1 f − 2 1  log  ∣ K ∣ − 2 n  log  2 π ( 2.29 ) 
(2)似然 
高斯过程的似然也是高斯的 y ∣ f ∼ N ( f , σ n 2 I ) \mathbf{y}|\mathbf{f} \sim \mathcal{N}(\mathbf{f}, \sigma^2_n I) y ∣ f ∼ N ( f , σ n 2  I ) 
(3)边缘似然 
利用附录的 式 A.7 和 式 A.8 可以完成对先验的积分,并产生如下对数边缘似然形式:
log  p ( y ∣ X ) = − 1 2 y ⊤ ( K + σ n 2 I ) − 1 y − 1 2 log  ∣ K + σ n 2 I ∣ − n 2 log  2 π (2.30) \log p(\mathbf{y}|X) = -\frac{1}{2} y^{\top}(K + \sigma^2_n I)^{-1} \mathbf{y} -\frac{1}{2} \log |K + \sigma^2_n I| − \frac{n}{2} \log 2π \tag{2.30}
 log  p ( y ∣ X ) = − 2 1  y ⊤ ( K + σ n 2  I ) − 1 y − 2 1  log  ∣ K + σ n 2  I ∣ − 2 n  log  2 π ( 2.30 ) 
该边缘似然可以直接通过训练观测 y \mathbf{y} y y ∼ N ( 0 , K + σ n 2 I ) \mathbf{y} \sim \mathcal{N}(\mathbf{0}, K + \sigma^2_n I ) y ∼ N ( 0 , K + σ n 2  I ) 
2.2.8 预测算法 
当给定协方差函数的形式和超参数时,算法 2.1 给出了高斯过程回归 (GPR) 预测的实际实现,该算法的输出中不仅包含预测均值和预测方差,还包含边缘似然值。该算法使用 Cholesky 分解实现矩阵的求逆运算,因为其具有快速和数值稳定的特点,参见附录 第 A.4 节。该算法返回无噪声测试案例的预测均值和预测方差,要计算含噪声测试数据 y ∗ y_* y ∗  σ n 2 \sigma^2_n σ n 2  f ∗ f_* f ∗  
算法 2.1:高斯过程回归的预测及其对数边缘似然。该算法使用 Cholesky 分解实现了 式(2.25) 和 式 (2.26) 所需的矩阵求逆,参见 A.4 节。对于多个测试案例,只需重复第 4-6 行即可。式 (2.30) 中所需的对数行列式是根据 Cholesky 分解计算的(对于大 n n n n 3 / 6 n^3/6 n 3 /6 n 2 / 2 n^2/2 n 2 /2 
 
2.3 直观地认识超参数 
注:
获得最佳的协方差函数形式和超参数值,是高斯过程推断的主要任务,也是高斯过程应用 pipeline 中最核心环节。这里面可能需要理清几个术语:
高斯过程训练 : 获得最佳协方差函数形式和超参数值的过程;
高斯过程推断 : 根据观测数据过得高斯过程后验的过程;
高斯过程预测 : 根据推断的后验结果,获得测试点处预测均值和预测方差的过程。
通常,协方差函数会有一些自由参数。例如,一维的平方指数协方差函数具有以下形式
k y ( x p , x q ) = σ f 2 exp  ( − 1 2 ℓ 2 ( x p − x q ) 2 ) + σ n 2 δ p q (2.31) k_y(x_p, x_q) = \sigma^2_f \exp (-\frac{1}{2\ell^2} (x_p − x_q)^2) + \sigma^2_n \delta_{pq} \tag{2.31}
 k y  ( x p  , x q  ) = σ f 2  exp ( − 2 ℓ 2 1  ( x p  − x q  ) 2 ) + σ n 2  δ pq  ( 2.31 ) 
协方差表示为 k y k_y k y  y y y f f f 长度尺度  ℓ \ell ℓ 信号方差  σ f 2 \sigma^2_f σ f 2  噪声方差  σ n 2 \sigma^2_n σ n 2  
在第 5 章中,我们将考虑从训练数据中确定超参数的方法。但在本节中,我们的目标比较简单,只是直观地探索一下改变超参数会对高斯过程预测产生哪些影响。
考虑图 2.5(a) 中 + 号所示的数据。这是从具有平方指数核的高斯过程生成的,其中 ( ℓ , σ f , σ n ) = ( 1 , 1 , 0.1 ) (\ell, σ_f , \sigma_n) = (1, 1, 0.1) ( ℓ , σ f  , σ n  ) = ( 1 , 1 , 0.1 ) 2 2 2 x x x σ f σ_f σ f  
图 2.5:(a) 数据是从具有超参数 ( ℓ , σ f , σ n ) = ( 1 , 1 , 0.1 ) (\ell, σ_f , σ_n) = (1, 1, 0.1) ( ℓ , σ f  , σ n  ) = ( 1 , 1 , 0.1 ) + 符号所示。使用具有上述超参数值的高斯过程预测,可以获得真实函数 f f f 95 % 95\% 95% ( 0.3 、 1.08 、 0.00005 ) (0.3、1.08、0.00005) ( 0.3 、 1.08 、 0.00005 ) ( 3.0 、 1.16 、 0.89 ) (3.0、1.16、0.89) ( 3.0 、 1.16 、 0.89 ) 
 
如果我们将长度尺度设置得更短,使 ℓ = 0.3 \ell = 0.3 ℓ = 0.3 图 2.5(a) 的图,不过 x x x 0.3 0.3 0.3 图 2.5(a) 中相同的 x x x ℓ = 1 \ell = 1 ℓ = 1 ℓ = 0.3 \ell = 0.3 ℓ = 0.3 图 2.5(b) 中的结果。其余两个参数将像第 5 章所述那样,通过优化边缘似然的方法设置。在这种情况下,噪声参数减小到 σ n = 0.00005 \sigma_n = 0.00005 σ n  = 0.00005 x = 2.5 x = 2.5 x = 2.5 图 2.5(a) (ℓ = 1 \ell = 1 ℓ = 1 图 2.5(b) (ℓ = 0.3 \ell = 0.3 ℓ = 0.3 f f f 图 2.5(b) 中的误差条在远离数据点时会快速增长。
相反,如果将长度尺度设置得更长一些,比如设置为 ℓ = 3 \ell=3 ℓ = 3 图2.5(c) 所示。同样,剩余的两个参数通过优化边缘似然来设置。此时噪声水平已增加到 σ n = 0.89 \sigma_n = 0.89 σ n  = 0.89 
当然,我们可以将快速变化的低噪声信号或缓慢变化的高噪声信号的位置取到极端;前者会产生信号的白噪声过程模型,而后者会产生带有附加白噪声的恒定信号。在这两种模型下,产生的数据点应该看起来像白噪声。但是,通过研究 图 2.5(a),我们发现白噪声并不是一个令人信服的数据模型,因为 y y y 
上述分析在此处的一维案例中相对容易看到,但高维情况会比较复杂。 第 5 章 中即将讨论的边缘似然等方法,可以推广到更高维度,并允许我们对各种模型进行量化评价。例如,根据边缘似然,上述案例会明显倾向于采用 ( ℓ , σ f , σ n ) = ( 1 , 1 , 0.1 ) (\ell, σ_f , \sigma_n) = (1, 1, 0.1) ( ℓ , σ f  , σ n  ) = ( 1 , 1 , 0.1 ) 
2.4 高斯过程回归的决策理论 
(1)决策问题的提出 
高斯过程在测试点的预测输出表现为一个高斯形式的预测分布,而人们做决策时需要的有时是确定的单点估计(可以简单理解为给出 “是” 或 “否” 的确切答案,即便存在不确定性),此时就存在一个决策问题。 例如在前面部分中,测试输入 x ∗ \mathbf{x}_* x ∗  y ∗ y_∗ y ∗  式(2.25)和 式 (2.26) 给出。但在实际应用中,我们经常被迫需要作出一个决定,即一个在某种意义上最优的点估计。
为了提供决策支持,通常会选择一个准则或损失函数 L ( y t r u e , y g u e s s ) \mathcal{L}(y_{true}, y_{guess}) L ( y t r u e  , y gu ess  ) y t r u e y_{true} y t r u e  y g u e s s y_{guess} y gu ess  
(2)贝叶斯与非贝叶斯决策的比较 
需要注意的是: 高斯过程是在没有参考损失函数的情况下计算得出的预测分布,这与非贝叶斯方法存在显著不同。 在非贝叶斯方法中,通常会通过经验风险(或损失)最小化来训练模型(可以理解为训练和决策一体);而在贝叶斯方法中,似然函数(主要用于训练)和损失函数(主要用于决策)之间存在明显的区分 。
似然函数用于描述噪声测量值偏离(假设的)无噪声真实函数值的程度; 
损失函数则用于捕获作出特定选择后的后果(在给定实际真实状态的情况下); 
似然函数和损失函数之间理论上不需要有任何共同点,尽管有时两者之间会存在联系。 
 
(3)高斯过程的决策理论 
决策的目标是让点预测 y g u e s s y_{guess} y gu ess  y t r u e y_{true} y t r u e  
R ~ L ( y g u e s s ∣ x ∗ ) = ∫ L ( y ∗ , y g u e s s ) p ( y ∗ ∣ x ∗ , D ) d y ∗ (2.32) \tilde{R}_{\mathcal{L}}(y_{guess} | \mathbf{x}_*) = \int \mathcal{L}(y_*, y_{guess}) p(y_*|\mathbf{x}_*, \mathcal{D}) d y_*  \tag{2.32}
 R ~ L  ( y gu ess  ∣ x ∗  ) = ∫ L ( y ∗  , y gu ess  ) p ( y ∗  ∣ x ∗  , D ) d y ∗  ( 2.32 ) 
因此,从期望损失最小化的意义上说,最佳猜测应当是:
y o p t i m a l ∣ x ∗ = arg  min  y g u e s s R ~ L ( y g u e s s ∣ x ∗ ) (2.33) y_{optimal}|\mathbf{x}_* = \arg \min_{y_{guess}} \tilde{R}_{\mathcal{L}}(y_{guess}|\mathbf{x}_*) \tag{2.33}
 y o pt ima l  ∣ x ∗  = arg  y gu ess  min  R ~ L  ( y gu ess  ∣ x ∗  ) ( 2.33 ) 
一般来说,使期望风险 ∣ y g u e s s − y ∗ ∣ |y_{guess}− y_*| ∣ y gu ess  − y ∗  ∣ y g u e s s y_{guess} y gu ess  p ( y ∗ ∣ x ∗ , D ) p(y_*|\mathbf{x}_*, D) p ( y ∗  ∣ x ∗  , D ) ( y g u e s s − y ∗ ) 2 (y_{guess} − y_*)^2 ( y gu ess  − y ∗  ) 2 y g u e s s y_{guess} y gu ess  式(2.32) 和 式 (2.33) 计算 。在 Berger [1985] 中可以找到对决策理论的综述。
决策理论可以说是贝叶斯方法特有的一种方法,因为在非贝叶斯方法中只有点估计的概念,没有预测分布的概念,因此不存在决策问题。本节给出了如下知识点:
强调了贝叶斯方法和非贝叶斯方法在训练和决策上的不同,即训练和决策是否分离; 
给出了利用期望损失最小化来解决决策问题的一个基本框架( 式(2.32) 和 式 (2.33) ); 
给出了一个常用的决策选择,即对于大多数场景,可以采用所以可能值的均值作为最优点估计。 
 
2.5 示例应用 
暂略。
2.6 高斯过程的平滑性质分析 
高斯过程回归旨在通过去除污染噪声 ε \varepsilon ε f f f y y y f ˉ ( x ∗ ) = k ∗ ⊤ ( K + σ n 2 I ) − 1 y \bar{f} (\mathbf{x}_*) = \mathbf{k}_*^{\top}(K +\sigma^2_nI)^{-1} \mathbf{y} f ˉ  ( x ∗  ) = k ∗ ⊤  ( K + σ n 2  I ) − 1 y f ˉ ( x ∗ ) \bar{f} (\mathbf{x}_*) f ˉ  ( x ∗  ) y \mathbf{y} y 
在本节中,我们首先通过训练点处预测结果的矩阵分析来研究平滑性质,然后再通过等效核研究。
(1)训练点处的平滑性质 
训练点的预测均值 f ˉ \bar{\mathbf{f}} f ˉ 
f ˉ = K ( K + σ n 2 I ) − 1 y (2.35) \bar{\mathbf{f}}= K(K + \sigma^2_n I)^{-1} \mathbf{y} \tag{2.35} 
 f ˉ = K ( K + σ n 2  I ) − 1 y ( 2.35 ) 
令 K K K K = ∑ i = 1 n λ i u i u i ⊤ K = \sum^{n}_{i=1} \lambda_i \mathbf{u}_i \mathbf{u}^{\top}_i K = ∑ i = 1 n  λ i  u i  u i ⊤  λ i \lambda_i λ i  i i i u i \mathbf{u}_i u i  K K K γ i = u i ⊤ y \gamma_i  = \mathbf{u}^{\top}_i \mathbf{y} γ i  = u i ⊤  y y = ∑ i = 1 n γ i u i \mathbf{y} = \sum^{n}_{i=1} \gamma_i \mathbf{u}_i y = ∑ i = 1 n  γ i  u i  
f ˉ = ∑ i = 1 n γ i λ i λ i + σ n 2 u i (2.36) \bar{\mathbf{f}} = \sum^{n}_{i=1} \frac{\gamma_i \lambda_i }{\lambda_i  + \sigma^2_n} \mathbf{u}_i \tag{2.36}
 f ˉ = i = 1 ∑ n  λ i  + σ n 2  γ i  λ i   u i  ( 2.36 ) 
请注意,如果 λ i / ( λ i + σ n 2 ) ≪ 1 \lambda_i /(\lambda_i  + \sigma^2_n) \ll 1 λ i  / ( λ i  + σ n 2  ) ≪ 1 y \mathbf{y} y u i \mathbf{u}_i u i  
对于实践中使用的大多数协方差函数,变化较慢的特征向量(例如,较少的过零点)会有更大的特征值,这意味着 y \mathbf{y} y 有效参数的数量 (或平滑器的自由度)被定义为 tr  ( K ( K + σ n 2 I ) − 1 ) = ∑ i = 1 n λ i / ( λ i + σ n 2 ) \operatorname{tr}(K(K + \sigma^2_n I)^{-1}) = \sum^{n}_{i=1} \lambda_i /(\lambda_i  + \sigma^2_n) tr ( K ( K + σ n 2  I ) − 1 ) = ∑ i = 1 n  λ i  / ( λ i  + σ n 2  ) 
(2)权重函数与等效核 
我们可以定义一个函数的向量 h ( x ∗ ) = ( K + σ n 2 I ) − 1 k ( x ∗ ) \mathbf{h}(\mathbf{x}_*) = (K + \sigma^2_n I)^{-1} \mathbf{k}(\mathbf{x}_*) h ( x ∗  ) = ( K + σ n 2  I ) − 1 k ( x ∗  ) f ˉ ( x ∗ ) = h ( x ∗ ) ⊤ y \bar{f}(\mathbf{x}_*) = \mathbf{h}(\mathbf{x}_*)^{\top} \mathbf{y} f ˉ  ( x ∗  ) = h ( x ∗  ) ⊤ y x ∗ \mathbf{x}_* x ∗  y \mathbf{y} y x ∗ \mathbf{x}_* x ∗  h ( x ∗ ) \mathbf{h}(\mathbf{x}_*) h ( x ∗  ) y \mathbf{y} y h ( x ∗ ) \mathbf{h}(\mathbf{x}_*) h ( x ∗  ) y \mathbf{y} y 
K + σ n 2 I K+\sigma^2_n I K + σ n 2  I K K K n n n x \mathbf{x} x 第 7.1 节 所示的分析方法来解决此问题(注: 第 7.1 节 重点介绍了等效核这一理论工具)。Silverman [1984] 将权重函数与 核平滑  做类比,将理想化的权重函数称为 等效核 ;另见 Girosi 等 [1995 年,section  2.1]。
核平滑器将一个核函数 κ κ κ x ∗ \mathbf{x}_* x ∗  ( x i , y i ) (\mathbf{x}_i, y_i) ( x i  , y i  ) κ i = κ ( ∣ x i − x ∗ ∣ / ℓ ) κ_i = κ(|\mathbf{x}_i − \mathbf{x}_*|/\ell) κ i  = κ ( ∣ x i  − x ∗  ∣/ ℓ ) ℓ \ell ℓ f ( x ∗ ) f(\mathbf{x}_*) f ( x ∗  ) f ^ ( x ∗ ) = ∑ i = 1 n w i y i \hat{f}(\mathbf{x}_*) = \sum^{n}_{i=1} w_i y_i f ^  ( x ∗  ) = ∑ i = 1 n  w i  y i  w i = κ i / ∑ j = 1 n κ j w_i = κ_i/ \sum^{n}_{j=1} κ_j w i  = κ i  / ∑ j = 1 n  κ j  
对于一维输入变量 x x x 图 2.6 说明了高斯过程的权重函数和等效核。我们使用了平方指数协方差函数,并设置了长度尺度 ℓ = 0.0632 \ell = 0.0632 ℓ = 0.0632 ℓ 2 = 0.004 \ell^2 = 0.004 ℓ 2 = 0.004 x x x n = 50 n = 50 n = 50 图 2.6(a) 和 图 2.6(b) 分别显示了超参数 σ n 2 = 0.1 \sigma^2_n = 0.1 σ n 2  = 0.1 x ∗ = 0.5 x_* = 0.5 x ∗  = 0.5 x ∗ = 0.05 x_* = 0.05 x ∗  = 0.05 图 2.6(c) 也用于 x ∗ = 0.5 x_* = 0.5 x ∗  = 0.5 σ n 2 = 10 \sigma^2_n = 10 σ n 2  = 10 h ( x ∗ ) \mathbf{h}(x_*) h ( x ∗  ) 图 2.6(d) 显示了等效核作为 n n n n n n 
图 2.6: (a)-( c ) 显示了对应于 n = 50 n = 50 n = 50 h ( x ∗ ) \mathbf{h}(x_*) h ( x ∗  ) 
 
从这些图中可以得出许多有趣的观察结果:
首先观察到: 等效核具有与原始平方指数核完全不同的形状 。在 图 2.6(a) 中,等效核显然是振荡的(具有负瓣)并且具有比原始核更高的空间频率。图 2.6(b) 显示了类似行为,不过相对于 图 2.6(a) 来说,由于存在边效应,等效核被截断了。在 图 2.6(c) 中,我们看到在较高的噪声水平下,负瓣减少了,等效核的宽度与原始核相似。 
此外,与 图 2.6(a)  和 图 2.6(b)  相比,图 2.6(c)  中等效核的高度有所降低(它在更宽区域上取平均值)。 
 
我们可以用上面的特征分解来分析和理解较低噪声水平时更加振荡的等效核:在更高的噪声水平下,仅保留了 y \mathbf{y} y λ λ λ 
在 图 2.6(d) 中,我们绘制了 [ 0 , 1 ] [0, 1] [ 0 , 1 ] n = 10 n = 10 n = 10 n = 250 n = 250 n = 250 n n n 第 7.1 节 中进一步讨论这种行为。
图 2.6 中的等效核图是通过在 [ 0 , 1 ] [0, 1] [ 0 , 1 ] n g r i d n_{grid} n g r i d  K ( K + σ g r i d 2 I ) − 1 K(K + σ^2_{grid} I)^{-1} K ( K + σ g r i d 2  I ) − 1 y \mathbf{y} y σ g r i d 2 = σ n 2 n g r i d / n σ^2_{grid} = \sigma^2_n n_{grid}/n σ g r i d 2  = σ n 2  n g r i d  / n n g r i d > n n_{grid}>n n g r i d  > n n g r i d n_grid n g  r i d x x x σ 2 σ^2 σ 2 n g r i d / n n_{grid}/n n g r i d  / n σ n 2 \sigma^2_n σ n 2  n n n 第 7.1 节 给出了相关理论和一些示例等效核。
2.7 与显式均值函数的结合 
考虑具有零均值函数的高斯过程很常见,但绝不是必要的,因为后验高斯过程的均值并不限于为零。人们可能希望对均值函数进行显式建模有几个原因,如:模型的可解释性、表达先验信息的便利性、为利于分析而做的必要约束等。使用显式基础函数是一种在函数上指定非零均值的方法,但还可以使用它们来实现其他有趣的效果。
2.7.1 固定的均值函数 
使用固定的均值函数 m ( x ) m(\mathbf{x}) m ( x ) 
f ( x ) ∼ G P ( m ( x ) , k ( x , x ′ ) ) (2.37) f (\mathbf{x}) \sim \mathcal{GP}(m(\mathbf{x}), k(\mathbf{x, x'})) \tag{2.37}
 f ( x ) ∼ G P ( m ( x ) , k ( x , x ′ )) ( 2.37 ) 
此时的预测均值变为:
f ˉ ∗ = m ( X ∗ ) + K ( X ∗ , X ) K y − 1 ( y − m ( X ) ) (2.38) \bar{\mathbf{f}}_* = \mathbf{m}(X_*) + K(X_*, X)K^{−1}_y (\mathbf{y} − \mathbf{m}(X)) \tag{2.38}
 f ˉ ∗  = m ( X ∗  ) + K ( X ∗  , X ) K y − 1  ( y − m ( X )) ( 2.38 ) 
其中 K y = K + σ n 2 I K_y = K + \sigma^2_nI K y  = K + σ n 2  I 
预测方差由于和目标值无关,因此与式 (2.24) 保持一致。
2.7.2 不固定的均值函数 
在实际工作中,通常很难指定一个固定的均值函数。在许多情况下,指定某一类由系数 β \boldsymbol{\beta} β 
g ( x ) = f ( x ) + h ( x ) ⊤ β , 其中  f ( x ) ∼ G P ( 0 , k ( x , x ′ ) ) (2.39) g(\mathbf{x}) = f(\mathbf{x}) + \mathbf{h}(\mathbf{x})^{\top} \boldsymbol{\beta},\text{  其中 } f(\mathbf{x}) \sim \mathcal{GP}(0, k(\mathbf{x, x'})) \tag{2.39}
 g ( x ) = f ( x ) + h ( x ) ⊤ β ,   其中   f ( x ) ∼ G P ( 0 , k ( x , x ′ )) ( 2.39 ) 
这里 f ( x ) f(\mathbf{x}) f ( x ) h ( x ) \mathbf{h}(\mathbf{x}) h ( x ) β \boldsymbol{\beta} β h ( x ) = ( 1 , x , x 2 , … ) \mathbf{h}(x) = (1, x, x^2, \ldots) h ( x ) = ( 1 , x , x 2 , … ) 
(1)推断 
在拟合模型时,可以结合协方差函数的超参数对参数 β \boldsymbol{\beta} β β \boldsymbol{\beta} β β \boldsymbol{\beta} β β ∼ N ( b , B ) \boldsymbol{\beta} \sim \mathcal{N}(\mathbf{b}, B) β ∼ N ( b , B ) 
根据 O’Hagan [1978],我们事实上可以获得另一个高斯过程:
g ( x ) ∼ G P ( h ( x ) ⊤ b , k ( x , x ′ ) + h ( x ) ⊤ B h ( x ′ ) (2.40) g(\mathbf{x}) \sim \mathcal{GP}(\mathbf{h}(\mathbf{x})^{\top} \mathbf{b}, k(\mathbf{x, x'}) + \mathbf{h}(\mathbf{x})^{\top} B \mathbf{h}(\mathbf{x'}) \tag{2.40}
 g ( x ) ∼ G P ( h ( x ) ⊤ b , k ( x , x ′ ) + h ( x ) ⊤ B h ( x ′ ) ( 2.40 ) 
该高斯过程中的协方差函数中,增加了由参数的不确定性带来的贡献。
(2)预测 
将 g ( x ) g(\mathbf{x}) g ( x ) 式(2.39)和 式 (2.24) 进行预测。重新排列后,可以得到:
g ˉ ( X ∗ ) = H ∗ ⊤ β ˉ + K ∗ K y − 1 ( y − H β ˉ ) = f ˉ ( X ∗ ) + R ⊤ β ˉ cov  ( g ∗ ) = cov  ( f ∗ ) + R ⊤ ( B − 1 + H K y − 1 H ⊤ ) − 1 R (2.41) \begin{align*}
\bar{\mathbf{g}}(X_*) &= H^{\top}_* \bar{\boldsymbol{\beta}} + K_* K^{-1}_y (\mathbf{y} − H \bar{\boldsymbol{\beta}}) =\bar{\mathbf{f}}(X_*) + R^{\top} \bar{\boldsymbol{\beta} }\\
\operatorname{cov}(\mathbf{g}_*) &= \operatorname{cov}(\mathbf{f}_*) + R^{\top}(B^{-1} + H K^{-1}_y H^{\top})^{-1} R
\end{align*} \tag{2.41}
 g ˉ  ( X ∗  ) cov ( g ∗  )  = H ∗ ⊤  β ˉ  + K ∗  K y − 1  ( y − H β ˉ  ) = f ˉ ( X ∗  ) + R ⊤ β ˉ  = cov ( f ∗  ) + R ⊤ ( B − 1 + H K y − 1  H ⊤ ) − 1 R  ( 2.41 ) 
其中 H H H h ( x ) \mathbf{h}(\mathbf{x}) h ( x ) H ∗ H_* H ∗  β ˉ = ( B − 1 + H K y − 1 H ⊤ ) − 1 ( H K y − 1 y + B − 1 b ) \bar{\boldsymbol{\beta}} = (B^{-1} + HK^{-1}_y H^{\top})^{-1}(HK^{-1}_y \mathbf{y} + B^{-1}\mathbf{b}) β ˉ  = ( B − 1 + H K y − 1  H ⊤ ) − 1 ( H K y − 1  y + B − 1 b ) R = H ∗ − H K y − 1 K ∗ R = H_* − HK^{-1}_y K_* R = H ∗  − H K y − 1  K ∗  
注意 式 (2.41) 第一行中均值表达式的漂亮解释,:β ˉ \bar{\boldsymbol{\beta}} β ˉ  
探索上述表达式的极限,随着 β \boldsymbol{\beta} β B − 1 → O B^{-1} \rightarrow O B − 1 → O O O O b \mathbf{b} b 
g ( X ∗ ) = f ˉ ( X ∗ ) + R ⊤ β ˉ cov  ( g ∗ ) = cov  ( f ∗ ) + R ⊤ ( H K y − 1 H ⊤ ) − 1 R (2.42) \begin{align*}
\mathbf{g}(X_*) &= \bar{\mathbf{f}}(X_*) + R^{\top} \bar{\boldsymbol{\beta}}\\
\operatorname{cov}(\mathbf{g}_*) &= \operatorname{cov}(\mathbf{f}_*) + R^{\top} (HK^{-1}_y H^{\top})^{-1} R
\end{align*} \tag{2.42}
 g ( X ∗  ) cov ( g ∗  )  = f ˉ ( X ∗  ) + R ⊤ β ˉ  = cov ( f ∗  ) + R ⊤ ( H K y − 1  H ⊤ ) − 1 R  ( 2.42 ) 
其中极限 β ˉ = ( H K y − 1 H ⊤ ) − 1 H K y − 1 y \bar{\boldsymbol{\beta}} = (H K^{-1}_y H^{\top})^{-1} H K^{-1}_y \mathbf{y} β ˉ  = ( H K y − 1  H ⊤ ) − 1 H K y − 1  y 
请注意,在极限 B − 1 → O B^{-1} \rightarrow O B − 1 → O 式(2.40) 中修改后的协方差函数插入标准预测方程来实现。因为协方差函数的元素趋于无穷大,不适合数值实现。相反,式 (2.42) 必须被使用。即使对非极限情况感兴趣,式 (2.41) 在数值上也优于 式(2.40) 的直接实现 ,由于全局线性部分往往会在协方差矩阵中加入一些非常大的特征值,因此会影响其条件数。
(3)边缘似然 
在这个简短的部分中,我们简要讨论 式(2.40) 中模型(均值函数的参数具有先验 β ∼ N ( b , B ) \boldsymbol{\beta} \sim \mathcal{N}(b, B) β ∼ N ( b , B ) 第 6.3.1 节。我们可以利用 式(2.30) 来表示边缘似然:
log  p ( y ∣ X , b , B ) = − 1 2 ( H ⊤ b − y ) ⊤ ( K y + H ⊤ B H ) − 1 ( H ⊤ b − y ) − 1 2 log  ∣ K y + H ⊤ B H ∣ − n 2 log  2 π (2.43) \log p(\mathbf{y}|X, \mathbf{b}, B) = − \frac{1}{2} (H^{\top} \mathbf{b} − \mathbf{y})^{\top} (K_y + H^{\top} B H)^{-1}(H^{\top} \mathbf{b} − \mathbf{y}) − \frac{1}{2} \log |K_y + H^{\top} B H| − \frac{n}{2} \log 2π \tag{2.43}
 log  p ( y ∣ X , b , B ) = − 2 1  ( H ⊤ b − y ) ⊤ ( K y  + H ⊤ B H ) − 1 ( H ⊤ b − y ) − 2 1  log  ∣ K y  + H ⊤ B H ∣ − 2 n  log  2 π ( 2.43 ) 
其中已经包含了显式的均值。我们感兴趣的是当 B − 1 → O B^{-1} \rightarrow O B − 1 → O 式(2.42)中的情况),因此在不失一般性的情况下(对于极限情况)我们假设均值为零( b = 0 \mathbf{b} = 0 b = 0 
log  p ( y ∣ X , b = 0 , B ) = − 1 2 y ⊤ K y − 1 y + 1 2 y ⊤ C y − 1 2 log  ∣ K y ∣ − 1 2 log  ∣ B ∣ − 1 2 log  ∣ A ∣ − n 2 log  2 π (2.44) \log p(\mathbf{y}|X, \mathbf{b = 0}, B) = − \frac{1}{2} \mathbf{y}^{\top} K^{-1}_y \mathbf{y} + \frac{1}{2} \mathbf{y}^{\top} C \mathbf{y} − \frac{1}{2} \log |K_y| −  \frac{1}{2} \log |B| − \frac{1}{2} \log |A| − \frac{n}{2} \log 2π \tag{2.44}
 log  p ( y ∣ X , b = 0 , B ) = − 2 1  y ⊤ K y − 1  y + 2 1  y ⊤ C y − 2 1  log  ∣ K y  ∣ − 2 1  log  ∣ B ∣ − 2 1  log  ∣ A ∣ − 2 n  log  2 π ( 2.44 ) 
其中 A = B − 1 + H K y − 1 H ⊤ A = B^{-1} + H K^{-1}_y H^{\top} A = B − 1 + H K y − 1  H ⊤ C = K y − 1 H ⊤ A − 1 H K y − 1 C = K^{-1}_y H^{\top} A^{-1} H K^{-1}_y C = K y − 1  H ⊤ A − 1 H K y − 1  式(A.9) 和 式 (A.10) 的矩阵求逆引理。
我们现在探索 β \boldsymbol{\beta} β H ⊤ H^{\top} H ⊤ y \mathbf{y} y log  2 π \log 2π log  2 π y \mathbf{y} y H ⊤ H^{\top} H ⊤ H ⊤ H^{\top} H ⊤ m m m 式 (2.44) 中的 − 1 2 log  ∣ B ∣ − m 2 log  2 π − \frac{1}{2} \log |B| − \frac{m}{2} \log 2π − 2 1  log  ∣ B ∣ − 2 m  log  2 π 
log  p ( y ∣ X ) = − 1 2 y ⊤ K y − 1 y + 1 2 y ⊤ C y − 1 2 log  ∣ K y ∣ − 1 2 log  ∣ A ∣ − n − m 2 log  2 π (2.45) \log p(\mathbf{y}|X) = -\frac{1}{2} \mathbf{y}^{\top} K^{-1}_y \mathbf{y} + \frac{1}{2} \mathbf{y}^{\top} C \mathbf{y} -\frac{1}{2} \log |K_y| -\frac{1}{2} \log |A| − \frac{n−m}{2} \log 2π  \tag{2.45}
 log  p ( y ∣ X ) = − 2 1  y ⊤ K y − 1  y + 2 1  y ⊤ C y − 2 1  log  ∣ K y  ∣ − 2 1  log  ∣ A ∣ − 2 n − m  log  2 π ( 2.45 ) 
其中 A = H K y − 1 H ⊤ A = H K^{-1}_y H^{\top} A = H K y − 1  H ⊤ C = K y − 1 H ⊤ A − 1 H K y − 1 C = K^{-1}_y H^{\top} A^{-1} H K^{-1}_y C = K y − 1  H ⊤ A − 1 H K y − 1  
2.8 历史及相关工作 
使用高斯过程进行预测当然不是最近的话题,尤其是对于时间序列分析;基本理论至少可以追溯到 1940 年代 Wiener [1949] 和 Kolmogorov [1941] 的工作。事实上,Lauritzen [1981] 讨论了丹麦天文学家 T. N. Thiele 从 1880 年开始的相关工作。
高斯过程预测在地统计学领域(参见 Matheron,1973 年;Journel 和 Huijbregts,1978 年)也广为人知,在那里它被称为克里金法,在气象学领域 [Thompson,1956 年,Daley,1991 年],尽管该文献自然主要关注二维和三维输入空间。Whittle [1963,section  5.4] 也建议使用这种方法进行空间预测。 Ripley [1981] 和 Cressie [1993] 对空间统计中的高斯过程预测提供了有用的概述。
逐渐意识到高斯过程预测可以用于一般的回归环境。例如,O’Hagan [1978] 提出了方程 2.23 和 2.24 中给出的一般理论,并将其应用于许多一维回归问题。Sacks 等 [1989] 在计算机实验的背景下描述 GPR(其中观测值 y y y 第 5 章)和实验设计(即选择提供有关 f f f x \mathbf{x} x 
Williams 和 Rasmussen [1996] 描述了机器学习中的高斯过程回归,并描述了协方差函数中参数的优化,另请参见 Rasmussen [1996]。如第 4.2.3 节和 Neal [1996] 中所述,他们受到与无限神经网络连接的启发而使用高斯过程。上述线性岭回归的 “核化” 也称为核岭回归,参见例如 Saunders 等 [1998]。