1 关于高斯过程的基本原理

1.1 连续型随机变量(只讨论高斯分布)

  • 参见 Rasmussen 等 2006 年经典书籍《机器学习中的高斯过程》节选第二章 《高斯过程回归》
  • 参见 Gal Yarlin 2017 年的 高斯过程精简版教程。 此文对高斯过程进行公式推导、原理阐述、可视化以及代码实现,介绍了以高斯过程为基础的高斯过程回归基本原理、超参优化、高维输入等问题。此文可以与上一篇文章相互参考,大部分内容具有雷同。需要注意的是,Gal Yarlin 是神经网络不确定性量化方法 MC Dropout 的提出者。
  • 参见 Wang 2020 年的 高斯过程回归初步教程。高斯过程回归模型因其表达方式的灵活性和内涵的不确定性预测能力而广泛用于机器学习应用中。此文解释了构建高斯过程的基本概念,包括多元正态分布、核、非参数模型、联合和条件概率等。然后,简明描述了高斯过程回归以及标准高斯过程回归算法的实现。除了标准高斯过程回归,此文还回顾了目前最先进的高斯过程算法软件包。

1.2 离散型随机变量

  • 类别型随机变量 (Categorical Random Variable):参见 Rasmussen 等 2006 年经典书籍《机器学习中的高斯过程》节选第三章 《高斯过程分类》 (可以视为非高斯似然的一类,并非本人关心要点,因此暂无中文稿)
  • 计数型随机变量(Count Random Variable):暂无。
  • 排序型随机变量(Ordinal Random Variable):暂无。

2 关于协方差(核)函数

2.1 经典核函数

协方差函数是高斯过程的重要组成部分,有必要了解常见协方差函数及其特点:

2.2 核学习与核构建

除了上述被充分研究的通用协方差函数之外,人们对于如何 “自动学习” 或者 “自动构造” 协方差函数也非常感兴趣,前者被称为 核学习( Kernel learning ),通过数据驱动的方式,学习或优化核函数的形式或参数,以提高模型的性能(如分类、回归、聚类等);后者被称为 核构建( Kernel Construction ),重点是根据领域知识或数据特性,设计或构造核函数的形式,使其能够捕获数据的特性。

  • 核学习的主要方法
    • 参数优化:通过最大似然估计(MLE)、梯度下降或贝叶斯优化等方法,优化核函数的超参数(如RBF核的长度尺度、方差等)。参见 Rasmussen 等 2006 年经典书籍《机器学习中的高斯过程》节选第五章高斯过程模型选择与自适应超参数
    • 核函数选择:从一组预定义的核函数中选择最适合数据的核函数。
    • 多核学习:通过组合多个核函数(如线性核、RBF核、周期核等)来构建更复杂的核函数,参见多核学习算法
    • 与深度学习结合:通过神经网络学习数据的表示,并基于此构建核函数(如深度核学习)。
  • 核构建的主要方法
    • 基于领域知识:根据对数据的理解,设计特定的核函数(如周期核用于周期性数据,图核用于图结构数据)。
    • 核函数组合:通过数学操作(如加法、乘法、卷积等)组合简单的核函数,构建复杂的核函数。典型代表是剑桥大学 Zoubin Ghahramani 团队提出的 “自动统计学家(Automatic Statistician)” 概念。该方法力图在四种通用核基础上,通过相加、相乘等组合来构造一个庞大的核结构空间,然后设计一种搜索过程来发现和找到数据中的结构模式,并用其指导核函数设计:
    • 谱方法:基于数据的频谱特性设计核函数(如用于模式发现和外推的高斯过程核)。

3 关于高斯过程的推断

高斯过程方法的本质是根据观测数据推断出高斯过程后验,然后使用高斯过程后验实现测试点的值预测和不确定性量化。因此,如果假设协方差函数的结构形式已经被指定,则通过高斯过程推断获得协方差函数的超参数是整个方法的关键:

4 关于高斯过程的可扩展性

5 高斯过程与其他模型的关系

  • Rasmussen 等 2006 年经典书籍《机器学习中的高斯过程》节选第六章 《高斯过程与其他模型的关系》。讲解了高斯过程与再生核 Hilbert 空间、正则化、支持向量机、样条、最小二乘分类等模型方法之间的关系。

6 可用软件包