一、知识要点

1.1 贝叶斯思维与工作流

推荐的几本基础入门书籍:

1.2 主要的贝叶斯推断方法

(1) 关于基础的推断方法

普渡大学机器人视觉实验室的自编教程: 普渡大学的一篇入门教程,清晰地从贝叶斯定理出发,阐明了最大似然估计、最大后验估计、贝叶斯估计三者之间的关系,值得仔细品读。

(2)关于似然函数

Reid 等 2010 年 《似然与基于似然的推断》 : 全面地对似然函数以及基于似然的推断方法进行了综述。由于似然函数时贝叶斯方法中的重要组成部分,因此掌握这方面的知识是必要的。文中提到了似然函数及其派生量、最大似然估计及其渐进性质、剖面最大似然估计、受限最大似然估计、贝叶斯估计等方法,并给出了偏似然、伪似然、组合似然、准似然、经验似然等似然函数的常用变体。另外可参考 《似然及其在参数估计和模型比较中的引用》

Martin 等 2022 年的 《近似贝叶斯计算简明教程》 :当似然函数无法解析建模时,只能以某种方式对似然进行近似。近似贝叶斯计算就是解决此类问题的一类方法,通过设计一个可参数化的函数来近似复杂的真实似然,进而使贝叶斯推断可以继续进行。本文节选自 Martin《Python 中的贝叶斯建模和计算》一书的第八章。

(3)关于先验

涉及共轭先验、无信息先验等内容,待整理。

(4)后验推断

精确推断,待整理。

Blei 的 《主要的贝叶斯近似推断方法》 :根据贝叶斯领域大师 Blei 关于贝叶斯推断方法的讲座整理,主要涉及蒙特卡罗方法和变分推断方法,是一篇入门贝叶斯推断方法的好资料。

各种蒙特卡罗方法的具体介绍参见 《蒙特卡洛推断方法索引贴》:涉及基础采样、MCMC、HMC、NUTS、SMC、SGMCMC 等重要方法。

各种变分推断方法的具体介绍参见 《变分推断方法索引贴》: 涉及平均场变分推断、随机变分推断、黑盒变分推断、自动变分推断等里程碑方法,另外 Zhang 2018 年的 Advances in Variational Inference 介绍了变分推断的核心思想,并概述了迄今为止最主要的变分推断方法,是不可多得的好综述。

1.3 基于概率图的表示、推断与学习

概率图模型是利用图形化方式表达、学习和推断概率模型的优雅手段,是掌握贝叶斯方法的基本技能。

对于概率图模型比较陌生的同学,可以阅读人门帖 《概率图模型概览》

进一步学习,可参考 CMU 10-708 SlidesStanford’s CS228 课程。

主要参考书籍包括:

  • Koller, Daphne. Probabilistic Graphical Models : Principles and Techniques. Cambridge, Massachusetts: The MIT Press, 2009.
  • Jordan, Michael Irwin, ed. Learning in Graphical Models. Adaptive Computation and Machine Learning. Cambridge, Mass: MIT Press, 1999.

1.4 常见模型的贝叶斯建模与推断

常见模型的概率图表示、推断及学习,内容较多待整理。

1.5 贝叶斯优化问题

为各类机器学习模型 寻找最佳超参数 本身是一种优化问题,与传统优化针对目标函数做出一些假设不同,在超参数调整过程中训练模型的代价可能非常高,而且如果某些超参数是离散型的,也不存在传统优化中的梯度概念,更困难的是,从超参数到性能的映射可能高度复杂且多峰的,局部的优化可能并不会产生可接受的结果。从目前来看,解决此类问题的主要方法是贝叶斯优化方法。

暂时对此主题探讨不够深入,请参考 《贝叶斯优化》 一书的 《引言》章节

1.6 概率模型与神经网络的结合

(1)神经网络的不确定性量化

回归与分类任务中中的不确定性量化,参见 Gawlikowski 等 2021 年的 《深度神经网络中的不确定性综述文章》 : 该文全面概述了神经网络中的不确定性估计,回顾了该领域的最新进展。论文首先对不确定性来源这一关键因素进行了全面介绍,并将其分为(可还原的) 模型不确定性 和(不可还原的) 数据不确定性 。介绍了基于单一确定性神经网络贝叶斯神经网络神经网络集成测试时数据增强 四种不确定性的建模方法,讨论了这些领域的不同分支及最新发展。在实际应用方面,我们讨论了各种不确定性的度量和校准方法,并评述了现有基线和可用成果。

(2) 神经网络实现高斯过程

  • Garnelo2018 年的 《条件神经过程》。首次提出了条件神经过程和神经过程的概念,采用元学习实现了深度学习灵活性和概率模型不确定性的结合,算是用神经网络实现随机过程的最早尝试。该方法的问题在于无法为相同的背景点生成不同的函数样本,即缺少不确定性建模能力。

  • Garnelo2018 年的 《神经过程》,另参见 Kaspar 2018 年的一个博文。为了提升不确定性建模能力,在条件神经过程基础上增加了一个类似于 VAE 瓶颈的隐变量 $z$,$z$ 的每一个随机样本都对应于随机过程的一个具体实现,这样就可以通过多个样本在解码器网络中的前向传递,生成目标处的预测分布。作者将整个模型命名为神经过程。该方法的问题在于单个预测输出虽然包含了不确定性(即测试点处的边缘分布),但不同点处的输出之间相互独立,无法对输出的相关性建模,这从某种程度上来说,失去了随机过程的优势。

  • Kim 等 2019 年提出的 《注意力神经过程》 : 为了实现对输出相关性建模,在神经过程中引入注意力机制。

  • Bruinsma 等 2021 年的 《高斯神经过程》 : 采用函数 $KL$ 散度作为训练的代价函数,同时为了解决输出相关性建模问题,引入了一个用于学习核函数的神经网络,并将其与神经过程网络的结合体称为高斯神经过程。

  • Markou 等 2021 年的 《高效的高斯神经过程回归》: 认为 Bruinsma 的高斯神经过程方法采用的 CNN 神经网络( 本文作者称为为 FullConvGP)会限制输入的维度($D = 1$ ),因此提出了对原始高斯神经过程方法的改进,并将新模型称为卷积高斯神经过程(ConvGP)。

  • Dutordoir 等 2022 年的 《神经扩散过程》:将扩散模型引入神经过程,

  • Nguyen 等 2022 年的 《transformer 神经过程》: transformer 神经过程。

  • Bruinsma 等 2023 年的 《自回归条件神经过程》 : 还是为了提升相关性预测能力,但自回归条件神经过程并不对模型或训练过程进行任何修改,而是像 MCDropout、神经自回归密度估计器 (NADE) 等一样,改变了 CNP 在测试阶段的部署方式,使用概率链式法则来自回归地定义联合预测分布,而不是对每个目标点独立进行预测。

(3) 高斯过程模拟和解释神经网络

  • Neal 等 1994 年《无线宽神经网络的先验》: 单隐层无限宽神经网络等效于高斯过程。

  • Williams 等 1997 年 [《Computing with infinite networks》]: 计算出了单隐层神经网络的解析高斯过程核,并给出了使用高斯过程先验进行回归的精确贝叶斯推断方法。

  • Hazan 等 2015 年的《Steps toward deep kernel methods from infinite neural networks》:讨论了无限宽深度神经网络的等效核构建问题,但只限于两个非线性隐藏层。

  • Daniely 等 2016 年的《Toward deeper understanding of neural networks: The power of initialization and a dual view on expressivity》: 将组合核方法扩展到神经网络,利用有向无环图构造了神经网络的 “具有相同非线性全连接拓扑的组合核”。

  • Lee 等 2017 年的 《神经网络高斯过程》: 论证分析了深度的无线宽神经网络等效于高斯过程。

  • Matthews 等 2018 年的 《宽深度神经网络的高斯过程表现》 :

  • Jacot 等 2018 年的 《神经切线核》:剖析了神经网络训练期间的动态特性,并认为其训练动力学可以被视为一种神经正切核机制, 入门参见 Rajatvd 2019 年的 《神经正切核入门》, Novak 2019 年的 《神经切线核之 Python 实现》

  • Domingos 等 2020 年的 《梯度下降学得的模型都近似于一个核机》:在神经正切核基础上,提出了路径核的概念,并认为所有通过梯度下降学得的模型,都可以被视为一种核机器。

  • Li 等 2022 年的 《神经网络的高斯过程代理模型》 。将深度学习网络视为为内部过程不透明的复杂系统,用易于解释的高斯过程取代(或模仿)复杂神经网络系统的行为,这种高斯过程代理模型能够从神经网络的自然行为中凭经验学习高斯过程的核,这与 Lee 、Matthews Domingos 等从神经网络的极限情况下推导核具有显著不同。

(4)生成式神经网络

所有的生成模型几乎都与学习数据分布以及采样有关,也是概率模型与神经网络产出最多的领域。

二、知识体系的构建

贝叶斯统计方法以贝叶斯规则指导,已经基本形成了以概率图为形式化工具的一套相对完整的知识体系。贝叶斯新手建议由浅入深得学习。个人建议分为三个层次:

入门层次


中级层次

  • 愿 景:熟练掌握概率图模型,并利用概率图模型进行建模、学习和推断。
  • 目 标:
    • 理解什么是概率图模型
    • 掌握贝叶斯网络、马尔可夫随机场两种表示方法
    • 掌握变量消除、消息传递等概率图推断的传统方法
    • 掌握 MCMC、变分推断等近似推断基本原理和方法
    • 掌握完全可观测模型、部分可观测模型的学习原理和方法
    • 掌握高斯过程、狄利克雷过程等非参数模型的概率图方法
    • 掌握因子分析、主组分分析、隐马尔可夫、状态空间等常用的概率图模型
  • 书 籍:
    • Koller, D. (2009). Probabilistic graphical models: Principles and techniques. The MIT Press.
    • Michael I. Jordan, An Introduction to Probabilistic Graphical Models
  • 教 程:
  • Erik Sudderth et al. California Univ. CS274B-Learning in Graphical Models
  • Eric P.Xing et al. CMU. 10-708-Probabilistic Graphical Models , 课程的 Lecture 和 Notes 都非常全,其中高级主题部分可以纳入下一个层次

高级层级

  • 愿 景:掌握概率图和神经网络的结合和应用方法。
  • 目 标:
    • 熟练使用概率图和计算图建立概率神经网络模型