第 6 章贝叶斯学习

在前三章中，我们花费了大量的时间来分析宽神经网络集成的初始化。特别是，通过 $1/n$ 扩展和深度渐近分析，我们对架构、宽度、深度和初始化超参数之间的相互作用有了相当透彻的了解，这些超参数共同定义了预激活的有效分布。

在本研究中，我们更关注深度学习的 “深度”，而几乎忽略了“学习”。但这是一本深度学习的书，而不仅仅是一本有关 “深度” 的书。因此，在本章中，我们将开始学习 “学习”，并且将后续章节继续学习 “学习”。

我们将从讨论贝叶斯推断开始，因为它为思考一般学习提供了一个自然框架。我们将在 第 6.1 节 中给出概率的贝叶斯解释：根据假设不同，概率被重新解释为人们对世界的信念强度。我们将了解到贝叶斯推断的规则（实际上是扩展到概率推断中的逻辑规则）：选择一种逻辑一致的方式，将新观测到的信息整合到（代表我们假设的）概率模型中。

从 第 6.2 节 开始，我们将了解，为何这个简单而强大的框架能够分析并理解深度神经网络中的学习。

在 第 6.2.1 节 中，将详细介绍贝叶斯模型的拟合如何适用于神经网络。首先，我们将 有效预激活分布 解释为 先验分布，用于在观测任何数据之前编码我们对模型输出的 初始信念。以此为起点，贝叶斯推断规则暗示了一种学习算法：强化我们的信念以适应观测数据。推断结果（即后验分布）进一步可以让我们对没有观测过的新输入进行贝叶斯预测。这自然会引发对实现方法的讨论，因此我们会首先讨论近似方法，以便对基于梯度的学习方法给出贝叶斯解释，然后讨论一个精确推断方法。

在 第 6.2.2 节 中，我们将通过思考生命、宇宙和一切的终极问题来扩展我们的视野，那就是 贝叶斯模型比较（Bayesian model comparison）。我们将解释如何使用 贝叶斯证据 在不同的合理假设（根据 超参数 和 网络架构 的不同选择进行组织）之间做出选择，以便选出最好的假设。贝叶斯模型比较还为我们提供了一个处理 归纳偏好 的定量方法，这是深度学习模型中通常隐藏的假设。我们将进一步了解 奥卡姆剃刀 如何自动将模型比较纳入到贝叶斯推断规则中。有了这些工具，我们就可以真正开始解决本书开头提出的一个基本问题：“为什么有些神经网络模型表现如此出色，而另一些则失败了？”

在这些抽象讨论之后，分别在 第 6.3 节 和 第 6.4 节 中对无限和有限宽度神经网络进行了具体计算。

其中一些计算强化了前一章的主题。我们将首先展示 贝叶斯模型比较 更喜欢 临界的初始化超参数，这为 临界原则（principle of criticality） 提供了额外的证据（ 第 6.3.1 节）。我们还将说明有限宽度交互的另一个作用，那就是，相关扰动的累积会导致（面向神经关联的）归纳偏好，并导致 Hebbian 学习 的倾向，这是一种受生物神经元启发的学习原理（ 第 6.4.1 节）。

其中一些计算定性地对比了（通过精确贝叶斯学习训练的）无限宽模型和有限宽模型的不同特征。分析网络输出的后验分布，我们将看到：输出的不同组件之间的相关性，仅在有限宽度下是非零的（ 第 6.3.2 节 ⊥ 第6.4.2 节）。由此产生的表达式也将清楚地说明：为什么精确的贝叶斯学习对于任何合理大小的数据集都是不切实际的。接下来，分析隐藏层表示的后验分布，我们将看到表示学习在无限/有限宽下的缺失/存在（ 第 6.3.3 节 ⊥ 第 6.4.3 节）。总体而言，这种比较将为使用基于梯度的学习训练出的无限宽和有限宽模型提供有价值的蓝图（第 10 章 ⊥ 第 ∞ 章）。

第 6 章 贝叶斯学习

第 6 章贝叶斯学习