能量模型概览

【摘要】

【原文】 Murphy, Kevin P. Chapter 24 of Probabilistic Machine Learning: Advanced Topics. MIT Press, 2023. probml.ai.

【参考】

1 概述

变分自编码器、自回归模型和归一化流等深度生成模型，都可以用有向图模型来表述，在这些模型中，使用局部归一化的分布一步一步生成数据。但在某些情况下，根据有效样本必须满足的一组约束来指定分布，可能比定义数据生成过程更容易。这可以使用无向图形模型来完成。

基于能量的模型（ Eneragy-based Models, EBM ）可以被写成 Gibbs 分布，如下所示：

p_{\boldsymbol{\theta}}(\mathbf{x}) = \frac{\exp(- \mathcal{E}_{\boldsymbol{\theta}}(\mathbf{x}))}{Z_{\boldsymbol{\theta}}}

其中 $\mathcal{E}_{\boldsymbol{\theta}}(\mathbf{x}) ≥ 0$ 被称为能量函数， $\boldsymbol{\theta}$ 为参数， $Z_{\boldsymbol{\theta}}$ 为 配分函数：

Z_{\boldsymbol{\theta}} = \int \exp(- \mathcal{E}_{\boldsymbol{\theta}}(\mathbf{x})) d \mathbf{x}

配分函数相对于 $\mathbf{x}$ 恒定，但却是 $\boldsymbol{\theta}$ 的函数。由于 EBM 通常不做任何马尔可夫假设（与概率图模型不同），因此评估此积分非常棘手。因此，通常需要使用近似方法，例如退火重要性采样。

与其他生成模型相比，EBM 的优势在于：能量函数可以是任何能够返回非负标量的函数，而且不需要积分到 $1$ ，这让人们可以使用各种神经网络架构来定义能量。因此，EBM 在机器学习的许多领域都有了广泛应用，包括图像生成，判别学习，自然语言处理，密度估计和强化学习等。

两个能量函数的叠加

图 1：通过求和组合 2d 中的两个能量函数，相当于将相应的概率密度相乘。

图中还展示了一些朝向高概率（低能量）区域的采样轨迹。来自 [DM19a] 的图 14。

###1.2 计算困难