数值优化算法【4】-- Adam 方法

RMSProp 和 AdaDelta 均采用加权移动平均的方法，对二阶动量做了窗口限制，使得学习效率得到明显提升； AdaDelta 方法进一步对学习率的分子项做了自动累积计算，无需人工指定全局学习率超参数（实际情况表明， AdaDelta 容易陷入局部最优解的陷阱）。 Adam 算法则采用了另外一种思路，其没有将思路放在自动计算学习率上，而是考虑将一阶动量引入学习率的更新，使学习过程更优。

1、算法介绍

Adam 算法使用了一阶动量变量 $\boldsymbol{v}_t$ 和 RMSProp 算法中的二阶动量变量 $\boldsymbol{G}_t$ ，并在时间步0将其初值置为0。

给定超参数 $0 \leq \beta_1 < 1$ （算法作者建议设为 $0.9$ ），时间步 $t$ 的一阶动量变量 $\boldsymbol{v}_t$ 为梯度 $\boldsymbol{g}_t$ 与 $v_{t-1}$ 加权移动平均：

\boldsymbol{v}_t \leftarrow \beta_1 \boldsymbol{v}_{t-1} + (1 - \beta_1) \boldsymbol{g}_t

和 RMSProp 算法中一样，给定超参数 $0 \leq \beta_2 < 1$ （算法作者建议设为 0.999 ），
时间步 $t$ 的二阶动量 $G_t$ 为 $G_{t-1}$ 与 $\boldsymbol{g}_t \odot \boldsymbol{g}_t$ （梯度按元素平方）的加权移动平均：

\boldsymbol{G}_t \leftarrow \beta_2 \boldsymbol{G}_{t-1} + (1 - \beta_2) \boldsymbol{g}_t \odot \boldsymbol{g}_t

由于我们将 $\boldsymbol{v}_0$ 和 $\boldsymbol{G}_0$ 中的元素都初始化为 $0$ ，在时间步 $t$ 我们得到 $\boldsymbol{v}_t = (1-\beta_1) \sum_{i=1}^t \beta_1^{t-i} \boldsymbol{g}_i$ 。将过去各时间步 $g_t$ 的权值相加，得到 $(1-\beta_1) \sum_{i=1}^t \beta_1^{t-i} = 1 - \beta_1^t$ 。需要注意的是，当 $t$ 较小时，过去各时间步梯度权值之和会较小。例如，当 $\beta_1 = 0.9$ 时， $\boldsymbol{v}_1 = 0.1\boldsymbol{g}_1$ 。为了消除这样的影响，对于任意时间步 $t$ ，我们可以将 $\boldsymbol{v}_t$ 再除以 $1 - \beta_1^t$ ，从而使过去各时间步小批量随机梯度权值之和为1。这也叫作偏差修正。

在 Adam 算法中，对变量 $\boldsymbol{v}_t$ 和 $\boldsymbol{G}_t$ 均作偏差修正：

\begin{equation} \begin{aligned} \hat{\boldsymbol{v}}_t &\leftarrow \frac{\boldsymbol{v}_t}{1 - \beta_1^t}\\\\ \hat{\boldsymbol{G}}_t &\leftarrow \frac{\boldsymbol{G}_t}{1 - \beta_2^t} \end{aligned} \end{equation}

接下来， Adam 算法使用以上偏差修正后的变量 $\hat{\boldsymbol{v}}_t$ 和 $\hat{\boldsymbol{G}}_t$ ，将模型参数的梯度调整为：

\boldsymbol{g}_t' \leftarrow \frac{\eta }{\sqrt{\hat{\boldsymbol{G}}_t + \epsilon}}\hat{\boldsymbol{v}}_t

其中 $\eta$ 是学习率， $\epsilon$ 是为了维持数值稳定性而添加的常数，如 $10^{-8}$ 。和 AdaGrad 算法、 RMSProp 算法以及 AdaDelta 算法一样，目标函数自变量中每个元素都分别拥有自己的学习率。最后，使用 $\boldsymbol{g}_t'$ 迭代自变量：

\boldsymbol{\theta}_t \leftarrow \boldsymbol{\theta}_{t-1} - \boldsymbol{g}_t'.

Adam 中引入了一阶动量估计，同时相比于缺少修正因子导致二阶矩估计可能在训练初期具有很高偏置的 RMSProp ， Adam 包括了对一阶和二阶动量的偏置修正。

Adam 算法策略可以表示为：

\begin{equation} \begin{aligned} \boldsymbol{v}_t &= \beta_1 \boldsymbol{v}_{t-1} + (1 - \beta_1) \boldsymbol{g}_t\\\\ \boldsymbol{G}_t &= \beta_2 \boldsymbol{G}_{t-1} + (1 - \beta_2) \boldsymbol{g}_t \odot \boldsymbol{g}_t\\\\ \hat{\boldsymbol{v}}_t &= \frac{\boldsymbol{v}_t}{1 - \beta_1^t}\\\\ \hat{\boldsymbol{G}}_t &= \frac{\boldsymbol{G}_t}{1 - \beta_2^t}\\\\ \boldsymbol{g}_t' &= \frac{\eta }{\sqrt{\hat{\boldsymbol{G}}_t + \epsilon}}\hat{\boldsymbol{v}}_t\\\\ \boldsymbol{\theta}_t &= \boldsymbol{\theta}_{t-1} - \boldsymbol{g}_t'. \end{aligned} \end{equation}

其中， $G$ 和 $v$ 分别为二阶动量项和一阶动量项。 $\beta_1, \beta_2$ 为动力值大小，通常分别取0.9和0.999； $\hat{G}_t, \hat{v}_t$ 分别为各自的修正值。 $\theta_t$ 表示 $t$ 时刻即第 $t$ 次迭代模型的参数， $g_t%3D%CE%94J%28W_t%29)$ 表示 $t$ 次迭代中，代价函数 $J$ 关于 $\theta$ 的梯度； $\epsilon$ 是一个取值很小的数（一般为 $10^{-8}$ ）为了避免分母为0。