数值优化算法【4】-- Adam 方法
数值优化算法【4】– Adam 方法 RMSProp 和 AdaDelta 均采用加权移动平均的方法,对二阶动量做了窗口限制,使得学习效率得到明显提升; AdaDelta 方法进一步对学习率的分子项做了自动累积计算,无需人工指定全局学习率超参数(实际情况表明, AdaDelta 容易陷入局部最优解的陷阱)。 Adam 算法则采用了另外一种思路,其没有将思路放在自动计算学习率上,而是考虑将一阶动量引入学习率的更新,使学习过程更优。 1、 算法介绍 Adam 算法使用了一阶动量变量 $\boldsymbol{v}_t$ 和 RMSProp 算法中的二阶动量变量 $\boldsymbol{G}_t$ ,并在时间步0将其初值置为0。 给定超参数 $0 \leq \beta_1 < 1$ (算法作者建议设为 $0.9$ ),时间步 $t$ 的一阶动量变量 $\boldsymbol{v}_t$ 为梯度 $\boldsymbol{g}t$ 与 $v{t-1}$ 加权移动平均:$$\boldsymbol{v}t \leftarrow \beta_1...