数值优化算法【4】-- Adam 方法
数值优化算法【4】-- Adam 方法
RMSProp 和 AdaDelta 均采用加权移动平均的方法,对二阶动量做了窗口限制,使得学习效率得到明显提升; AdaDelta 方法进一步对学习率的分子项做了自动累积计算,无需人工指定全局学习率超参数(实际情况表明, AdaDelta 容易陷入局部最优解的陷阱)。 Adam 算法则采用了另外一种思路,其没有将思路放在自动计算学习率上,而是考虑将一阶动量引入学习率的更新,使学习过程更优。
1、 算法介绍
Adam 算法使用了一阶动量变量 vt\boldsymbol{v}_tvt 和 RMSProp 算法中的二阶动量变量 Gt\boldsymbol{G}_tGt ,并在时间步0将其初值置为0。
给定超参数 0≤β1<10 \leq \beta_1 < 10≤β1<1 (算法作者建议设为 0.90.90.9 ),时间步 ttt 的一阶动量变量 vt\boldsymbol{v}_tvt 为梯度 gt\boldsymbol{g}_tgt 与 vt−1v_{t-1}vt−1 加权移动平均:
vt←β ...