台湾 || 语言: 大陆简体港澳繁體台灣正體

梯度下降的各種變形momentum,adagrad,rmsprop,adam分別解決了什麼問題

雪花臺灣 2019-07-01 09:37

Momentum

Momentum的公式表達

設時間步t的自變數為 $oldsymbol{ heta}_t$ ，學習率為。在時刻，速度變數 $oldsymbol{v}_0=0$ ，在時間步，Momentum關於速度變數 $oldsymbol{v}_t$ 和自變數 $oldsymbol{ heta}_t$ ?的迭代方式為：

$egin{aligned} oldsymbol{v}_t &leftarrow gamma oldsymbol{v}_{t-1} + eta_t oldsymbol{g}_tend{aligned}$

$egin{aligned}oldsymbol{ heta}_t &leftarrow oldsymbol{ heta}_{t-1} - oldsymbol{v}_t end{aligned}$

其中為超參數，滿足。

從上面的式子我們可以看出

速度變數 $oldsymbol{v}_t$ 作用等價於梯度
速度變數 $oldsymbol{v}_t$ 的大小與上一個時刻的速度變數 $oldsymbol{v}_{t-1}$ 和學習率有關，且越大， $oldsymbol{v}_{t-1}$ 的作用越大。
由於 $oldsymbol{v}_{t-1} + eta_t oldsymbol{g}_t=gamma (gamma oldsymbol{v}_{t-2} + eta_t oldsymbol{g}_{t-1})+ eta_t oldsymbol{g}_t=.....$ ，歷史的速度變數都將影響當前速度變數的大小，且越近影響越大，相當於歷史速度變數的加權平均，越近權重越大。

Momentum可以解決什麼問題？

1.跳出局部最優點

圖片來源於李宏毅老師的課程

圖片來源於李宏毅老師的課程

相關文章