Momentum
Momentum的公式表達
設時間步t的自變數為 ,學習率為 。在 時刻,速度變數 ,在時間步 ,Momentum關於速度變數 和自變數 ?的迭代方式為:
其中 為超參數,滿足 。
從上面的式子我們可以看出
- 速度變數 作用等價於梯度
- 速度變數 的大小與上一個時刻的速度變數 和學習率 有關,且 越大, 的作用越大。
- 由於 ,歷史的速度變數都將影響當前速度變數的大小,且越近影響越大,相當於歷史速度變數的加權平均,越近權重越大。
Momentum可以解決什麼問題?
1.跳出局部最優點