最近看到了好幾篇文章,都是把梯度下降變換成離散形式的(偽)微分方程或者是隨機微分方程,然後利用數學中相關的理論進行分析。這個思路很不錯。

知乎文章:

張俊:從動力學角度看隨機梯度下降:一些小啟示?

zhuanlan.zhihu.com
圖標
https://kexue.fm/archives/6234?

kexue.fm

從動力學角度看優化演算法(二):自適應學習率演算法 - 科學空間|Scientific Spaces從動力學角度看優化演算法(二):自適應學習率演算法 - 科學空間|Scientific Spaces?

kexue.fm

(偽)論文:

http://jmlr.org/papers/volume17/15-084/15-084.pdf?

jmlr.org

知乎神童的綜述:

http://about.2prime.cn/DOPT.pdf?

about.2prime.cn

漸進分析:

https://arxiv.org/pdf/1711.09514.pdf?

arxiv.org


推薦閱讀:

相关文章