台湾 || 语言: 大陆简体港澳繁體台灣正體

【AI初識境】為了圍剿SGD大家這些年想過的那十幾招(從momentum到Adabound)

雪花台灣 2019-03-14 09:58

這是《AI初識境》第7篇，這次我們說說常用的優化演算法。所謂初識，就是對相關技術有基本了解，掌握了基本的使用方法。

深度學習框架目前基本上都是使用一階的梯度下降演算法及其變種進行優化，在此基礎上也發展出了很多的改進演算法。另外，近年來二階的優化演算法也開始慢慢被研究起來。

今天就來說說神經網路的優化相關的內容。

作者&編輯 | 言有三

1 優化簡述

深度學習模型的優化是一個非凸優化問題，這是與凸優化問題對應的。

對於凸優化來說，任何局部最優解即為全局最優解。用貪婪演算法或梯度下降法都能收斂到全局最優解，損失曲面如下。

相关文章