也谈深度学习中的一阶优化演算法

深度学习有一个melody：model, evaluation, loss, optimization, and dataset. 它们相互交织，每个部分都对最终的performance有一定影响。所以其实脱离了melody单独谈optimization是耍流氓行为。实际应用中肯定是要结合具体的task(dataset)和model architecture等来选择优化演算法的。但优化演算法要不要单独研究呢？我觉得还是有一定必要的。一方面是速度上，好的优化演算法是真的快（比如FISTA，或是各种分散式的演算法）；另一方面，人们也的确想来理解不同的演算法区别到底在哪里，以及怎么来选择。

本文是基于一些实践以及相关的论文而谈的。很多见解也被放在了我们的一篇论文里：

Nostalgic Adam: Weighting more of the past gradients when designing adaptive learning rate 。欢迎大家阅读、批评、引用！

引言深度学习优化演算法总览

深度学习中的优化演算法常用的主要有两种，基于梯度的和不基于梯度的。我个人觉得不基于梯度的演算法现在还不是很成熟。基于梯度的肯定都是一阶梯度，因为二阶梯度的话是存不下那么大的Hessian矩阵的。一阶梯度演算法可以被概括为如下表达式： $x_{t+1} = x_t - frac{alpha_t}{psi(g_1, ..., g_t)}phi(g_1, ..., g_t),$ 其中可以看作对gradient的一个估计。最为简单的形式就是SGD: $x_{t+1} = x_t - alpha_t g_t,$ 以及目前可能是最常用的momentum形式： $x_{t+1} = x_t - alpha_t m_t, m_t = eta_1 m_{t-1} + (1-eta_1)g_t.$ 这类演算法其实已经讨论的非常多了，乃至对应的dynamics都已经分析清楚了，见下面这篇Weijie Su的经典论文：

A Differential Equation for Modeling Nesterovs Accelerated Gradient Method: Theory and Insights?

arxiv.org

Nesterov, momentum，加上SGD，这可以算作一类演算法。

另一类演算法是所谓的adaptive演算法，最早是2012年AdaGrad被提出，后来Adam的「又快又好」让这类演算法大行其道。不过近年来又因其在一些task上的generalization performance不如SGD类演算法而被诟病。在上面的框架下，Adam的演算法可以被写作 $x_{t+1} = x_t - frac{alpha_t}{v_t^{1/2}} m_t, \ m_t = eta_1 m_{t-1} + (1-eta_1)g_t, \ v_t = eta_2 v_{t-1} + (1-eta_2)g_t^2.$

同时，因为Adam类演算法构造的有一些「违反直觉」，很多人都不是特别理解这个演算法的本质（实际上是不理解的含义）。这类演算法的理论研究比较少。我之后主要谈的是这类演算法。

近年来关于Adam类演算法的研究

Non-convergence Issue. 这方面最重要的工作就是18年ICLR的best paper: On the Convergence of Adam and Beyond. 他们对Adam的证明进行了分析，发现了两个bugs，其中比较致命的bug是的估计，Adam的会导致这一项不恒正： $Gamma_t = frac{sqrt{V_{t+1}}}{alpha_{t+1}} - frac{sqrt{V_t}}{alpha_t}$ ，他们还找出了一个例子让Adam不收敛。解决方案是用 $hat{v}_t = max(v_t, hat{v}_{t-1})$ 来在的更新式中代替，这个演算法叫做AMSGrad。作者认为这样可以让演算法拥有"long-term" memory。（我后面会说实际上并没有）

这篇文章是很有启发性的，之后有好多篇文章是基于这篇文章又给出了一些改进的Adam variants. 比如有一篇叫AdaShift，作者从AMSGrad一文中的那个反例出发进行分析，获得了一个新演算法。但实际上这个反例是非常artificial的，最不自然的就是repetitive gradients，即梯度是周期性反复出现的，这在实际情况中是不可能出现的。另一个比较有意思的工作是AdaBound，我之前已经有过一些讨论了：

如何评价优化演算法 AdaBound??

www.zhihu.com