深度學習第19講：CNN經典論文研讀之殘差網路ResNet及其keras實現

在 VGG 網路論文研讀中，我們瞭解到卷積神經網路也可以進行到很深層，VGG16 和 VGG19 就是證明。但卷積網路變得更深呢？當然是可以的。深度神經網路能夠從提取圖像各個層級的特徵，使得圖像識別的準確率越來越高。但在2014年和15年那會兒，將卷積網路變深且取得不錯的訓練效果並不是一件容易的事。

深度卷積網路一開始面臨的最主要的問題是梯度消失和梯度爆炸。那什麼是梯度消失和梯度爆炸呢？所謂梯度消失，就是在深層神經網路的訓練過程中，計算得到的梯度越來越小，使得權值得不到更新的情形，這樣演算法也就失效了。而梯度爆炸則是相反的情況，是指在神經網路訓練過程中梯度變得越來越大，權值得到瘋狂更新的情形，這樣演算法得不到收斂，模型也就失效了。當然，其間通過設置 relu 和歸一化激活函數層等手段使得我們很好的解決這些問題。但當我們將網路層數加到更深時卻發現訓練的準確率在逐漸降低。這種並不是由過擬合造成的神經網路訓練數據識別準確率降低的現象我們稱之為退化（degradation）。