台湾 || 语言: 大陆简体港澳繁體台灣正體

模型優化之Weight Normalization

雪花臺灣 2019-03-10 17:52

前言

之前介紹的BN[2]和LN[3]都是在數據的層面上做的歸一化，而這篇文章介紹的Weight Normalization（WN)是在權值的維度上做的歸一化。WN的做法是將權值向量在其歐氏範數和其方向上解耦成了參數向量和參數標量後使用SGD分別優化這兩個參數。

WN也是和樣本量無關的，所以可以應用在batchsize較小以及RNN等動態網路中；另外BN使用的基於mini-batch的歸一化統計量代替全局統計量，相當於在梯度計算中引入了雜訊。而WN則沒有這個問題，所以在生成模型，強化學習等雜訊敏感的環境中WN的效果也要優於BN。

WN沒有一如額外參數，這樣更節約顯存。同時WN的計算效率也要優於要計算歸一化統計量的BN。

1. WN詳解

1.1 WN的計算

神經網路的一個節點計算可以表示為：

其中是一個 -維的特徵向量，是該神經節點的輸出，所以是一個標量。在得到損失值後，我們會根據損失函數的值使用SGD等優化策略更新和。WN提出的歸一化策略是將分解為一個參數向量和一個參數標量，分解方法為

$mathbf{w} = frac{g}{||mathbf{v}||} mathbf{v} ag2$

上式中表示的歐氏範數。當且時，WN還原為普通的計算方法，所以WN的網路容量是要大於普通神經網路的。

圖1：權值向量的分解可視化

圖1：權值向量的分解可視化

相關文章