之前介紹的BN[2]和LN[3]都是在數據的層面上做的歸一化,而這篇文章介紹的Weight Normalization(WN)是在權值的維度上做的歸一化。WN的做法是將權值向量 在其歐氏範數和其方向上解耦成了參數向量 和參數標量 後使用SGD分別優化這兩個參數。
WN也是和樣本量無關的,所以可以應用在batchsize較小以及RNN等動態網路中;另外BN使用的基於mini-batch的歸一化統計量代替全局統計量,相當於在梯度計算中引入了雜訊。而WN則沒有這個問題,所以在生成模型,強化學習等雜訊敏感的環境中WN的效果也要優於BN。