台湾 || 语言: 大陆简体港澳繁體台灣正體

Layer初始化面面觀——淺析Tensorflow與PyTorch實現異同

雪花臺灣 2019-07-20 07:50

聊起初始化，大家應該都瞭解大名鼎鼎的Glorot初始化（也叫Xavier初始化），Kaiming初始化（也叫He初始化）。

0. 起因

之前調了一個模型，原作者是使用Tensorflow實現的，我在復現過程中使用了PyTorch，雖然已經儘可能注意二者的差異，但是效果始終差那麼點。後來想到，或許是因為二者層初始化不同所導致的（雖然最終證明不是……），在這個過程中，總結了一點有意義的內容，這裡和大家分享。

1. PyTorch初始化方法

首先我們來看一下PyTorch中初始化的方法，此處我們只關心平時最常使用到的3類操作：Linear，Conv，以及RNN。

1.1. Linear層初始化

假設一個全連接層，輸入channel $C_ extrm{in}$ ，輸出channel $C_ extrm{out}$ ，那麼它的weight的shape應該是 $(C_ extrm{out}, C_ extrm{in})$ ，而它的bias的shape，則應該為： $(C_ extrm{out},)$ 。

根據PyTorch--Linear文檔，Linear層的weight被初始化為：，bias也被初始化為：。其中： $k=frac{1}{C_ extrm{in}}$ 。

C_ extrm{in}

相關文章