台湾 || 语言: 大陆简体港澳繁體台灣正體

Layer初始化面面观——浅析Tensorflow与PyTorch实现异同

雪花台湾 2019-07-20 07:50

聊起初始化，大家应该都了解大名鼎鼎的Glorot初始化（也叫Xavier初始化），Kaiming初始化（也叫He初始化）。

0. 起因

之前调了一个模型，原作者是使用Tensorflow实现的，我在复现过程中使用了PyTorch，虽然已经尽可能注意二者的差异，但是效果始终差那么点。后来想到，或许是因为二者层初始化不同所导致的（虽然最终证明不是……），在这个过程中，总结了一点有意义的内容，这里和大家分享。

1. PyTorch初始化方法

首先我们来看一下PyTorch中初始化的方法，此处我们只关心平时最常使用到的3类操作：Linear，Conv，以及RNN。

1.1. Linear层初始化

假设一个全连接层，输入channel $C_ extrm{in}$ ，输出channel $C_ extrm{out}$ ，那么它的weight的shape应该是 $(C_ extrm{out}, C_ extrm{in})$ ，而它的bias的shape，则应该为： $(C_ extrm{out},)$ 。

根据PyTorch--Linear文档，Linear层的weight被初始化为：，bias也被初始化为：。其中： $k=frac{1}{C_ extrm{in}}$ 。

C_ extrm{in}

相关文章