Pytorch學習記錄-Seq2Seq模型對比

Pytorch學習記錄-torchtext和Pytorch的實例4

0. PyTorch Seq2Seq項目介紹

在完成基本的torchtext之後，找到了這個教程，《基於Pytorch和torchtext來理解和實現seq2seq模型》。這個項目主要包括了6個子項目 1. ~~使用神經網路訓練Seq2Seq~~ 2. ~~使用RNN encoder-decoder訓練短語表示用於統計機器翻譯~~ 3. ~~使用共同學習完成NMT的構建和翻譯~~ 4. ~~打包填充序列、掩碼和推理~~ 5. ~~卷積Seq2Seq~~ 6. ~~Transformer~~

結束Transformer之後隔了兩天沒有學習，這兩天對幾個模型進行對比和總結吧，在完成前三個模型的時候曾經寫過一個總結，今天主要是看一下六個模型的變化以及實現。關鍵是實現，用了15天，但是模型實現部分只能看懂一般Seq2Seq……

7. 總結，從一般Seq2Seq到Transformer

六個模型都是Seq2Seq，都包含有Encoder和Decoder兩部分，只是模型核心不同，並且在層與層或是Encoder與Decoder之間不斷加新東西分別是：LSTM->多層GRU->Attention->PadMaskAttention->CNN->Transformer

1和2是一般Seq2Seq，分別使用了LSTM和它的變體GRU
3和4是對Attention的補充，增加了打包、填充、掩碼
5是使用CNN
6是all-attention，什麼高端的都給你用上

7.1 模型架構

Encoder
雜七雜八（attention、pad、mask...）
Decoder
Seq2Seq（整合）

7.2 模型1和2對比

這兩個模型在Encoder部分沒有太大區別，一個使用LSTM，一個使用GRU，輸入內容包括輸入的句子信息和上一層的隱藏層狀態信息（LSTM還有一個單元狀態信息）。
Decoder部分，都是基於同一層Encoder輸出的上下文向量z、上一時刻時間節點的預測單詞（或者是上一時刻時間節點的ground truth單詞，由teaching force rate決定）和Decoder上一層隱藏層狀態。