Pytorch学习记录-Seq2Seq模型对比

Pytorch学习记录-torchtext和Pytorch的实例4

0. PyTorch Seq2Seq项目介绍

在完成基本的torchtext之后，找到了这个教程，《基于Pytorch和torchtext来理解和实现seq2seq模型》。这个项目主要包括了6个子项目 1. ~~使用神经网路训练Seq2Seq~~ 2. ~~使用RNN encoder-decoder训练短语表示用于统计机器翻译~~ 3. ~~使用共同学习完成NMT的构建和翻译~~ 4. ~~打包填充序列、掩码和推理~~ 5. ~~卷积Seq2Seq~~ 6. ~~Transformer~~

结束Transformer之后隔了两天没有学习，这两天对几个模型进行对比和总结吧，在完成前三个模型的时候曾经写过一个总结，今天主要是看一下六个模型的变化以及实现。关键是实现，用了15天，但是模型实现部分只能看懂一般Seq2Seq……

7. 总结，从一般Seq2Seq到Transformer

六个模型都是Seq2Seq，都包含有Encoder和Decoder两部分，只是模型核心不同，并且在层与层或是Encoder与Decoder之间不断加新东西分别是：LSTM->多层GRU->Attention->PadMaskAttention->CNN->Transformer

1和2是一般Seq2Seq，分别使用了LSTM和它的变体GRU
3和4是对Attention的补充，增加了打包、填充、掩码
5是使用CNN
6是all-attention，什么高端的都给你用上

7.1 模型架构

Encoder
杂七杂八（attention、pad、mask...）
Decoder
Seq2Seq（整合）

7.2 模型1和2对比

这两个模型在Encoder部分没有太大区别，一个使用LSTM，一个使用GRU，输入内容包括输入的句子信息和上一层的隐藏层状态信息（LSTM还有一个单元状态信息）。
Decoder部分，都是基于同一层Encoder输出的上下文向量z、上一时刻时间节点的预测单词（或者是上一时刻时间节点的ground truth单词，由teaching force rate决定）和Decoder上一层隐藏层状态。