【NLP】文本生成MASS粗讀

距離上篇文章又一個月了。。。時光飛逝。。。再次立下一周一篇的flag

最近讀了一篇專欄文章BERT時代與後時代的NLP，收穫頗豐。算是作者的同行，最近也在做類似的東西，但是作者都給總結了起來，讓我又重新串了一遍那些思想，查漏補缺。另外最近沒怎麼追蹤前沿，看到作者又列舉了兩篇我一直關注的transformer系文章，趕緊打出來看了，順便寫篇文章記錄下收穫。

1. MASS模型

MASS的主要貢獻是提出一種新的Pre-train seq2seq任務的方法。

BERT的成功把nlp帶向了pretrain+finetune時代，而對於文本生成任務（機器翻譯、文本摘要、生成問答），由於語料對較少，更需要使用pretrain的模型來減少標註代價。

看到這裡的讀者可以先自己想一下如何pretrain seq2seq的任務。大家首先能想到的估計就是BERT+LM，因為BERT的編碼能力比其他BiLM的能力強一些。但這樣pretrain的問題就是，如果我們的語料是unsupervised，就要分開預訓練encoder和decoder，可能會導致兩者的分布不一致。

於是MASS的作者就借鑒了Masked LM的思想，只用一句話就讓encoder和decoder同時訓練。具體做法是mask掉句子的一部分x，再用decoder去預測x，如下圖：