從語言模型看Bert的善變與GPT的堅守

其它機器學習、深度學習演算法的全面系統講解可以閱讀《機器學習與應用》，清華大學出版社，雷明著，由SIGAI公眾號作者傾力打造，自2019年1月出版以來已重印3次。

書的購買鏈接
書的勘誤，優化，源代碼資源

PDF全文鏈接：從語言模型看Bert的善變與GPT的堅守

本文SIGAI特邀作者

穆文MuWen

NLP從業者

目前興趣點：問答系統、序列標註、文本生成

個人微信公眾號：數據挖掘機養成記

從語言模型看Bert的善變與GPT的堅守

從語言模型看Bert的善變與GPT的堅守

1. 引子
2. Bert的善變與GPT的堅守
3. 延伸
參考資料

本文簡單探究Bert為何要做 masked LM，並由此引出 GPT、Elmo、MASS、Word2vec 的相關問題
本文不探討其他細節

1. 引子

Bert面世至今已半年有餘，依然風光無限熱度不減，大有橫掃八荒之勢。其首推的『雙向語言模型』和 masked LM 的訓練方式，一時間也成為 pre-train 的標配。

細心的同學在閱讀論文時，一定會發現論文里提到：深度雙向語言模型出現自己預測自己——即『see themselves』的問題，所以要 masked LM。論文作者 Jacob 在 reddit 的帖子里也再次討論這個問題，原文截取如下

It』s unfortunately impossible to train a deep bidirectional model like a normal LM, because that would create cycles where words can indirectly 「see themselves,」 and the predictions become trivial.

這其實是個很小的點，也很容易理解，去年跟同事們已經簡單探討過。今年組內有同事做分享，提到微軟最新的 MASS 的訓練方式借鑒了 masked LM，這讓我又回想起這個問題，於是做個記錄，炒個冷飯，對於沒有深究過的同學，可以當做一個簡單入門，對於行家，則歡迎更進一步的討論。

所以，像Bert這樣的雙向語言模型為何要做 masked LM？ GPT 為何一直堅持單向語言模型？ Elmo 也號稱雙向，為何不需要 mask？ Word2vec 的 CBOW 為何也不用 mask？

相信每一位 nlp 愛好者在看過bert、gpt的論文後，都會產生這些來自靈魂深處的追問。本文將嘗試用淺顯易懂的語言和直觀的示意圖，來解釋這些問題。

2. Bert的善變與GPT的堅守

先解釋『see themselves』的問題，其實很好理解：雙向語言模型在預測當前詞的時候，會用到其上下文信息（類似 word2vec 里的 CBOW 模式），而 transformer 自帶了全局的 self-attention，會將上下文的詞編碼到當前模型里，所以在預測其他詞的時候，該詞的信息已經包含在了前一層的網路參數里，導致間接地『自己預測自己』，也就是Jacob 所說的『 indirectly see themselves』。

公式解釋起來麻煩，我在原論文的圖上簡單標識一下，看起來更直觀