一、GPT論文閱讀核心簡記
1、論文:Improving Language Understanding by Generative Pre-Training
2、官方介紹:https://openai.com/blog/language-unsupervised/
3、核心分析
GPT訓練任務使用的是單向語言模型,特徵提取器使用的是Transformer,GPT預訓練模型取自Transformer的decoder階段,使用了Masked Multi-Head Attention,GPT在預訓練階段是無監督學習,通過大量預料進行訓練,Fine-tuning階段是有監督學習,GPT無監督預訓練過程,單向語言模型通過上文預測當前詞: