台湾 || 语言: 大陆简体港澳繁體台灣正體

GPT,GPT2,Bert,Transformer-XL,XLNet論文閱讀速遞

雪花台灣 2019-07-15 09:16

一、GPT論文閱讀核心簡記

1、論文：Improving Language Understanding by Generative Pre-Training

2、官方介紹：https://openai.com/blog/language-unsupervised/

3、核心分析

GPT訓練任務使用的是單向語言模型，特徵提取器使用的是Transformer，GPT預訓練模型取自Transformer的decoder階段，使用了Masked Multi-Head Attention，GPT在預訓練階段是無監督學習，通過大量預料進行訓練，Fine-tuning階段是有監督學習，GPT無監督預訓練過程，單向語言模型通過上文預測當前詞：

相关文章