一、GPT论文阅读核心简记
1、论文:Improving Language Understanding by Generative Pre-Training
2、官方介绍:https://openai.com/blog/language-unsupervised/
3、核心分析
GPT训练任务使用的是单向语言模型,特征提取器使用的是Transformer,GPT预训练模型取自Transformer的decoder阶段,使用了Masked Multi-Head Attention,GPT在预训练阶段是无监督学习,通过大量预料进行训练,Fine-tuning阶段是有监督学习,GPT无监督预训练过程,单向语言模型通过上文预测当前词: