台湾 || 语言: 大陆简体港澳繁體台灣正體

GPT,GPT2,Bert,Transformer-XL,XLNet论文阅读速递

雪花台湾 2019-07-15 09:16

一、GPT论文阅读核心简记

1、论文：Improving Language Understanding by Generative Pre-Training

2、官方介绍：https://openai.com/blog/language-unsupervised/

3、核心分析

GPT训练任务使用的是单向语言模型，特征提取器使用的是Transformer，GPT预训练模型取自Transformer的decoder阶段，使用了Masked Multi-Head Attention，GPT在预训练阶段是无监督学习，通过大量预料进行训练，Fine-tuning阶段是有监督学习，GPT无监督预训练过程，单向语言模型通过上文预测当前词：

相关文章