終於讀上了GPT2,我覺得整體的思想對我來說高級的,一些新聞或者文章上可能給大家最多的印象就是它參數多了、訓練數據多了,然後生成的文本很牛逼,但是我讀了論文之後反而覺得模型尺寸與數據只是一方面,它的思想纔是最重要的,下面主要圍繞兩個問題展開解析:
- 論文題目《Language Models are Unsupervised Multitask Learners》到底是什麼意思?
- GPT2(單向Transformer)和BERT(雙向Transformer)到底有什麼區別?
正文分割線
1. GPT2模型
1.1 模型思想