BERT Variants
BERT的強大有目共睹,我們來看看過去半年學界和工業界是如何擴展BERT的應用的。
BERT介紹
預訓練語言模型
ELMo (CNN+LSTM)
- 1B Word Benchmark
- Sentence-level corpus
- Feature extraction
GPT (Transformer)
- BookCorpus dataset
- Document-level corpus
- Fine-tuning
BERT (Bidirectional Transformer)
- BookCorpus + Wikipedia
- Lager document-level corpus (3x)
- Next Sentence Prediction + Masked Language Model
- Fine-tuning
【引用於AIS2019報告會上ERNIE的報告內容】
基於最近劉知遠老師在AIS2019報告會的觀點,我們從複雜知識、多任務、多語言來深入探討下BERT的相關研究,並擴展一些其他的研究方向。
複雜知識
百度ERNIE
Motivation:如果模型能夠學習更多的先驗知識,模型可以獲得更可靠的語言表示
改進一:連續mask策略 —> 減輕模型的學習壓力?
與目前SQuAD2.0第三名的mask方案比較類似