台湾 || 语言: 大陆简体港澳繁體台灣正體

BERT和他的後繼者們

雪花臺灣 2019-06-09 00:20

BERT Variants

BERT的強大有目共睹，我們來看看過去半年學界和工業界是如何擴展BERT的應用的。

BERT介紹

預訓練語言模型

ELMo (CNN+LSTM)

1B Word Benchmark
Sentence-level corpus
Feature extraction

GPT (Transformer)

BookCorpus dataset
Document-level corpus
Fine-tuning

BERT (Bidirectional Transformer)

BookCorpus + Wikipedia
Lager document-level corpus (3x)
Next Sentence Prediction + Masked Language Model
Fine-tuning

【引用於AIS2019報告會上ERNIE的報告內容】

基於最近劉知遠老師在AIS2019報告會的觀點，我們從複雜知識、多任務、多語言來深入探討下BERT的相關研究，並擴展一些其他的研究方向。

複雜知識

百度ERNIE

Motivation：如果模型能夠學習更多的先驗知識，模型可以獲得更可靠的語言表示

改進一：連續mask策略 —> 減輕模型的學習壓力？

與目前SQuAD2.0第三名的mask方案比較類似

相關文章