台湾 || 语言: 大陆简体港澳繁體台灣正體

CS224N筆記(十三):ELMO, GPT與BERT

雪花臺灣 2019-07-15 12:38

之前的Word Representation方法CS224N(一）：Word Vector如Word2Vec, GloVe, fastText等對每個單詞僅有一種表示，而通常單詞的含義依賴於其上下文會有所不同，而且每個單詞不僅有一方面特徵，而應有各方面特徵如語義特徵，語法特徵等，這一講集中討論contextual word representation，主要比較了ELMO，GPT與BERT模型。

ELMO

ELMO的基本思想是利用雙向的LSTM結構，對於某個語言模型的目標，在大量文本上進行預訓練，從LSTM layer中得到contextual embedding，其中較低層的LSTM代表了比較簡單的語法信息，而上層的LSTM捕捉的是依賴於上下文的語義信息。ELMO的全稱就是Embeddings from Language Models。對於下游的任務，再將這些不同層的向量線性組合，再做監督學習。

詳細來說，對於N個標記 ,forward language model學習的是根據 $(t_1,t_2,...,t_{k-1})$ 的信息推測的概率：

(t_{k+1},...,t_N)

相關文章