ELMO小談

嗯，你們這羣人壞的很，收藏都上去好多了，連個贊都不點個！！！

更新ELMO在QACNN上的應用，如果你們調參得到更好的結果，也請告訴我啊！如果有相關ELMO，BERT在答案選擇上的文章，也請推薦給我一下啊！

傳送門

----------------------------------- 2019.4.12 update --------------------------------------

現在談EMLO，倒是有點食之微味，棄之可惜的意思。2018年，BERT的橫空出世撼動了NLP的半壁江山，nlper無不知曉，多項刷榜記錄讓多數奮戰在一線鑽研演算法的工程師們一剎那覺得自己的努力也僅僅只是感動了自己而已，自然而然，BERT的風光掩蓋了ELMO。

但是，我個人覺得，從word2vec，glove到ELMO,BERT，ELMO算是一個比較精彩的轉折點吧，有著承前啟後的作用，於是，今天就來小談下ELMO。

為什麼出現了ELMO？

在word2vec的時代，詞向量是上下文無關的，然而在語言中一詞多義的現象是很常見的，比如may，有可能的意思，也有五月的意思；apple，是可以喫的蘋果，還是那個apple公司，完全取決於語境。在答案選擇領域，那麼多複雜的模型，無非不就是為了獲得句子的語義信息，句子由片語成，細微處看，就是在摸索詞之間的聯繫與含義，如果一個詞沒有根據下游任務改變自己的能力，那麼往往就需要外界力量去推動她來展示不同層面的意思，而這個外界力量就是那些複雜的模型結構。那麼，何不追本溯源，從一開始就讓詞向量擁有可以根據不同下游任務而變換的能力呢？ELMO因此誕生。

雙向語言模型

前向語言模型：

$p(t_1, t_2, cdots, t_N) = prod_{k=1}^N p(t_k|t_1, t_2, cdots, t_{k-1})$

後向語言模型：

$p(t_1, t_2, cdots, t_N) = prod_{k=1}^N p(t_k|t_{k+1}, t_{k+2}, cdots, t_{N})$

那麼其損失函數語言模型標準的最大化似然函數：

$sum_{k=1}^N ( log ,, p(t_k|t_1, t_2, cdots, t_{k-1}; Theta_x, overrightarrow{Theta_{LSTM}}, Theta_s ) \ + , log ,, p(t_k|t_{k+1}, t_{k+2}, cdots, t_{N}; Theta_x, overleftarrow{Theta_{LSTM}}, Theta_s )$

上面的雙向語言模型其實就是統計語言模型的一個近似，什麼是統計語言模型呢？統計語言模型就是通過統計方法計算一個句子的概率的模型。以前向語言模型為例，我們可以根據這個概率公式來計算下一個詞出現的概率。比如「the cat sat on the mat」，我們可以根據「the cat sat on the」來預測下一個詞是「mat」的概率，有種完形填空的味道。

ELMO要點

一、模型結構