人類的語言在產生的過程中,並不是像通用的RNN-based的模型鏈式地從第一個字開始生成到最後一個字。而是更像tree的結構,有核心的表達概念與不帶有太多信息的連接詞所構成。
由於語言的特殊性,同樣的句子可以有不同的結構,從而產生不一樣的意思。
文章指出,句子中有smaller units,如短語片語;larger units,如從句。Smaller unit從屬於larger unit,而一般的sequential model並沒有體現出信息傳遞在兩者之間的關係。於是,文章提出一種新的RNN:ON-LSTM,在LSTM的基礎上加入ordered neuron有序神經元,從而使得句子中的smaller units會跟所從屬的larger units一同更新。
Tree structure有以下優勢:
但是,有標註句子結構的dataset還是非常有限的,並且不同領域的語法結構也不盡相同,甚至隨著時間的變化會有很大的改變。因此,unsupervised learning才能真正的讓模型具有更強的學習能力。
Ordered neurons的假設前提是:
圖中,S, NP, VP為high-ranking neuron,相對於low-ranking跨越更多的time step. ON-LSTM的結構與LSTM的唯一區別在於對cell state的更新方式。
為了能夠在更新方式中加入order的限制,文章提出了一種新的激活函數cumax:
用來softly區分long/short term,並加以更新。
ON-LSTM中還設置了master forget gate和master input gate,更新方式如下,前者在cumax的約束下從0到1單調遞增,後者從1到0單調遞減;從而high-level地對cell state中的信息進行更新。
新的更新規則如下:
對於其中背後的含義有三大條,英語好的同學可以自行閱讀一下:
由於master gates主要進行粗粒度的控制,因此不需要每步都進行更新,文章採用chunk的方式,對D維的hidden state進行C次更新。
文章將ON-LSTM在四個任務上進行了驗證:language modeling, unsupervised constituency parsing, targeted syntactic evaluation and logical inference,就不一一細說了,可以去看文章中的實驗結果。值得一提的是,在unsupervised constituency parsing中,ON-LSTM取得了和專家標註一致的結果,證明瞭該方法能夠很好地反映出語言中的潛在特徵與規則。