https://arxiv.org/pdf/1810.09536.pdf?

arxiv.org

Motivation

人類的語言在產生的過程中,並不是像通用的RNN-based的模型鏈式地從第一個字開始生成到最後一個字。而是更像tree的結構,有核心的表達概念與不帶有太多信息的連接詞所構成。

由於語言的特殊性,同樣的句子可以有不同的結構,從而產生不一樣的意思。

文章指出,句子中有smaller units,如短語片語;larger units,如從句。Smaller unit從屬於larger unit,而一般的sequential model並沒有體現出信息傳遞在兩者之間的關係。於是,文章提出一種新的RNN:ON-LSTM,在LSTM的基礎上加入ordered neuron有序神經元,從而使得句子中的smaller units會跟所從屬的larger units一同更新。

Tree structure有以下優勢:

  1. 如同deep network的多層級網路結構一樣,tree-based model可以得到不同level的抽象化信息表示;
  2. 捕捉到更為複雜的語言結構特徵,如long-term依賴以及組合效應;
  3. 為反向傳播提供了shortcut.

但是,有標註句子結構的dataset還是非常有限的,並且不同領域的語法結構也不盡相同,甚至隨著時間的變化會有很大的改變。因此,unsupervised learning才能真正的讓模型具有更強的學習能力。

Method

Ordered neurons的假設前提是:

  1. neurons之間存在order, 並且high-ranking neuron包含long-term信息;low-ranking neuron包含short-term信息;
  2. ordering和data獨立不相關,也就是說ordering是一種潛在的結構規則,不隨data的變化而改變,因此,可以將ordering轉化為附加在LSTM的hidden state上的bias.
The relationship between a constituency parse tree and an ON-LSTM

圖中,S, NP, VP為high-ranking neuron,相對於low-ranking跨越更多的time step. ON-LSTM的結構與LSTM的唯一區別在於對cell state的更新方式。

為了能夠在更新方式中加入order的限制,文章提出了一種新的激活函數cumax:

用來softly區分long/short term,並加以更新。

ON-LSTM中還設置了master forget gate和master input gate,更新方式如下,前者在cumax的約束下從0到1單調遞增,後者從1到0單調遞減;從而high-level地對cell state中的信息進行更新。

新的更新規則如下:

對於其中背後的含義有三大條,英語好的同學可以自行閱讀一下:

由於master gates主要進行粗粒度的控制,因此不需要每步都進行更新,文章採用chunk的方式,對D維的hidden state進行C次更新。

Result

文章將ON-LSTM在四個任務上進行了驗證:language modeling, unsupervised constituency parsing, targeted syntactic evaluation and logical inference,就不一一細說了,可以去看文章中的實驗結果。值得一提的是,在unsupervised constituency parsing中,ON-LSTM取得了和專家標註一致的結果,證明瞭該方法能夠很好地反映出語言中的潛在特徵與規則。


推薦閱讀:
相關文章