人类的语言在产生的过程中,并不是像通用的RNN-based的模型链式地从第一个字开始生成到最后一个字。而是更像tree的结构,有核心的表达概念与不带有太多信息的连接词所构成。
由于语言的特殊性,同样的句子可以有不同的结构,从而产生不一样的意思。
文章指出,句子中有smaller units,如短语片语;larger units,如从句。Smaller unit从属于larger unit,而一般的sequential model并没有体现出信息传递在两者之间的关系。于是,文章提出一种新的RNN:ON-LSTM,在LSTM的基础上加入ordered neuron有序神经元,从而使得句子中的smaller units会跟所从属的larger units一同更新。
Tree structure有以下优势:
但是,有标注句子结构的dataset还是非常有限的,并且不同领域的语法结构也不尽相同,甚至随著时间的变化会有很大的改变。因此,unsupervised learning才能真正的让模型具有更强的学习能力。
Ordered neurons的假设前提是:
图中,S, NP, VP为high-ranking neuron,相对于low-ranking跨越更多的time step. ON-LSTM的结构与LSTM的唯一区别在于对cell state的更新方式。
为了能够在更新方式中加入order的限制,文章提出了一种新的激活函数cumax:
用来softly区分long/short term,并加以更新。
ON-LSTM中还设置了master forget gate和master input gate,更新方式如下,前者在cumax的约束下从0到1单调递增,后者从1到0单调递减;从而high-level地对cell state中的信息进行更新。
新的更新规则如下:
对于其中背后的含义有三大条,英语好的同学可以自行阅读一下:
由于master gates主要进行粗粒度的控制,因此不需要每步都进行更新,文章采用chunk的方式,对D维的hidden state进行C次更新。
文章将ON-LSTM在四个任务上进行了验证:language modeling, unsupervised constituency parsing, targeted syntactic evaluation and logical inference,就不一一细说了,可以去看文章中的实验结果。值得一提的是,在unsupervised constituency parsing中,ON-LSTM取得了和专家标注一致的结果,证明了该方法能够很好地反映出语言中的潜在特征与规则。