https://arxiv.org/pdf/1810.09536.pdf?

arxiv.org

Motivation

人类的语言在产生的过程中,并不是像通用的RNN-based的模型链式地从第一个字开始生成到最后一个字。而是更像tree的结构,有核心的表达概念与不带有太多信息的连接词所构成。

由于语言的特殊性,同样的句子可以有不同的结构,从而产生不一样的意思。

文章指出,句子中有smaller units,如短语片语;larger units,如从句。Smaller unit从属于larger unit,而一般的sequential model并没有体现出信息传递在两者之间的关系。于是,文章提出一种新的RNN:ON-LSTM,在LSTM的基础上加入ordered neuron有序神经元,从而使得句子中的smaller units会跟所从属的larger units一同更新。

Tree structure有以下优势:

  1. 如同deep network的多层级网路结构一样,tree-based model可以得到不同level的抽象化信息表示;
  2. 捕捉到更为复杂的语言结构特征,如long-term依赖以及组合效应;
  3. 为反向传播提供了shortcut.

但是,有标注句子结构的dataset还是非常有限的,并且不同领域的语法结构也不尽相同,甚至随著时间的变化会有很大的改变。因此,unsupervised learning才能真正的让模型具有更强的学习能力。

Method

Ordered neurons的假设前提是:

  1. neurons之间存在order, 并且high-ranking neuron包含long-term信息;low-ranking neuron包含short-term信息;
  2. ordering和data独立不相关,也就是说ordering是一种潜在的结构规则,不随data的变化而改变,因此,可以将ordering转化为附加在LSTM的hidden state上的bias.
The relationship between a constituency parse tree and an ON-LSTM

图中,S, NP, VP为high-ranking neuron,相对于low-ranking跨越更多的time step. ON-LSTM的结构与LSTM的唯一区别在于对cell state的更新方式。

为了能够在更新方式中加入order的限制,文章提出了一种新的激活函数cumax:

用来softly区分long/short term,并加以更新。

ON-LSTM中还设置了master forget gate和master input gate,更新方式如下,前者在cumax的约束下从0到1单调递增,后者从1到0单调递减;从而high-level地对cell state中的信息进行更新。

新的更新规则如下:

对于其中背后的含义有三大条,英语好的同学可以自行阅读一下:

由于master gates主要进行粗粒度的控制,因此不需要每步都进行更新,文章采用chunk的方式,对D维的hidden state进行C次更新。

Result

文章将ON-LSTM在四个任务上进行了验证:language modeling, unsupervised constituency parsing, targeted syntactic evaluation and logical inference,就不一一细说了,可以去看文章中的实验结果。值得一提的是,在unsupervised constituency parsing中,ON-LSTM取得了和专家标注一致的结果,证明了该方法能够很好地反映出语言中的潜在特征与规则。


推荐阅读:
相关文章