1. 处理NER任务的神经网路结构

百度的Zhiheng Huang[1]于2015年首度提出了Bi-LSTM-CRF架构用于自然语言处理序列标注任务。文中对比了LSTM、Bi-LSTM、CRF、LSTM-CRF与Bi-LSTM-CRF这几种模型的表现。文中选择了以下3种特征作为神经网路的输入:spelling features、context features、word embedding,同时在特征连接时也使用了一种技巧,如下图所示,将spelling features、context features作为输入的同时又直接连接到输出端用于预测tag。最终该论文将模型应用于POS、chunking和NER这3种序列标注任务中获得了最先进的水平。

Onur Kuru[2]于2016年提出了一种字元级别的命名实体识别标注模型(Char NER)及标注模式。该想法主要为了使模型可以更好的获取片语的形态学特征,同时可以避免OOV情况。该模型结构如下图所示,首先使用了多层的Bi-LSTM模型,其次连接一个仿射变换和一个函数用于获得标签在时刻的分布情况,最后再使用演算法进行解码。该文章最后使用CoNLL-2002 and CoNLL-2003以及其他3种语言的数据集验证了模型的表现,不过文章的比较是基于语言的,而不是基于整个数据集的。

文章中提出了一种有意思的标注模式与解码模式。其中标注模式是指文中将片语级别的标注方式转换到字元级别的标注上,他抛弃了标注位置的标记前缀(B-, I-),直接使用片语的标记类别作为一个字元的标记。同时若一个NE短语由多个片语成,词与词之间的空格字元也使用该命名短语的标记。如下图所示

解码模式是使用演算法进行解码。该解码器使用的输出概率作为发射概率(),同时自己探索了转移矩阵用于确保词内字元的连续性。如下图所示为转移矩阵,其中代表字元,代表空格,代表字元后为空格的情况。

Carnegie Mellon University的Guillaume Lample[3]于2016年提出了一种新的命名实体识别的神经架构。它使用了Stack-LSTM模型用于命名实体识别,同时使用了一种新的方式作为片语的特征表达。最后在CoNLL-2002和CoNLL-2003数据集中的多个语言的测试集上进行了测试,并根据不同语言进行测试。

Stack-LSTM中包含了2个栈,此处使用和分别来表述。除了2个栈,还存在1个缓冲区(),包含了未处理的片语。同时,在中还定义了3个动作:。其中将片语从移入,将片语从移入,将中的所有元素出,作为一个,并将其赋予标签,同时将其到栈中,如下所示。这个模型通过定义在给予当前中的元素的情况下,每一个时刻的动作的分布概率来进行参数化。测试时,使用贪心演算法,选取最大概率的动作。

为了获取辞汇中字元的作用,对于片语的嵌入式表达,本文采用了如下的形式

Carnegie Mellon University的Xuezhe Ma[4]于2016年提出了一种Bi-LSTM-CNNs-CRF架构,用于序列标注。文中主要使用了CNN架构来获取字元级别表达,如下图所示。

最终结合片语的字元表达与词嵌入,作为Bi-LSTM-CRF的输入,实现序列标注的任务。

对于NER任务,使用了CoNLL 2003数据集进行测试

中国科学院大学的Chunqi Wang[5]于2017年提出了一种GCNN的网路,即带有门控机制的CNN网路用于处理NER问题,并在英文和中文两种语言上进行测试,中文数据集选用SIGHAN bakeoff 2006 MSRA portion和CityU portion,英文选用CoNLL 2003,并在其上获得了最先进的水平。文中对于中文直接使用字元表达作为模型的输入;对于英文使用片语作为基本的输出单元,同时使用如下图所示的CNN结构获取字元级别的表达。

对于网路结构,本文采用了多层CNN结构,并在CNN之后使用CRF进行序列标注。同时在每层卷积层中引入了门控机制,单层的门控卷积层如下所示:

复旦大学的Qi Zhang[6]于2018年针对Tweets中用户发表语言经常附带图片的情况,提出了一种模型,可以同时捕获Tweets中的语言信息与图片信息。最终通过Twitter』s API自己采样了一些包含图片的推文进行测试,获得了较好的表现。

对于图片特征的提取,使用16层的VGGNet,选择了VGGNet最后一个池化层的输出作为图片特征,这样改特征包含了图片不同区域的信息。最终获得512×7×7的特征维度,其中512为不同区域的特征维度,7x7代表区域大小。同时使用了一个单层的感知机,使该维度与文本维度相同,使用tanh激活函数。

对于字元级别表达特征的提取,使用CNN使用k个不同大小的filter matrix进行卷积操作

然后使用max pooling,选择最大值作为对应filter提取的特征,最后把所有的k个特征图谱concat起来,同时与词嵌入一起作为片语的表示。

文中主要是使用了类似注意力机制和门控机制的方法,实现图片特征与文本特征的合并。注意力机制包含两个:Word-Guided Visual Attention和Image-Guided Textual Attention。其中第一个实现使用辞汇选取图像区域,采用的注意力机制计算方法如下所示,其中代表VGGNet输出图片特征,代表时刻Bi-LSTM的输出特征,代表concat,最终根据加权,得到t时刻图片特征的表达。第二个实现图片选取辞汇区域,通过,以类似的方式得到。

对于门控机制,文中设置了两种门:gated multimodal fusion和Filtration Gate。第一个门用于权衡网路考虑从图片和文本融合分析的角度获得的新信息的多少,第二个门用于权衡在预测命名实体的过程中,是否使用这些新信息。

2. 针对中文的命名实体识别模型

中国科学院大学的Chunqi Wang[5]于2017年提出了一种GCNN的网路也在中文数据集上进行了测试,但是并不只是针对中文语言。

新加坡科技设计大学的Yue Zhang[7]提出了Lattice LSTM模型用于处理中文命名实体识别中,以字元为基本单位的情况。在传统的方法里,会先使用一些分词模型获取中文句子的辞汇表达,然后使用预训练好的词嵌入矩阵获得片语对应的词嵌入向量,然而这会导致误差的累计。所以,文中提出了Lattice LSTM模型,用于在字元级别的表达上,集成片语级别的表达,最终在OneNotes 4, MSRA, Weibo NER, 以及自己采样得到的中文简历数据集上进行了测试。下图为一个其结构。

假设目前处理时刻的字元,从字典中找出与句子字元匹配且以时刻字元为结尾的所有片语,并获取其词嵌入表达,然后使用LSTM基本模型的计算方法计算出其中每个片语传递的单元状态值

然后使用类似门控机制和注意力机制获取每个片语传递到下一字元的单元状态。为时刻字元表达

3. NER任务中的迁移学习与半监督学习

现有的迁移学习技术一般分为两大类:INIT (parameter initialization) and MULT (multitask learning),即参数初始化和多任务学习。

Carnegie Mellon University的Zhilin Yang[8]于2017年提出了用于跨领域、跨任务与跨语言的3种序列标注迁移模型架构,并在多个数据集上进行测试。提出了以下3种模型,通过共享神经网路模型参数或特征表达的方式,实现领域之间、目标任务之间、语言之间的迁移学习任务。其中跨语言迁移学习文中只关注了具有相同辞汇表的语言。训练过程每次迭代中,可以看做是多任务学习的策略,首先使用二项分布采样任务类别(source task or target task),其次采样一批训练样本,接下来采用梯度下降法更新参数,同时更新共享参数和特殊参数。即文中采用source task和target task同时训练的过程。

Allen Institute for Artificial Intelligence艾伦人工智慧研究所的Matthew E. Peters[9]于2017年提出了一种半监督式的序列标注模式(TagLM)。实际上word embedding就是将半监督学习引入自然语言处理领域文本处理模型的一种最为常见和基本的用法。然而Peters提出word embedding只能嵌入辞汇的意义信息,然而一词多义情况十分常见,此时便需要辞汇在上下文中的信息。所以,他创造性地引入了neural language model,编码辞汇在上下文中的语义和情景信息。下图为其流程

对于序列标注基本模型(base model),使用了多层Bi-LSTM(L=2)。对于语言模型,使用了多层的LSTM语言模型进行预训练,同时使用了forward LM与backward LM两种模式的LM。预训练完成后,去除softmax层,连接前向和反向LM hidden state向量作为辞汇的LM嵌入,k代表当前token的位置。同时发现TagLM将多层LSTM语言模型最后一层的hidden state 与序列标注基本模型的第一层hidden state 连接时,模型表现较好。即最终使用,来代替基本模型原始的。同时提出,将LM嵌入引入到模型可以有很多方式,比如非线性映射或注意力机制。文中只尝试了concat的方式。下图为TagLM的结构图。

Allen Institute for Artificial Intelligence艾伦人工智慧研究所的Matthew E. Peters[10]于2018年发表了2017年提出的半监督式的序列标注模式(TagLM)的拓展:ELMo (Embeddings from Language Models)。ELMo表示更加深入,使用了所有biLM内部层的输出的函数。较高等级的LSTM状态可以捕捉片语上下文依赖的信息,较低等级的状态捕捉语法方面的信息。

在biLM模型上,Peters[9] 2017前向和反向LM的模型参数完全分离,而这篇文章中,前向和反向LM共享token representation和softmax layer的参数,LSTM的参数仍然分离。

ELMo和TagLM一样仍然使用多层的biLM用于LM嵌入,然而不同的是其使用的是每一层前向和反向LM的hidden state,同时使用了任务相关的权重参数与,对每一层的LM的hidden state进行组合,实现ELMo表达。是权重,用于缩放整个ELMo向量。在某些情况下,使用layer normalization也同样会有所帮助。

为了在监督学习中使用ELMo表达。首先固定了biLM的参数,将 concat起来,将其输入到任务RNN或LSTM中。对于某些任务,发现同时将ELMo与任务RNN的输出使用替换,同时引入一些线性权重,也会有更好的提升。同时发现,使用fine-tuned biLM会有效的提高模型的表现。

Alan Akbik[11]于2018年在Peter[10] 2018的基础上,从字元的角度出发,使用字元级别的LM代替片语级别的LM,提出了Contextual String Embeddings。下图为某一片语的编码获取方式。最终在CoNNL03的命名实体识别任务上,获得了state-of-the-art的表现。

University of Southern California南加利福尼亚大学的Bill Yuchen Lin[12]针对跨领域学习在现有的网路结构上,提出了自适应层Neural Adaptation Layers的方法。现有的结构存在以下问题:使用相同的领域泛化的词嵌入,假设了输入特征空间不存在领域漂移;针对跨领域学习过程,构建一个新的CRF,假设了新的CRF可以获取跨领域LSTM输出隐藏状态的变化,同时还可以获取目标空间结构依赖性;耗时的领域特殊的词嵌入的重训练。本文针对这3个问题,提出了word adaptation layer,sentence adaptation layer和output adaptation layer。模型结构如下所示:

word adaptation layer针对跨领域嵌入空间不同质的情况,通过统计的方法,将目标嵌入空间(target embedding space)投影到源空间(source space)中。建立了集合,集合中每个元素为源空间和目标空间的片语对。该集合由两部分组成,一部分是设置一个语料库频率上限,比如根据词在语料库出现频率的排名组成的对应关系,另一部分是自定义片语对。最终学习一个转换矩阵最小化源空间词嵌入与目标空间词嵌入之间的距离,并对每个辞汇根据其词频设置一个置信系数。

Sentence Adaptation Layer和Output Adaptation Layer,均使用了Bi-LSTM模型,分别用于获取上下文信息的映射关系和获取上下文信息内输出空间的变动。

同时一个小技巧是,在训练过程中,设置了一个超参数,用于调控base model和target model的参数更新速度。在学习速率上乘一个系数。

  1. 总结与结论

发现目前的研究方向集中于:

  • 模型结构上,门控机制与注意力机制的灵活使用;
  • 命名实体识别任务中引入其他信息,如Twitter命名实体中引入图片信息;
  • 命名实体识别任务的跨领域、跨语言、跨应用学习。引入迁移学习与半监督学习。近期的BERT和ELMo均属于此类型,不过这种类型对于计算要求较高;
  • 多任务学习。如同时完成命名实体识别任务与关系抽取;

参 考 文 献

[1] Z. Huang, W. Xu, and K. Yu, "Bidirectional LSTM-CRF Models for Sequence Tagging," arXiv e-prints, Accessed on: August 01, 2015Available: ui.adsabs.harvard.edu/#abs/2015arXiv150801991H

[2] O. Kuru, O. A. Can, and D. Yuret, "Charner: Character-level named entity recognition," in Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers, 2016, pp. 911-921.

[3] G. Lample, M. Ballesteros, S. Subramanian, K. Kawakami, and C. Dyer, Neural Architectures for Named Entity Recognition (arXiv e-prints). 2016.

[4] X. Ma and E. Hovy, End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF (arXiv e-prints). 2016.

[5] C. Wang, W. Chen, and B. Xu, Named Entity Recognition with Gated Convolutional Neural Networks. 2017.

[6] Q. Zhang, J. Fu, X. Liu, and X. Huang, "Adaptive Co-attention Network for Named Entity Recognition in Tweets," AAAI, 2018.

[7] Y. Zhang and J. Yang, Chinese NER Using Lattice LSTM (arXiv e-prints). 2018.

[8] Z. Yang, R. Salakhutdinov, and W. W. Cohen, Transfer Learning for Sequence Tagging with Hierarchical Recurrent Networks (arXiv e-prints). 2017.

[9] M. E. Peters, W. Ammar, C. Bhagavatula, and R. Power, Semi-supervised sequence tagging with bidirectional language models (arXiv e-prints). 2017.

[10] M. E. Peters et al., Deep contextualized word representations (arXiv e-prints). 2018.

[11] A. Akbik, D. Blythe, and R. Vollgraf, "Contextual string embeddings for sequence labeling," in Proceedings of the 27th International Conference on Computational Linguistics, 2018, pp. 1638-1649.

[12] B. Yuchen Lin and W. Lu, Neural Adaptation Layers for Cross-domain Named Entity Recognition (arXiv e-prints). 2018.


推荐阅读:
相关文章