来源:NAACL 2018

链接:researchgate.net/public

一、介绍

我们在做命名实体识别的时候,不论是标注的部分,还是预测的部分,都会遇到实体嵌套的问题。在生物医学领域的数据尤为突出,而大多数命名实体识别(NER)系统只处理扁平化实体,忽略内部嵌套实体,无法在底层文本中捕获更细粒度的语义信息。

普通的(NER)系统只会识别出其中的LOC和GPE, 忽略了整体的人称;本文提出了一种新的神经网路模型,通过动态堆叠平面NER层(dynamically stacking flat NER layers )来识别嵌套实体。不需要添加额外的知识库以及语言的规则,取得了很好的效果。

二、模型

图中的事例表示,「interleukin-2」 and 「interleukin-2 receptor alpha gene」是两个嵌套的实体,其中每一层都是一个flat NER layer。

flat NER layer 由两部分组成,是一个单层的双向LSTM网路加上一个crf层。 Bi-LSTM+CRF的模型是在NER中较为流行的方法,crf通过标签之间状态转移的打分矩阵,对输出的标签有著约束的效果,从而达到了较好的结果。

本文的模型创新点是通过动态的堆叠flat NER layer,来生成不同层次的标签;过程是如果识别出了任何实体,则引入新的flat NER层,并且合并当前flat NER层的每个检测到的实体的embedding以组成该实体新的表示,然后将该表示传递给新的flat NER层作为输入。否则,模型终止堆叠,从而完成实体识别。

具体的操作为:

zi是对应实体的embedding,mi是合并后的新的表示。这样可以充分利用实体的内部信息来加强外部实体的识别;

第一层的输入与其他层的有所不同,输入是字元级别的embedding与预训练好的词级别的emdedding相及联;这里利用字元级别的embedding是为了模型能够学习到类似于前缀后缀这样的信息,来解决OOV的问题。

三、实验

数据集:GE- NIA,ACE2005 ,JNLPBA

这几个数据集的标注结果里是包含了嵌套实体的不同标签。

第一个是与最新的模型的之间的比较:

第二个是自身的消融实验:

主要是改变了层与层之间的输入

第三个是每一层识别的结果:

二、总结

1. 本文提出了一种动态分层模型,它充分利用内部实体信息,以端到端的方式鼓励外部实体识别。模型基于由LSTM和CRF组成的flat NER层,因此模型能够捕获输入序列的上下文表示,并在不依赖于特征工程的情况下在flat NER层上全局解码预测标签。

2.能够改善嵌套实体识别的情况,用处很大,想法新颖;


推荐阅读:
相关文章