NER- 命名实体识别（Chinese NER 、Cross-domain NER）

NER 模型（Chinese NER Using Lattice LSTM、Neural Adaptation Layers for Cross-domain Named Entity Recognition）

1. Information

命名实体识别（Named entity recognition）作为NLP的最基本任务，其早在上世纪80年代就已被广泛研究，今年来随著以神经网路为主导的Deep learning复苏，NER任务精度被不断提高。NER问题即为从句子中识别出专有名词，如人名、地名、组织机构名等等，其本质上为序列标记问题，有关NER的详细介绍可以参考我的这篇笔记

PoderLee：NLP中的序列标注问题（隐马尔可夫HMM与条件随机场CRF）?

zhuanlan.zhihu.com

这里将简单介绍较新的几个NER模型。

2. Chinese NER Using Lattice LSTM

2.1 Motivation

这篇文章为2018年ACL的工作，其主要是针对中文的命名实体识别任务。对于英文这类由拉丁字母组合而成的语言，其单词与单词间存在天然的边界，而每个单词又是由不同的字母组成，因此对于英文的NER其不需要进行分词处理，而且将各个character进行embedding的操作早已有之。然而对于中文而言首先分词质量的高低往往就直接影响了downstream tasks的性能（对于分词任务其主要的难点为OOB问题，即对于未登录词的处理，其次是歧义的问题），但是若直接使用单个汉字则又无法充分挖掘句子中潜在的句法结构语义信息，其效果往往不好（但是最近ACL2019有文章指出，对与中文的许多任务不分词的效果要好于分词的效果），因此对于中文NER其效果相对英文较差。之前中文的NER model一般均是直接利用word（分词的结果）或character（单个字）作为input，而本文作者则创新性的提出了Lattice LSTM model将character和word的embedding结合实现中文的NER，如图1，该方法在许多数据集上均获得了较好的结果。