NER- 命名實體識別（Chinese NER 、Cross-domain NER）

NER 模型（Chinese NER Using Lattice LSTM、Neural Adaptation Layers for Cross-domain Named Entity Recognition）

1. Information

命名實體識別（Named entity recognition）作為NLP的最基本任務，其早在上世紀80年代就已被廣泛研究，今年來隨著以神經網路為主導的Deep learning復甦，NER任務精度被不斷提高。NER問題即為從句子中識別出專有名詞，如人名、地名、組織機構名等等，其本質上為序列標記問題，有關NER的詳細介紹可以參考我的這篇筆記

PoderLee：NLP中的序列標註問題（隱馬爾可夫HMM與條件隨機場CRF）?

zhuanlan.zhihu.com

這裡將簡單介紹較新的幾個NER模型。

2. Chinese NER Using Lattice LSTM

2.1 Motivation

這篇文章為2018年ACL的工作，其主要是針對中文的命名實體識別任務。對於英文這類由拉丁字母組合而成的語言，其單詞與單詞間存在天然的邊界，而每個單詞又是由不同的字母組成，因此對於英文的NER其不需要進行分詞處理，而且將各個character進行embedding的操作早已有之。然而對於中文而言首先分詞質量的高低往往就直接影響了downstream tasks的性能（對於分詞任務其主要的難點為OOB問題，即對於未登錄詞的處理，其次是歧義的問題），但是若直接使用單個漢字則又無法充分挖掘句子中潛在的句法結構語義信息，其效果往往不好（但是最近ACL2019有文章指出，對與中文的許多任務不分詞的效果要好於分詞的效果），因此對於中文NER其效果相對英文較差。之前中文的NER model一般均是直接利用word（分詞的結果）或character（單個字）作為input，而本文作者則創新性的提出了Lattice LSTM model將character和word的embedding結合實現中文的NER，如圖1，該方法在許多數據集上均獲得了較好的結果。