原文:A Survey on Deep Learning for Named Entity Recognition
1.介紹
命名實體識別(NER)旨在從文本中識別出特殊對象,這些對象的語義類別通常在識別前被預定義好,預定義類別如人、地址、組織等。命名實體識別不僅僅是獨立的信息抽取任務,它在許多大型自然語言處理應用系統如信息檢索、自動文本概要、問答任務、機器翻譯以及知識建庫(知識圖譜)中也扮演了關鍵的角色。
1.1命名實體分類:
- 廣義命名實體(人,地址等)
- 領域命名實體(以生物領域為例:蛋白質,酶,基因等)
1.2方法分類:
- 基於規則的方法
- 無監督方法
- 基於特徵的監督學習方法
- 深度學習方法
上述分類法並非涇渭分明的,比如某些深度學習方法也結合了一些研究者設計的特徵來提高識別的準確率。
1.3形式化定義
給定標識符集合 ,NER 輸出一個三元組 的列表,列表中的每個三元組代表 中的一個命名實體。此處 , ,分別為命名實體的起始索引以及結束索引;t 指代從預定義類別中選擇的實體類型。例子如下: