A Study of the Importance of External Knowledge in the Named Entity Recognition Task(ACL 2018)
該文章利用外部知識進行命名實體識別。用到了四類知識,然後利用這些特徵訓練CRF.下表列舉了三類,分別為Name, KB, Entity.
下面介紹文章用到的四類特徵:
1. Knowledge Agnostic (A)
(1) The current word and words in a window of size 2;
(2) Word shapes of the current word and words in a window of size 2;
(3) POS tags in a window of size 2;
(4) Prefixes (length three and four) and Suffixes (length one to four);
(5) Presence of the current word in a window of size 4;
(6) Beginning of sentence.
2. Name-Based Knowledge (Name)
(1)Frequent mention tokens
像「county」, 「john」, 「school」, 「station」 and 「district」等詞經常出現在命名實體mention中,這個特徵賦予這樣的詞很高的值,從來沒有出現在命名實體mention中的詞賦值為0。使用的命名實體mention集合為more than 20 million names from YAGO
(2)Frequent POS Tag Sequences
作者觀察到「Organization of American States」 and 「Union for Ethical Biotrade」 share the pattern NNP-IN-NNP-NNP。通過對命名實體的POS Tag按照頻次進行了排序,並保留了前100個Pos Tag 序列。然後對於一個句子,找到最長的Pos Tag匹配序列,對於每一個token,輸入這個token是否屬於找到的匹配序列。
3. Knowledge-Base-Based Knowledge (KB)
(1)Type-infused Gazetteer Match
作者通過用到了詞典庫,詞典庫(Gazetteer)由一組詞典列表組成,列表包含實體名稱如城市,組織機構,星期等。列表用於發現文檔中包含這些名稱的命名實體。It adds a binary indicator to each token, depending on whether the token is part of a sequence.
(2)Wikipedia Link Probability
比如Pwiki(Obama) > Pwiki(box), 將Pwiki(Obama)等信息進行輸入
(3)Type Probability
將類似P(person|Obama), P(location|Obama)等概率信息進行輸入
(4)Token Type Position
「Supreme Court of the United States」, is an organization and 「United」 occurs at the end. In 「United States」, a location, it occurs at the beginning. 作者想要將P(I-ORG|United), P(B-LOC|United)等信息進行輸入。這與(3)中的區別就是加入了BILOU (Begin, Inside, Last, Outside, Unit) 位置信息。P(B-PER|Obama), P(U-PER|Obama) 會有很高的概率,P(box|O)會有很高的概率。
4. Entity-Based Knowledge (Entity)
Take the sentence 「Some citizens of the European Union working in the United Kingdom
對於一個句子,先經過NED和 NER抽取實體和type比如(European Union[ORG],United Kingdom[ORG],EU[ORG],uk[ORG]),然後將實體的type和BILOU信息作為特徵進行輸入。
實驗:
作者在兩個數據集上(CoNLL2003, MUC-7)進行了實驗,結果如下圖
文章用到了四類feature(A, Name, KB, Entity),並進行了特徵減少實驗,第二行(A, Name, KB 88.73)表示只用到A, Name, KB信息,F1 score 為88.73
作者還研究了各類feature所佔用的時間,其中Entity由於要先進行NED,NER進行抽取特徵,然後將這些特徵進行輸入到CRF進行NER需要的時間比較長。
作者還在其他語言上(德語和西班牙語言)進行了實驗
結論:
作者定義了四類feature,每一類feature都提高了NER結果,但是也導致需要更多的時間來提取這些feature,在實際運用中要進行結果和時間的性能平衡。
推薦閱讀: