A Study of the Importance of External Knowledge in the Named Entity Recognition Task(ACL 2018)

該文章利用外部知識進行命名實體識別。用到了四類知識,然後利用這些特徵訓練CRF.下表列舉了三類,分別為Name, KB, Entity.

下面介紹文章用到的四類特徵:

1. Knowledge Agnostic (A)

(1) The current word and words in a window of size 2;

(2) Word shapes of the current word and words in a window of size 2;

(3) POS tags in a window of size 2;

(4) Prefixes (length three and four) and Suffixes (length one to four);

(5) Presence of the current word in a window of size 4;

(6) Beginning of sentence.

2. Name-Based Knowledge (Name)

(1)Frequent mention tokens

像「county」, 「john」, 「school」, 「station」 and 「district」等詞經常出現在命名實體mention中,這個特徵賦予這樣的詞很高的值,從來沒有出現在命名實體mention中的詞賦值為0。使用的命名實體mention集合為more than 20 million names from YAGO

(2)Frequent POS Tag Sequences

作者觀察到「Organization of American States」 and 「Union for Ethical Biotrade」 share the pattern NNP-IN-NNP-NNP。通過對命名實體的POS Tag按照頻次進行了排序,並保留了前100個Pos Tag 序列。然後對於一個句子,找到最長的Pos Tag匹配序列,對於每一個token,輸入這個token是否屬於找到的匹配序列。

3. Knowledge-Base-Based Knowledge (KB)

(1)Type-infused Gazetteer Match

作者通過用到了詞典庫,詞典庫(Gazetteer)由一組詞典列表組成,列表包含實體名稱如城市,組織機構,星期等。列表用於發現文檔中包含這些名稱的命名實體。It adds a binary indicator to each token, depending on whether the token is part of a sequence.

(2)Wikipedia Link Probability

比如Pwiki(Obama) > Pwiki(box), 將Pwiki(Obama)等信息進行輸入

(3)Type Probability

將類似P(person|Obama), P(location|Obama)等概率信息進行輸入

(4)Token Type Position

「Supreme Court of the United States」, is an organization and 「United」 occurs at the end. In 「United States」, a location, it occurs at the beginning. 作者想要將P(I-ORG|United), P(B-LOC|United)等信息進行輸入。這與(3)中的區別就是加入了BILOU (Begin, Inside, Last, Outside, Unit) 位置信息。P(B-PER|Obama), P(U-PER|Obama) 會有很高的概率,P(box|O)會有很高的概率。

4. Entity-Based Knowledge (Entity)

Take the sentence 「Some citizens of the European Union working in the United Kingdom

do not meet visa requirements for non-EU workers after the uk leaves the bloc」. We can imagine that in the first round of NED European Union and United Kingdom can be easily identified but 「EU」 or the wrongly capitalized 「uk」 might be missed.After the disambiguation, we know that both entities are organizations and have the aliases EU and UK respectively. Then, in a second round it may be easier to spot mentions 「EU」 and 「uk」.

對於一個句子,先經過NED和 NER抽取實體和type比如(European Union[ORG],United Kingdom[ORG],EU[ORG],uk[ORG]),然後將實體的type和BILOU信息作為特徵進行輸入。

實驗:

作者在兩個數據集上(CoNLL2003, MUC-7)進行了實驗,結果如下圖

文章用到了四類feature(A, Name, KB, Entity),並進行了特徵減少實驗,第二行(A, Name, KB 88.73)表示只用到A, Name, KB信息,F1 score 為88.73

作者還研究了各類feature所佔用的時間,其中Entity由於要先進行NED,NER進行抽取特徵,然後將這些特徵進行輸入到CRF進行NER需要的時間比較長。

作者還在其他語言上(德語和西班牙語言)進行了實驗

結論:

作者定義了四類feature,每一類feature都提高了NER結果,但是也導致需要更多的時間來提取這些feature,在實際運用中要進行結果和時間的性能平衡。

推薦閱讀:

相关文章