來源:NAACL 2018

鏈接:researchgate.net/public

一、介紹

我們在做命名實體識別的時候,不論是標註的部分,還是預測的部分,都會遇到實體嵌套的問題。在生物醫學領域的數據尤為突出,而大多數命名實體識別(NER)系統只處理扁平化實體,忽略內部嵌套實體,無法在底層文本中捕獲更細粒度的語義信息。

普通的(NER)系統只會識別出其中的LOC和GPE, 忽略了整體的人稱;本文提出了一種新的神經網路模型,通過動態堆疊平面NER層(dynamically stacking flat NER layers )來識別嵌套實體。不需要添加額外的知識庫以及語言的規則,取得了很好的效果。

二、模型

圖中的事例表示,「interleukin-2」 and 「interleukin-2 receptor alpha gene」是兩個嵌套的實體,其中每一層都是一個flat NER layer。

flat NER layer 由兩部分組成,是一個單層的雙向LSTM網路加上一個crf層。 Bi-LSTM+CRF的模型是在NER中較為流行的方法,crf通過標籤之間狀態轉移的打分矩陣,對輸出的標籤有著約束的效果,從而達到了較好的結果。

本文的模型創新點是通過動態的堆疊flat NER layer,來生成不同層次的標籤;過程是如果識別出了任何實體,則引入新的flat NER層,並且合併當前flat NER層的每個檢測到的實體的embedding以組成該實體新的表示,然後將該表示傳遞給新的flat NER層作為輸入。否則,模型終止堆疊,從而完成實體識別。

具體的操作為:

zi是對應實體的embedding,mi是合併後的新的表示。這樣可以充分利用實體的內部信息來加強外部實體的識別;

第一層的輸入與其他層的有所不同,輸入是字元級別的embedding與預訓練好的詞級別的emdedding相及聯;這裡利用字元級別的embedding是為了模型能夠學習到類似於前綴後綴這樣的信息,來解決OOV的問題。

三、實驗

數據集:GE- NIA,ACE2005 ,JNLPBA

這幾個數據集的標註結果裏是包含了嵌套實體的不同標籤。

第一個是與最新的模型的之間的比較:

第二個是自身的消融實驗:

主要是改變了層與層之間的輸入

第三個是每一層識別的結果:

二、總結

1. 本文提出了一種動態分層模型,它充分利用內部實體信息,以端到端的方式鼓勵外部實體識別。模型基於由LSTM和CRF組成的flat NER層,因此模型能夠捕獲輸入序列的上下文表示,並在不依賴於特徵工程的情況下在flat NER層上全局解碼預測標籤。

2.能夠改善嵌套實體識別的情況,用處很大,想法新穎;


推薦閱讀:
相關文章