總結一下之前看的一些論文,很多內容建立在經典BILSTM+CRF模型,不做重複介紹。

文章中的部分理解來源於其他CSDN博客上的筆記,感謝這些博主的分享。

大三課真多 沒啥時間看論文呀[攤手]

目錄

?A Survey on Recent Advances in Named Entity Recognition from Deep Learning models(2018 COLING)

?A FOFE-based Local Detection Approach for Named Entity Recognition and Mention Detection(2017 ACL)

?Attending to Characters in Neural Sequence Labeling Models(2016 COLING)

?Neural Architectures for Fine-grained Entity Type Classification (2017 ACL)

?Improving Neural Fine-Grained Entity Typing with Knowledge Attention(2018 AAAI)

?Chinese NER Using Lattice LSTM(2018 ACL)

?Semi-supervised sequence tagging with bidirectional language models(2017 ACL)

?Deep Active Learning for Named Entity Recognition(2018 ICLR)

?GAN…(2018 AAAI 2018 ACL)

1.A Survey on Recent Advances in Named Entity Recognition from Deep Learning models(2018COLING)

這篇文章是今年的綜述,表中數據為經典數據COLING2003的F1值。以EN為例,第一部分為CRF+特徵工程,在各種特徵工程懟到了90左右,二三部分分別為只以詞和只以字元做為嵌入向量,F1值大概為85。第四部分為詞向量和字元向量進行拼接後效果有了很大的提升。最後為加入CNN等模型進一步提取前後綴特徵。

2.A FOFE-based Local Detection Approach for Named Entity Recognition and Mention Detection(2017ACL)

1.FOFE編碼方法:對於所有長度<n的序列進行編碼

α為從左到右編碼的遺忘因子,et為one-hot向量,zt為該部分編碼,維度為整個詞典大小

由原論文證明該編碼是唯一的且不會損失信息

例子:ABCBC編碼為 [α4,α+α3,1+α2] 過程:A [1,0,0] B[0,1,0] C[0,0,1]。 從左到右編碼:[1,0,0] [α,1,0] [α2,α,1] [α3,α2+1,α] [α4,α3+α,1+α2]

總結:從左到右帶有遺忘因子的單向解碼

2.類似CBOW用2個矩陣映射到低維向量

3.低維向量維度確定,通過3層神經網路softmax輸出分類

訓練過程對模型的補充:

1.加入字元級特徵:把已知實體的逐個字元進行雙向FOFE編碼,用矩陣映射到低維,加入神經網路(應該是只有訓練時才用到)

2.softmax輸出分類為正確的標籤和NONE(忽略部分匹配)

3.若不想出現實體嵌套或重疊,可直接選擇出現分數更高或長度更長的,也可保留嵌套特徵,這在序列標註模型是難以做到的(優點1)

4.保留大小寫...下採樣平衡實體和非實體數量…

對模型的解釋和其他優點

1.類似人類尋找實體的過程,關注NER整體和周圍上下文特徵,實體內部的關聯相對較少,實體和實體間序列上的依賴也相對較少

2.無特徵工程,未完全標註的訓練集也可以(序列標註未完全標註的話效果會很差)

3.訓練使用3層神經網路簡單快速

效果:接近state of art

gaz為地名索引、cap為大小寫特徵、pos序列標註特徵

未來工作:句法分析等其他層面的應用

總結:暴力窮舉句子的所有窗口、編碼、映射、softmax 輸出的軟匹配(沒有用到上下文的「硬」輸出信息)

只有窗口居然做到了比較好的效果,這與傳統序列標註的逐個詞輸出思路完全不同

並且跳過了分詞,中文序列標註問題也受分詞很大的影響

3.Attending to Characters in Neural Sequence Labeling Models(2016COLING)

這篇相對比較簡單,查字元和詞向量拼接時注意到的

模型上半部分:經典模型

作者的解釋是lstm隱層輸出後再進行d層映射的效果更好,可以捕捉到「更高層」特徵且壓縮維度

embedding部分

h1和ht進行拼接作為字元向量,與詞向量進行拼接/attention

Attention部分:

這裡的attention為經典attention模型的第三種公式,x和m之間是沒有交互的,添加了三個W矩陣而已,交互放在了損失函數。E為softmax輸出的交叉熵。

對於out-of-vocabulary的詞來說,通過cos值使得字元向量和詞向量更加接近。作者在這裡解釋是對於訓練語料未出現的詞,詞向量的結果還是值得字元向量去接近的,反之則效果不佳

作者的其他解釋:

1.優點在於處理OOV詞時可以平衡詞向量和字元向量的權重,也可以提取部分前後綴特徵

2.參數量少了,相對於concat,attention部分的z維度更小

4.Neural Architectures for Fine-grained Entity Type Classification (2017ACL)

背景:對文本句子中的特定實體(實體已知種類未知)給出基於上下文文本信息的精細的分類信息

關注點:實體特徵提取

和CRF的特徵工程差不多

合併入模型的方式:拼接進去(vf)

特徵調整方式:

重新編碼、剪枝、某些特徵重新分類

最後編碼出只包含0、1的vf向量

實體向量:特徵提取拼接詞向量

Attention:兩邊的全局selfattention

這是本文提到的第一種人工特徵加入方式:單獨訓練其他特徵,拼接入模型

5.Improving Neural Fine-Grained Entity Typing with Knowledge Attention(2018 AAAI)

加入方式二:知識庫、知識圖譜引

6.Chinese NER Using Lattice LSTM(2018ACL)

改進點:避免分詞按字元輸入,用預訓練實體庫(建立字索引)顯性地利用詞和詞序信息,通過門控單元從詞典中自動找到可能的詞

以「南京市」綠色LSTM為例:b為開始位置,e為結束位置

這裡和傳統LSTM相同,只是砍掉了輸出層

每個都是長度為3的LSTM,南、南京市的字典索引、兩個字長度後的市字,保留的是記憶信息(南+南京市)

對於市字的隱層單元:原本的雙向LSTM輸入+所有索引詞的LSTM隱層輸入

效果:部分語料state of art

疑問:引入的實體庫信息只是訓練時後還要存下來測試用啊...每個語料都有自己做一個字典?

第三個特徵引入方式:建立詞字典 以及..再次跳過了分詞

7.Semi-supervised sequence tagging with bidirectional language models(2017ACL)

背景:通用的半監督方法,通過雙向語言模型從未標記文本中學習詞嵌入添加到NLP系統,並將其應用於序列標記任務。語料庫再利用/小語料集

也有dense層,只關注右側:

單項編碼:

即計算序列的出現的概率:從句首和句尾兩個方向預測序列下一個詞是什麼,丟進LSTM,將語言模型最後一層softmax去掉(實驗表明),得到LM embedding。

雙層LM是獨立的 和左方LSTM第一層隱層一起拼接

未來工作:attention

對比實驗:

LM用什麼模型影響還挺大(雙向)

若只有LM層,F1值為88,做為bilstm+crf的輔助

對領域特定的預訓練是不必要的

LM層信息的Concat在哪兒

對比:

word2vec 一定窗口內的上下文語義信息

LM embedding 序列上下文信息(類似馬爾科夫鏈)

結果:state of art

8.Deep Active Learning for Named Entity Recognition(2018ICLR)

主動學習:通過「選擇策略」主動從未標註的樣本集中挑選部分(1個或N個)樣本讓相關領域的專家進行標註;然後將標註過的樣本增加到訓練數據集給「學習模塊」進行訓練;當「學習模塊」滿足終止條件時即可結束程序,否則不斷重複上述步驟獲得更多的標註樣本進行訓練。

開始:1%初始數據集

結束:單詞庫20000個單詞

效果:25%的訓練集即可接近state of art

體現在採樣方法:

MNLP:由句子編碼(長度歸一化)尋找最難(信息量最大)分類類別進行參數更新

BALD:inference 時的dropout 等價於來計算模型的不確定性的。每次在M種結果中取和現模型最不一致的。(我自己也不是很明白,整理下其他博客的解釋)

9.類似「GAN」對抗

使用對抗網路減少眾包標記的不良影響/針對專家集有限的語料

詞向量、字元向量加入雜訊信息(特別是小語料)

出處為知乎問題

AAAI 2018 有什麼值得關注的亮點??

www.zhihu.com
圖標

總結:

LSTM+CRF依舊是主流

1.attention:哪裡都有(這裡沒看到那麼多)

2.特徵引入:難以學習的特徵的補充

3.主動學習/半監督學習:小語料、訓練集不同利用方式

4.對抗方法的引入

(5.遷移學習/聯合學習..:多任務、參數共享..)

跨領域問題的解決


推薦閱讀:
查看原文 >>
相关文章