1. 處理NER任務的神經網路結構

百度的Zhiheng Huang[1]於2015年首度提出了Bi-LSTM-CRF架構用於自然語言處理序列標註任務。文中對比了LSTM、Bi-LSTM、CRF、LSTM-CRF與Bi-LSTM-CRF這幾種模型的表現。文中選擇了以下3種特徵作為神經網路的輸入:spelling features、context features、word embedding,同時在特徵連接時也使用了一種技巧,如下圖所示,將spelling features、context features作為輸入的同時又直接連接到輸出端用於預測tag。最終該論文將模型應用於POS、chunking和NER這3種序列標註任務中獲得了最先進的水平。

Onur Kuru[2]於2016年提出了一種字元級別的命名實體識別標註模型(Char NER)及標註模式。該想法主要為了使模型可以更好的獲取片語的形態學特徵,同時可以避免OOV情況。該模型結構如下圖所示,首先使用了多層的Bi-LSTM模型,其次連接一個仿射變換和一個函數用於獲得標籤在時刻的分佈情況,最後再使用演算法進行解碼。該文章最後使用CoNLL-2002 and CoNLL-2003以及其他3種語言的數據集驗證了模型的表現,不過文章的比較是基於語言的,而不是基於整個數據集的。

文章中提出了一種有意思的標註模式與解碼模式。其中標註模式是指文中將片語級別的標註方式轉換到字元級別的標註上,他拋棄了標註位置的標記前綴(B-, I-),直接使用片語的標記類別作為一個字元的標記。同時若一個NE短語由多個片語成,詞與詞之間的空格字元也使用該命名短語的標記。如下圖所示

解碼模式是使用演算法進行解碼。該解碼器使用的輸出概率作為發射概率(),同時自己探索了轉移矩陣用於確保詞內字元的連續性。如下圖所示為轉移矩陣,其中代表字元,代表空格,代表字元後為空格的情況。

Carnegie Mellon University的Guillaume Lample[3]於2016年提出了一種新的命名實體識別的神經架構。它使用了Stack-LSTM模型用於命名實體識別,同時使用了一種新的方式作為片語的特徵表達。最後在CoNLL-2002和CoNLL-2003數據集中的多個語言的測試集上進行了測試,並根據不同語言進行測試。

Stack-LSTM中包含了2個棧,此處使用和分別來表述。除了2個棧,還存在1個緩衝區(),包含了未處理的片語。同時,在中還定義了3個動作:。其中將片語從移入,將片語從移入,將中的所有元素出,作為一個,並將其賦予標籤,同時將其到棧中,如下所示。這個模型通過定義在給予當前中的元素的情況下,每一個時刻的動作的分佈概率來進行參數化。測試時,使用貪心演算法,選取最大概率的動作。

為了獲取辭彙中字元的作用,對於片語的嵌入式表達,本文採用瞭如下的形式

Carnegie Mellon University的Xuezhe Ma[4]於2016年提出了一種Bi-LSTM-CNNs-CRF架構,用於序列標註。文中主要使用了CNN架構來獲取字元級別表達,如下圖所示。

最終結合片語的字元表達與詞嵌入,作為Bi-LSTM-CRF的輸入,實現序列標註的任務。

對於NER任務,使用了CoNLL 2003數據集進行測試

中國科學院大學的Chunqi Wang[5]於2017年提出了一種GCNN的網路,即帶有門控機制的CNN網路用於處理NER問題,並在英文和中文兩種語言上進行測試,中文數據集選用SIGHAN bakeoff 2006 MSRA portion和CityU portion,英文選用CoNLL 2003,並在其上獲得了最先進的水平。文中對於中文直接使用字元表達作為模型的輸入;對於英文使用片語作為基本的輸出單元,同時使用如下圖所示的CNN結構獲取字元級別的表達。

對於網路結構,本文採用了多層CNN結構,並在CNN之後使用CRF進行序列標註。同時在每層卷積層中引入了門控機制,單層的門控捲積層如下所示:

復旦大學的Qi Zhang[6]於2018年針對Tweets中用戶發表語言經常附帶圖片的情況,提出了一種模型,可以同時捕獲Tweets中的語言信息與圖片信息。最終通過Twitter』s API自己採樣了一些包含圖片的推文進行測試,獲得了較好的表現。

對於圖片特徵的提取,使用16層的VGGNet,選擇了VGGNet最後一個池化層的輸出作為圖片特徵,這樣改特徵包含了圖片不同區域的信息。最終獲得512×7×7的特徵維度,其中512為不同區域的特徵維度,7x7代表區域大小。同時使用了一個單層的感知機,使該維度與文本維度相同,使用tanh激活函數。

對於字元級別表達特徵的提取,使用CNN使用k個不同大小的filter matrix進行卷積操作

然後使用max pooling,選擇最大值作為對應filter提取的特徵,最後把所有的k個特徵圖譜concat起來,同時與詞嵌入一起作為片語的表示。

文中主要是使用了類似注意力機制和門控機制的方法,實現圖片特徵與文本特徵的合併。注意力機制包含兩個:Word-Guided Visual Attention和Image-Guided Textual Attention。其中第一個實現使用辭彙選取圖像區域,採用的注意力機制計算方法如下所示,其中代表VGGNet輸出圖片特徵,代表時刻Bi-LSTM的輸出特徵,代表concat,最終根據加權,得到t時刻圖片特徵的表達。第二個實現圖片選取辭彙區域,通過,以類似的方式得到。

對於門控機制,文中設置了兩種門:gated multimodal fusion和Filtration Gate。第一個門用於權衡網路考慮從圖片和文本融合分析的角度獲得的新信息的多少,第二個門用於權衡在預測命名實體的過程中,是否使用這些新信息。

2. 針對中文的命名實體識別模型

中國科學院大學的Chunqi Wang[5]於2017年提出了一種GCNN的網路也在中文數據集上進行了測試,但是並不只是針對中文語言。

新加坡科技設計大學的Yue Zhang[7]提出了Lattice LSTM模型用於處理中文命名實體識別中,以字元為基本單位的情況。在傳統的方法裏,會先使用一些分詞模型獲取中文句子的辭彙表達,然後使用預訓練好的詞嵌入矩陣獲得片語對應的詞嵌入向量,然而這會導致誤差的累計。所以,文中提出了Lattice LSTM模型,用於在字元級別的表達上,集成片語級別的表達,最終在OneNotes 4, MSRA, Weibo NER, 以及自己採樣得到的中文簡曆數據集上進行了測試。下圖為一個其結構。

假設目前處理時刻的字元,從字典中找出與句子字元匹配且以時刻字元為結尾的所有片語,並獲取其詞嵌入表達,然後使用LSTM基本模型的計算方法計算出其中每個片語傳遞的單元狀態值

然後使用類似門控機制和注意力機制獲取每個片語傳遞到下一字元的單元狀態。為時刻字元表達

3. NER任務中的遷移學習與半監督學習

現有的遷移學習技術一般分為兩大類:INIT (parameter initialization) and MULT (multitask learning),即參數初始化和多任務學習。

Carnegie Mellon University的Zhilin Yang[8]於2017年提出了用於跨領域、跨任務與跨語言的3種序列標註遷移模型架構,並在多個數據集上進行測試。提出了以下3種模型,通過共享神經網路模型參數或特徵表達的方式,實現領域之間、目標任務之間、語言之間的遷移學習任務。其中跨語言遷移學習文中只關注了具有相同辭彙表的語言。訓練過程每次迭代中,可以看做是多任務學習的策略,首先使用二項分佈採樣任務類別(source task or target task),其次採樣一批訓練樣本,接下來採用梯度下降法更新參數,同時更新共享參數和特殊參數。即文中採用source task和target task同時訓練的過程。

Allen Institute for Artificial Intelligence艾倫人工智慧研究所的Matthew E. Peters[9]於2017年提出了一種半監督式的序列標註模式(TagLM)。實際上word embedding就是將半監督學習引入自然語言處理領域文本處理模型的一種最為常見和基本的用法。然而Peters提出word embedding只能嵌入辭彙的意義信息,然而一詞多義情況十分常見,此時便需要辭彙在上下文中的信息。所以,他創造性地引入了neural language model,編碼辭彙在上下文中的語義和情景信息。下圖為其流程

對於序列標註基本模型(base model),使用了多層Bi-LSTM(L=2)。對於語言模型,使用了多層的LSTM語言模型進行預訓練,同時使用了forward LM與backward LM兩種模式的LM。預訓練完成後,去除softmax層,連接前向和反向LM hidden state向量作為辭彙的LM嵌入,k代表當前token的位置。同時發現TagLM將多層LSTM語言模型最後一層的hidden state 與序列標註基本模型的第一層hidden state 連接時,模型表現較好。即最終使用,來代替基本模型原始的。同時提出,將LM嵌入引入到模型可以有很多方式,比如非線性映射或注意力機制。文中只嘗試了concat的方式。下圖為TagLM的結構圖。

Allen Institute for Artificial Intelligence艾倫人工智慧研究所的Matthew E. Peters[10]於2018年發表了2017年提出的半監督式的序列標註模式(TagLM)的拓展:ELMo (Embeddings from Language Models)。ELMo表示更加深入,使用了所有biLM內部層的輸出的函數。較高等級的LSTM狀態可以捕捉片語上下文依賴的信息,較低等級的狀態捕捉語法方面的信息。

在biLM模型上,Peters[9] 2017前向和反向LM的模型參數完全分離,而這篇文章中,前向和反向LM共享token representation和softmax layer的參數,LSTM的參數仍然分離。

ELMo和TagLM一樣仍然使用多層的biLM用於LM嵌入,然而不同的是其使用的是每一層前向和反向LM的hidden state,同時使用了任務相關的權重參數與,對每一層的LM的hidden state進行組合,實現ELMo表達。是權重,用於縮放整個ELMo向量。在某些情況下,使用layer normalization也同樣會有所幫助。

為了在監督學習中使用ELMo表達。首先固定了biLM的參數,將 concat起來,將其輸入到任務RNN或LSTM中。對於某些任務,發現同時將ELMo與任務RNN的輸出使用替換,同時引入一些線性權重,也會有更好的提升。同時發現,使用fine-tuned biLM會有效的提高模型的表現。

Alan Akbik[11]於2018年在Peter[10] 2018的基礎上,從字元的角度出發,使用字元級別的LM代替片語級別的LM,提出了Contextual String Embeddings。下圖為某一片語的編碼獲取方式。最終在CoNNL03的命名實體識別任務上,獲得了state-of-the-art的表現。

University of Southern California南加利福尼亞大學的Bill Yuchen Lin[12]針對跨領域學習在現有的網路結構上,提出了自適應層Neural Adaptation Layers的方法。現有的結構存在以下問題:使用相同的領域泛化的詞嵌入,假設了輸入特徵空間不存在領域漂移;針對跨領域學習過程,構建一個新的CRF,假設了新的CRF可以獲取跨領域LSTM輸出隱藏狀態的變化,同時還可以獲取目標空間結構依賴性;耗時的領域特殊的詞嵌入的重訓練。本文針對這3個問題,提出了word adaptation layer,sentence adaptation layer和output adaptation layer。模型結構如下所示:

word adaptation layer針對跨領域嵌入空間不同質的情況,通過統計的方法,將目標嵌入空間(target embedding space)投影到源空間(source space)中。建立了集合,集合中每個元素為源空間和目標空間的片語對。該集合由兩部分組成,一部分是設置一個語料庫頻率上限,比如根據詞在語料庫出現頻率的排名組成的對應關係,另一部分是自定義片語對。最終學習一個轉換矩陣最小化源空間詞嵌入與目標空間詞嵌入之間的距離,並對每個辭彙根據其詞頻設置一個置信係數。

Sentence Adaptation Layer和Output Adaptation Layer,均使用了Bi-LSTM模型,分別用於獲取上下文信息的映射關係和獲取上下文信息內輸出空間的變動。

同時一個小技巧是,在訓練過程中,設置了一個超參數,用於調控base model和target model的參數更新速度。在學習速率上乘一個係數。

  1. 總結與結論

發現目前的研究方向集中於:

  • 模型結構上,門控機制與注意力機制的靈活使用;
  • 命名實體識別任務中引入其他信息,如Twitter命名實體中引入圖片信息;
  • 命名實體識別任務的跨領域、跨語言、跨應用學習。引入遷移學習與半監督學習。近期的BERT和ELMo均屬於此類型,不過這種類型對於計算要求較高;
  • 多任務學習。如同時完成命名實體識別任務與關係抽取;

參 考 文 獻

[1] Z. Huang, W. Xu, and K. Yu, "Bidirectional LSTM-CRF Models for Sequence Tagging," arXiv e-prints, Accessed on: August 01, 2015Available: ui.adsabs.harvard.edu/#abs/2015arXiv150801991H

[2] O. Kuru, O. A. Can, and D. Yuret, "Charner: Character-level named entity recognition," in Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers, 2016, pp. 911-921.

[3] G. Lample, M. Ballesteros, S. Subramanian, K. Kawakami, and C. Dyer, Neural Architectures for Named Entity Recognition (arXiv e-prints). 2016.

[4] X. Ma and E. Hovy, End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF (arXiv e-prints). 2016.

[5] C. Wang, W. Chen, and B. Xu, Named Entity Recognition with Gated Convolutional Neural Networks. 2017.

[6] Q. Zhang, J. Fu, X. Liu, and X. Huang, "Adaptive Co-attention Network for Named Entity Recognition in Tweets," AAAI, 2018.

[7] Y. Zhang and J. Yang, Chinese NER Using Lattice LSTM (arXiv e-prints). 2018.

[8] Z. Yang, R. Salakhutdinov, and W. W. Cohen, Transfer Learning for Sequence Tagging with Hierarchical Recurrent Networks (arXiv e-prints). 2017.

[9] M. E. Peters, W. Ammar, C. Bhagavatula, and R. Power, Semi-supervised sequence tagging with bidirectional language models (arXiv e-prints). 2017.

[10] M. E. Peters et al., Deep contextualized word representations (arXiv e-prints). 2018.

[11] A. Akbik, D. Blythe, and R. Vollgraf, "Contextual string embeddings for sequence labeling," in Proceedings of the 27th International Conference on Computational Linguistics, 2018, pp. 1638-1649.

[12] B. Yuchen Lin and W. Lu, Neural Adaptation Layers for Cross-domain Named Entity Recognition (arXiv e-prints). 2018.


推薦閱讀:
相關文章