原文:Linguistic Knowledge and Transferability of Contextual Representations

來源:NAACL 2019代碼:github.com/nelson-liu/c

Introduction

預訓練的詞表示已經被廣泛應用在NLP的任務中,在本文中稱之為contextual word representations (CWRs)。CWRs通常是基於大規模數據集任務的神經網路模型的輸出,如機器翻譯,語言模型等。在不同任務上的成功證明了CWRs的可遷移性,然而對其表示的語言知識和遷移性還缺乏一定的理解,本文著眼於此進行研究。

最近關於學習CWRs的成果層出不窮,如ELMo,OpenAI的transformer語言模型和BERT,文中稱之為contextualizers。

本文研究以下幾個問題:

1、這些表示向量捕獲了哪些語言特徵?

2、在contextualizers中,每層的可遷移性為何不同?

3、預訓練任務的選擇如何影響向量的學習?

Probing Tasks

使用probing models分析CWR中的語言信息。如下圖,從預訓練的contextualizers中提取特徵,生成單詞表示,並訓練簡單模型進行預測。 如果能單獨用CWR預測關於單詞的語言信息,則認為CWR含有此類特徵信息。

Token Labeling

  • 詞性標註(POS)任務確定CWR是否捕獲基本語法知識。
  • CCG超級標記任務評估向量在上下文中關於單詞的句法角色的細粒度信息。
  • syntactic constituency ancestor tagging任務旨在探索向量的分層語法知識。
  • semantic tagging中,標註其在上下文中的語義角色的標籤。
  • Preposition supersense disambiguation:介詞消歧任務
  • event factuality (EF):事件事實任務

Segmentation

  • 句法分塊(Chunk)測試CWR是否包含跨度和邊界的概念
  • Named entity recognition (NER)
  • 語法錯誤檢測(GED)
  • conjunct identification (Conj)

Pairwise Relations

檢查是否捕獲關係信息(是否有relation和什麼relation)。

  • semantic dependency arc prediction
  • syntactic dependency arc classification
  • coreference arc prediction

Models

使用線性模型作為probe model,使用ELMo,OpenAI的transformer語言模型和BERT作為contextualizers分別實驗。

Pretrained Contextualizer Comparison

針對不同Contextualizer的比較試驗:

實驗表明CWR未能捕獲實體和共參考現象的有效信息。

可能原因:1、CWR根本不編碼相關信息2、探測模型沒有從向量中提取信息或預測的能力。

而學習任務特定的上下文信息可能有幫助。

改變probe model進一步探索在NER任務上表現不佳的原因(ELMo):

在NER和GED中,MLP和LSTM + Linear模型之間的性能非常相似, 這表明單純擴大探測模型容量就可以CWR中提取必要的信息。在Conj和GGParent表明pretrained contextualizers不能捕獲有效信息。

實驗證明了針對任務訓練上下文表示的有效性(而不是單純固定CWR作為輸入)。另一方面,這種特定任務的上下文表示可以來自於微調的CWR或使用固定輸出特徵作為task-trained contextualizer的輸入。

Analyzing Layerwise Transferability

分析不同層的可遷移性:

可以認為遷移性是以任務特定性為代價的。循環網路中的第一層語境化始終是最易遷移的(驗證了gradual unfreezing method的合理性)。基於transformer的上下表示器沒有單個最可轉移的層;每項任務的最佳表現層各不相同,通常在中間附近。在大多數任務中,其標量混合優於單個層。

Transferring Between Tasks

不同預訓練任務的影響:(使用ELMo,每個預訓練任務的訓練數據都來自PTB)

結論是許多任務在用本任務做pretrain時會達到最佳效果,而使用大規模語料得到的CWR仍舊可以得到strong result。

Conclusion

本文探索了不同上下文表示的知識蘊含及其可遷移性,另外,在基於transformer的模型中,將不同層的輸出標量混合能達到更好的實驗效果。


推薦閱讀:
相关文章