語言知識和上下文表示的可遷移性

原文：Linguistic Knowledge and Transferability of Contextual Representations
來源：NAACL 2019代碼：https://github.com/nelson-liu/contextual-repr-analysis

Introduction

預訓練的詞表示已經被廣泛應用在NLP的任務中，在本文中稱之為contextual word representations (CWRs)。CWRs通常是基於大規模數據集任務的神經網路模型的輸出，如機器翻譯，語言模型等。在不同任務上的成功證明了CWRs的可遷移性，然而對其表示的語言知識和遷移性還缺乏一定的理解，本文著眼於此進行研究。

最近關於學習CWRs的成果層出不窮，如ELMo，OpenAI的transformer語言模型和BERT，文中稱之為contextualizers。

本文研究以下幾個問題：

1、這些表示向量捕獲了哪些語言特徵？

2、在contextualizers中，每層的可遷移性為何不同？

3、預訓練任務的選擇如何影響向量的學習？