台湾 || 语言: 大陆简体港澳繁體台灣正體

BERT 論文閱讀筆記

雪花台灣 2019-06-09 19:18

本文是 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 一文的筆記。

摘要

本文介紹一種新的語言表徵模型： BERT，即 Bidirectional Encoder Representations from Transformers.

BERT 首先根據所有層中的雙向上下文信息進行預訓練。預訓練之後的表徵僅僅需要一個額外的輸出層進行微調，就能在許多任務中取得 state-of-the-art 結果。

BERT 概念上很簡單，但是卻非常強大。它在 11 項 NLP 任務中取得了 state-of-the-art 結果。其中包括：把 GLUE beanchmark 的分提高到了 80.4%；吧 MultiNLI 精度提高到 86.7%，在 SQuAD 的 F1 結果提高到 93.2 等。

1 引言

預訓練模型在許多NLP 任務中都有效。這些任務包括句子級別的任務，如 NLI 和改述任務；還包括 token 級別的任務，如 NER 和 SQuAD 問答。

使用預訓練模型可以有兩種策略： feature-based 和 fine-tuning。feature-based 方案，如 ELMo，將預訓練模型的表徵作為額外的 feature 輸入模型。fine-tuning 方案，如 OpenAI GPT，根據具體任務引入了極小量的參數，下游任務訓練的時候僅僅需要對已經預訓練好的模型進行 fine-tuning。在 BERT 之前， ELMo 和 GPT 在預訓練的時候使用相同的目標函數，即單向語言模型來學習通用語言表徵。

BERT 的作者認為由於當前標準的語言模型都是單向的（如 OpenAI GPT），因此每個 token 只能 attend 到之前的 token。這種限制對於 sentence 級別的任務來說是僅僅是次優而已，但對 token 級別的任務（如 SQuAD 問答）來說卻是災難性的。

本文通過 BERT 解決了提到的單向限制問題。提出了一個新的預訓練目標函數，即"Masked Language Model" (MLM)。隨機從輸入中選擇 token 進行 mask，目標函數通過被選擇 token 的 context 來預測該 token。 MLM 允許融合左右兩邊的上下文信息。本文貢獻有幾點：

雙向預訓練模型
通過預訓練表徵，是的許多基於任務的結構沒有存在的必要
在 11 項 NLP 任務中取得了最好的結果

（整體看下來，貢獻貌似就一點：新的訓練目標函數。架不住結果太好。）

2 相關工作

預訓練通用語言表徵

2.1 Feature-based 方案

詞表徵一直是一個活躍的研究領域，有非神經網路和神經網路兩種方案。word embedding 一直是現代 NLP 系統不可分割的一部分。

word embedding 方案還可以進行泛化，如 sentence embeddings 或 paragraph embeddings。同傳統的詞嵌入類似，這些 embedding 一般也是作為模型的額外輸入feature。

ELMo 將傳統的詞嵌入研究帶入一個新的維度。他們提出從語言模型中提取出上下文敏感的 features。將新 feature 加入到已經存在的模型中，可以提高現有模型的性能。

2.2 Fine-tuning 方案

最近語言模型遷移學習的一個趨勢是，在一個語言模型目標函數上預訓練模型，然後再同一個模型的下游監督任務上進行 fine-tuning。這樣做的好處是，不需要完全從頭訓練所有參數。

OpenAI GPT 通過此方案在許多 sentence-level 任務上取得了 state-of-the-art 的結果。

2.3 監督數據上的遷移學習

無監督預訓練的優勢是有幾乎不受限制的數據量。但也有研究證明在大數據集的監督任務上的遷移也是有效的，如在 NLI和 MT 領域。在 NLP 領域之外，計算機視覺研究也證明了使用大規模數據集進行預訓練的有效性。

3 BERT

這部分詳細介紹 BERT 的實現。

模型結構-》輸入表徵-》預訓練任務-》預訓練過程-》fine-tuning 過程-》同 OpenAI GPT 對比。

3.1 模型結構

BERT 的模型結構是一個多層雙向 Transformer Encoder。其 Transformer Encoder 的實現同原始實現完全一致，因此這裡不做介紹。

將層數定義為 L，hidden size 定義為 H，自注意力的 heads 數量定義為 A. 將 feed-forward 或 filter size 設置為 4H。定義了兩個模型 size：

BERT base： L=12, H=768, A=12, 一共 110M 參數
BERT large: L=24, H=2014, A=16, 一共 340M 參數

BERT，OpenAI GPT 和 ElMo 的對比如圖：

相关文章