站在BERT肩膀上的NLP新秀們（PART II）

寫在前面

在前一篇站在BERT肩膀上的NLP新秀們（PART I）介紹了兩個都叫ERNIE的模型，非常有趣思路也挺相似的，都是給bert模型增加外部知識信息，使其能更好地「感知「真實世界。再補一個THU的ERNIE報告PPT（提取碼：35fv）：

ERNIE from THU?

pan.baidu.com

今天我們來看看另外幾個有意思的BERT新秀：

√ XLMs from Facebook

√ LASER from Facebook

√ MASS from Microsoft

√ UNILM from Microsoft

1、Cross-lingual Language Model Pretraining（Facebook/2019）

對於BERT的改進可以大體分為兩個方向：第一個是縱向，即去研究bert模型結構或者演算法優化等方面的問題，致力於提出一種比bert效果更好更輕量級的模型；第二個方向是橫向，即在bert的基礎上稍作修改去探索那些vanilla bert還沒有觸及的領域。直觀上來看第二個方向明顯會比第一個方向簡單，關鍵是出效果更快。本文就屬於第二類。

突然想起來有一次面試，面試官問完bert的原理之後又接著問了bert的缺點在哪，當時也沒有看到這些改進bert的論文，傻乎乎地不知道回答什麼，大概這就是井底之蛙吧哈哈。

我們知道，bert預訓練的語料全是單語言的，所以可想而知最終的模型所適用的範圍基本也是屬於單語範圍的NLP任務，涉及到跨語言的任務可能表現就不那麼好。基於此，作者們提出了一種有效的跨語言預訓練模型，Cross-lingual Language Model Pretraining（XLMs）。 XLMs可以認為是跨語言版的BERT，使用了兩種預訓練方式

基於單語種語料的無監督學習
基於跨語言的平行語料的有監督學習

其在幾個多語任務上比如XNLI和機器翻譯都拉高了SOTA。那麼我們就來看看具體的模型，整體框架和BERT是非常類似，修改了幾個預訓練目標。

Shared sub-word vocabulary

目前的詞向量基本都是在單語言語料集中訓練得到的，所以其embedding不能涵蓋跨語言的語義信息。為了更好地將多語言的信息融合在一個共享的詞表中，作者在文本預處理上使用了位元組對編碼演算法（Byte Pair Encoding (BPE)），大致思想就是利用單個未使用的符號迭代地替換給定數據集中最頻繁的符號對（原始位元組）。這樣處理後的詞表就對語言的種類不敏感了，更多關注的是語言的組織結構。

關於BEP的具體栗子可以參考：

Byte Pair Encoding example?

gist.github.com

Causal Language Modeling (CLM)

這裡的CLM就是一個傳統的語言模型訓練過程，使用的是目前效果最好的Transformer模型。對於使用LSTM 的語言模型，通過向 LSTM 提供上一個迭代的最後隱狀態來執行時間反向傳播 (backpropagation through time, BPTT)。而對於 Transformer，可以將之前的隱狀態傳遞給當前的 batch，為 batch 中的第一個單詞提供上下文。但是，這種技術不能擴展到跨語言設置，因此在這裡作者們進行了簡化，只保留每個 batch 中的第一個單詞，而不考慮上下文。

Masked Language Modeling (MLM)

這一個預訓練目標同BERT的MLM思想相同，唯一不同的就是在於模型輸入。BERT的輸入是句子對，而XLM使用的是隨機句子組成的連續文本流。此外，為了避免採樣不均，對相對頻繁的輸出採用與頻率倒數的平方根成正比的權重從多項式分佈中進行子採樣。

Translation Language Modeling (TLM)

這一部分應該是對跨語言任務取得提升的最大原因。不同於以上兩個預訓練模型（單語言語料訓練 + 無監督訓練），翻譯語言模型使用的是有監督的跨語言並行數據。如下圖所示輸入為兩種並行語言的拼接，同時還將BERT的原始embedding種類改進為代表語言ID的Laguage embedding和使用絕對位置的Position embedding。這些新的元數據能夠幫助模型更好地學習不同語言相關聯Token之間的關係信息。

TLM訓練時將隨機掩蓋源語言和目標語言的token，除了可以使用一種語言的上下文來預測該Token之外（同BERT），XLM還可以使用另一種語言的上下文以及Token對應的翻譯來預測。這樣不僅可以提升語言模型的效果還可以學習到source和target的對齊表示。