論文筆記 —— XLNet

From Google Brain and CMU.

Authors: Zhilin Yang?, Zihang Dai?, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le

Title: XLNet: Generalized Autoregressive Pretraining for Language Understanding.

Preprint at 2019.6.20.

Introduction

這篇論文建立在Transformer-XL【作者們ACL2019的工作】的基礎之上。看過Transformer-XL的同學應該知道其編碼方式其實已經有了挺大的改進，對長文本的編碼優於Vanilla Transformer。本文引入了PLM（Permutation Language Model，排列語言模型【Permutation: a way, especially one of several possible variations, in which a set or number of things can be ordered or arranged.】）而拋棄BERT的Mask LM，然後引入Masked Two-Stream Self-Attention解決PLM出現的目標預測問題【見Motivation】，最後用三倍於BERT的語料進行預訓練，刷榜SQuAD、GLUE、RACE等。

Motivation

文章從AR(autoregressive，自回歸)和AE(autoencoding，自編碼)的角度出發，解釋論文動機。

AR LM，即自回歸語言模型。具體而言，給定一個序列，當前token/時刻只知道前面的信息，而不知道後面的信息，即使分成正向和反向計算當前token時刻的概率分布，也是同樣的原則，ELMo、GPT是屬於這個範疇。對於一些自然語言理解任務而言，是給定上下文的，即使ELMo把兩個的方向計算的信息concat，但也是獨立計算，對上下文的編碼是有缺陷的。

AE LM，即自編碼語言模型。BERT通過預測原始數據里MASK掉的token來預訓練語言模型，預測[MASK]使用了上下文信息，彌補了AR LM的缺陷。但是[MASK]只在預訓練的時候用到，finetune的時候是不用的，這使得pretrain/train不一致【這點頂一下BERT，我覺得這樣更能體現泛化能力】。並且，BERT假定每個[MASK]與其他[MASK]是相互獨立的，不能計算序列、長期依賴的聯合概率。即使BERT的NSP預訓練任務一定程度上給了模型建模句間關係的能力，但是還是對長文本不敏感。

本文結合AR LM和AE LM，在Transformer-XL的基礎上提出generalized autoregressive method，XLNet。

所有的分解序列作為一個集合，對所有採樣序列，XLNet按照AR LM的計算方式求對數似然期望的極大值。通常，當前token的上文包含left和right的tokens：比如原始序列為1-2-3-4，分解序列中採樣一個為2-4-1-3，那麼如果當前token為3，XLNet的方式就可以看到所有的信息【當然這也是理想情況】，而AR LM只能看到1和2。
引入Transformer-XL的segment recurrence mechanism和relative encoding scheme。
引入Masked Two-Stream Self-Attention解決PLM出現的目標預測歧義【the ambiguity in target prediction】問題。舉個例子，比如分解序列中採樣一個為2-4-6-1-3-5的序列，假設要預測[1]的token，按照經典的Transformer來計算next-token的概率分布，位置[1]的token的概率就是通過[2,4,6]位置上的tokens來計算softmax，不會把[1]作為輸入來計算的。但是如果以這種方式去預測next-token，這對[3,5]的預測就會產生影響，因為如果[1]的預測出現錯誤會把錯誤傳給後面。對後面每一個token的預測，需要建立在之前token都已知的條件下。因此本文計算了兩個self-attention計算方式，一個mask當前詞，attention值記為g；一個已知當前詞，attention值記為h。最後假設self-attention一共有M層，用第M層、t時刻的g_t，去預測詞x_t。

Model

Permutation Language Modeling

首先會根據輸入序列的長度採樣排列集合，然後用Transformer中attention mask的方式實現每個排列情況，如果原始序列長度為T，那麼理論上一共有T的階乘種情況。PLM的目標函數就是所有排列情況（論文里設定：統共T種，如何採樣的並沒有說，只是說大概率上下文會出現在被預測詞的前面）的期望最大：

$max _{ heta} quad mathbb{E}_{mathbf{z} sim mathcal{Z}_{T}}left[sum_{t=1}^{T} log p_{ heta}left(x_{z_{t}} | mathbf{x}_{mathbf{z}_{<t}} ight) ight]$