论文笔记 —— Transformer-XL

From Google Brain and CMU.

Authors: Zihang Dai?, Zhilin Yang?, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov

Title: TransformerXL: Attentive Language Models Beyond a Fixed-Length Context.

In: ACL, 2019

Introduction

为了帮助理解XLNet，本文对其核心框架Transformer-XL作一个解读。本文发表在ACL2019上，论文想要解决的问题：如何赋予编码器捕获长距离依赖的能力。目前在自然语言处理领域，Transformer的编码能力超越了RNN，但是对长距离依赖的建模能力仍然不足。在基于LSTM的模型中，为了建模长距离依赖，提出了门控机制和梯度裁剪，目前可以编码的最长距离在200左右。在基于Transformer的模型中，允许词之间直接建立联系【self-attention】，能够更好地捕获长期依赖关系，但是还是有限制。

Motivation

Transformer编码固定长度的上下文，即将一个长的文本序列截断为几百个字元的固定长度片段(segment)，然后分别编码每个片段[1]，片段之间没有任何的信息交互。比如BERT，序列长度的极限一般在512。动机总结如下：

Transformer无法建模超过固定长度的依赖关系，对长文本编码效果差。
Transformer把要处理的文本分割成等长的片段，通常不考虑句子（语义）边界，导致上下文碎片化(context fragmentation)。通俗来讲，一个完整的句子在分割后，一半在前面的片段，一半在后面的片段。

文章围绕如何建模长距离依赖，提出Transformer-XL【XL是extra long的意思】：

提出片段级递归机制(segment-level recurrence mechanism)，引入一个记忆(memory)模块（类似于cache或cell），循环用来建模片段之间的联系。

使得长距离依赖的建模成为可能；
使得片段之间产生交互，解决上下文碎片化问题。

提出相对位置编码机制(relative position embedding scheme)，代替绝对位置编码。

在memory的循环计算过程中，避免时序混淆【见model部分】，位置编码可重用。

小结一下，片段级递归机制为了解决编码长距离依赖和上下文碎片化，相对位置编码机制为了实现片段级递归机制而提出，解决可能出现的时序混淆问题。

Model

Vanilla Transformer

普通的Transformer是如何编码的？[2]给了动图，很形象，每个segment分别编码，相互之间不产生任何交互。

segment-level recurrence mechanism

为了解决长距离依赖，文章引入一个memory状态。

在训练过程中，每个片段的表示为最后的隐层状态?，?表示片段的序号，?表示片段的长度，?表示隐层维度。

在计算?片段的表示时，用memory缓存?片段?层的隐层状态?，用来更新?，这样就给下一个片段同了上文，长距离依赖也通过memory保存了下来。并且，最大可能的依赖长度线性增长，达到。

relative position embedding scheme

在实现片段级递归时遇到一个问题：如果采用绝对位置编码，不同片段的位置编码是一样的，这很显然是不对的。公式如下：

? $mathbf{h}_{ au+1}=fleft(mathbf{h}_{ au}, mathbf{E}_{mathbf{s}_{ au+1}}+mathbf{U}_{1 : L} ight)$

? $mathbf{h}_{ au}=fleft(mathbf{h}_{ au-1}, mathbf{E}_{mathbf{s}_{ au}}+mathbf{U}_{1 : L} ight)$

? $mathbf{E}_{mathbf{s}_{ au}}$ 表示片段 $mathbf{s}_{ au}$ ?的词向量，? $mathbf{U}_{1 : L}$ 表示绝对位置向量，可以看出，两个片段之间所用的位置向量是一样的。如果一个词出现在两个片段中 ${x}_{{ au}, {j}}$ ?、 ${x}_{{ au+1}, {j}}$ ?，按照绝对位置编码方式，它们的表示向量是一样的，难以区分。

因此，本文引入相对位置编码机制，计算self-attention公式如下：

$egin{aligned} mathbf{A}_{i, j}^{mathrm{rl}} &=underbrace{mathbf{E}_{x_{i}}^{ op} mathbf{W}_{q}^{ op} mathbf{W}_{k, E} mathbf{E}_{x_{j}}}_{(a)}+underbrace{mathbf{E}_{x_{i}}^{ op} mathbf{W}_{q}^{ op} mathbf{W}_{k, R} mathbf{R}_{i-j}}_{(b)} \ &+underbrace{u^{ op} mathbf{W}_{k, E} mathbf{E}_{x_{j}}}_{(c)}+underbrace{v^{ op} mathbf{W}_{k, R} mathbf{R}_{i-j}}_{(d)} end{aligned}$ ?

引入相对位置编码?，用的是Transformer里用的sinusoid encoding matrix，不需要学。
? 和 ?是需要学习的参数，这是这部分的关键。在计算self-attention时，由于query所有位置对应的query向量是一样的，因此不管的query位置如何，对不同单词的attention偏差应保持相同。
? $mathbf{W}_{k, E}$ 、 $mathbf{W}_{k, R}$ ?也是需要学习的参数，分别产生基于内容的key向量和基于位置的key向量。

最后再经过Masked-Softmax、Layer Normalization、Positionwise-Feed-Forward得到最终预测用的?，详细的过程看论文[1]提供的补充材料B。

faster evaluation

在评估时， Transformer-XL比Vanilla Transformer具有更长的有效上下文，并且Transformer-XL能够在不需要重新计算的情况下处理新段中的所有元素，显著提高了速度。下图是评估阶段的对比图：

Vanilla Transformer

Transformer-XL

Experiment

实验部分是对基于Transformer-XL的语言模型进行评估，分为字元级和词级。评价指标分别是bpc(每字元位数)和PPL(困惑度)，越小越好。enwiki8和text8用的是bpc。Transformer-XL在多个语言模型基准测试中实现了最先进的结果。 Transformer-XL第一个在char级语言模型基准enwiki8上突破1.0。