之前的Word Representation方法CS224N(一):Word Vector如Word2Vec, GloVe, fastText等对每个单词仅有一种表示,而通常单词的含义依赖于其上下文会有所不同,而且每个单词不仅有一方面特征,而应有各方面特征如语义特征,语法特征等,这一讲集中讨论contextual word representation,主要比较了ELMO,GPT与BERT模型。

ELMO

ELMO的基本思想是利用双向的LSTM结构,对于某个语言模型的目标,在大量文本上进行预训练,从LSTM layer中得到contextual embedding,其中较低层的LSTM代表了比较简单的语法信息,而上层的LSTM捕捉的是依赖于上下文的语义信息。ELMO的全称就是Embeddings from Language Models。对于下游的任务,再将这些不同层的向量线性组合,再做监督学习。

详细来说,对于N个标记 (t_1,t_2,...,t_N) ,forward language model学习的是根据 (t_1,t_2,...,t_{k-1}) 的信息推测 t_k 的概率:

而 backward language model学习的是依据 (t_{k+1},...,t_N) 的信息推测t_k 的概率:

而bidirectional LSTM就是将两者结合起来,其目标是最大化 sum_{k=1}^N(log p(t_k|t_1,...,t_{k-1})+log p(t_k|t_{k+1},...,t_{N}))

对于k位置的标记,ELMO模型用2L+1个向量来表示,其中1个是不依赖于上下文的表示,通常是用之前提及的word embedding或者是基于字元的CNN来得到 x_k^{LM} 。L层forward LSTM每层会产生一个依赖于上文的表示 vec{h}_{k,j}^{LM} (j=1,...,L) ,同样的,L层backward LSTM每层会产生一个依赖于下文的表示 overleftarrow{h}_{k,j}^{LM} (j=1,...,L) ,我们可以将他们一起简计为

其中 h_{k,0}^{LM}=x_k^{LM},h_{k,j}^{LM} =[vec{h}_{k,j}^{LM} ;overleftarrow{h}_{k,j}^{LM} ]

得到每层的embedding后,对于每个下游的任务,我们可以计算其加权的表示

其中 s^{task} 是利用softmax归一化的权重, gamma^{task} 是引入的可调控的scale parameter。

采用了ELMO预训练产生的contextual embedding之后,在各项下游的NLP任务中,准确率都有显著提高。

GPT

GPT全称是Generative Pre-Training, 和之后的BERT模型一样,它的基本结构也是Transformer,关于Transformer结构可以详见之前的总结Attention机制详解(二)——Self-Attention与Transformer。

GPT的核心思想是利用Transformer模型对大量文本进行无监督学习,其目标函数就是语言模型最大化语句序列出现的概率,不过这里的语言模型仅仅是forward单向的,而不是双向的。得到这些embedding后,再对下游的task进行supervised fine-tuning。

BERT

BERT原理与GPT有相似之处,不过它利用了双向的信息,因而其全称是Bidirectional Encoder Representations from Transformers。

BERT做无监督的pre-training时有两个目标:

  • 一个是将输入的文本中 k%的单词遮住,然后预测被遮住的是什么单词。
  • 另一个是预测一个句子是否会紧挨著另一个句子出现。

预训练时在大量文本上对这两个目标进行优化,然后再对特定任务进行fine-tuning。

BERT由于采用了Transformer结构能够更好的捕捉全局信息,并且利用了上下文的双向信息,所以其效果要优于之前的方法,它大大提高了各项NLP任务的性能。

如何进行更有效的pre-training,在NLP领域是一个很有意思的问题,其发展也日新月异,BERT在2018年末被提出,而近期XLNet(arxiv.org/abs/1906.0823)则在多项任务上超越了BERT,这一领域的发展值得关注。

参考资料

第十三讲讲义web.stanford.edu/class/

第十三讲视频youtu.be/S-CspeZ8FHc

ELMO论文arxiv.org/abs/1802.0536

GPT openAI blog openai.com/blog/languag

BERT论文arxiv.org/abs/1810.0480


推荐阅读:
相关文章