台湾 || 语言: 大陆简体港澳繁體台灣正體

你需要知道Attention

雪花臺灣 2019-06-18 07:16

起這個標題的原因是，春招時期寫了一篇關於word2vec的文章，按照文章的思路跟面試官講word2vec或者裡面的細節，基本上沒有撲街的，有些面試官也表示講的很好。

益達：Embedding之word2vec?

zhuanlan.zhihu.com

但是有面試官這麼問我：「可以看出這基礎很好，但Attention、Bert等前沿模型近期很熱門啊，有機會你再瞭解一下吧」。我當場鼠軀一震，覺得自己需要繼續瞭解一下NLP的前沿模型了！

雖然自己開的專欄叫益達的Embedding空間，本著實用和全面的原則，近期我會寫一點自己對Attention的理解。這篇文章只講傳統Attention，self-Attention留到下一篇吧。

Attention起源於圖像領域的注意力機制（此處略去好多字...），發展史我這裡就不多說了。直接開始切入正題吧！

1、seq2seq的翻譯模型

在介紹Attention之前，有必要說一下seq2seq的翻譯模型，這個模型很有利於理解Attention。可以將seq2seq看成一種通用的框架，它的輸入是一個序列，輸出是一個序列，好比翻譯任務，輸入「今天是晴天」，輸出「Today is sunny」。我們使用RNN來seq2seq，RNN的結構如下：

RNN的時間步展開形式

X_t — RNN的時間步展開形式

相關文章