台湾 || 语言: 大陆简体港澳繁體台灣正體

你需要知道Attention

雪花台湾 2019-06-18 07:16

起这个标题的原因是，春招时期写了一篇关于word2vec的文章，按照文章的思路跟面试官讲word2vec或者里面的细节，基本上没有扑街的，有些面试官也表示讲的很好。

益达：Embedding之word2vec?

zhuanlan.zhihu.com

但是有面试官这么问我：「可以看出这基础很好，但Attention、Bert等前沿模型近期很热门啊，有机会你再了解一下吧」。我当场鼠躯一震，觉得自己需要继续了解一下NLP的前沿模型了！

虽然自己开的专栏叫益达的Embedding空间，本著实用和全面的原则，近期我会写一点自己对Attention的理解。这篇文章只讲传统Attention，self-Attention留到下一篇吧。

Attention起源于图像领域的注意力机制（此处略去好多字...），发展史我这里就不多说了。直接开始切入正题吧！

1、seq2seq的翻译模型

在介绍Attention之前，有必要说一下seq2seq的翻译模型，这个模型很有利于理解Attention。可以将seq2seq看成一种通用的框架，它的输入是一个序列，输出是一个序列，好比翻译任务，输入「今天是晴天」，输出「Today is sunny」。我们使用RNN来seq2seq，RNN的结构如下：

RNN的时间步展开形式

X_t — RNN的时间步展开形式

相关文章