台湾 || 语言: 大陆简体港澳繁體台灣正體

Google Transformer模型图文详解

雪花台湾 2019-03-15 16:20

前沿

注意力（attention）--是一个在深度学习模型中普遍使用的方法。注意力是一个帮助改善神经机器翻译应用性能的概念。在这篇博客中，我会著眼于Transformer--该模型运用注意力来提高训练这些模型的速度。Transformer在一些特定任务中性能表现超过Google Neural Machine。然而，最大的益处在于Transformer并行化运算。事实上，Google Cloud的建议是使用Transformer作为参考模型来使用他们的Cloud TPU产品。因此让我们尝试拆解模型来看看它是怎么工作的。

Transformer在Attention is All You Need这篇论文中被提出。它的一个tensorflow版本实现可以在Tensor2Tensor得到。哈佛大学的NLP小组写了pytorch的实现guide annotating the paper with PyTorh implementation.在这篇博客中，我们尝试使一些东西简单化，逐一介绍概念，以便在没有深入了解主题的情况下让人们更容易理解。

从整体看

我们可以把这些模块看成单个黑盒。在机器翻译应用中，输入是一种语言的句子，输出翻译成另一种语言。

相关文章