台湾 || 语言: 大陆简体港澳繁體台灣正體

Google Transformer模型圖文詳解

雪花臺灣 2019-03-15 16:20

前沿

注意力（attention）--是一個在深度學習模型中普遍使用的方法。注意力是一個幫助改善神經機器翻譯應用性能的概念。在這篇博客中，我會著眼於Transformer--該模型運用注意力來提高訓練這些模型的速度。Transformer在一些特定任務中性能表現超過Google Neural Machine。然而，最大的益處在於Transformer並行化運算。事實上，Google Cloud的建議是使用Transformer作為參考模型來使用他們的Cloud TPU產品。因此讓我們嘗試拆解模型來看看它是怎麼工作的。

Transformer在Attention is All You Need這篇論文中被提出。它的一個tensorflow版本實現可以在Tensor2Tensor得到。哈佛大學的NLP小組寫了pytorch的實現guide annotating the paper with PyTorh implementation.在這篇博客中，我們嘗試使一些東西簡單化，逐一介紹概念，以便在沒有深入瞭解主題的情況下讓人們更容易理解。

從整體看

我們可以把這些模塊看成單個黑盒。在機器翻譯應用中，輸入是一種語言的句子，輸出翻譯成另一種語言。

相關文章