用自注意力增強卷積：這是新老兩代神經網路的對話（附實現）

2014 年，Bahdanau 等人針對機器翻譯任務提出了注意模型，現在它已成為一種常用的神經網路方法。近日，谷歌大腦在 arXiv 上公佈了一篇新論文，提出使用注意機制增強卷積

以加強獲取全局相關性的能力。在圖像分類和目標檢測上的實驗結果表明這種方法確實有效。

選自arXiv，作者：Irwan Bello、Barret Zoph、Ashish Vaswani、Jonathon Shlens、Quoc V. Le，機器之心編譯，參與：Panda。

卷積神經網路（CNN）在大量計算機視覺

應用中取得了極大成功，尤其是圖像分類。卷積層的設計需要通過受限的感受野來確保局部性（locality），以及通過權重共享來確保平移等效性（translation equivariance）。研究表明，這兩種屬性是設計圖像處理模型時關鍵的歸納偏置。但是，卷積核固有的局部性使它無法得到圖像中的全局語境；而為了更好地識別圖像中的對象，全局語境必不可少。

自注意力（self-attention）機制是獲取長程交互性方面的一項近期進展，但主要還只是用在序列建模和生成式建模任務上。自注意機制背後的關鍵思路是求取隱藏單元計算出的值的加權平均。不同於池化或卷積運算元，用在加權平均運算中的權重是通過隱藏單元之間的相似度函數動態地得到的。由此，輸入信號之間的交互就取決於信號本身，而不是由它們的相對位置預先確定。尤其值得提及的是，這使得自注意機制能在不增多參數的前提下獲取長城交互性。

這篇論文研究了將自注意（用作卷積的替代）用於判別式視覺任務的問題。研究者開發了一種全新的二維相對自注意機制，能夠在納入相對位置信息的同時維持平移等效性，這使得其非常適用於圖像。研究表明，這種自注意方案非常有競爭力，足以完全替代卷積。儘管如此，對照實驗表明，將自注意與卷積兩者結合起來得到的結果最佳。因此，完全擯棄卷積思想是不妥的，而應該使用這種自注意機制來增強卷積。其實現方式是將卷積特徵圖（強制局部性）連接到自注意特徵圖（能夠建模更長程的依賴）。

圖 1 展示了這種注意增強方法在圖像分類任務上的改進效果。