用自注意力增强卷积：这是新老两代神经网路的对话（附实现）

2014 年，Bahdanau 等人针对机器翻译任务提出了注意模型，现在它已成为一种常用的神经网路方法。近日，谷歌大脑在 arXiv 上公布了一篇新论文，提出使用注意机制增强卷积

以加强获取全局相关性的能力。在图像分类和目标检测上的实验结果表明这种方法确实有效。

选自arXiv，作者：Irwan Bello、Barret Zoph、Ashish Vaswani、Jonathon Shlens、Quoc V. Le，机器之心编译，参与：Panda。

卷积神经网路（CNN）在大量计算机视觉

应用中取得了极大成功，尤其是图像分类。卷积层的设计需要通过受限的感受野来确保局部性（locality），以及通过权重共享来确保平移等效性（translation equivariance）。研究表明，这两种属性是设计图像处理模型时关键的归纳偏置。但是，卷积核固有的局部性使它无法得到图像中的全局语境；而为了更好地识别图像中的对象，全局语境必不可少。

自注意力（self-attention）机制是获取长程交互性方面的一项近期进展，但主要还只是用在序列建模和生成式建模任务上。自注意机制背后的关键思路是求取隐藏单元计算出的值的加权平均。不同于池化或卷积运算元，用在加权平均运算中的权重是通过隐藏单元之间的相似度函数动态地得到的。由此，输入信号之间的交互就取决于信号本身，而不是由它们的相对位置预先确定。尤其值得提及的是，这使得自注意机制能在不增多参数的前提下获取长城交互性。

这篇论文研究了将自注意（用作卷积的替代）用于判别式视觉任务的问题。研究者开发了一种全新的二维相对自注意机制，能够在纳入相对位置信息的同时维持平移等效性，这使得其非常适用于图像。研究表明，这种自注意方案非常有竞争力，足以完全替代卷积。尽管如此，对照实验表明，将自注意与卷积两者结合起来得到的结果最佳。因此，完全摈弃卷积思想是不妥的，而应该使用这种自注意机制来增强卷积。其实现方式是将卷积特征图（强制局部性）连接到自注意特征图（能够建模更长程的依赖）。

图 1 展示了这种注意增强方法在图像分类任务上的改进效果。