本文是在阅读完《Residual Attention Network for Image Classification》所做的笔记,
由于本人对注意力机制了解甚浅,笔记当中若有不恰当的地方,还望指出。
0 前言
计算机视觉中的注意力机制的基本思想是让模型学会专注,把注意力集中在重要的信息上而忽视不重要的信息。
举个简单的例子,对于图像分类任务,有只狗在广阔无垠的沙漠里漫步,模型能识别出有只狗,那假如狗是在茂密的森林里散步呢,模型有可能识别不出来,这是为什么呢?
因为模型并没有把注意力放在狗上,而是放在整张图上,这样一旦换了背景,模型很有可能会分类出错。而我们人类却能很好地对此进行分类,因为我们只关注场景中是否有狗,而不关注背景究竟是沙漠还是森林,可以简单地理解这就是注意力机制。
那如果让模型也像我们一样只关注场景中是否有狗,那岂不是分类会更准?是的,会更准。
1 介绍
接下来本文将介绍Residual Attention Network,它是一种注意力网路。受注意力机制和深度神经网路的启发,作者提出了Residual Attention Network,它主要包含数个堆积的Attention Module,每一个Module专注于不同类型的注意力信息,而这样简单地堆积Attention Module会对特征的表达有负面的,所以作者提出了Attention Residual Learning。
Residual Attention Network的结构如下: