本文是在閱讀完《Residual Attention Network for Image Classification》所做的筆記,
由於本人對注意力機制瞭解甚淺,筆記當中若有不恰當的地方,還望指出。
0 前言
計算機視覺中的注意力機制的基本思想是讓模型學會專註,把注意力集中在重要的信息上而忽視不重要的信息。
舉個簡單的例子,對於圖像分類任務,有隻狗在廣闊無垠的沙漠裏漫步,模型能識別出有隻狗,那假如狗是在茂密的森林裡散步呢,模型有可能識別不出來,這是為什麼呢?
因為模型並沒有把注意力放在狗上,而是放在整張圖上,這樣一旦換了背景,模型很有可能會分類出錯。而我們人類卻能很好地對此進行分類,因為我們只關注場景中是否有狗,而不關注背景究竟是沙漠還是森林,可以簡單地理解這就是注意力機制。
那如果讓模型也像我們一樣只關注場景中是否有狗,那豈不是分類會更準?是的,會更準。
1 介紹
接下來本文將介紹Residual Attention Network,它是一種注意力網路。受注意力機制和深度神經網路的啟發,作者提出了Residual Attention Network,它主要包含數個堆積的Attention Module,每一個Module專註於不同類型的注意力信息,而這樣簡單地堆積Attention Module會對特徵的表達有負面的,所以作者提出了Attention Residual Learning。
Residual Attention Network的結構如下: