
Dual Attention Network for Scene Segmentation論文筆記

@Jimmy 2019-03-12 15:01:40


標題:《Dual Attention Network for Scene Segmentation》


出版源:CVPR 2019

論文領域:語義分割(Object Detection)




3.1 概述

3.2 詳解


採用移除down-sampling的dilated ResNet(與DeepLab相同)的預訓練網路基礎網路為,最後得到的feature map大小為輸入圖像的1/8。之後是兩個並行的attention module分別捕獲spatial和channel的依賴性,最後整合兩個attention module的輸出得到更好的特徵表達。

3.2.1 Position Attention Module


The position attention module encodes a wider range of contextual information into local features, thus enhancing their representative capability.

  • 特徵圖A(C×H×W)首先分別通過3個卷積層(BN和ReLU)得到3個特徵圖{B,C,D}.shape∈(CxHxW),然後reshape為C×N,其中N=H×W。
  • 矩陣C和B的轉置相乘,再通過softmax得到spatial attention map S(N×N)。
  • 矩陣D和S的轉置相乘,reshape result到(CxHxW)再乘以尺度係數 α 再reshape為原來形狀,,最後與A相加得到最後的輸出E 其中α初始化為0,並逐漸的學習分配到更大的權重。可以看出E的每個位置的值是原始特徵每個位置的加權求和得到的。


表示位置 對位置j的影響。


為尺度因子, 的元素, 的元素;


  • 矩陣相當於一個attention,它的每一行計算的是,所有像素與某個像素之間的依賴關係,softmax概率化,softmax值越大,說明更可信,相對的依賴性也更強。

3.2.2 Channel Attention Module


By exploiting the interdependencies between channel maps, we could emphasize interdependent feature maps and improve the feature representation of specific semantics.

  • 在Channel Attention Module中,分別對A做reshape和reshape與transpose;
  • 將得到的兩個特徵圖相乘再通過softmax得到channel attention map X (C×C);
  • X與A做乘積再乘以尺度係數β再reshape為原來形狀,最後與A相加得到最後的輸出E。 其中β初始化為0,並逐漸的學習分配到更大的權重。


表示第 通道對通道第 的影響。


為尺度因子, 的元素, 的元素;

3.3.3 Attention Module Embedding with Networks

  • 兩個attention module的輸出先求和再做一次卷積得到最後的預測特徵圖。 Specifically, we transform the outputs of two attention modules by a convolution layer and perform an element-wise sum to accomplish feature fusion. At last a convolution layer is followed to generate the final prediction map.
  • 沒有採用級聯的操作,因為這樣需要更多的GPU,本文的attention modules非常簡單,可以直接插入到先用的FCN中,顯著地提高了效果且不增加非常多的參數。 We do not adopt cascading operation because it needs more GPU memory. Noted that our attention modules are simple and can be directly inserted in the existing FCN pipeline.

3.3 數據集:

  • Cityscapes: The dataset has 5,000 images captured from 50 different cities. Each image has 2048 × 1024 pixels, which have high quality pixel-level labels of 19 semantic classes. There are 2,979 images in training set, 500 images in validation set and 1,525 images in test set.

  • PASCAL VOC 2012: The dataset has 10,582 images for training, 1,449 images for validation and 1,456 images for testing, which involves 20 foreground object classes and one background class.
  • PASCAL Context: he dataset provides detailed semantic labels for whole scenes, which contains 4,998 images for training and 5,105 images for testing. In our paper,we evaluate the method on the most frequent 59 classes along with one background category (60 classes in total).

3.4 訓練過程:

  • poly學習率策略:每個epoch後,學習率乘以$(1-frac{iter}{totaliter})^{0.9}$
  • 初始學習率為0.01、0.9動量、0.0001權重衰減;
  • 對於CityScape,batchsize=8,其它為16
  • 隨機crop、水平翻轉;


4.1 Ablation Study for Attention Modules

3. 數據集:

4.2 Ablation Study for Improvement Strategies

提升策略: DA: 隨機縮放 Multi-Grid: 在最後一個ResNet塊中應用了不同大小的網格層次結構(4,8,16) MS:多尺度測試 {0.5 0.75 1 1.25 1.5 1.75 2 2.2}

(1) DA: Data augmentation with random scaling.

(2) Multi-Grid: we apply employ a hierarchy of grids of different sizes (4,8,16) in the last ResNet block. (3) MS: We average the segmentation probability maps from 8 image scalesf0.5 0.75 1 1.25 1.5 1.75 2 2.2g for inference.

4.3 Visualization and Comparing with State-of-the-art


5.1 作者結論

提出了一種用於場景分割的雙注意網路(DANet),該網路利用自注意機制自適應地融合局部語義特徵。同時,作者引入了Position attention module 和 Channel attention module 去捕獲空間和通道維度上的全局依賴關係。

5.2 記錄該工作的亮點,以及可以改進的地方

DANet在Cityscapes,Pascal VOC2012, Pascal Context和COCO Stuff上取得了傑出的成績,在未來,作者希望在減少計算複雜度,提高模型的魯棒性方面有相應的研究。


