Dual Attention Network for Scene Segmentation論文筆記
??@Jimmy 2019-03-12 15:01:40
一、基本信息
標題:《Dual Attention Network for Scene Segmentation》
時間:2019
出版源:CVPR 2019
論文領域:語義分割(Object Detection)
主要鏈接:
- homepage: None
- arXiv(Paper): https://arxiv.org/abs/1809.02983
- github(Official): https://github.com/junfu1115/DANet
二、研究背景
- 問題: 為了有效地完成場景分割的任務,我們需要區分一些混淆的類別,並考慮不同外觀的對象。例如,草原與牧場有時候是很難區分的,公路上的車也存在尺度、視角、遮擋與亮度等的變化。因此,像素級識別需要提高特徵表示的識別能力。 In order to accomplish the task of scene segmentation effectively, we need to distinguish some confusing categories and take into account objects with different appearance.
- 現有解決:
- 多尺度上下文信息融合 (multi-scale context fusion) : PSPNet etc.
- 通過使用分解結構或在網路頂部引入有效的編碼層來增大內核大小,從而獲取更豐富的全局上下文信息
- encoder-decoder 結構 問:這樣做的缺點是什麼? 答:以上方法可以捕獲不同尺度的目標,但是它沒有利用目標之間的關係,這些對於場景表達也是重要的。
- 使用遞歸神經網路來捕捉長期依賴關係: 例如2D的LSTM。 問:這樣做的缺點是什麼?
答:有效性在很大程度上依賴於長期記憶的學習結果。
三、創新點
3.1 概述
- 要點: 這篇論文通過基於Self Attention mechanism來捕獲上下文依賴,並提出了Dual Attention Networks (DANet)來自適應地整合局部特徵和全局依賴。該方法能夠自適應地聚合長期上下文信息,從而提高了場景分割的特徵表示。
- 組成: 在一貫的dilated FCN中加入兩種類型地attention module。其中position attention module選擇性地通過所有位置的加權求和聚集每個位置的特徵,channel attention module通過所有channle的feature map中的特徵選擇性地強調某個特徵圖。最後將兩種attention module的output 求和得到最後的特徵表達。 The position attention module selectively aggregates the features at each position by a weighted sum of the features at all positions. Similar features would be related to each other regardless of their distances. Meanwhile, the channel attention module selectively emphasizes interdependent channel maps by integrating associated features among all channel maps. We sum the outputs of the two attention modules to further improve feature representation which contributes to more precise segmentation results.
- 貢獻:
- 提出了Dual Attention Networks (DANet)在spatial和channle維度來捕獲全局特徵依賴。
- 提出position attention module去學習空間特徵的相關性,提出channel attention module去建模channle的相關性。
- 在三個數據集Cityscapes, PASCAL Context和COCO Stuff上實現了state-of-the-art的結果。
3.2 詳解
網路構架如下圖: