Context Encoding for Semantic Segmentation
擬解決問題:
- 傳統的語義分割模型均使用完全卷積,通過堆疊卷積層來捕獲具有全局感受野的信息表示,但是會造成空間解析度的損失問題。之後的相關工作通過引入擴張卷積來克服該問題,但是這種方法也會將像素與全局場景上下文分割開來,從而導致像素分類錯誤。
- 之後研究人員引入了空間金字塔池,將不同尺度下的特徵圖在上採樣後連接起來,這種方法確實提高了語義分割性能,但是其上下文表示並不明確,從而不知道捕獲的上下文信息與增加的感受野大小是否相同。
- 傳統的方法僅僅計算每個像素的分割損失,這種方法並沒有全面的利用全局場景,會使得圖像中大小物品的貢獻度不同(使得小物品不被重視)
為瞭解決上面的三個問題作者提出了一種新的上下文編碼模塊,通過引入先驗信息來提高模型的效果,其主要過程是通過首先預測圖像中存在的類別信息,最後根據上下文編碼與特徵注意力機制來實現語義分割的任務。其整體流程如下圖: