Co-occurrent Features in Semantic Segmentation

http://openaccess.thecvf.com/content_CVPR_2019/papers/Zhang_Co-Occurrent_Features_in_Semantic_Segmentation_CVPR_2019_paper.pdf?

openaccess.thecvf.com

一、論文出發點

語義分割很多文章都關注於怎麼捕捉上下文。這篇文章認為,以往的全局捕捉、特徵金字塔雖然可以很好的捕捉全局語義信息,但是這種全局語義信息比較粗略,不足以支撐場景中容易混淆的目標的識別。所以作者提出利用同現(如標題,本文簡稱說法)特徵,也就是看除了自身特徵,某些位置是否同時出現了某一特徵來加強判斷。

a rough holistic global context might not be enough for the classification of ambiguous objects in the scene.

二、論文核心思想

那麼論文是怎麼判斷某些位置是否同時出現了某一特徵了。

論文的核心思想如下:

給定一個像素(這裡將特徵圖對應的二維點也稱為像素) C維特徵(一般就是resnet這種 backbone最後輸出),計算所有其它像素特徵和它是一組同現特徵的概率。

至於怎麼算的,見下圖:其核心思想就是,看兩個特徵相似性,越相似則概率越高,因為所有像素都要計算,所以用了 softmax,利用相似性來打分。

三、網路結構

值得注意的是,在計算同現概率前,文章先對基礎特徵利用了兩個小網路進行了兩次轉換,也就是不是直接在 backbone上計算特徵相似性,進而計算同現概率。計算出來的同現概率進一步與某一特徵融合,生成新的特徵,生成方法如下,就是利用概率當權重,將所有像素特徵加權。


推薦閱讀:
相關文章