Box-driven Class-wise Region Masking and Filling Rate Guided Loss for Weakly Supervised Semantic Segmentation

https://arxiv.org/pdf/1904.11693.pdf?

arxiv.org

一、論文出發點

  由於論文的弱監督是利用邊界框標記,而不是圖像級標記,所以論文的總出發點就在於,1怎樣利用bounding box去生成更好的偽像素級標籤,

2以及怎樣合理利用這個偽標籤去訓練模型:考慮到偽標籤中的一些錯誤標記區域對訓練帶來的負面影響,怎麼忽略這些錯誤標記區域了?

Note that the wrongly labeled regions of the pixel-level proposals have negative effects on model training, recognizing the negative regions will be helpful.

二、論文核心思想

  論文的baseline: 利用非監督的CRF將bounding box 轉換成像素級標籤,由於不是論文的主要創新,這裡不過多講;

  論文基於上述粗糙像素級標籤,做了兩個創新。

  1:基於BOX標記的類mask生成。也就是文中的BCM。

   該創新的核心思想:利用box標記,利用最小二乘,為每個類單獨訓練一個二值attention map生成網路,然後將該attention map與空間特徵相乘,使得空間特徵帶有class region attention信息。

  2:因為偽標籤是基於bounding box而來,所以一般的,對於一個bounding box產生的偽標籤,其前景佔比比實際前景佔比要大,但是平均佔比也就是文中的平均填充率(個人覺得文中的平均填充率是根據baseline產生的所有proposal來計算的)還是大概有個譜, 如果佔比過大,那麼說明基本還是將整個bounding box作為前景了,不太好,所以論文提出根據填充率來選擇性忽略部分樣本。

   但是論文怎麼忽略的,沒太整明白,

   根據下面公式感覺像是:從前景中選取小於等於平均佔比那一部分?還是?

   歡迎評論探討。


推薦閱讀:
相關文章