Structured Knowledge Distillation for Semantic Segmentation

https://arxiv.org/pdf/1903.04197.pdf?

arxiv.org

1、論文出發點

  在深度學習走嚮應用的過程中,不可避免的要考慮到效率問題,複雜網路雖然效果好,但效率低,反之輕型網路效率高,但精度差。所以現在冒出來了這樣一種思路:利用複雜網路所學知識去指導輕型網路,使得輕型網路不僅可以有好的效率,還可以達到大型網路的精度。此篇論文就是這樣的一篇文章。CVPR2019有好幾篇這樣的文章(例如下面這篇)。值得注意的兩篇一作都來自阿德萊德大學。

Knowledge Adaptation for Efficient Semantic Segmentation

https://arxiv.org/pdf/1903.04688.pdf?

arxiv.org

2、論文怎麼做的

  在此篇論文語義背景下,所謂知識提取:就是從大型網路中提取學到的好的知識用於指導緊湊型網路的訓練。所以知識提取相關的文章都會涉及到一個teacher網路,一個student網路。所以知識提取的核心思想歸結為:學生所學,一切向老師看齊

  那麼這篇論文中作者是怎樣使得學生向老師看齊的。

  1、首先,像素分類看齊。

   將重型網路像素級分類作為軟標籤(為方便理解:one-hot label為硬標籤),訓練緊湊型像素級分類,使得緊湊型網路分類輸出與重型網路看齊。

 2、其次,像素特徵對相似性看齊。 

學生網路輸出的像素特徵,相鄰(鄰居關係可以自定義)像素特徵的相似性,與老師網路輸出相似性看齊。   

  3、 全場景看齊  

     將語義分割輸出看成一副彩色圖像,使得學生網路輸出與教師網路輸出看齊。此處文中用到了對抗生成網路,教師網路輸出看成真實圖片,學生網路輸出看成偽造圖片。

  當然,除了上述看齊損失,肯定不能少了本身的分割損失。


推薦閱讀:
相關文章