Co-occurrent Features in Semantic Segmentation

http://openaccess.thecvf.com/content_CVPR_2019/papers/Zhang_Co-Occurrent_Features_in_Semantic_Segmentation_CVPR_2019_paper.pdf?

openaccess.thecvf.com

一、论文出发点

语义分割很多文章都关注于怎么捕捉上下文。这篇文章认为,以往的全局捕捉、特征金字塔虽然可以很好的捕捉全局语义信息,但是这种全局语义信息比较粗略,不足以支撑场景中容易混淆的目标的识别。所以作者提出利用同现(如标题,本文简称说法)特征,也就是看除了自身特征,某些位置是否同时出现了某一特征来加强判断。

a rough holistic global context might not be enough for the classification of ambiguous objects in the scene.

二、论文核心思想

那么论文是怎么判断某些位置是否同时出现了某一特征了。

论文的核心思想如下:

给定一个像素(这里将特征图对应的二维点也称为像素) C维特征(一般就是resnet这种 backbone最后输出),计算所有其它像素特征和它是一组同现特征的概率。

至于怎么算的,见下图:其核心思想就是,看两个特征相似性,越相似则概率越高,因为所有像素都要计算,所以用了 softmax,利用相似性来打分。

三、网路结构

值得注意的是,在计算同现概率前,文章先对基础特征利用了两个小网路进行了两次转换,也就是不是直接在 backbone上计算特征相似性,进而计算同现概率。计算出来的同现概率进一步与某一特征融合,生成新的特征,生成方法如下,就是利用概率当权重,将所有像素特征加权。


推荐阅读:
相关文章