台湾 || 语言: 大陆简体港澳繁體台灣正體

总结-CNN中的目标多尺度处理

雪花台湾 2019-07-23 15:16

有几点原因：
1. 后面实习要解决实例分割中的目标多尺度问题(当然不只是这个问题，还有其他的)，为此对CNN中这几年的多尺度处理方法进行简要总结~_~，时间紧任务重，只记录了一点点东西，核心的还是要去看论文读代码。2. 最近在准备开题的东西，其中也讨论了该问题，这里又扩展了一些论文；

3. 自己发不了顶会在知乎上宣传，只能写写文章~~
4. 过两天要去实习了，没心情学习，终于要离开这个rang自己又爱又恨又安逸的地方，心情略显复杂，对，我很开心~~~

视觉任务中处理目标多尺度主要分为两大类：

图像金字塔：经典的基于简单矩形特征(Haar)+级联Adaboost与Hog特征+SVM的DPM目标识别框架，均使用图像金字塔的方式处理多尺度目标，早期的CNN目标识别框架同样采用该方式，但对图像金字塔中的每一层分别进行CNN提取特征，耗时与内存消耗均无法满足需求。但该方式毫无疑问仍然是最优的。值得一提的是，其实目前大多数深度学习
演算法提交结果进行排名的时候，大多使用多尺度测试。同时类似于SNIP使用多尺度训练，均是图像金字塔的多尺度处理。
特征金字塔：这个概念早在ACF目标识别框架的时候已经被提出(PS: ACF系列这个我前两年入过一段时间的坑，后来发现他对CPU内存要求太大，不过确实是前几年论文灌水利器，效果也还不错，但还是不能落地的，我已果断弃坑)。而在CNN网路中应用更为广泛，现在也是CNN中处理多尺度的标配。目前特征提取部分基本是FCN，FCN本质上等效为密集滑窗，因此不需要显示地移动滑动窗口以处理不同位置的目标。而FCN的每一层的感受野不同，使得看到原图中的范围大小不同，也即可以处理不同尺度的目标。因此，分析CNN中的多尺度问题，其实本质上还是去分析CNN的感受野，一般认为感受野越大越好，一方面，感受野大了才能关注到大目标，另一方面，小目标可以获得更丰富的上下文信息，降低误检。

SSD中的多尺度处理

相关文章