原論文地址:
Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
本文結構
- SSPNet的動機
- SPP Layer的實現
- SPP有啥好處
- SPPNet用於圖像分類
- SPPNet用於物體檢測
一、SSPNet的動機
一般而言,對於一個CNN模型,可以將其分為兩個部分:
- 前面包含卷積層、激活函數層、池化層的特徵提取網路,下稱CNN_Pre
- 後面的全連接網路,下稱CNN_Post
許多CNN模型都對輸入的圖片大小有要求,實際上CNN_Pre對輸入的圖片沒有要求,可以簡單認為其將圖片縮小了固定的倍數,而CNN_Post對輸入的維度有要求,簡而言之,限制輸入CNN模型的圖片尺寸是為了遷就CNN_Post。
而本文的立意就在於,找到一種合適的方式,無論CNN_Pre輸出的feature maps尺寸是怎樣,都能輸出固定的維度傳給CNN_Post。如下圖,而給出的方案即SPP:空間金字塔池化