缺點是:裁剪了的區域可能並不包含整個物體,而扭曲則會帶入幾何方面的失真.另外,即使是裁剪和扭曲,我們仍然是認為規定了一個輸入尺度,而真實的物體尺度很多,這個固定維度的輸入直接忽略掉了這一點.
為何非要給CNN限制一個固定維度的輸入?作者說,CNN就分兩塊,卷積層和全連層(fully-connected layer),卷積層的輸出是特徵圖(feature map),這個特徵圖反映出了原始輸入圖片中對filter(卷積核)激活的空間信息.卷積這一步是不需要固定大小的.是最後的全連層帶來的這個限制.
作者針對這個問題,提出了在CNN的最後一個卷積層之後,加入一個SPP層,也就是空間金字塔池化,對之前卷積得到的特徵進行」整合」(aggregation),然後得到一個固定長度的特徵向量,再傳到全連層去.如下圖.