使用tensorflow、caffe訓練的CNN模型對整副高解析度遙感影像分類，方法有哪些？如何實現？

我知道的方法包括：（不一定準確）
1.利用指定窗口大小遍歷整個遙感影像，每個窗口內的小圖片過一遍神經網路，給出每個小窗口的標籤，最後合併結果。
2.以每個像素為中心，利用指定窗口大小，將窗口內的圖片利用神經網路分類，作為該窗口中心像素的類別。（像素級別分類）

3.首先對整個遙感圖像分割（要過分割），然後用模型識別每一個分割區域的類別（以每一個分割區域中心點建立一個指定大小窗口），最後合併結果。（像素級別分類）
4.把神經網路當成特徵提取器，利用指定窗口大小遍歷整個遙感影像，利用神經網路提取窗口內小圖片的多維特徵作為窗口中心點的特徵，最終獲取每個像素的多維特徵，最後使用SVM進行像素級別的分類。（像素級別分類）
還有其他類似的方法麼？這幾種方法如何選擇？窗口大小如何選擇？訓練卷積神經網路使用的是Tensorflow或者caffe，使用什麼樣的方法將它應用到整副遙感影像中，需要自己編碼還是有軟體，自己編碼可以採用什麼框架？

既然你都說用CNN了，那麼就不需要考慮什麼窗口遍歷或者逐個像素之類的問題了。cnn網路會自己處理的。cnn提取特徵再用svm沒有必要啊，因為不清楚你的數據集，如果只是簡單分類問題，你直接挑個resnet或者vgg之類的end to end的方法，效果應該都不差。

前面幾位都沒說到點子上，題主問的是對整幅遙感影像進行分類（類別標註），而非日常圖像的場景分類或目標識別。

題主你說的這4點都很對，其中2和4是一類，最終都是對窗口內的中心像元進行標註，本質上屬於基於像元的分類方法。1和3屬於一類，最終是對目標對象進行標註，屬於面向對象的分類方法。這兩類其實在實際操作中其實沒什麼太大的區別，只是最終標註的目標不同（像素和對象）。顯然逐像素標註的分類方法似乎更為精細，但顯然如果你處理的是高空間解析度的遙感圖像，基於像素的分類方法的缺點就無需我贅述，而且計算開銷巨大（1000*1000大小的圖像需要1*10^6個鄰域輸入）。而面向對象的1和3，顯然1的分類結果地物邊界信息是缺失的。而3同過過分割（比如超像素分割）可以為最後的分類結果提供一個較為精細的邊界，但是這種邊界依然不理想（呈現塊狀），還需要再優化。

我做過一些上述的工作，以我的理解來看，用卷積神經網路對遙感圖像的地物類別進行分類實際上有點大炮打蚊子的感覺，因為這種分類難度不是很大，幾乎沒有語義信息（遙感圖像場景分類和目標識別另說），以往分類使用光譜和紋理就可以分的很好，使用CNN的話最大的好處就在於不需要人工設計和選擇特徵了，分類精度也有保障，但分類效率就不一定有多高。

目前除了題主說的這4種方法，還有一種主流方法是使用全卷積神經網路進行整圖的標註（語義分割），最近的Kaggle上衛星影像分類競賽都用的這種方法。但是這種方法的一個弊端在於對於訓練樣本的要求比較苛刻，同時一個卷積神經外網路只能提取一種地物，如果是多地物分類的話需要訓練多個神經網路。好處在於可能這種方法對於同一地域的同一感測器的遙感數據的泛化能力更強，其提取的特徵複雜度顯然比逐像素或逐對象的方法要高的多。最後給題主一個Kaggle競賽獲獎的採訪，題主可以看一下這種方法是如何實現的

Dstl Satellite Imagery Competition, 3rd Place Winners Interview: Vladimir amp; Sergey?

blog.kaggle.com

先說說高解析度遙感圖像跟普通圖像在目標檢測的區別，雖然是高清的，但是，解析度比較感人，能達到分米級別的已經不錯了，雖然看上去很清晰，那也只能只能是相對的，接觸過一些遙感圖像，但是不方便拿出來，從百度找了一張（震區遙感圖像），視覺效果差不多的。

這只是縮略圖，但是放大單個目標後，一輛車也就幾十個像素了。

這樣的圖像，直接截取一小塊套用基於RCNN的模型，啥也檢測不出來。

對於遙感圖像使用深度學習進行目標檢測，難點主要有下面的幾個：

最關鍵的，相對於整張圖像來說，目標尺寸太小，就算是分塊後，解析度太低，一個目標可能只有十幾個像素那麼大，傳統的CNN很難提取到抽象特徵；
RCNN是從目標的Bounding Box提取特徵，進行多層，多濾波器的處理，這種目標提取的特徵有限，但是這種目標還有其他的特有特徵，單靠卷積模型不能提取到；
沒有大量的標註數據，現有的公開數據集很少有這樣的場景應用，訓練數據是一個問題。

YOLO和SSD這種直接端到端的檢測方法是很不錯，簡單，套用一個網路就完事，但是這裡可能不適用。R-CNN兩步法還是比較靠譜一些。

解決兩個問題：

proposal問題，怎麼從圖像或者圖像片中選擇出合適的「候選目標」也就是可能是目標的那些region，不管是就簡單的分割還是其他的模型，總之，把看上去是像目標的region先給出來，不管是樓頂上的中央空調外機還是路邊的三輪車。
分類問題，怎麼利用CNN提取深度特徵進行分類，這個是個難題，沒啥好辦法，看論文吧。

不管使用深度學習還是傳統的圖像處理方法，這種相對小目標檢測都很蛋疼。

Keras