論文導讀-從Faster-RCNN/Mask RCNN/Cascade-RCNN到HTC

最近在看image segmentation的論文，有篇題為《Hybrid Task Cascade For Instance Segmentation》的paper寫得非常地不錯，為了很好地理解該篇論文，我順便把其引用的幾篇重要論文以及對應的源碼（mmdetection），給看了。

這幾篇重要論文包括：

（1）Faster-RCNN：《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》

（2）Mask-RCNN：《Mask R-CNN for Object Detection and Segmentation》

（3）Cascade-RCNN：《Cascade R-CNN: Delving into High Quality Object Detection》

（4）HTC：《Hybrid Task Cascade For Instance Segmentation》

首先介紹：Faster-RCNN

Faster-RCNN模型是目標檢測領域一篇很牛逼的論文，它提出了一種名為RPN（Region Proposal Network）的網路結構，來提出候選框（bounding box），並以此替代傳統方法（比如RCNN/Fast RCNN）中的Selective Search方法。解決了Fast RCNN演算法沒有實時性的問題。

這是Faster-RCNN的總體結構圖。具體來說，

輸入：被resize為w*h的圖

操作：（1）經過多層卷積操作，得到feature maps，（2）這個feature maps一方面輸出給RPN網路用於提取多個候選框，每個候選框的格式為（x,y,w,h）；另一方面，feature maps與單個候選框結合，從feature map中唯一定位出局部圖像（image patch），多個候選框能得到多個局部圖像（image patch）。（3）由於每個局部圖像（image patch）的大小不一，將其輸入給ROI Pooling層，處理成相同大小的feature map。至此，每個得到長度相同的feature map；（4）將每個feature map分別輸入給classifier和bbox regression，得到這個局部圖像的分類，以及候選框的位置回歸。

輸出：目標物的候選框。具體：每個候選框都會有類別分數（來自classifier），以及候選框位置的精確調整值（來自bbox regression）。這裡根據類別分數，確定候選框屬於哪個目標類別；根據位置調整值，調整RPN輸出的位置： $(x,y,w,h) ightarrow(x^{},y^{},w^{},h^{})$ 。