論文導讀-從Faster-RCNN/Mask RCNN/Cascade-RCNN到HTC
最近在看image segmentation的論文,有篇題為《Hybrid Task Cascade For Instance Segmentation》的paper寫得非常地不錯,為了很好地理解該篇論文,我順便把其引用的幾篇重要論文以及對應的源碼(mmdetection),給看了。
這幾篇重要論文包括:
(1)Faster-RCNN:《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》
(2)Mask-RCNN:《Mask R-CNN for Object Detection and Segmentation》
(3)Cascade-RCNN:《Cascade R-CNN: Delving into High Quality Object Detection》
(4)HTC:《Hybrid Task Cascade For Instance Segmentation》
首先介紹:Faster-RCNN
Faster-RCNN模型是目標檢測領域一篇很牛逼的論文,它提出了一種名為RPN(Region Proposal Network)的網路結構,來提出候選框(bounding box),並以此替代傳統方法(比如RCNN/Fast RCNN)中的Selective Search方法。解決了Fast RCNN演算法沒有實時性的問題。
這是Faster-RCNN的總體結構圖。具體來說,
輸入:被resize為w*h的圖
操作:(1)經過多層卷積操作,得到feature maps,(2)這個feature maps一方面輸出給RPN網路用於提取多個候選框,每個候選框的格式為(x,y,w,h);另一方面,feature maps與單個候選框結合,從feature map中唯一定位出局部圖像(image patch),多個候選框能得到多個局部圖像(image patch)。(3)由於每個局部圖像(image patch)的大小不一,將其輸入給ROI Pooling層,處理成相同大小的feature map。至此,每個得到長度相同的feature map;(4)將每個feature map分別輸入給classifier和bbox regression,得到這個局部圖像的分類,以及候選框的位置回歸。
輸出:目標物的候選框。具體:每個候選框都會有類別分數(來自classifier),以及候選框位置的精確調整值(來自bbox regression)。這裡根據類別分數,確定候選框屬於哪個目標類別;根據位置調整值,調整RPN輸出的位置: 。