FoveaBox 閱讀筆記
前言:
這篇文章會稍微介紹一下FoveaBox,然後跟FCOS做個比較,同樣都是Anchor box Free 的方法,兩篇文章的大致方向我覺得是類似的,只是操作的細節不一樣。所以這篇文章會邊寫FoveaBox,穿插著比較FCOS(FCOS可以參看我之前的那個)。
Ready2C:FCOS 閱讀記錄網路結構
先說說網路結構:
根據文章的說法,他的FPN應該是接在ResNet101後面,然後從 進行upsamling,最後使用的是
生成
。對比FCOS可以發現,FCOS使用的是ResNet50,也就是說,FCOS的
使用
downsampling生成的。
class+box subnets其實就是FCOS的Head,除了FCOS用來處理ambiguous sample的center-ness之外,他們並沒有什麼區別。
現在說說FoveaBox的一些細節:
補充一下:ground truth
首先,對於每一個 ,
,計算一個文中說的basic area
,其公式也很簡單,就是
,因此,落在
的bounding box 的大小就落在
的範圍內。Map的計算也很簡單:
接著就是計算FoveaBox說到的positive sample:
公式裏的 ,作者設置的分別是0.4和0.3。上面所說的這部分,是途中class subnet的部分,loss function是很常見的Focal loss。同樣的,FCOS用的也是這個。用一個原文的圖,可能看的比較清楚:
接下來是bounding box regression的部分:
- 與FCOS類似,把feature map的坐標map到input image:
- 然後計算projected coordinate和
的
- 最後算一個log:
完整的四個坐標的計算如下:
Loss function 是L1 norm。對比一下FCOS,FCOS計算的點到bounding box四個邊的距離,然後用的IoU loss。
總結
兩個方法都是anchor box free,實驗結果好像差的不是特別多。基於網路結構和實現的話,個人更喜歡FoveaBox。
FCOS已經公開的代碼,基於maskrcnn-benchmark實現,代碼還是比較好懂的。FoveaBox可能還得等等。
tianzhi0549/FCOSReferences:
[1]K. He, X. Zhang, S. Ren, and J. Sun, 「Deep Residual Learning for Image Recognition,」 in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 770–778.
[2]T.-Y. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and S. Belongie, 「Feature Pyramid Networks for Object Detection,」 in 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, vol. 2017-Janua, pp. 936–944.
[3]T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollar, 「Focal Loss for Dense Object Detection,」 in 2017 IEEE International Conference on Computer Vision (ICCV), 2017, vol. 20, pp. 2999–3007. [4]T. Kong, F. Sun, H. Liu, Y. Jiang, and J. Shi, 「FoveaBox: Beyond Anchor-based Object Detector,」 2019.推薦閱讀: