ECCV2018-行人檢測論文總結

相關論文：

Liu, W., Liao, S., Hu, W., Liang, X., & Chen, X. (n.d.). Learning Efficient Single-stage Pedestrian Detectors by Asymptotic Localization Fitting, 1–17.

Zhang, S., Wen, L., Bian, X., Lei, Z., & Li, S. Z. (2018). Occlusion-aware R-CNN: Detecting Pedestrians in a Crowd, 1–17. Retrieved from http://arxiv.org/abs/1807.08407

Lin, C., 1?, J. L., Wang, G., & Zhou, J. (n.d.). Graininess-Aware Deep Feature Learning for Pedestrian Detection. Retrieved from http://openaccess.thecvf.com/content_ECCV_2018/papers/Chunze_Lin_Graininess-Aware_Deep_Feature_ECCV_2018_paper.pdf

Song, T., Sun, L., Xie, D., Sun, H., & Pu, S. (n.d.). Small-scale Pedestrian Detection Based on Topological Line Localization and Temporal Feature Aggregation. Retrieved from http://openaccess.thecvf.com/content_ECCV_2018/papers/Tao_Song_Small-scale_Pedestrian_Detection_ECCV_2018_paper.pdf

本文主要是對ECCV 2018中的一些行人檢測的論文進行總結。

Learning Efficient Single-stage Pedestrian Detectors by Asymptotic Localization Fitting（ALFNet）

VideoObjectSearch/ALFNet?

github.com

Two-stage的detector太慢，one-stage的性能太差，所以提出了ALFNet。

作者分析了基於SSD的行人檢測的問題是訓練時，閾值只有一個。設定一個低的閾值，可以幫助定義足量的正樣本，因為通常行人檢測的數據集中行人的實例很少（正樣本很少）。同時，低閾值會使得false positive增多，因為訓練樣本不少是close but not correct。設定高閾值會使得正樣本數減少，但是會reject false positives。因此訓練SSD需要逐步地提高定位和提高閾值，從而提出Asymptotic Localization Fitting (ALF)。

ALF的核心思想是通過堆疊anchor predictors，逐步地優化提高anchor的質量（coarse-to-fine），Fig 3(a)為其圖示。

從Fig. 2可以看到隨著不斷refine，positive anchor逐漸增多，同時IOU也逐漸提高，不斷生成高質量的anchor（IOU高，同時數量多）。

Graininess-Aware Deep Feature Learning for Pedestrian Detection

文章提出一個基於scale-aware pedestrian attention module和zoom-in-zoom-out module的行人檢測模型。模型採樣的是VGGNet，選擇conv4-3, conv5-3, conv-fc7, conv6-2作為detection layers用作多尺度的檢測

Pedestrian Attention Module

attention module基於conv3-3和conv4-3，在conv4-3上加max-pooling和三個atrous conv layers生成conv-mask，解析度較高且感受野也較大，將三者conv3-3, conv4-3, conv-mask的通道減少到 ,然後再上採樣得到圖像的尺寸，然後再concat，接一個1x1的conv和softmat得到最終的結果。是scale-class，設置為2。這裡設置的閾值為120，將高度小於120像素的設為小尺度樣本，否則設為大尺度樣本，attention mask $Min R^{H imes W imes 3}$ 。

然後將M resize到第i層的大小，然後element-wise相乘。

$ilde{F_i} = F_i odot R(M_S, i), iin {conv4, conv5} \ ilde{F_j} = F_j odot R(M_L, j), jin {conv-fc7, conv-5}$

$ilde{F_i}$ 是graininess-aware feature maps，是對應層的feature map。

Zoom-in-zoom-out Module

將上下和自身尺度的graininess-aware feature maps通過上採樣（雙線性採樣）和降採樣（max pooling）得到一樣的尺度，再經過L2-normalization將其rescale到10，再將三者concat，最後經過1x1的conv得到最終的結果。這樣做的目的是充分利用高解析度的feature map提供rich local details和低解析度的上下文信息！

Occlusion-aware R-CNN: Detecting Pedestrians in a Crowd

文章的主要貢獻

提出了一個新的loss, AggLoss
Part Occlusion-aware RoI Pooling Unit

Aggregation Loss

首先是定義：

$L_{agg}({p^star_i}, {t_i}, {t_i^star })= L_{reg}{p^star_i}, {t_i}, {t^star_i }) + eta cdot L_{com}({p^star_i}, {t_i}, {t^star_i })$

其中 $L_{reg}$ 是regression loss，衡量坐標回歸的準確性：

$L_{reg}{p^star_i}, {t_i}, {t^star_i })=frac{1}{N_{reg}} sum_i p^star_i Delta (t_i-t_i^star)$

重點在於 $L_{com}({p^star_i}, {t_i}, {t^star_i })$ ，compactness term。

首先 ${ ilde{t_1^star}, · · · , ilde{t_ ho^star}}$ 表示的是有對應超過1個的anchor的GT， ${Phi_1, · · · , Phi_ ho}$ 表示的是對應的anchor索引集合，保證。

最終的定義為：

$L_{com}({p^star_i}, {t_i}, {t^star_i })=frac{1}{N_{com}}sum_{i=1}^ hoDelta( ilde{t_i^star-frac{1}{|Phi_i|}sum_{jinPhi_i}t_j})$

其實就是計算anchor集合的平均坐標和GT的smooth loss，我們希望anchor們的中心越靠近GT越好!（還可以考慮加入variance的constraint?）

Part Occlusion-aware RoI Pooling Unit

將人體分成5個部分，然後對每個部分分別取RoI Pooling，然後計算visibility score。再和feature相乘再將這5個結果和全區域的RoI Pooling得到的feature相加得到最終的結果，輸出的大小是512x7x7。這裡還引入了一個新的loss，即： $L_{occ}({t_i}{t^star_i}) =sum_{j=1}^5-(o^star_{i,j}log o_{ij}+(1-o^star_{i,j})log(1- o_{ij}))$

Small-scale Pedestrian Detection Based on Topological Line Localization and Temporal Feature Aggregation

針對：

大部分的小目標邊緣非常模糊，外觀昏暗，難以和背景及其他重疊的行人實例區分
目前存在的大部分行人檢測演算法都依賴於bbox的標註，這可能會增加false positives

作者提出影響檢測小尺度物體的性能的原因是標註！不同的人標，它的bbox尺度位置可能都會不一樣，所以作者提出了一種不基於bbox的行人檢測演算法，演算法主要檢測的是軀幹的拓撲線（somatic topological line）。文章假設在行人身體的top-bottom拓撲中心線上的像素有更高的置信度，而靠近行人輪廓的像素置信度相對較低。

TTL的檢測分成三個部分，分別是top vertex detection，bottom vertex detection，link edge detection。top和bottom兩個點被定義為Gaussian peak。然後再用基於Markov Random Field (MRF)的演算法做後處理。

模型的圖示見Fig 3，通過FCN，對三個部分分別進行回歸預測。同樣使用多個scale地預測。

MRF based Matching

對上頂點和下頂點建模，每對根據一定的比例構造bounding box。對於一個candidate的top vertex ,存在個bottom vertices，它們和的link scores很高（因為重疊遮擋），記為 $B_i = {b_n^i}_{n=1}^{N_i}$ ，link scores記為 $E_i = {e_n^i}_{n=1}^{N_i}$ ，。