相關論文:

Liu, W., Liao, S., Hu, W., Liang, X., & Chen, X. (n.d.). Learning Efficient Single-stage Pedestrian Detectors by Asymptotic Localization Fitting, 1–17.

Zhang, S., Wen, L., Bian, X., Lei, Z., & Li, S. Z. (2018). Occlusion-aware R-CNN: Detecting Pedestrians in a Crowd, 1–17. Retrieved from arxiv.org/abs/1807.0840

Lin, C., 1?, J. L., Wang, G., & Zhou, J. (n.d.). Graininess-Aware Deep Feature Learning for Pedestrian Detection. Retrieved from openaccess.thecvf.com/c

Song, T., Sun, L., Xie, D., Sun, H., & Pu, S. (n.d.). Small-scale Pedestrian Detection Based on Topological Line Localization and Temporal Feature Aggregation. Retrieved from openaccess.thecvf.com/c

本文主要是對ECCV 2018中的一些行人檢測的論文進行總結。

Learning Efficient Single-stage Pedestrian Detectors by Asymptotic Localization Fitting(ALFNet)

VideoObjectSearch/ALFNet?

github.com圖標

Two-stage的detector太慢,one-stage的性能太差,所以提出了ALFNet。

作者分析了基於SSD的行人檢測的問題是訓練時,閾值只有一個。設定一個低的閾值,可以幫助定義足量的正樣本,因為通常行人檢測的數據集中行人的實例很少(正樣本很少)。同時,低閾值會使得false positive增多,因為訓練樣本不少是close but not correct。設定高閾值會使得正樣本數減少,但是會reject false positives。因此訓練SSD需要逐步地提高定位和提高閾值,從而提出Asymptotic Localization Fitting (ALF)。

ALF的核心思想是通過堆疊anchor predictors,逐步地優化提高anchor的質量(coarse-to-fine),Fig 3(a)為其圖示。

從Fig. 2可以看到隨著不斷refine,positive anchor逐漸增多,同時IOU也逐漸提高,不斷生成高質量的anchor(IOU高,同時數量多)。

Graininess-Aware Deep Feature Learning for Pedestrian Detection

文章提出一個基於scale-aware pedestrian attention module和zoom-in-zoom-out module的行人檢測模型。模型採樣的是VGGNet,選擇conv4-3, conv5-3, conv-fc7, conv6-2作為detection layers用作多尺度的檢測

Pedestrian Attention Module

attention module基於conv3-3和conv4-3,在conv4-3上加max-pooling和三個atrous conv layers生成conv-mask,解析度較高且感受野也較大,將三者conv3-3, conv4-3, conv-mask的通道減少到 S_c+1 ,然後再上採樣得到圖像的尺寸,然後再concat,接一個1x1的conv和softmat得到最終的結果。 S_c 是scale-class,設置為2。這裡設置的閾值為120,將高度小於120像素的設為小尺度樣本,否則設為大尺度樣本,attention mask Min R^{H	imes W 	imes 3}

然後將M resize到第i層的大小,然後element-wise相乘。

	ilde{F_i} = F_i odot R(M_S, i), iin {conv4, conv5} \ 	ilde{F_j} = F_j odot R(M_L, j), jin {conv-fc7, conv-5}

	ilde{F_i} 是graininess-aware feature maps, F_i 是對應層的feature map。

Zoom-in-zoom-out Module

將上下和自身尺度的graininess-aware feature maps通過上採樣(雙線性採樣)和降採樣(max pooling)得到一樣的尺度,再經過L2-normalization將其rescale到10,再將三者concat,最後經過1x1的conv得到最終的結果。這樣做的目的是充分利用高解析度的feature map提供rich local details和低解析度的上下文信息!

Occlusion-aware R-CNN: Detecting Pedestrians in a Crowd

文章的主要貢獻

  1. 提出了一個新的loss, AggLoss
  2. Part Occlusion-aware RoI Pooling Unit

Aggregation Loss

首先是定義:

L_{agg}({p^star_i}, {t_i}, {t_i^star })= L_{reg}{p^star_i}, {t_i}, {t^star_i }) + eta cdot L_{com}({p^star_i}, {t_i}, {t^star_i })

其中 L_{reg} 是regression loss,衡量坐標回歸的準確性:

L_{reg}{p^star_i}, {t_i}, {t^star_i })=frac{1}{N_{reg}} sum_i p^star_i Delta (t_i-t_i^star)

重點在於 L_{com}({p^star_i}, {t_i}, {t^star_i }) ,compactness term。

首先 {	ilde{t_1^star}, · · · , 	ilde{t_
ho^star}} 表示的是有對應超過1個的anchor的GT, {Phi_1, · · · , Phi_
ho} 表示的是對應的anchor索引集合,保證 Phi_i cap Phi_j = emptyset

最終的定義為:

L_{com}({p^star_i}, {t_i}, {t^star_i })=frac{1}{N_{com}}sum_{i=1}^
hoDelta(	ilde{t_i^star-frac{1}{|Phi_i|}sum_{jinPhi_i}t_j})

其實就是計算anchor集合的平均坐標和GT的smooth loss,我們希望anchor們的中心越靠近GT越好!(還可以考慮加入variance的constraint?)

Part Occlusion-aware RoI Pooling Unit

將人體分成5個部分,然後對每個部分分別取RoI Pooling,然後計算visibility score。再和feature相乘再將這5個結果和全區域的RoI Pooling得到的feature相加得到最終的結果,輸出的大小是512x7x7。這裡還引入了一個新的loss,即:L_{occ}({t_i}{t^star_i}) =sum_{j=1}^5-(o^star_{i,j}log o_{ij}+(1-o^star_{i,j})log(1- o_{ij}))

Small-scale Pedestrian Detection Based on Topological Line Localization and Temporal Feature Aggregation

針對:

  1. 大部分的小目標邊緣非常模糊,外觀昏暗,難以和背景及其他重疊的行人實例區分
  2. 目前存在的大部分行人檢測演算法都依賴於bbox的標註,這可能會增加false positives

作者提出影響檢測小尺度物體的性能的原因是標註!不同的人標,它的bbox尺度位置可能都會不一樣,所以作者提出了一種不基於bbox的行人檢測演算法,演算法主要檢測的是軀幹的拓撲線(somatic topological line)。文章假設在行人身體的top-bottom拓撲中心線上的像素有更高的置信度,而靠近行人輪廓的像素置信度相對較低。

TTL的檢測分成三個部分,分別是top vertex detection,bottom vertex detection,link edge detection。top和bottom兩個點被定義為Gaussian peak。然後再用基於Markov Random Field (MRF)的演算法做後處理。

模型的圖示見Fig 3,通過FCN,對三個部分分別進行回歸預測。同樣使用多個scale地預測。

MRF based Matching

對上頂點和下頂點建模,每對根據一定的比例構造bounding box。對於一個candidate的top vertex t_i ,存在 N_i 個bottom vertices,它們和t_i的link scores很高(因為重疊遮擋),記為 B_i = {b_n^i}_{n=1}^{N_i} ,link scores記為 E_i = {e_n^i}_{n=1}^{N_i}phi_i(t_i, B_i)

每對點之間的link score被定義為:

其實就是做點積。

對於每個candidate pair {t_i, b_n^i} 根據一定的比例,生成bbox,組成 VB_i 。這樣可以構造兩個相鄰子集之間的neighboring compatibility:

psi_{i,j}(B_i, B_j) = exp(-IOU(VB_i, VB_j)/alpha)

然後就可以得到目標函數:

min_Bp({B}) = frac{1}{Z}prod_{i,j}psi_{i,j}(B_i, B_j)prod_iphi_i(t_i, B_i)

推薦閱讀:

相關文章