1.Contribution

(1)主要是提出了基於GTA5的GCC數據集

數據集下載地址:

https://gjy3035.github.io/GCC-CL/?

gjy3035.github.io

(2)提出了在如何在GCC上train,然後在傳統的通用數據集上test的遷移學習方案,方案基於Cycle GAN,提出了SE Cycle GAN

(3)也提出了他們自己的counting模型SFCN,不過該模型本身不是亮點

2.GCC dataset

提出GCC數據集的目的是當前已經有的數據集圖片數量太少,很容易overfitting,基於GTA5場景製作出的GCC數據集,擁有豐富的場景,大量的圖片。

(1)場景的選擇

基於GTA5,選擇了100個地點,然後每個地點通過改變相機的位姿,最終獲得400個場景,然後通過不同的ROI獲得不同的圖片

(2)人模型的設計

選擇了265個人的模型,每個人的模型有不同的膚色,性別,形狀,然後又衣服,髮型等6個不同的外觀參數,在場景中採用隨機的動作

(3)場景合成

原始GTA5每個場景不超過256人,為了產生人多的圖片,需要進行場景合成,就是將不同場景下的人拼到一塊兒

最終人數分布如下:

(4)添加了不同環境因素

通過設置不同的時間因素,以及天氣因素,產生不同的環境:

(5)如何利用GCC數據集

①先在GCC在pretain,然後在其他數據集上進行fine-tune,有點在利用在ImageNet上pretrain模型的意思

②在GCC上train,然後直接在其他數據集上,不過中間利用了SE CycleGAN去將GCC的圖片色調改成了測試數據集的風格,才去train,和test

3.SFCN

(1)模型配置

為了進行counting,本文也提出了自己的counting模型SFCN(Spatial FCN):

就是一個簡單的單列全卷積,encoder-decoder的結構

提出了採用兩種不同backbone的模型,這裡有個特殊的部分為Spatial Encoder結構,是《Spatial as deep: Spatial cnn for traffic scene understanding》這篇paper中提出的,具體看那篇paper

基本上backbone+Dilation conv+spatial encoder+upsample4個結構

採用1e-5的lr,Adam+MSE

(2)ablation study

①在GCC上訓練的情況,採用了三種不同的訓練集測試集劃分方法:

第一種是75%train,25%test,第二種是每個場景(共4個相機),1個相機用來test,其他3個用來train,第三種是以場景為單位,75個場景做train,25個場景做test

②在GCC上pretrain,在其他數據集上fine tune

感覺如果不用ResNet做backbone,效果不如用了ImageNet的CSRNet

4.SE CycleGAN & DA

DA是domain adaption,就是領域自適應,有點像遷移學習,要在讓在數據集A上train的模型,更好地在數據集B上test,本文要做到的就是如何在GCC上train,然後在其他數據集上獲得更好的效果

之所以要提到DA這個概念是因為GTA的圖片太卡通了,相比於實際場景,有一定Gap

(1)SE Cycle GAN

本文採用SE CycleGAN,其實就是給CycleGAN添加了SSIM的loss

根據CycleGAN的原理,GCC的圖片要通過一個Generator,產生於另一個數據集風格相似的圖片,並讓對應的distriminator去判斷,然後又用另一個Generator轉變回來,期望轉變過去又轉變回來的圖片跟原來的圖片越相似越好,

同理,另一條路是從另一個數據集轉變到GCC的風格,再轉變回去,採用的loss如下:

LGAN是Discriminator判斷的loss,Lcycle是轉變過去又轉變回來的比較相似度的loss,λ是多少沒說

因為要比較圖像相似度,參考SANet採用SSIM作為loss,本文引入了SSIM作為loss,將CycleGAN轉變為SE CycleGAN:

μ設置為1

用了SE CycleGAN風格轉換結果如下:

(2)Density/Scene Regulation

Density Regulation,為了防止density map某些點預測了很大的值這種現象,本文設置了density map每個點出值得上限,超過這個上限,就把這個點設為0

Scene Regulation是對於不同的測試數據集,比如WorldExpo10,其人數不超過500,那麼在GCC中也要選擇少人數的場景圖片進行train

(3)ablation Study

①用不用CycleGAN進行風格轉換的對比

發現如果沒有Density/Scene Regulation,加了GAN反而效果變差了,可能是因為加了GAN導致圖像變模糊,帶來了一些細節的丟失

5.評價

本文最大的亮點在於提出了GCC數據集,在這上面pretrain是否能取代ImageNet,似乎持保留意見,不過對於容易overfitting的counting社區來說,確實是一個不錯的數據集

推薦閱讀:

相关文章