[crowd_counting]-SFCN-CVPR2019&&GCC dataset

1.Contribution

（1）主要是提出了基於GTA5的GCC數據集

數據集下載地址：

https://gjy3035.github.io/GCC-CL/?

gjy3035.github.io

（2）提出了在如何在GCC上train，然後在傳統的通用數據集上test的遷移學習方案，方案基於Cycle GAN，提出了SE Cycle GAN

（3）也提出了他們自己的counting模型SFCN，不過該模型本身不是亮點

2.GCC dataset

提出GCC數據集的目的是當前已經有的數據集圖片數量太少，很容易overfitting，基於GTA5場景製作出的GCC數據集，擁有豐富的場景，大量的圖片。

（1）場景的選擇

基於GTA5，選擇了100個地點，然後每個地點通過改變相機的位姿，最終獲得400個場景，然後通過不同的ROI獲得不同的圖片

（2）人模型的設計

選擇了265個人的模型，每個人的模型有不同的膚色，性別，形狀，然後又衣服，髮型等6個不同的外觀參數，在場景中採用隨機的動作

（3）場景合成

原始GTA5每個場景不超過256人，為了產生人多的圖片，需要進行場景合成，就是將不同場景下的人拼到一塊兒

最終人數分布如下：

（4）添加了不同環境因素

通過設置不同的時間因素，以及天氣因素，產生不同的環境：

（5）如何利用GCC數據集

①先在GCC在pretain，然後在其他數據集上進行fine-tune，有點在利用在ImageNet上pretrain模型的意思

②在GCC上train，然後直接在其他數據集上，不過中間利用了SE CycleGAN去將GCC的圖片色調改成了測試數據集的風格，才去train，和test

3.SFCN

（1）模型配置

為了進行counting，本文也提出了自己的counting模型SFCN（Spatial FCN）：

就是一個簡單的單列全卷積，encoder-decoder的結構

提出了採用兩種不同backbone的模型，這裡有個特殊的部分為Spatial Encoder結構，是《Spatial as deep: Spatial cnn for traffic scene understanding》這篇paper中提出的，具體看那篇paper

基本上backbone+Dilation conv+spatial encoder+upsample4個結構

採用1e-5的lr，Adam+MSE

（2）ablation study

①在GCC上訓練的情況，採用了三種不同的訓練集測試集劃分方法：

第一種是75%train，25%test，第二種是每個場景（共4個相機），1個相機用來test，其他3個用來train，第三種是以場景為單位，75個場景做train，25個場景做test

②在GCC上pretrain，在其他數據集上fine tune

感覺如果不用ResNet做backbone，效果不如用了ImageNet的CSRNet

4.SE CycleGAN & DA

DA是domain adaption，就是領域自適應，有點像遷移學習，要在讓在數據集A上train的模型，更好地在數據集B上test，本文要做到的就是如何在GCC上train，然後在其他數據集上獲得更好的效果

之所以要提到DA這個概念是因為GTA的圖片太卡通了，相比於實際場景，有一定Gap

（1）SE Cycle GAN

本文採用SE CycleGAN，其實就是給CycleGAN添加了SSIM的loss

根據CycleGAN的原理，GCC的圖片要通過一個Generator，產生於另一個數據集風格相似的圖片，並讓對應的distriminator去判斷，然後又用另一個Generator轉變回來，期望轉變過去又轉變回來的圖片跟原來的圖片越相似越好，

同理，另一條路是從另一個數據集轉變到GCC的風格，再轉變回去，採用的loss如下：

LGAN是Discriminator判斷的loss，Lcycle是轉變過去又轉變回來的比較相似度的loss，λ是多少沒說

因為要比較圖像相似度，參考SANet採用SSIM作為loss，本文引入了SSIM作為loss，將CycleGAN轉變為SE CycleGAN：

μ設置為1

用了SE CycleGAN風格轉換結果如下：

（2）Density/Scene Regulation

Density Regulation，為了防止density map某些點預測了很大的值這種現象，本文設置了density map每個點出值得上限，超過這個上限，就把這個點設為0

Scene Regulation是對於不同的測試數據集，比如WorldExpo10，其人數不超過500，那麼在GCC中也要選擇少人數的場景圖片進行train

（3）ablation Study

①用不用CycleGAN進行風格轉換的對比

發現如果沒有Density/Scene Regulation，加了GAN反而效果變差了，可能是因為加了GAN導致圖像變模糊，帶來了一些細節的丟失

5.評價

本文最大的亮點在於提出了GCC數據集，在這上面pretrain是否能取代ImageNet，似乎持保留意見，不過對於容易overfitting的counting社區來說，確實是一個不錯的數據集