[crowd_counting]-SFCN-CVPR2019&&GCC dataset 1.Contribution (1)主要是提出了基於GTA5的GCC數據集數據集下載地址:https://gjy3035.github.io/GCC-CL/?gjy3035.github.io(2)提出了在如何在GCC上train,然後在傳統的通用數據集上test的遷移學習方案,方案基於Cycle GAN,提出了SE Cycle GAN(3)也提出了他們自己的counting模型SFCN,不過該模型本身不是亮點 2.GCC dataset 提出GCC數據集的目的是當前已經有的數據集圖片數量太少,很容易overfitting,基於GTA5場景製作出的GCC數據集,擁有豐富的場景,大量的圖片。 (1)場景的選擇基於GTA5,選擇了100個地點,然後每個地點通過改變相機的位姿,最終獲得400個場景,然後通過不同的ROI獲得不同的圖片(2)人模型的設計選擇了265個人的模型,每個人的模型有不同的膚色,性別,形狀,然後又衣服,髮型等6個不同的外觀參數,在場景中採用隨機的動作(3)場景合成原始GTA5每個場景不超過256人,為了產生人多的圖片,需要進行場景合成,就是將不同場景下的人拼到一塊兒 最終人數分布如下: (4)添加了不同環境因素通過設置不同的時間因素,以及天氣因素,產生不同的環境: (5)如何利用GCC數據集 ①先在GCC在pretain,然後在其他數據集上進行fine-tune,有點在利用在ImageNet上pretrain模型的意思②在GCC上train,然後直接在其他數據集上,不過中間利用了SE CycleGAN去將GCC的圖片色調改成了測試數據集的風格,才去train,和test 3.SFCN (1)模型配置為了進行counting,本文也提出了自己的counting模型SFCN(Spatial FCN): 就是一個簡單的單列全卷積,encoder-decoder的結構 提出了採用兩種不同backbone的模型,這裡有個特殊的部分為Spatial Encoder結構,是《Spatial as deep: Spatial cnn for traffic scene understanding》這篇paper中提出的,具體看那篇paper基本上backbone+Dilation conv+spatial encoder+upsample4個結構採用1e-5的lr,Adam+MSE(2)ablation study①在GCC上訓練的情況,採用了三種不同的訓練集測試集劃分方法: 第一種是75%train,25%test,第二種是每個場景(共4個相機),1個相機用來test,其他3個用來train,第三種是以場景為單位,75個場景做train,25個場景做test ②在GCC上pretrain,在其他數據集上fine tune 感覺如果不用ResNet做backbone,效果不如用了ImageNet的CSRNet 4.SE CycleGAN & DA DA是domain adaption,就是領域自適應,有點像遷移學習,要在讓在數據集A上train的模型,更好地在數據集B上test,本文要做到的就是如何在GCC上train,然後在其他數據集上獲得更好的效果之所以要提到DA這個概念是因為GTA的圖片太卡通了,相比於實際場景,有一定Gap(1)SE Cycle GAN本文採用SE CycleGAN,其實就是給CycleGAN添加了SSIM的loss 根據CycleGAN的原理,GCC的圖片要通過一個Generator,產生於另一個數據集風格相似的圖片,並讓對應的distriminator去判斷,然後又用另一個Generator轉變回來,期望轉變過去又轉變回來的圖片跟原來的圖片越相似越好,同理,另一條路是從另一個數據集轉變到GCC的風格,再轉變回去,採用的loss如下: LGAN是Discriminator判斷的loss,Lcycle是轉變過去又轉變回來的比較相似度的loss,λ是多少沒說因為要比較圖像相似度,參考SANet採用SSIM作為loss,本文引入了SSIM作為loss,將CycleGAN轉變為SE CycleGAN: μ設置為1用了SE CycleGAN風格轉換結果如下: (2)Density/Scene RegulationDensity Regulation,為了防止density map某些點預測了很大的值這種現象,本文設置了density map每個點出值得上限,超過這個上限,就把這個點設為0Scene Regulation是對於不同的測試數據集,比如WorldExpo10,其人數不超過500,那麼在GCC中也要選擇少人數的場景圖片進行train(3)ablation Study①用不用CycleGAN進行風格轉換的對比 發現如果沒有Density/Scene Regulation,加了GAN反而效果變差了,可能是因為加了GAN導致圖像變模糊,帶來了一些細節的丟失 5.評價 本文最大的亮點在於提出了GCC數據集,在這上面pretrain是否能取代ImageNet,似乎持保留意見,不過對於容易overfitting的counting社區來說,確實是一個不錯的數據集 推薦閱讀: 相关文章 {{#data}} {{title}} {{/data}}