(1)主要是提出了基於GTA5的GCC數據集
數據集下載地址:
(2)提出了在如何在GCC上train,然後在傳統的通用數據集上test的遷移學習方案,方案基於Cycle GAN,提出了SE Cycle GAN
(3)也提出了他們自己的counting模型SFCN,不過該模型本身不是亮點
提出GCC數據集的目的是當前已經有的數據集圖片數量太少,很容易overfitting,基於GTA5場景製作出的GCC數據集,擁有豐富的場景,大量的圖片。
(1)場景的選擇
基於GTA5,選擇了100個地點,然後每個地點通過改變相機的位姿,最終獲得400個場景,然後通過不同的ROI獲得不同的圖片
(2)人模型的設計
選擇了265個人的模型,每個人的模型有不同的膚色,性別,形狀,然後又衣服,髮型等6個不同的外觀參數,在場景中採用隨機的動作
(3)場景合成
原始GTA5每個場景不超過256人,為了產生人多的圖片,需要進行場景合成,就是將不同場景下的人拼到一塊兒
最終人數分布如下:
(4)添加了不同環境因素
通過設置不同的時間因素,以及天氣因素,產生不同的環境:
(5)如何利用GCC數據集
①先在GCC在pretain,然後在其他數據集上進行fine-tune,有點在利用在ImageNet上pretrain模型的意思
②在GCC上train,然後直接在其他數據集上,不過中間利用了SE CycleGAN去將GCC的圖片色調改成了測試數據集的風格,才去train,和test
(1)模型配置
為了進行counting,本文也提出了自己的counting模型SFCN(Spatial FCN):
就是一個簡單的單列全卷積,encoder-decoder的結構
提出了採用兩種不同backbone的模型,這裡有個特殊的部分為Spatial Encoder結構,是《Spatial as deep: Spatial cnn for traffic scene understanding》這篇paper中提出的,具體看那篇paper
基本上backbone+Dilation conv+spatial encoder+upsample4個結構
採用1e-5的lr,Adam+MSE
(2)ablation study
①在GCC上訓練的情況,採用了三種不同的訓練集測試集劃分方法:
第一種是75%train,25%test,第二種是每個場景(共4個相機),1個相機用來test,其他3個用來train,第三種是以場景為單位,75個場景做train,25個場景做test
②在GCC上pretrain,在其他數據集上fine tune
感覺如果不用ResNet做backbone,效果不如用了ImageNet的CSRNet
DA是domain adaption,就是領域自適應,有點像遷移學習,要在讓在數據集A上train的模型,更好地在數據集B上test,本文要做到的就是如何在GCC上train,然後在其他數據集上獲得更好的效果
之所以要提到DA這個概念是因為GTA的圖片太卡通了,相比於實際場景,有一定Gap
(1)SE Cycle GAN
本文採用SE CycleGAN,其實就是給CycleGAN添加了SSIM的loss
根據CycleGAN的原理,GCC的圖片要通過一個Generator,產生於另一個數據集風格相似的圖片,並讓對應的distriminator去判斷,然後又用另一個Generator轉變回來,期望轉變過去又轉變回來的圖片跟原來的圖片越相似越好,
同理,另一條路是從另一個數據集轉變到GCC的風格,再轉變回去,採用的loss如下:
LGAN是Discriminator判斷的loss,Lcycle是轉變過去又轉變回來的比較相似度的loss,λ是多少沒說
因為要比較圖像相似度,參考SANet採用SSIM作為loss,本文引入了SSIM作為loss,將CycleGAN轉變為SE CycleGAN:
μ設置為1
用了SE CycleGAN風格轉換結果如下:
(2)Density/Scene Regulation
Density Regulation,為了防止density map某些點預測了很大的值這種現象,本文設置了density map每個點出值得上限,超過這個上限,就把這個點設為0
Scene Regulation是對於不同的測試數據集,比如WorldExpo10,其人數不超過500,那麼在GCC中也要選擇少人數的場景圖片進行train
(3)ablation Study
①用不用CycleGAN進行風格轉換的對比
發現如果沒有Density/Scene Regulation,加了GAN反而效果變差了,可能是因為加了GAN導致圖像變模糊,帶來了一些細節的丟失
本文最大的亮點在於提出了GCC數據集,在這上面pretrain是否能取代ImageNet,似乎持保留意見,不過對於容易overfitting的counting社區來說,確實是一個不錯的數據集
推薦閱讀: