論文:[1812.02162] Dissecting Person Re-identification from the Viewpoint of Viewpoint

數據:Dissecting Person Re-ID from the Viewpoint of Viewpoint

寫在後面的話:這裡介紹的是我們在 CVPR19 被接收的一篇研究行人重識別的論文。在該工作中,我們嘗試從一個全新的角度來探索行人重識別任務,其主要研究為視覺因素變化如何影響行人重識別,通過利用合成數據對視覺因素量化來進行大量實驗,總結,分析並得出一些有意思的結論。 我們希望這是從 what 到 how 的開始,可以讓行人重識別的研究有更多維度。我們已將生成數據的源文件放出,希望對感興趣的小夥伴有所幫助

1. 背景介紹

在計算機視覺的研究中,系統的魯棒性非常重要。通常情況下,視覺因素(比如,背景,光照,遮擋等)的變化會引起計算視覺系統性能的波動。因此,出現了很多致力於如何減小視覺因素變化產生的影響的研究。對於行人重識別 (person re-identification,person re-ID) 這一視覺任務,最典型的視覺因素有:視角 [1],背景 [2],姿態 [3] 和光照等。那麼,這些視覺因素的變化是如何影響行人重識別系統性能的呢?

論文 Dissecting Person Re-ID from the Viewpoint of Viewpoint 從行人視角(viewpoint) 這一因素出發,首次對影響行人重識別的視覺因素進行量化,分析和研究。

2. Motivation

研究上述問題的關鍵有以下幾點:

  • 視覺因素標註 (除圖像原有的label 即人物 ID 之外,視覺因素要有定性或者定量的標籤)
  • 避免各視覺因素間的相互影響
  • 區分,量化單個視覺因素涵蓋的各種情況

實踐操作中,做到上述幾點是極其困難的。需要收集大量不同情況下的圖像,分文別類標註。因此如何獲得數據是我們所面臨的最大挑戰。

雖然在行人重識別領域中已經有幾個大規模公開可用數據集,如 Market-1501 [4] 和 DukeMTMC-reID [5], 但是這些數據集中視覺因素的分佈是固定的,甚至是通常存在一定偏差。而收集新數據的代價又極其昂貴,同樣也很難對變數進行控制和量化。

「既然沒有辦法改變世界,那麼我們創造一個世界」。考慮到實際蒐集圖像的難度,為了更快、更準確地獲得來自各種不同環境的圖像,我們嘗試創造了一個虛擬「世界」PersonX。

3. PersonX 介紹

圖1 PersonX 中的背景和行人示例

PersonX 是基於遊戲開發引擎Unity創建的一個3D數據合成系統,目前版本的情況如下:

  • 包含1,266個行人 (537個女性和791個男性)。人物的外觀特點多樣化,涵蓋不同膚色,年齡,身體形態(胖,瘦,高,低)以及髮型等。
  • 與真實世界中監控相機的部署情形一致,PersonX中相機的位置可以根據需要任意「擺放」,相機參數 (如像素)也可以靈活設置。
  • 視覺因素(如背景,光照,行人視角等)高度可控,因此可以支持量化視覺因素變化進行控制變數實驗。目前,該引擎的相關數據已經公開在我們的數據主頁。

4. 小試牛刀

基於該引擎,我們對行人視角(viewpoint)變化如何影響行人重識別進行了研究。其中,行人視角被定義為行人相對於相機的水平旋轉角度,具體見下圖。

圖2 視角(viewpoint)定義示意圖

4.1 實驗平臺評估

在利用 PersonX 數據集研究和分析行人視角變化對行人重識別的影響之前,我們首先對該數據集進行了評估。

圖3 數據集評估實驗結果

根據實驗結果,我們總結出3個PersonX數據集特點:

  • 指示性:真實數據和合成數據上實驗結果趨勢是一致, 說明PersonX 具有和真實數據一樣可以反映出不同演算法的性能好壞。
  • 純凈性:PersonX 數據集的結果普遍比真實數據高,因為在構造數據集時我們盡量減少因素變化的影響 (高像素,簡單的背景,豐富的人物視角等)。
  • 敏感性:當一些因素髮生變化時,實驗結果會有明顯的變化。比如將圖像像素從 1024 	imes 768 變為 512 	imes 242 時 (見圖3 B,PersonX..-lr), 三種方法的結果都有所下降,說明 PersonX 數據合成系統可以對環境變化做出相應的反映

前方為實驗設置,結果和結論,其中結論以粗體列表形式標出

4.2 行人視角變化的影響

實驗包含三個部分,分別討論 training set, gallery 和query 中行人視角分佈變化對於行人重識別結果的影響。以PCB演算法為基礎,在合成數據 PersonX 和真實數據 Market-1203進行了對照組和實驗組的實驗。

4.2.1 Training Set 中的行人視角分佈如何影響行人重識別模型訓練?

gallery 和 query 保持不變的情況下,訓練集中視角分佈的不同的設置如下圖。

圖4 訓練集包含不同行人視角分佈時對照組和實驗組設置。

圖4以訓練集包含兩個 ID為例,當選1/2數據用於訓練時對照組(control group)實驗組為:

對照組1: 每個 ID 隨機選18 (36 *1/2) 個視角

對照組2: 整個訓練集隨機選18 (36 *1/2) 個視角 (ID1,2所選視角相同)。

實驗組 : 整個訓練集連續的18視角 (ID1,2被選取的視角相同且連續。

圖5 訓練集合包含不同的視角分佈時實驗結果。

圖5中,A 和 B 表示從 ID 的36個視角中選取特定的兩類視角用於模型訓練,C 表示選取一類。這裡 「left」 對應圖2中的 left orientation , 表示訓練集中只有行人的左側視角。D 表示訓練集 ID 的視角逐漸減少時的結果。根據圖中的結果,可以發現

  • 當訓練集中缺少一些視角,特別是連續的視角時,模型的性能會受到影響
  • 當訓練集只包含有限視角時,側面視角(left 和 right)訓練的模型比用前後視角(front 和 back)訓練的模型具有更好地性能。

在下圖中,我們給出了兩類視角訓練的模型的檢索結果。

圖 6 Market1203 檢索可視化結果

4.2.2 Gallery 中 True Match 的視角的分佈如何影響檢索結果?

在訓練集和 query 保持不變的情況下,去掉gallery 中的 true match的對照組和實驗組的設置如下。

圖 7 Gallery 中的視角分佈對檢索結果的影響

根據圖 7結果可知:

  • 相比較對照組,實驗組的結果都有所降低。說明與 query 視角不同的 true match 比 query 視角相似的 true match 更難檢索
  • 當其他視覺因素更具有挑戰性時,如背景複雜,解析度降低,上述問題對最終檢索結果的影響就會變得更加明顯

4.2.3 Query 圖像的視角分佈如何影響檢索結果?

query 圖像設置為包含特定的視角,依次檢索人物視角為 0 到 350 圖像。

圖 8 Query 視角分佈被設置為正左 (due left),正右,正前,正後,依次檢索36個角度的結果。mean 為每種query 視角檢索36種 true mach 結果的均值。 正左,正右,正前,正後作為 query 視角檢索結果均值依次是93.8, 94.7 , 91.7 和 92.5

基於圖8結果分析可知:

  • 在不確定待檢索圖像視角分佈的情況下,以側面作為檢索圖像時得到正確的檢索結果的概率更大。

(更多詳細內容、實驗結果見論文和參考文獻)

5. 總結

以行人視角為例,本文從一個新的角度對行人重識別進行了研究。我們希望可以從知道「什麼(what) 視覺因素的變化會影響行人重識別系統」這一層面,逐步擴展到理解「這些視覺因素的變化如何 (How) 影響行人重識別系統」。通過對這一基本的問題的研究,有助於我們發現有意義的新問題,設計更魯棒的行人重識別演算法和模型。目前該工作相關數據已公開,歡迎感興趣的小夥伴下載使用,一起交流。


寫在後面的話:因為我們也處在初步嘗試和探索階段,所以不可避免地會對一些問題思考不夠全面。如果大家發現有不清楚的地方,請提出寶貴意見並與我們一起討論,謝謝!

參考文獻

  1. Srikrishna Karanam, Yang Li, and Richard J Radke. Person re-identification with discriminatively trained viewpoint invariant dictionaries. In ICCV, 2015
  2. Di Chen, Shanshan Zhang, Wanli Ouyang, Jian Yang, and Ying Tai. Person search via a mask-guided two-stream cnn model. In ECCV, 2018
  3. Liang Zheng, Yujia Huang, Huchuan Lu, and Yi Yang. Pose invariant embedding for deep person re-identification. arXiv preprint arXiv:1701.07732, 2017
  4. L. Zheng, L. Shen, L. Tian, S. Wang, J. Wang, and Q. Tian. Scalable person re-identification: A benchmark. In ICCV, 2015
  5. Z. Zheng, L. Zheng, and Y. Yang. Unlabeled samples generated by gan improve the person re-identification baseline in vitro. In ICCV, 2017
  6. Zhun Zhong, Liang Zheng, Zhedong Zheng, Shaozi Li, and Yi Yang. Camera style adaptation for person reidentification. In CVPR, 2018
  7. Alexander Hermans, Lucas Beyer, and Bastian Leibe. In defense of the triplet loss for person re-identification. arXiv preprint arXiv:1703.07737, 2017
  8. Yifan Sun, Liang Zheng, Yi Yang, Qi Tian, and Shengjin Wang. Beyond part models: Person retrieval with refined part pooling (and a strong convolutional baseline). In ECCV, 2018

推薦閱讀:

相關文章