《Perceive Where to Focus: Learning Visibility-aware Part-level Features for Partial Person Re-identification》

「在識別同一個目標時,視角、尺度、光照、服飾多樣性、姿態多變性、解析度不同以及部分遮擋,不同攝像頭間失去連續的位置和運動信息,會影響目標的快速檢索。例如,視角變化會帶來場景中的物體與攝像頭光軸呈現不同的夾角,導致二維圖像中物體表象存在差異;而尺度變化則會導致不同目標在圖像中所佔圖像區域的差異,要求演算法對尺度具有一定魯棒性,特徵提取就會變得困難。「 王生進

論文介紹

論文摘要:

論文中考慮了行人重新識別 (re-ID) 的一個現實問題,即局部行人重識別問題。在局部行人重識別場景下,需要探索資料庫圖像中包含整體人物的比例大小。如果直接將局部行人圖像與整體行人圖像進行比較,則極端空間錯位問題將顯著地損害特徵表徵學習的判別能力。針對這個問題,本文提出了一個局部可見感知模型 (VPM),通過自監督學習感知可見區域內的特徵,來解決局部行人重識別問題。該模型利用可見感知的特性,能夠提取區域特徵並比較兩張圖像的共享區域 (共享區域在兩張圖像上都是可見區域),從而局部行人重識別問題上取得更好的表現。總的來說,VPM 有兩大優勢:一方面,與學習全局特徵的模型相比,VPM 模型通過學習圖像區域特徵,能夠更好地提取一些細粒度特徵信息。另一方面,利用可見感知特徵,VPM 能夠估計兩個圖像之間的共享區域,從而抑制空間錯位問題。通過大量的實驗結果驗證,VPM 模型能夠顯著地改善特徵表徵的學習能力,並且在局部和整體行人重識別場景中,均可獲得與當前最先進方法相當的性能。

論文下載

arxiv.org/pdf/1904.0053

論文作者:

Yifan Sun (Tsinghua University); Ya-Li Li (THU); Qin Xu (Tsinghua University); Chi Zhang (Megvii Inc.); Yikang Li (CUHK); Shengjin Wang (Tsinghua University); Jian Sun (Megvii Technology) 孫一凡(清華大學);李亞莉(清華大學);徐勤(清華大學);張馳(曠視科技);李毅康(香港中文大學);王生進(清華大學電子系,媒體大數據認知計算研究中心);孫健(曠視科技)

作者團隊:

王生進自2003年10月回國後到清華大學任教,一直從事計算機視覺和視頻圖像模式識別、多媒體信息處理領域的研究。王生進是孫一凡的的博士導師,清華王生進團隊2009年開始研究行人再識別,

2009年,他們團隊以「重現的行人目標數據關聯和深度跟蹤理論及方法研究」為題,申請了國家自然科學基金,2010年審批通過,獲得國家自然科學基金支持。2017年,再次以「開放場景下基於深度學習的時空信息融合行人再識別方法的研究」為題獲得國家自然科學基金。

發表論文:

《Scalable Person Re-identification: A Benchmark》 ICCV.2015.133

《Person Re-Identification by Video Ranking》ECCV 2014

《Person Re-Identification by Discriminative Selection in Video Ranking》 PAMI2016

《Attend and Align: Improving Deep Representations with Feature Alignment Layer for Person Retrieval》 ICPR 2018

數據集貢獻:

iLIDS-VID 數據集

構建了一個迄今為止本研究領域最大的具有時空信息的行人再識別數據集。取自監控航空接站大廳,從2個不相交攝像機創建該數據集。隨機為300個人採樣了600個視頻,每人有來自兩個視覺的一對視頻。每個視頻有23~192幀,平均73幀。相似的衣服、光照和視覺改變,複雜的背景和嚴重的遮擋,很具挑戰性。

marked – 1501數據集

數據集在清華大學校園中採集,夏天拍攝,在 2015 年構建並公開。它包括由6個攝像頭(其中5個高清攝像頭和1個低清攝像頭)拍攝到的 1501 個行人、32668 個檢測到的行人矩形框。每個行人至少由2個攝像頭捕獲到,並且在一個攝像頭中可能具有多張圖像。訓練集有 751 人,包含 12,936 張圖像,平均每個人有 17.2 張訓練數據;測試集有 750 人,包含 19,732 張圖像,平均每個人有 26.3 張測試數據。3368 張查詢圖像的行人檢測矩形框是人工繪製的,而 gallery 中的行人檢測矩形框則是使用DPM檢測器檢測得到的。該數據集提供的固定數量的訓練集和測試集均可以在single-shot或multi-shot測試設置下使用。

Mars數據集

基於視頻的reid最大的數據集

論文內容:

論文聚焦在行人再識別方法中的部分可見的問題 ,

在實際應用中場景會出現人被遮擋或者被截斷的情況,用目前的方法做會產生一些問題:

如上圖中全身和半身,不去考慮部件的情況,用現有方法去re-id就會產生空間的表觀錯位,它會引發難以特徵提取的問題,如上圖(a),綠色區域本來很有鑒別力的區域,但是和同一個id做鑒別,不會帶來鑒別效果,反倒會引入雜訊。,產生兩幅圖的空間位置失配。圖(b),左側圖片多出來的腿部,不能有助於識別,甚至成為了信息干擾。 這篇論文的思想是對行人出現的信息進行感知,哪些部分是可見的,哪些部分是不可見的,然後對可見部分和不可見部分進行打分,兩個id在做鑒別比對的時候,根據部件出現的信息,選擇性的提取應該比對的區域,所以論文方法是學習部件的特徵,同時感知部件的可見性,然後鑒別比對的時候提取共享比對的區域。

為了能夠提取region feature,論文提出region visibility scores的計算方法,感知部件的同時提取部件的特徵,還可以對部件的可見性做評價,給可見性高的打高分,不可見區域給一個比較低的分數。在做兩個id比對的時候,用他們兩個共享的可見區域做計算,對共享可見區域做特徵的度量。

論文提出visibilty-aware part model(vpm)模型,模型的思路是提出部件分割的策略,送入到特徵提取器就是卷積層中獲得3d張量的特徵向量T,再放入region locator的網路,它可以對圖片中的像素做預測,假設分了p個部件,經過像素的預測,會形成p通道的一個概率分布,每一個通道上都是這個像素屬於其中一個部件分布的概率,得到概率分布圖之後,就可以計算兩個輸出,一個是特徵的輸出,特徵的輸出是利用概率分布圖去加權pooling,就得到一個加權後的每一個部件的特徵,第二個利用這個概率分布圖計算每一個部件的可見性,用到加權pooling的特徵,以及每一個部件的可見性去計算兩個id的可見的距離,就可以計算兩個圖像之間的相似度。 在計算vpm模型時候採用的是自監督的方法,自監督的方法避免手工做很多工作,它自己去學習vpm中的特徵,可以學習概率分布圖,同時概率分布圖還可以用來做加權。 在訓練階段設計了3個損失函數: 一個是區域 locator的損失函數,用來定位部件的區域,每一個像素的分類損失(交叉熵)。 一個是id分類的損失函數,使用每一個部分的特徵向量單獨預測人物身份的分類損失(交叉熵)、可見部分的分類。 一個是triplet loss,不同id之間鑒別的損失函數 用以上三個損失函數訓練網路。

論文中的實驗

實驗一

上圖中γ數值的變化表示身體露出區域的百分比,0.5是露出了一半,到1是全身露出,通過在market-1501和DukeMTMC-reID 數據集上實驗可以看出0.8以前,vpm和baseline和 PCB(Person Re-identification Mode行人再識別模型)相比性能都得到了提升,遮擋的越多vpm的性能越好,到了1,身體部件都露出就持平,大家的性能持平。

實驗二

實驗目的是驗證vpm提出的幾個要素的作用,

實驗三

實驗驗證vpm遮擋不同的部分的效果。

分別是vpm(top)肩頭以上區域,vpm(top)是中間區域, vpm(bottom)就是腳的區域,下半身,可以看到在遮擋區域中,遮擋中間和上部區域效果是最好的。

上圖是試驗結果的可視化的表達,利用如上第一行第四張圖的四個區域,對另外一幅圖去掉下半身區域的上半身的四個區域做鑒別特徵的比對,這樣做可以得到一個很好的結果,以上實驗證明了vpm模型的有效性。


推薦閱讀:
相关文章