學習CVPR2019論文《感知哪裡是重點:學習視覺感知的部分層次特徵，用於部分人的重新識別》

《Perceive Where to Focus: Learning Visibility-aware Part-level Features for Partial Person Re-identification》

「在識別同一個目標時，視角、尺度、光照、服飾多樣性、姿態多變性、解析度不同以及部分遮擋，不同攝像頭間失去連續的位置和運動信息，會影響目標的快速檢索。例如，視角變化會帶來場景中的物體與攝像頭光軸呈現不同的夾角，導致二維圖像中物體表象存在差異；而尺度變化則會導致不同目標在圖像中所佔圖像區域的差異,要求演算法對尺度具有一定魯棒性，特徵提取就會變得困難。「王生進

論文介紹

論文摘要：

論文中考慮了行人重新識別 (re-ID) 的一個現實問題，即局部行人重識別問題。在局部行人重識別場景下，需要探索資料庫圖像中包含整體人物的比例大小。如果直接將局部行人圖像與整體行人圖像進行比較，則極端空間錯位問題將顯著地損害特徵表徵學習的判別能力。針對這個問題，本文提出了一個局部可見感知模型 (VPM)，通過自監督學習感知可見區域內的特徵，來解決局部行人重識別問題。該模型利用可見感知的特性，能夠提取區域特徵並比較兩張圖像的共享區域 (共享區域在兩張圖像上都是可見區域)，從而局部行人重識別問題上取得更好的表現。總的來說，VPM 有兩大優勢：一方面，與學習全局特徵的模型相比，VPM 模型通過學習圖像區域特徵，能夠更好地提取一些細粒度特徵信息。另一方面，利用可見感知特徵，VPM 能夠估計兩個圖像之間的共享區域，從而抑制空間錯位問題。通過大量的實驗結果驗證，VPM 模型能夠顯著地改善特徵表徵的學習能力，並且在局部和整體行人重識別場景中，均可獲得與當前最先進方法相當的性能。

論文下載

https://arxiv.org/pdf/1904.00537.pdf

論文作者：

Yifan Sun (Tsinghua University); Ya-Li Li (THU); Qin Xu (Tsinghua University); Chi Zhang (Megvii Inc.); Yikang Li (CUHK); Shengjin Wang (Tsinghua University); Jian Sun (Megvii Technology) 孫一凡（清華大學）；李亞莉（清華大學）；徐勤（清華大學）；張馳（曠視科技）；李毅康（香港中文大學）；王生進（清華大學電子系，媒體大數據認知計算研究中心）；孫健（曠視科技）

作者團隊：

王生進自2003年10月回國後到清華大學任教，一直從事計算機視覺和視頻圖像模式識別、多媒體信息處理領域的研究。王生進是孫一凡的的博士導師，清華王生進團隊2009年開始研究行人再識別，

2009年，他們團隊以「重現的行人目標數據關聯和深度跟蹤理論及方法研究」為題，申請了國家自然科學基金，2010年審批通過，獲得國家自然科學基金支持。2017年，再次以「開放場景下基於深度學習的時空信息融合行人再識別方法的研究」為題獲得國家自然科學基金。

發表論文：

《Scalable Person Re-identification: A Benchmark》 ICCV.2015.133

《Person Re-Identification by Video Ranking》ECCV 2014

《Person Re-Identification by Discriminative Selection in Video Ranking》 PAMI2016

《Attend and Align: Improving Deep Representations with Feature Alignment Layer for Person Retrieval》 ICPR 2018

數據集貢獻：

iLIDS-VID 數據集

構建了一個迄今為止本研究領域最大的具有時空信息的行人再識別數據集。取自監控航空接站大廳，從2個不相交攝像機創建該數據集。隨機為300個人採樣了600個視頻，每人有來自兩個視覺的一對視頻。每個視頻有23~192幀，平均73幀。相似的衣服、光照和視覺改變，複雜的背景和嚴重的遮擋，很具挑戰性。

marked – 1501數據集

數據集在清華大學校園中採集，夏天拍攝，在 2015 年構建並公開。它包括由6個攝像頭（其中5個高清攝像頭和1個低清攝像頭）拍攝到的 1501 個行人、32668 個檢測到的行人矩形框。每個行人至少由2個攝像頭捕獲到，並且在一個攝像頭中可能具有多張圖像。訓練集有 751 人，包含 12,936 張圖像，平均每個人有 17.2 張訓練數據；測試集有 750 人，包含 19,732 張圖像，平均每個人有 26.3 張測試數據。3368 張查詢圖像的行人檢測矩形框是人工繪製的，而 gallery 中的行人檢測矩形框則是使用DPM檢測器檢測得到的。該數據集提供的固定數量的訓練集和測試集均可以在single-shot或multi-shot測試設置下使用。