本文將介紹一種特殊的行人re-id任務,也就是利用自然語言文本信息來檢索大規模數據集中的行人圖片,這其實是跨模態檢索的一個更加細粒度的應用領域。通常來說,多模態學習包含模態間的映射,模態間對齊,多模態信息融合等子問題,例如,我們常見的看圖說話(Image Captioning)屬於模態間的映射問題,視覺問答(Visual Question Answering)就包含多模態信息融合問題,而本文的任務屬於模態間對齊的問題。由於在某些場景下,我們無法獲取可靠的待搜索對象的視覺信息。譬如在安防領域,在得不到犯罪分子照片的情況下,我們只能根據目擊證人通過自然語言描述犯罪分子的外貌特徵去在數據集中搜索對應的人。又或者在搜索引擎中搜索圖片時,通常會遇到在不知道待搜索對象的確切信息的情況,所以我們只能使用模糊的語言描述來作為搜索信息。這就需要我們的演算法和模型在訓練中能對自然語言和視覺這兩種信息進行恰當地處理,以求在只有自然語言作為檢索信息的情況下,模型能夠搜索到對應的行人圖片。相比直接用圖片或視頻作為搜索信息的傳統行人re-id問題,基於自然語言的跨模態行人re-id這項任務更加具有挑戰性,需要研究者同時對CV和NLP問題有著更深的理解。本文將以解讀論文的方式和讀者一同學習該領域的主流方法。
數據集
CUHK_PEDES
這項任務在CVPR 2017年大會中由商湯科技首次提出(Person Search with Natural Language Description),並構建了一個數據集CUHK_PEDES,目前學術界能獲取到的跨模態行人re-id數據集也只有這個。其中訓練集包含34054
張圖片, 11,003
個id和68,126
條文本描述,驗證集包含3,078
張圖片, 1,000
個id和6,158
條文本描述. 以及測試集包含3,074
張圖片, 1,000
個id和6,156
條文本描述。平均每張圖片大概對應2
條文本描述,每條文本描述平均大約23
個單詞,整個數據集共大約9,408
個不同的單詞。