基於自然語言的跨模態行人re-id的SOTA方法簡述（上）

本文將介紹一種特殊的行人re-id任務，也就是利用自然語言文本信息來檢索大規模數據集中的行人圖片，這其實是跨模態檢索的一個更加細粒度的應用領域。通常來說，多模態學習包含模態間的映射，模態間對齊，多模態信息融合等子問題，例如，我們常見的看圖說話（Image Captioning）屬於模態間的映射問題，視覺問答（Visual Question Answering）就包含多模態信息融合問題，而本文的任務屬於模態間對齊的問題。由於在某些場景下，我們無法獲取可靠的待搜索對象的視覺信息。譬如在安防領域，在得不到犯罪分子照片的情況下，我們只能根據目擊證人通過自然語言描述犯罪分子的外貌特徵去在數據集中搜索對應的人。又或者在搜索引擎中搜索圖片時，通常會遇到在不知道待搜索對象的確切信息的情況，所以我們只能使用模糊的語言描述來作為搜索信息。這就需要我們的演算法和模型在訓練中能對自然語言和視覺這兩種信息進行恰當地處理，以求在只有自然語言作為檢索信息的情況下，模型能夠搜索到對應的行人圖片。相比直接用圖片或視頻作為搜索信息的傳統行人re-id問題，基於自然語言的跨模態行人re-id這項任務更加具有挑戰性，需要研究者同時對CV和NLP問題有著更深的理解。本文將以解讀論文的方式和讀者一同學習該領域的主流方法。

數據集

CUHK_PEDES

這項任務在CVPR 2017年大會中由商湯科技首次提出（Person Search with Natural Language Description），並構建了一個數據集CUHK_PEDES，目前學術界能獲取到的跨模態行人re-id數據集也只有這個。其中訓練集包含34054張圖片, 11,003個id和68,126條文本描述，驗證集包含3,078張圖片, 1,000個id和6,158條文本描述. 以及測試集包含3,074張圖片, 1,000個id和6,156條文本描述。平均每張圖片大概對應2條文本描述，每條文本描述平均大約23個單詞，整個數據集共大約9，408個不同的單詞。

基於自然語言的跨模態行人re-id的SOTA方法簡述（上）

數據集

CUHK_PEDES

主流方法

GNA-RNN(CVPR 2017)

1.Visual Sub-Network

2.Language Sub-Network

Attention over Visual Units

Word-level gates for Visual Units

3.Training Scheme

4.實驗結果

Dual Path CNN

1.網路結構

2.損失函數

Ranking Loss

Instance Loss

Total Loss

4.訓練策略

Stage 1

Stage 2

5.實驗結果

GALM

1.網路結構

2.特徵提取

視覺特徵

文本特徵

3.網路細節

Global Image-Text Matching

Uni-Local Image-Text Matching

Bi-Local Image-Text Matching

訓練GALM

4.實驗結果

小結

參考文獻

热门新闻

周热门

基於自然語言的跨模態行人re-id的SOTA方法簡述（上）

數據集

CUHK_PEDES

主流方法

GNA-RNN(CVPR 2017)

1.Visual Sub-Network

2.Language Sub-Network

Attention over Visual Units

Word-level gates for Visual Units

3.Training Scheme

4.實驗結果

Dual Path CNN

1.網路結構

2.損失函數

Ranking Loss

Instance Loss

Total Loss

4.訓練策略

Stage 1

Stage 2

5.實驗結果

GALM

1.網路結構

2.特徵提取

視覺特徵

文本特徵

3.網路細節

Global Image-Text Matching

Uni-Local Image-Text Matching

Bi-Local Image-Text Matching

訓練GALM

4.實驗結果

小結

參考文獻

如何看待 CVPR2018 中 Person Re-Id 有論文在多數據集上訓練，在單數據集上測試？

學計算機視覺好找工作嗎？

用mAP衡量目標檢測的性能是否科學？

靠OpenCV吃飯的圖像演算法工程師在深度學習的衝擊下衝擊下還有活路嗎？ 瀉藥，「靠OpenCV吃飯的圖像演算法工程師在深度學習的衝擊下衝擊下還有活路嗎？」

本人碩一小白，最近找課題，想問問深度學習GAN這個方向有哪些具有實際應用價值還好發文章的課題?

如何評價 CVPR 2020的論文接收結果？有哪些亮點論文？

有什麼方法可以檢測視頻里是否用了AI視頻換臉演算法？

我應該從計算機視覺回到做FPGA 嗎？

演算法工程師真的是調參俠嗎？

實時人臉關鍵點/特徵點檢測目前有哪些好的演算法？

如何看待 AI 換臉軟體「ZAO」的爆火？

哪裡能找到聲吶圖像的數據集？

請問發nlp或者cv論文，一定要是sota嗎？

如何看待商湯的Deformable DETR？能否取代Faster-RCNN範式？

如何評價新出的YOLO v4 ？

热门新闻

周热门

靠OpenCV吃飯的圖像演算法工程師在深度學習的衝擊下衝擊下還有活路嗎？瀉藥，「靠OpenCV吃飯的圖像演算法工程師在深度學習的衝擊下衝擊下還有活路嗎？」