基于自然语言的跨模态行人re-id的SOTA方法简述（上）

本文将介绍一种特殊的行人re-id任务，也就是利用自然语言文本信息来检索大规模数据集中的行人图片，这其实是跨模态检索的一个更加细粒度的应用领域。通常来说，多模态学习包含模态间的映射，模态间对齐，多模态信息融合等子问题，例如，我们常见的看图说话（Image Captioning）属于模态间的映射问题，视觉问答（Visual Question Answering）就包含多模态信息融合问题，而本文的任务属于模态间对齐的问题。由于在某些场景下，我们无法获取可靠的待搜索对象的视觉信息。譬如在安防领域，在得不到犯罪分子照片的情况下，我们只能根据目击证人通过自然语言描述犯罪分子的外貌特征去在数据集中搜索对应的人。又或者在搜索引擎中搜索图片时，通常会遇到在不知道待搜索对象的确切信息的情况，所以我们只能使用模糊的语言描述来作为搜索信息。这就需要我们的演算法和模型在训练中能对自然语言和视觉这两种信息进行恰当地处理，以求在只有自然语言作为检索信息的情况下，模型能够搜索到对应的行人图片。相比直接用图片或视频作为搜索信息的传统行人re-id问题，基于自然语言的跨模态行人re-id这项任务更加具有挑战性，需要研究者同时对CV和NLP问题有著更深的理解。本文将以解读论文的方式和读者一同学习该领域的主流方法。

数据集

CUHK_PEDES

这项任务在CVPR 2017年大会中由商汤科技首次提出（Person Search with Natural Language Description），并构建了一个数据集CUHK_PEDES，目前学术界能获取到的跨模态行人re-id数据集也只有这个。其中训练集包含34054张图片, 11,003个id和68,126条文本描述，验证集包含3,078张图片, 1,000个id和6,158条文本描述. 以及测试集包含3,074张图片, 1,000个id和6,156条文本描述。平均每张图片大概对应2条文本描述，每条文本描述平均大约23个单词，整个数据集共大约9，408个不同的单词。