圖像檢索歌曲—cross modal retrieval

來自專欄圖像檢索

Image2song: Song Retrieval via Bridging Image Content and Lyric Words

來源：Li X, Hu D, Lu X. Image2song: Song Retrieval via Bridging Image Content and Lyric Words[J]. CVPR 2017:5650-5659.

圖像通常是以表達情感為目的，現在在社交網路出現了一種新的方式，即將圖像與相關的歌曲聯合起來增強這種情感表達。Music Information Retrieval(MIR)是一個傳統的研究領域，主要是根據特定的評論檢索合適的歌曲。

一、本文問題

如何加強圖像的情感表達能力；如何建立圖像和歌詞的語義相關性；如何降低圖像和歌詞間的內容鴻溝。

二、解決方法

1. 利用歌詞作為文本模態進行基於語義的歌曲檢索任務，這提供了一種有效的方式來建立圖像和歌詞在語義上的相關性；

2. 開發一個基於神經網路的多模態模型，通過將圖像和歌詞表達映射到一個共同的空間來學習潛在的對應關係。為了降低圖像和歌詞間的內容鴻溝，引進一個標籤注意力方法，該方法使得歌詞的雙向RNN集中於主要內容的歌曲區域。

3. 建立一個數據集，數據集由(圖像，音樂段落，歌詞)三元組組成。

三、模型

圖1：圖像標籤網路

圖2：整體模型框架

圖1說明：RCNN:對每幅圖像的區域分類；在Shuttersong數據集中，通過參數遷移生成圖像的標籤預測結果。

圖2說明：圖像內容標籤首先是通過RCNN預測，一個雙向LSTM用於對相應的歌詞進行建模；然後生成的歌詞表達將通過MLP映射到圖像標籤空間。為了降低圖像和歌詞間的內容鴻溝，the top K image tags 會被嵌入到一個標籤矩陣中，進而通過最大值或者平均池化表述為歌詞模型中的標籤注意力。(圖1，圖2均來自來源中的論文)

四、總結

本文提出了一種基於語義的歌曲檢索框架，該框架利用歌詞作為文本數據來源來評估歌曲的語義標籤，然後提出了一個基於多模態框架的神經網路用於學習相關性，其中提出的歌詞模型通過聚焦於主要的圖像內容，以降低圖像和歌詞間的內容鴻溝。本文是典型的跨模態檢索，通過輸入圖像檢索歌曲，成為image2song；通過歌曲檢索圖像成為song2image。