讀論文系列：CVPR2018 SSAH

轉載請註明作者：夢裡茶

這是騰訊AI Lab與西電合作的一篇CVPR2018的paper，在多模態檢索任務中加入對抗網路組件，為跨模態對象生成更好的語義特徵，從而提高了跨模態檢索的效果。

問題描述

跨模態檢索：

利用一種模態的數據去檢索另一種模態中的數據，比如文字搜圖片

尋找多種模態的數據對應的關鍵字

常用的數據集：MSCOCO, NUS-WIDE, MIRFLICKR-25K

如果我們在檢索的時候再去做特徵提取，檢索速度會很慢，因此通常需要預先將特徵提取出來，根據相似度建立索引，從而加快檢索速度，為了節省存儲空間，並加快計算效率，通常會要求特徵盡量短，並且是二進位表示，這樣的特徵我們稱為Hash。

常用方法

我們要根據多模態的內容生成一個hash，希望不同模態的同個對象hash盡量相近，不同對象的hash盡量不同。由於跨模態的內容具有語義上的聯繫，通常的做法是將不同模態的內容映射到公共的語義空間，已經有很多這方面的工作，有監督/無監督的，Shallow的手工特徵/Deep特徵。得到特徵之後，可以用sign操作將連續的feature向量變成離散值，從而得到更輕量的特徵。

SSAH

這篇論文提出了一個結合對抗學習的深度神經網路：

利用深度提取圖像和文本特徵，轉為hash（I/T->F->L+H->B）
利用標籤生成特徵，再轉為hash，並希望特徵能夠還原回label（（L->F->L+H->B）
有監督地最小化不同模態特徵和hash的差異
加入能夠區分不同來源的特徵的判別器進行對抗訓練，進一步減小不同模態特徵的差異

接下來具體講其中幾個部分：

Self supervised semantic Generation(L->F->L+H->B)

輸入：某個圖文對應的label，每個對象會對應多個label，one hot成01向量
經過四層神經網路（L->4096->512->N）
輸出長度為N的向量，N=K+c，K為哈希碼長度，c為label的類別個數
訓練目標：讓生成的hash保留語義上的相關性，並能還原回原來的label

訓練目標由這個Loss約束完成：

首先解釋一下符號，

是根據label生成的hash，
是由hash執行sign操作得到的二進位碼
是由特徵還原回來的label
是原本的label
$Delta_{ij}^l=frac{1}{2}(F_i^l)^ op(F_j^l)$ ，即樣本i和樣本j的label生成的特徵的餘弦相似度
$Gamma_{ij}^l=frac{1}{2}(H_i^l)^ op(H_j^l)$ ，即樣本i和樣本j的label生成的特徵餘弦相似度
$S_{ij}$ 表示樣本i和j是否包含至少一個相同的label，

包含為1，表示樣本i和j在語義上相似
不包含為0，表示樣本i和j在語義上不相似

對於 $mathcal{J}_1$ ,

$-sum_{i,j=1}^{n}{S_{ij}Delta_{ij}^{l}-log(1+e^{Delta_{ij}^l})}$

$= -sum_{i,j=1}^{n}{log(frac{e^{S_{ij}Delta_{ij}^{l}}}{1+e^{Delta_{ij}^l}})}$

$= -sum_{i,j=1}^{n}{log(frac{e^{Delta_{ij}^{l}}}{1+e^{Delta_{ij}^l}})}$ if $S_{ij}=1$

$= -sum_{i,j=1}^{n}{log(frac{1}{1+e^{Delta_{ij}^l}})}$ if $S_{ij}=0$

$= sum_{i,j=1}^{n}-{S_{ij}log(frac{e^{Delta_{ij}^{l}}}{1+e^{Delta_{ij}^l}})-(1-S_{ij})log(1-frac{e^{Delta_{ij}^{l}}}{1+e^{Delta_{ij}^l}})}$

實際上和交叉熵loss是等效的

即 $S_{ij}=1$ 時，

$min -sum_{i,j=1}^{n}{log(frac{e^{Delta_{ij}^{l}}}{1+e^{Delta_{ij}^l}})}=maxsum_{i,j=1}^{n}{log(frac{1}{1+e^{-Delta_{ij}^l}})}=max Delta_{ij}^l$

最大化兩個向量的餘弦相似度

$S_{ij}=0$ 時，

$min -sum_{i,j=1}^{n}{log(frac{1}{1+e^{Delta_{ij}^l}})}=maxsum_{i,j=1}^{n}{log(frac{1}{1+e^{Delta_{ij}^l}})}=minDelta_{ij}^l$

最小化兩個向量的餘弦相似度

對於 $mathcal{J}_2$ 同理，從而約束了相似的label具有相似的hash

對於 $mathcal{J}_3$ , 使和儘可能接近，從而使得Hash向量中的元素盡量接近-1,1，

減少了 -> 時的損失

對於 $mathcal{J}_4$ , 使得還原的標籤與原來的標籤儘可能相同

這個部分跟自編碼器很像，是自監督的過程，由label生成特徵，再由特徵還原回label

Feature Learning(I/T->F->L+H->B)

輸入：圖像/文本，
經過神經網路提取特徵（圖像和文本的網路不同）
輸出長度為N的向量，N=K+c，K為哈希碼長度，c為label的類別個數
訓練目標：

在特徵中保留語義信息，因此希望預測label與真實label相近
hash盡量接近binary code
讓特徵提取得到的feature和hash與Semantic Generation得到的特徵和hash盡量相同，

因此監督信號做feature learning的時候還對提取feature和生成feature的相似性做約束，
對提取hash和生成hash的相似性做約束

其中，圖像的特徵提取網路作者試用了CNN-F和VGG16（VGG16更優），文本特徵提取則是一個新的多尺度融合模型：

輸入：文本，轉為一個詞袋向量，由於詞袋向量非常稀疏，需要轉化為一個相對稠密的向量
網路：T->Multi-scale Fusion->4096->512->N
輸出長度為N的向量，N=K+c，K為哈希碼長度，c為label的類別個數
Multi-scale Fusion：

5個average pooling layer(1x1,2x2,3x3,5x5,10x10)+1個1x1conv

訓練Loss與前面的Semantic Generation很像

但又與之前的模型不同，這裡的監督信號有標籤和標籤生成的特徵，而之前的監督信號就是輸入本身。

其中

$Delta_{ij}^l=frac{1}{2}(F_i^{l})^ op(F_j^{v,t})$ ，即樣本i的標籤label生成的特徵和樣本j的輸入（圖/文）提取的特徵的餘弦相似度，目標是使提取的特徵和生成的特徵盡量相近
$Gamma_{ij}^l=frac{1}{2}(H_i^l)^ op(H_j^{v,t})$ ，即樣本i的標籤label生成的hash和樣本j的輸入（圖/文）提取的hash的餘弦相似度，目標是使提取的hash和生成的hash盡量相近

Adversarial learning

Motivation:不同模態提取的特徵會有不同的分布，希望相同語義的對象在不同模態里的特徵表達盡量接近
Solution:加入判別器D，希望D能區分特徵是來自Feature Learning還是Semantic Generation，D越強大，越能區分兩種特徵，要欺騙D，就迫使Feature Learning和Semantic Generation得到的特徵盡量相近