論文名稱:Multi-Label Image Recognition with Graph Convolutional Networks

論文鏈接arxiv.org/abs/1904.0358

摘要

多標籤圖像識別的任務預測一張圖像中出現的一組物體標籤。由於對象通常同時出現在圖像中,因此希望對標籤依賴性進行建模來提高識別性能。為了捕獲和探索這些重要的相關性,我們提出了一種基於圖卷積網路(GCN)的多標籤分類模型。該模型在對象標籤上構建一個有向圖,其中每個節點(標籤)由一個標籤的詞嵌入向量表示,並且GCN用來學習將這個標籤有向圖映射為一組相互依賴的對象分類器。這些分類器應用於由另一個子網提取的圖像描述,使整個網路可以進行端到端的訓練。此外,我們還提出了一種新穎的再加權方案,以建立有效的標籤相關矩陣,進而指導GCN節點間的信息傳播。對兩個多標籤圖像識別數據集的實驗表明,我們的方法明顯優於現有的其他最先進的方法。此外,可視化分析表明,模型學習的分類器保持了有意義的語義拓撲結構。

引言

多標籤圖像識別是計算機視覺中的一項基本而實用的任務,其目的是預測圖像中的一組物體。它可以應用於醫學診斷識別、人類屬性識別和零售識別等領域。多標籤任務相比於多類別圖像分類,由於輸出空間的組合性,具有更大的挑戰性。由於對象通常在物理世界中共存,因此多標籤圖像識別的關鍵是建立標籤依賴關係模型,如圖1所示。

解決多標籤識別問題的一種有效方法是單獨的看待各個對象,並將多標籤問題轉換為一組二值分類問題,以預測每個對象是否存在。得益於深度卷積神經網路(CNN)實現的單標籤圖像分類的巨大成功,二值分類的性能得到了極大的提高。然而,這些方法本質上受到了忽略對象之間複雜拓撲結構的限制。這促使研究者以各種方式捕捉和探索得到標籤相關性的方法。其中的部分方法是基於概率圖模型或遞歸神經網路(RNN)的標籤依賴性模型化方法。然而,基於概念圖模型的方法將多標籤分類問題定義為一個結構推理問題,由於計算複雜度較高,可能會出現可伸縮性問題;而循環神經網路則根據預先定義或學習的某些順序,按順序預測標籤。另一個研究方向是通過注意力機制來對標籤相關性進行隱式建模。他們考慮圖像被注意區域之間的關係,這種關係可以被視為局部相關性,但仍然忽略了標籤之間的全局相關性,全局相關性需要通過單張圖像之外的知識推理出來。

在本文中,我們提出了一種新的基於GCN的模型(即ML-GCN)來捕獲多標籤圖像識別中的標籤相關性,這種模型具有其讓方法無法具有的可擴展性和靈活性。除了將目標分類器視為一組需要學習的獨立參數向量外,我們還提出一種可從標籤的先驗特徵(如詞嵌入向量)來學習相互依賴的目標分類器方法,它通過一個基於 GCN 的映射函數來實現。隨後,將生成的分類器應用於由另一個子網路生成的圖像特徵,以實現端到端訓練。由於這些從詞嵌入向量到分類器的映射參數是在所有類別(如圖像標籤)之間共享,因此來自所有分類器的梯度都會影響這個基於 GCN 的分類器生成函數。這可以對標籤的相關性進行隱式建模。此外,由於分類器的學習涉及到對標籤相關性的建模,因此本文設計了一個有效的標籤相關係數矩陣,來引導信息在 GCN 各個節點之間的傳遞。具體地說,我們提出了一個重新加權的方法來平衡節點及其鄰域之間的權重以實現節點特徵更新,從而有效地減少了過度擬合和過度平滑。對兩個多標籤圖像識別數據集的實驗表明,我們的方法明顯優於現有的先進方法。此外,可視化分析表明,模型學習的分類器保持了有意義的語義結構。

本文的主要貢獻如下:

1.我們提出了一種新穎的端到端訓練的多標籤圖像識別框架,這個框架利用GCN將標籤表示(如詞向量)映射為相互依賴的對象分類器。

2.我們對GCN相關矩陣的設計進行了深入的研究,並提出了一種有效的再加權方案,以同時緩解過擬合和過平滑問題。

3.我們在兩個基準多標籤圖像識別數據集上評估了我們的方法,並且我們提出的方法始終比以前的競爭方法取得了優異的性能。

相關工作

方法

在這一部分中,我們詳細闡述了我們的多標籤圖像識別的ML-GCN模型。首先,我們介紹了我們方法的動機。然後,我們介紹了GCN的一些初步知識,接著詳細說明瞭所提出的ML-GCN模型和相關矩陣構造的再加權方案。

  1. 動機

如何有效的獲取目標標籤之間的相關性以及如何利用這些標籤相關性來提高分類的性能?這些都是多標籤圖像識別的重要問題。在本文中,我們利用圖來對標籤之間相互依賴的關係進行建模,這種方法靈活地獲取標籤空間中的拓撲結構。具體來說,我們將圖中每一個節點(標籤)都表示為該標籤的詞向量,並且提出使用GCN直接將詞向量映射為一組相互依賴的分類器,這些分類器可以直接應用在圖像特徵上來分類。基於GCN的模型有兩個設計動機。第一個,由於從詞向量向分類器的映射參數在所有類別中共享,所以學習到的分類器可以保留弱語義結構在詞向量空間中,語義相關的概念在詞嵌入空間中彼此臨近。與此同時,對於可以對標籤依賴性進行隱式建模的分類器函數,所有分類器的梯度都會對它產生影響。第二個,設計了一種新的基於共現模式的標籤相關矩陣,通過GCN對標籤依賴關係進行顯式建模,更新節點特徵將從相關節點(標籤)中吸收信息。

2.GCN基礎

圖卷積網路可用於進行半監督分類任務。其核心思想是通過節點之間的信息傳播來更新節點的表示。

不同於在一張圖像局部歐式結構上操作標準的卷積,圖卷積的目標是學習一個應用於圖上的函數,這個函數的輸入是特徵描述和相關係數矩陣,從而把節點的特徵更新。每個 GCN 層都可以寫成一個非線性函數:

f (., .) 可以表示為:

其中,W是一個待學習變形矩陣,A^是相關矩陣A的歸一化形式,h(·)表示一個非線性操作,在我們的實驗中,它是LeakyRelu函數。因此,我們可以通過堆疊多個 GCN 層來對節點之間交織的複雜關係進行建模。

3.多標籤識別的GCN

ML_GCN建立在GCN之上,GCN 的設計初衷是半監督分類,其節點層面的輸出結果是每個節點的預測分數。不同的是,在我們的任務中,我們設計GCN的每個分支的最終輸出是相關標籤的分類器。此外,圖結構(即相關矩陣)通常是在其他任務中預先定義的,但是多標籤圖像識別任務中沒有提供。這需要從頭構建相關係數矩陣。圖 2 展示了該方法的整體架構,它包含兩個主要模塊:圖像特徵學習模塊和基於 GCN 的分類器學習模塊。

圖像特徵學習:我們可以使用任意基於CNN的模型來學習圖像的特徵。本實驗中,我們使用ResNet-101作為基礎模型。如果輸入圖像尺寸是448*448,我們可以從con5_x層獲得2018*14*14的特徵圖。然後應用全局最大池化來獲取圖像層面的特徵 x(2048維的向量)

基於GCN的分類器學習:通過一個基於 GCN 的映射函數,我們從標籤特徵學習相互依賴的目標分類器,即W,其中C是類別數目。我們使用堆疊得GCN,其中每一個GCN層的輸入都取前一層的節點表示Hl,然後輸出新的節點表示Hl+1。第一層的輸入是W=C*d矩陣,其中d是標籤級詞向量的維數。最後一層的輸出W=C*D,D表示圖像表示的維數。通過將學習的分類器應用於圖像表示,我們可以得到預測的分數:

我們假設圖像的真實標籤是Y,其中Yi=0or1,表示標籤i是否出現在圖像中。那麼整個網路使用傳統的多標籤進行訓練分類損失,如下所示

4.ML-GCN的相關係數矩陣

基於相關係數矩陣,GCN 可在節點之間進行信息傳遞,因此,如何構建相關係數矩陣 A 就成了GCN 模型中一個非常重要的問題。在大多數應用中,相關矩陣是預先定義的,然而,在任何標準的多標籤圖像識別數據集中都沒有提供相關矩陣。在本文中,我們以數據驅動的方式構建了一個相關係數矩陣。也就是說,我們通過挖掘標籤在數據集中的共現模式來定義標籤之間的相關性。

本文以條件概率的形式(即)對標籤的相關依賴性進行了建模,如圖3所示,相關係數矩陣不是對稱的。

為了構建相關係數矩陣,首先,我們統計了訓練數據集中標籤對的出現次數,得到矩陣M,其中C是類別數量,Mij表示Li和Lj同時出現的次數。然後,使用這個標籤共現矩陣,我們得到條件概率矩陣:Pi=Mi/Ni;其中Ni表示訓練集中Li的出現次數,Pij=P(Lj|Li)表示標籤Li出現時標籤Lj出現的概率。

然而,上面這種簡單的相關性可能有兩個缺陷。首先,一個標籤和其它標籤的共現模式可能表現為長尾分佈,即其中某些罕見的共現可能是雜訊;其次,訓練和測試中共現的絕對數可能並不完全一致。相關矩陣過擬合訓練集會影響泛化能力。因此,本文提出對相關係數矩陣P進行二值化處理。具體而言,我們使用一個閾值來過濾雜訊邊,A是二值化相關係數矩陣,小於閾值為0,大於閾值為1。

過度平滑問題:根據 (2) 式可以知道,經過 GCN 後,一個節點的特徵是其自身特徵和相鄰節點特徵的加權和。而二值化相關係數矩陣的一個直接問題是其可能導致過度平滑。也就是說,節點特徵可能過於平滑,使得來自不同集羣的節點(例如,廚房相關的和客廳相關的)可能變得不可區分。為了緩解這一問題,本文提出以下二次加權方法:

其中A是重新加權的相關矩陣,p決定分配給節點本身和其他相關節點的權重。通過這種做法,在更新節點特徵時,節點本身的權重是固定的,相關節點的權重則由鄰近分佈確定。當 p->1 時,不考慮節點本身的特徵;當 p->0 時,往往忽略相鄰信息。

實驗

多標籤圖像識別基準數據集 MS-COCO 和 VOC 2007 上的實驗結果表明,本文方法實現當前最優。

1.MS-COCO實驗結果

對於 ML-GCN,我們給出了基於二值相關係數矩陣與基於二次加權相關係數矩陣兩個版本的結果,後者的分類表現更好,可以有效緩解上述問題,從而在幾乎所有指標上領先其它方法,這證明瞭新提出的網路與二次加權法的有效性。具體實驗結果見表 1。

表 1:在 MS-COCO 數據集上 ML-GCN 與之前最佳方法的比較

2.VOC 2007實驗結果

為公平對比,給出了以 VGG 為基本模型的結果。由表 2 可知,使用權重更新方案的 ML-GCN 模型在 mAP 指標上得到 94% 的分數,高出先前最優方法 2%。此外,即使以 VGG 為基礎模型,仍然超出先前最佳水平 0.8%。

表 2:在 VOC 2007 數據集上 ML-GCN 與之前最佳方法的 AP 與 mAP 比較

3.分類器可視化

曠對採用 ML-GCN 模型習得的分類器與由 vanilla ResNet(即最後一個全連接層的參數)得到的基本分類器進行了可視化分析。結果如圖 8 所示。可以清楚看到,由新提出的方法學習到的分類器能夠維持語義的拓撲結構。

圖 8:在 MS-COCO 上新模型學習到的互相依賴型分類器與 ResNet 的基本分類器的可視化

4.在圖像檢索上的表現

進一步考察了新模型在圖像特徵上的學習能力,通過使用 k-NN 演算法執行基於內容的圖像檢索驗證由新模型習得的圖像特徵的鑒別能力,結果表明(見圖 7),ML-GCN 不僅能通過有效獲取標籤依賴性學習更好的分類器,而且還能有助於多標籤的圖像特徵學習。

結論

標籤相關性建模是多標籤圖像識別的一大關鍵問題。為建模和利用這種重要信息,我們提出了基於 GCN 的模型來根據先驗的標籤特徵(比如詞嵌入向量)學習互相依賴的目標分類器。

為了對標籤相關性進行顯式建模,文中設計了一種全新的二次加權方法,可通過平衡節點與其相鄰節點來為 GCN 構建一個相關係數矩陣,以更新節點特徵,從而有效緩解了妨礙 GCN 性能的兩大問題:過擬合與過度平滑。定量和定性實驗結果都表明新方法的優越性。

推薦閱讀:

相關文章