編者按:對於視覺識別中的區域層次和像素層次問題,分類網路(如ResNet、VGGNet等)學到的表徵解析度比較低,在此基礎上恢復的高解析度表徵空間區分度仍然不夠強,使其在對空間精度敏感的任務上很難取得準確的預測結果。為此,微軟亞洲研究院視覺計算組提出高解析度深度神經網路(HRNet),對網路結構做了基礎性的改變,由傳統的串列連接高低解析度卷積

,改成並行連接高低解析度卷積,通過全程保持高解析度和對高低解析度表徵的多次信息交換來學到豐富的高解析度表徵,在多個數據集的人體姿態估計任務中取得了最佳的性能。

前言

視覺識別主要包括三大類問題:圖像層次(圖像分類),區域層次(目標檢測)和像素層次(比如圖像分割、人體姿態估計和人臉對齊等)。最近幾年,用於圖像分類的卷積神經網路

成為解決視覺識別問題的標準結構,比如圖1所示的LeNet-5。這類網路的特點是學到的表徵在空間解析度上逐漸變小。我們認為分類網路並不適合區域層次和像素層次的問題,因為學到的表徵本質上具有低解析度的特點,在解析度上的巨大損失使得其在對空間精度敏感的任務上很難取得準確的預測結果。

圖1. 典型的卷積神經網路:LeNet-5。其它典型的卷積神經網路,如AlexNet、VGGNet、GoogleNet、ResNet、DenseNet等,表徵的空間解析度均從大逐漸變小。

為了彌補空間精度的損失,研究者們在分類卷積神經網路結構的基礎上,通過引入上採樣操作和/或組合空洞卷積減少降採樣次數來提升表徵的解析度,典型的結構包括Hourglass、U-Net等(如圖2)。

在這類網路結構中,最終的高分辨表徵主要來源於兩個部分:第一是原本的高解析度表徵,但是由於只經過了少量的卷積操作,其本身只能提供低層次的語義表達;第二是低解析度表徵通過上採樣得到的高解析度表徵,其本身雖然擁有很好的語義表達能力,但是上採樣本身並不能完整地彌補空間解析度的損失。所以,最終輸出的高解析度表徵所具有的空間敏感度並不高,很大程度上受限於語義表達力強的表徵所對應的解析度。

圖2. 從低解析度表徵恢復高解析度表徵

我們認為不應該局限於從分類卷積神經網路生成的低解析度表徵來恢復高解析度表徵這一路線,而應該為高解析度表徵學習建立新的網路結構。基於此,我們提出了高解析度深度神經網路(High-Resolution Network,HRNet),在網路整個過程中始終保持高解析度表徵,同時多次在高低解析度表徵之間進行信息交換,從而學到足夠豐富的高解析度表徵。

實驗證明HRNet在人體姿態估計,以及圖像分割、人臉對齊和目標檢測等問題上取得了不錯的結果。我們相信HRNet將取代分類深度神經網路成為計算機視覺識別等應用的新的標準結構。關於人體姿態估計的論文已發表在CVPR 2019 [1],相關代碼已在GitHub上開源[2, 3]。

GitHub鏈接

github.com/HRNet

長按掃碼,查看頁面

高解析度網路

我們在HRNet的整個網路中始終保持高解析度表徵,逐步引入低解析度卷積,並且將不同解析度的卷積並行連接。同時,我們通過不斷在多解析度表徵之間進行信息交換,來提升高解析度和低解析度表徵的表達能力,讓多解析度表徵之間更好地相互促進,結構如圖3所示。HRNet與先前的分類卷積神經網路有著基礎性的區別:先前的分類將解析度從高到低的卷積串列連接,HRNet則是並行連接

圖3. 高解析度網路 (High-Resolution Network,HRNet)

關於多解析度表徵信息交換,這裡以三個解析度輸入和三個解析度輸出為例,如圖4所示。每一個解析度的輸出表徵都會融合三個解析度輸入的表徵,以保證信息的充分利用和交互。將高解析度特徵降到低解析度特徵時,我們採用stride為2的3x3卷積;低解析度特徵到高解析度特徵時,先利用1x1卷積進行通道數的匹配,再利用最近鄰插值的方式來提高解析度。相同解析度的表徵則採用恆等映射的形式。

圖4. 多解析度表徵信息交換

實驗

HRNet保持高解析度表徵,利用重複的多解析度表徵信息交換增強其表達能力,使模型所學的表徵在空間精度上有顯著的提升。實驗中,我們首先在MS COCO數據集中的關鍵點檢測任務上進行了消融實驗,驗證了表徵解析度的重要性和重複的多解析度表徵信息交換的有效性;然後在MS COCO、PoseTrack等標準數據集中與最先進的方法進行公平對比,都取得了更好的性能。

1.表徵解析度對性能的影響

HRNet可輸出4種解析度的表徵(1x、2x、4x、以及8x),我們針對不同的網路輸出解析度在兩組模型上做了對比實驗,如圖5所示。

圖5. 網路輸出解析度對結果的影響,1x、2x和4x解析度表徵在人體姿態估計的性能。

從圖5中,我們可以清楚地看到,網路輸出表徵的解析度降低會使得模型的性能有巨大的損失。解析度在2x時,性能降低了接近6% AP,4x時降低了20% AP。這體現了表徵解析度對於空間精度的重要性。

2. 多解析度表徵信息交換對性能的影響

圖6. 藍色框內為階段內的多解析度表徵信息交換(Int. exchange within),綠色框為階段間的多解析度表徵信息交換(Int. exchange across),紅色框為最終的多解析度表徵信息交換(Final exchange)。

表1. 多尺度特徵融合對性能的影響,實驗中每個網路是從隨機初始化開始訓練的。

我們考慮了三種信息交換(如圖6),結果如表1。可以看到,多解析度表徵信息交換可以將不同解析度的表徵信息進行充分的交換利用,對錶征增強的作用十分明顯,可以到達2.6% AP的提升。

3. 在標準數據集上的性能

MS COCO數據集是關鍵點檢測的最權威的數據集之一,我們在該數據上對我們的方法進行驗證,結果如表2所示。

表2. COCO test-dev上與最先進方法的性能比較

我們可以看到,在相同的輸入圖像大小下,我們的小模型HRNet-W32在參數量和計算量都小於SimpleBaseline(ResNet-152)一半的情況下,取得了1.2% AP的提高,而大模型HRNet-W48取得了1.8% AP的提升,在引入額外數據的情況下,大模型展現了更強的表達能力,有更顯著的提升。

表3. 在Pose-Track數據集上與最先進方法的性能比較

在表3中,我們在Pose-Track數據集的兩個任務上進行了驗證:(1)多幀人體姿態估計,可以利用其他幀的信息估計某幀的姿態;(2)多幀人體姿態跟蹤,需要把不同幀間的同一個人的姿態關聯起來。前者性能用mAP來評價,後者性能用MOTA來評價。可以看到在兩個任務上,我們都取得了最好的性能。

結語

我們改變了現有的基於分類網路的人體姿態估計的網路結構,提出了高解析度深度神經網路(HRNet)。該網路能夠成功學到足夠豐富的高解析度表徵的原因在於,整個過程保持高解析度,以及多次對高低解析度表徵進行信息補足。HRNet在多個數據集的人體姿態估計任務中取得了當前最好的性能,也在圖像分割、人臉對齊和目標檢測等問題上取得了不錯的結果。我們相信HRNet將取代以分類網路為基礎的網路架構,成為計算機視覺識別等應用的新標準結構。

[1] Ke Sun, Bin Xiao, Dong Liu, Jingdong Wang: Deep High-Resolution Representation Learning for Human Pose Estimation. CVPR 2019

[2] github.com/leoxiaobin/d

[3] github.com/HRNet

作者簡介

孫可,中國科學技術大學信息學院在讀博士生,目前在微軟亞洲研究院視覺計算組實習,導師是王井東和肖斌老師。他的研究興趣包括人體姿態估計、語義分割、圖像分類等,曾在BMVC、ICCV、CVPR等國際頂級會議上發表過論文。


本賬號為微軟亞洲研究院的官方知乎賬號。本賬號立足於計算機領域,特別是人工智慧相關的前沿研究,旨在為人工智慧的相關研究提供範例,從專業的角度促進公眾對人工智慧的理解,並為研究人員提供討論和參與的開放平台,從而共建計算機領域的未來。

微軟亞洲研究院的每一位專家都是我們的智囊團,你在這個賬號可以閱讀到來自計算機科學領域各個不同方向的專家們的見解。請大家不要吝惜手裡的「邀請」,讓我們在分享中共同進步。

也歡迎大家關注我們的微博和微信 (ID:MSRAsia) 賬號,了解更多我們的研究。


推薦閱讀:
相关文章